基于元数据的数字图书馆信息组织述论

2007-06-18 05:07     字号:

                   贾 宏 (南阳师范学院图书馆 河南 473061) 1 引言 
    信息组织是将零散、无序的信息予以系统化、有序化的过程,其目的是让用户能方便、快
速地查找和利用信息。在网络环境下,数字图书馆信息组织的对象发生了巨大变化,数字信息
在范围、价值、存在形式、更新方式等方面都和传统图书馆的信息资源大不一样。数字图书馆
信息组织的挑战,不仅来自信息组织的对象,也来自用户不同层次的需求,还来自不断更新的
现代化技术。数字图书馆的信息组织,需要创造一个描述数字化信息结构的标准,元数据
(Metadata)由此应运而生。基于元数据的一系列技术在数字图书馆建设中的应用,为数字信息
资源的有效组织和整合开辟了广阔的前景。
    本文从分析数字图书馆信息资源类型入手,重点论述数字图书馆信息组织的基本内容、元
数据所具有的数字信息资源的组织功能,以及主要元数据技术在数字图书馆信息组织中的具体
应用。
2 数字图书馆信息资源及信息组织 
2.1 数字图书馆信息资源类型及其特点 
    信息资源是图书馆生存和发展的基础,是满足用户需求的根本保证。网络技术和通讯技术
的飞速发展,使图书馆的信息资源类型和馆藏结构发生了根本性的变化,也促成了传统图书馆
向数字图书馆的急剧转变。数字图书馆以分布式数字信息为对象,以网络资源和服务为主体,
通过计算机和通信网络多渠道、全方位地收集文本、图像、影视等电子信息资源。根据存在形
式,目前数字图书馆信息资源类型大体上分为以下三类:
    第一类是传统的印刷型文献。这类资源依然是数字图书馆的重要馆藏来源,但所占份额在
逐渐减少。第二类是磁性介质的正式与非正式出版物,包括电子书刊、光盘数据库(网络版和
单机版)、网络数据库(或联机数据库)等电子信息资源。这类资源具有体积小、容量大的突出特
点,是数字图书馆的主要馆藏来源。第三类是流动在因特网上的虚拟信息资源,包括WWW站点、
邮递表、新闻组、公告栏等等。这类资源具有虚拟的性质,没有具体的载体形态,须经过组织
和转换才能进入数字图书馆的馆藏,是数字图书馆最有潜力的信息资源。
    数字图书馆将不同载体的信息资源经过有序整理后,以数字化方式存储,以网络化方式传
递。与传统图书馆相比,数字图书馆信息资源具有类型多样化、分布式组织、计算机处理和格
式化存储的总体特点。
2.2 数字图书馆信息组织及其基本内容
    数字图书馆信息组织就是对数字图书馆信息资源进行选择、描述和整合,提供有序化结构,
形成一个有机的整体,以便于对数字图书馆信息资源进行存取和利用。在传统图书馆中,文献
的组织由三部分组成,即排架号、目录和文献本身。排架号是一组唯一的代码,指示文献的位
置;目录将文献的特征信息提取出来,组成有序的可检索的体系,指示用户通过排架号获取文
献。与此类似,数字图书馆的信息组织也由三部分组成,即指针、元数据和数据。
    指针对应于排架号,用来唯一标识数据;元数据对应于目录,是一组用来描述数据本身特
征的数据集;数据则对应于文献,是数字图书馆的基本信息对象。
    传统图书馆信息组织的内容包括信息搜集与选择、信息分析与揭示、信息描述与加工、信
息整理与存储;而对信息的描述与揭以及信息的有序化,是信息组织的中心内容。数字图书馆
资源类型的变化,使得它的信息组织内容也随之发生变化。这种变化具体表现为:一是信息的
发现与选择。数字图书馆的虚拟资源呈现出快速激增、数量庞大、杂乱无章、良莠不齐等特点,
如何发现、选择这些资源就成为数字图书馆信息组织的重要内容。二是信息的描述与揭示。数
字图书馆中更新速度快、内容不稳定的海量虚拟资源,由分布在web服务器上的一个个网页组
成。使用搜索引擎和MARC(机读目录格式)方法对其进行组织都存在不同程度的缺陷(这一点下
文将要论及),而元数据则能很好地完成此项工作;而且,对于不同的资源类型,可灵活地采
用不同的元数据标准。三是信息的整合与集成。针对数字图书馆不同信息资源采用不同的描述
方法,必然造成同一主题的不同类型信息资源被分散于不同的系统,给用户检索信息带来的很
大不便,而且不同的描述方法使信息之间的交流与共享受到很大限制。因此,必须通过元数据
这一纽带来实现信息的整合与集成。
3 元数据与数字图书馆信息组织 
3.1 元数据及其数字资源组织功能 
3.1.1 元数据及其主要形态。
    作为“描述数据的数据”,元数据是一种对信息资源进行有效组织、管理、利用的基础和
工具。元数据的形式是多样化的,随着网络技术的快速发展,根据不同领域的数据特点和应用
需要,众多的Metadata格式在不同的领域出现,呈现出不同的形态,主要包括网络资源、数字
图像、连续图像、地理空间信息、社会科学数据集、档案库与资源信息等。关于元数据的产生、
元数据的格式、元数据的创建等基础性的概念和描述,有关论著已作了不少研究,本文不再赘
述。
3.1.2 元数据的数字资源组织功能。
    元数据具有传统目录的“著录”功能,其目的在于使数字资源的管理维护者和使用者了解、
辨别资源,进而管理和利用资源,为由形式管理转向内容管理奠定必要的基础。元数据在数字
资源组织方面的主要功能有:一是描述,即对数字对象的内容和位置进行描述,从而为信息对
象的存取与利用打下基础。二是定位,即根据元数据包含的数字资源位置方面的信息,确定资
源位置之所在,促进网络环境中非实体信息对象的发现和检索。三是搜寻,即在著录的过程中,
将信息对象中的重要信息抽出并加以组织,赋予语意,并建立相关关系,使检索结果更加准确,
从而更有利于用户识别资源的价值,发现其真正需要的资源。四是评估,即用户根据元数据提
供的有关信息对象的名称、内容、年代、格式、制作者等基本属性,在无需浏览信息对象本身
的情况下,就能够对信息具备基本的了解和认识,并参照有关标准对其价值进行必要的评估,
作为存取与利用的参考。五是选择,即用户根据元数据所提供的描述信息,参照相应的评估标
准,结合使用环境,做出对信息对象取舍的决定,选择适合自身需要的资源。
3.2 数字图书馆信息组织对元数据的高度依赖
    从上述元数据功能的分析可以看出:在数字图书馆信息组织中,元数据具有非常重要的作
用;换而言之,就是数字图书馆信息组织对元数据有着高度的依赖性。这种依赖性主要表现在
三个方面。
3.2.1 信息的发现与选择离不开元数据。
    网络的发展为信息资源的生成带来了极大便利,几乎任何人在任何时间内都可以成为信息
资源的创建者。但是,资源创建者自身素质的极大差异和网络出版监督机制的严重缺乏,造成
了信息资源质量的良莠不齐,因特网因此成为展示这些信息资源的“杂货店”。作为数字图书
馆的信息组织人员,其首要任务就是利用信息资源创建者提供的简单元数据,对良莠不齐的信
息资源进行严格的筛选和整合,
形成高质量的信息并提供给用户。
3.2.2 信息的描述与揭示离不开元数据。
    同传统图书馆一样,对于已经筛选的、已成为数字图书馆馆藏的信息资源,信息组织者需
要根据资源类型使用传统元数据标准MARC或现代元数据(如DC等)对其进行描述与揭示,以方便
用户对资源的发现与检索。这是数字图书馆信息组织的核心,体现了元数据对信息资源的描述
与揭示这样一个最主要的功能。
3.2.3 信息的整合与集成离不开元数据。
    数字图书馆信息组织不仅要将自身的各种传统馆藏和数字馆藏整合集成到一个统一的用户
界面上,而且还要使得用户可以通过任意一个数字图书馆的单个界面,访问互联网上的其他数
字图书馆和信息库。元数据体系就发挥了这种整合、集成的功能,承担了各种元数据系统的转
换与解释,为用户提供统一的集成服务。
4 主要元数据技术在数字图书馆信息组织中的应用 
4.1 MARC与DC:共存互补的数字图书馆信息组织技术
4.1.1 MARC与DC概述
    MARC是机读目录格式(MachineReadable Catalogue)的简称,是将文献数据以代码的形
式和特定的格式结构记录在计算机存储载体上,以便能够被计算机识别并编辑输出书目信息的
目录形式,主要由记录头标区、地址区、控制字段区和可变数据区四部分组成。作为一套机读
书目的数据标准,MARC有严格的语意规则和完整的描述字段。自20世纪60年代末产生以来,因
其著录的信息有较高的可靠度、准确度和完整性,成为目前世界上广泛使用的机读目录格式。
    DC是都柏林核心元素集(Dublin Core Element Set)的简称,产生于1995年。时至今日,
DC在经过七次国际元数据研讨会后逐步得到完整和补充,目前设立了15个标准的“描述性的情
报要素”。这些要素可以HTMLmetatag形式添加到网页的标头,具有简单、灵活、适应性、扩
展性、兼容性强等特点,为国际图书情报界提供了比较成熟且比较成功的资源描述手段,至今
已翻译成26种语言,其用户遍及世界各地,成为了图书馆信息组织的重要方法。
4.1.2 MARC和DC在数字图书馆信息组织中的共存和转换
4.1.2.1 MARC的局限及其与DC共存。
    随着传统馆藏的数字化和网络信息的海量增加,MARC对信息组织的局限性越来越大。这些
局限主要表现在MARC著录对象单一、技术要求高而经费开支大,同时信息资源和信息服务的可
获得性、可互操作性和可持续性,都使得MARC难当重任,需要研究新的标准规范来对数字图书
馆信息资源进行有效的组织。在这种情况下,DC都柏林核心元素集应运而生。DC的15个核心元
素,比较全面地概括了电子资源的主要特征,不仅适用于电子文献目录,也适用于各类电子化
的公务文档目录、产品和藏品目录,具有很好的实用性。
    但是,对于数字图书馆信息组织,DC同样也有其弱点。DC只是提供了一种比较好的资源描
述手段,许多字段的制定和著录规范处于变化之中;DC较好的可扩展性可能会产生新的不确定
性。例如在题名元素中,不同的使用者可以定义很多不同的子元素、子字段和指示符都做了十
分明确而全面的定义,不同使用者提供的MARC数据基本上是可以直接共享的。
    MARC在图书馆自动化的进程中尽管有诸多局限性,但它始终扮演着十分重要的角色,自身
发展也趋于成熟。传统图书馆的书刊收藏和借阅服务并没有丧失,不同的只是功能和服务的外
延在不断扩大。DC等元数据是图书馆未来著录的大势所趋,但是这个过程是渐进的、稳定的。
当图书馆由自动化阶段过渡到数字化时代时,DC并不能马上取代MARC,MARC仍然有其存在的合
理性和重要性。例如,目前在国内进行元数据实践利用的图书馆中大都采用MARC、DC元数据并
存,用组配的方法形成自己的元数据应用方案。因此,运用MARC、DC扬长补短,优势互补,实
现对数字图书馆信息的有效组织,应当是我们的正确选择。
4.1.2.2 MARC与DC的相互转换。
    数字图书馆最显著的特征就是提供网络信息服务。传统图书馆馆藏逐步实现数字化、网络
化的信息组织和信息服务,是向数字图书馆发展的必然过程。充分利用已经建立的馆藏资源的
编目信息,对电子型的馆藏信息资源进行描述,发挥各种资源描述体系的优势,是非常必要的。
目前,国内外图书馆主要的编目工作基本上都遵循MARC标准,因此DC与MARC之间的相互转换是
一个重要问题。对MARC和DC两种元数据格式的探讨,并不是要以其中的一种格式代替另一种格
式,而是通过研究找出一个在应用上最能发挥效益的信息组织方法。目前,有关DC元数据格式
向标准MARC格式转化的理论已取得很大
突破,使得MARC与DC的相互转换成为可能。
    从理论上讲,从DC到MARC的格式转换并不是难事,因为任何一种结构化的数据都能转换成
另一种数据结构。实现MARC与DC的转换,主要是建立两者之间的影射关系。但是,共有166个
字段、522个子字段的MARC格式,与只有15个元素的DC格式,二者之间不可能建立一对一的影射
关系,“一对多”、“一对空”甚至“多对空”的情况都可能出现。因此,这种转换不可避免
地会造成一定程序的数据损失。但是,这种转换是必要的、可行的,这不仅仅有利于数字图书
馆的检索系统能整合在一起,为用户提供统一的、无缝的、一站式的检索平台,使用户准确地
获取信息;还在于DC的15个元素已包括了有关资源的基本信息,没有必要对一般信息进行精细
的描述,可对重要的网络资源通过DC元素集增加的限定词加以描述,而不必强求MARC与DC的转
换要对应到所有字段和子字段。
    目前,DC与USMARC(即最初的美国国家MARC标准)之间的转换系统已经存在,并且有些系统
可以兼容多种元数据格式。关于DC元数据与USMARC之间的映射和转换,我国的台湾已有较多成
果,其目的是推广DC元数据在当地的应用,使图书馆界在机读编目格式中所积累的庞大资源,
也能被DC元数据系统所利用。另外,国内数字图书馆根据中文机读编目格式制作的一份从CNMARC
转换到DC元数据的摘要表格,也提出了两种格式转换的基本原则和方法。这表明实现DC与MARC
互操作方面的研究正在进展之中,已形成了DC元数据15个元素与MARC字段之间的详细映射和对
应关系。
4.2 RDF:基于DC的数字图书馆信息组织技术 
    DC提供的是元数据的语义概念,对如何规范元数据的描述结构并没有说明。随着互联信息
的与日俱增,对网络信息资源的描述与组织变得越来越重要,迫切需要一种元数据的描述结构
来支撑。基于DC的资源描述框架(Resource Description Framework,RDF)技术的出现为我们提
供了可能。RDF是一个能对结构化元数据进行编码、交换及再利用的体系框架。它认为数字图书
馆管理的对象是各种元数据信息,统称为内容,而对内容进行管理正是数字图书馆信息组织的
一项重要工作。数字图书馆要求统一、开放的内容管理,不因信息资源对象的变化而变化,也
不因系统软硬件平台的不同而不同。RDF由此成为数字图书馆信息组织的一项基础技术。
    要实现RDF对数字图书馆信息的有效组织和整合,还依赖于它的两大关键技术——URI和XML。
URI(Uniform Resource Identifier,统一资源标识符)是网络资源的唯一标识,除网页外,它还
可以标识页面上的元素、书籍等资源,甚至可以标识某一个人。在RDF中,资源无所不在,资源
的属性和值都是资源。换而言之,所有这些都可以用URI标识,也可以用RDF来描述。RDF描述资
源时,可以使用各种词汇集,只要用URI指明它们即可。RDF的语法表示和数据交换用XML
(eXtensible Markup Language,可扩展的标记语言)来定义。XML最大的优点是提供了可以对内
容进行管理的语义描述机制,具有简洁性、开放性、灵活性和互操作性的特点。同时XML基于文
本的开发格式在内容管理方面有很长的生命周期,这对数字图书馆海量的信息存储和组织尤为重
要。RDF通过使用XML语法来表示简单元数据,从而描述网络信息资源的特性及资源与资源之间的
关系。RDF还为元数据在网络上的各种应用架构一个统一的平台,使各应用程序在这个平台上可以
自由交换元数据,以促进网络信息资源的自动化处理。
  RDF具有较强的跨系统查询功能,可以使许多系统级查询变得更加简单,很容易通过基本模
式匹配来构建几乎所有形式的查询。RDF在应用于数字图书馆信息组织的过程中,还可以为用户
提供个性化服务,例如W3C (World Wide Web Consortium)提出的综合能力/偏好界面标准,就
是为了向用户提供个性化服务。它使用RDF技术定义网络用户及网络系统的性能和偏好的集合,
在用户获取信息的时候,通过某种规则进行折衷,以使获取的信息符合用户的能力和偏好。
    元数据描述是数字图书馆建设的关键技术之一,而RDF为数字图书馆资源描述提供了一种通
用框架。通过RDF技术,数字图书馆可以实现一系列的增值应用,实现元数据在不同体系间的交
互和利用,为实现不同数字图书馆系统间的数据交换提供了一种可行的方法。
5 结语 
    随着因特网的迅速发展、网络信息的海量激增和人们对信息传递与获取的高标准需求,数字
图书馆信息组织的任务更加紧迫和重要。这就要求元数据在其中的全面应用需加快步伐.元数据
研究的深化和发展必将为网络信息资源的有序组织、适度控制和高效检索提供更为便利的条件,
为数字图书馆建设提供更为广阔的前景。客观地讲,元数据在我国数字图书馆的研究和应用(尤
其是在信息组织方面)还处于起步阶段。我们希望能使用DC元数据组织方式来更好地组织数字图
书馆的信息资源,希望通过这种方式组织的信息资源可以满足更多用户的需求。尽管我们在这些
方面已经取得了一些成果,但如何加强中文元数据标准的研究,如何促进中文元数据应用的技术
推广与合作,如何加快中文元数据编码的标准化进程与实际应用,如何提高中文元数据与其他元
数据的互操作性以增强信息过滤和信息组织能力等,都是我国数字图书馆建设中面临的重要课题。
参考文献 
1 刘嘉.元数据导论.北京:华艺出版社,2002:6164,97103
2 赵慧勤.数字图书馆的信息组织——元数据描述技术.图书情报工作,2001(7)
3 刘源,吴利薇.元数据及其格式研究.图书馆论坛,2002(3) 
4 毛军,张晓林等.URI和数字对象唯一标识符.现代图书情况技术,2003(2)
5 陈耀盛.概论信息组织.图书馆论坛,2003(2) 
6 贾宏.图书馆虚拟馆藏摭谈——兼论高校图书馆虚拟馆藏建设.图书馆界,2003(2) 
7 吴显义.我国元数据研究现状分析.情报科学,2004(1) 
8 高颖,谢士光等.可扩展标记语言在数字图书馆中的应用.图书馆理论与实践,2004(1) 
9 张云瑾.DC元数据——组织网络信息资源的有效工具.引进与咨询,2004(1)
10 杨德婷,阎保平.元数据互操作技术探讨.计算机应用研究,2004(1) 
11 张付志等.数字图书馆互操作综述.情报学报,2004(2)
12 赵健.基于XHTML/RDF的DC元数据描述技术.现代情报,2004(2) 
13 张琳.DC与MARC并存是网络信息资源组织的发展趋势.河北科技图苑,2004(2)
14 郑惠红.中外元数据研究的现状与发展.图书馆论坛,2004(3) 
15 梁焕平.MARC与Dublin Core两种元数据的比较研究.情报杂志,2004(4) 
16 冯文杰.MARC在信息资源管理中优缺点的研究.情报科学,2004(4) 
17 曾敏灵.论数字图书馆的馆藏建设.图书馆论坛,2004(4) 
18 曾新红.XML在数字图书馆相关技术中的研究动态.现代图书情报技术,2004(5) 
19 孙晓菲,金更达.MARC和DC的发展及比较研究——兼论DC的发展误区.图书情报工作,
  2004(9) 
20 李金刚.元数据与网络信息资源组织.情报杂志,2004(9) 
21 张晓林等.我国数字图书馆标准规范建设.http://202.106.125.20/inforresour/
communications/The % 20 future % 20 devlopment % 20 of % 20 standard % 20
  specification % 20 of % 20 digita1% 20 1ibrary % 20.pdf(2005-04-26,2005-05-16) 
22 蒋景瞳等.国际元数据标准的发展和研究现状.http://www.sdinfo.net.cn/ngcc/sdinfo/
  prodtecteddoc/mt1.htm(浏览日期:2005-04-29) 
23 赵光林.MARC与Dublin Core之比较研究.http://pub.fjsmyz.com/offices//tsg/d1/
  ArticleShow.asp?ArticleID=236(浏览日期:2005-05-12) 
24 盛小平.元数据的互操作研究.http://pub.fjsmyz.com/offices//RDFtsg/d1/Article-
  Show.asp?ArticleID=216(浏览日期:2005-05-12) 
25上海交通大学图书馆“数字图书馆”栏目:http://www.lib.sjtu.edu.cn/chinese/digital
  _library/articles.htm(浏览日期:2005-05-16)
26 http://dept.usts.edu.cn/jyjs/wdc/isd/blog/more.asp?name=wdc&id=61(浏览日期:
  2005-05-16) 
 (收稿日期:2005-07-15。龚永年编发。)

附件下载

相关链接