加入收藏   ENGLISH
網站首頁
中心簡介
研究人員
學術活動
出版品
研究資源
所內專區
首页  最新资讯
徐力恒_唐代人物資料的數據化:中國歷代人物傳記資料庫(CBDB)近年工作管窺
  发布时间: 2017-08-08   信息员:   浏览次数: 10

唐代人物资料的数据化:

中国历代人物传记资料库(CBDB)近年工作管窥

哈佛大学  徐力恒

一、引言

由于计算机及网络技术的普及、文献类历史数据库的便捷性、整合性和全面性,历史学者在研究中使用数据库的情况日渐普遍。作为搜集史料的其中一种方法,历史学者一般能熟练地在各种全文数据库进行关键词检索,尤其是把古籍材料变成电子文本的数据库。然而,对于其他可用于研究的数据库,大多数学者是陌生的。作为中国史领域中发展历程较长,也比较重要的“中国历代人物传记资料库”(下称CBDB)的项目成员之一,笔者希望通过讨论这个大型的基础数据库的发展,引发学界对这项开放的学术资源的兴趣和讨论。CBDB的操作原理跟全文数据库不一样,而且不少学者未必了解CBDB近年处理历史资料的进展和特点,故有本文的写作。由于CBDB项目网站已经提供了说明文件,所以本文重点不在介绍项目基本情况和历史,而侧重探讨项目组在近年致力充实的唐代资料部分,尤其是我们近三年工作的进展。

“中国历代人物传记资料库”是由哈佛大学费正清中国研究中心、北京大学中国古代史研究中心、“中央研究院”历史语言研究所共同主持的学术数据库。该项目的目标在于系统地收录中国历史上所有重要的传记资料,整理成数据,并免费公开,供学术研究之用。截至目前为止,该数据库共收录超过37万人的传记资料。这些人物资料既可在线查询,又可全部下载,以便用户离线时在计算机使用。这些数据除了可以作为历史人物研究的参考资料以外,亦可作统计分析、地理空间分析与社会网络分析等用途,是利用计算机辅助历史研究的基本工具。

当前,这个数据库为每个人物的条目都设了多种数据栏目类别,尽可能详细地记录当中信息,并且以相互关联的表格保存,即按照人名、时间、地址、职官、入仕途径、著作、社会区分、亲属关系、社会关系、财产、事件等进行保存。需要强调的是,这数据库的最大优势不仅仅是作为人物资料的参考,而且是作为一套可供批量分析的数据来使用。换言之,学者固然可以把CBDB当作一部电子版的历史人物辞典来使用——当我们想了解某个历史人物,可以利用人名检索,找到出关于他的信息。但是,和一般对人物数据库的理解不一样的是,CBDB既不提供一篇篇的人物小传,也不包含古籍的全文。它提供的是多个相互关联的表格,把人物信息整理出来,放入其中,以便学者进行批量分析。用户通过对数据库进行查询,可以获得大批人物信息。其中关键的是,这些查询除了利用人名,也可以利用人名以外的各种信息,例如地名、官名,甚至是亲属关系、社会关系等,查出一批人物的资料,供学者参考和分析。而且检索条件可以设定多于一种,在一次查询中就能加入相对复杂的检索条件。

建立这种数据库结构的目标不单是史料的电子化,更重要的是为了达到史料的“数据化”。史料的电子化是把古籍材料转化成电子文本。至于史料的数据化,意指在进行电子化之后,还更进一步,把史料整理成能被电脑程序使用和分析的格式,相互连接,建成数据库。换言之,数据化是对数字化的拓展与推进。数据化工作产出的数据不仅可以用于全文检索,还可以用来进行更多样的查询和分析,并可灵活地导出到其他软件,以便进行批量处理,或用不同方式来呈现,如统计表格、电子地图等。每当提及对数据库的利用,都容易让人联想到量化分析,不过数据化的目标其实不限于产生用于量化分析的数据,还可以产生用于其他分析方法的数据。通过对研究资料进行数据化,人文学者可以更有效率、更系统地解决既有的学术课题,也可以通过数据发现一些新的问题。关于这些话题,我将在本文介绍CBDB项目工作时举例说明。

    2015年起,由罗杰伟(Roger E. Covey)先生创立的唐研究基金会(Tang Research Foundation)为CBDB项目提供了资助,资助专门用于增加数据库中唐代人物资料的学术工作。这个项目的目标是利用三年左右的时间处理唐代的主要人物资料,促进唐史研究。以下介绍的工作都是在这个项目的支持下完成的。在这个项目开始之前,CBDB已经累积了一批关于唐人的资料,累计大约有45,000多人的信息。这些信息大多是通过和其他研究者合作中获得的。比如,CBDB曾和京都大学的“唐代人物知识资料库”(Pers-DB: A Knowledge Base of Tang Persons)建立协议,获得3,700多个人物的传记数据。另外,CBDB编辑小组又和美国加州州立大学的姚平教授合作,得到其在《唐代墓志汇编》和《唐代墓志汇编续集》中搜集而来16,300多人的亲属资料。加州-伯克莱大学的谭凯(Nicholas Tackett)教授长期从墓志等材料中搜集人物信息,也贡献了22,000个唐五代人物的数据。虽然CBDB中的唐代人物数目看似不少,但数据量仍不算充分,尤其跟CBDB中宋人资料相比的时候。例如,在2015年以前,唐代人物的“社会关系”数据只有不到400条,连CBDB宋代“社会关系”数据量的240分之一都不到。所以,自2015年开始,CBDB项目除了参与数据的分享合作,也开始了独立的数据化工作,重点处理、收录唐代资料。

二、唐代官员资料及其社会交往的数据化

为了充实数据库内容,让其发挥更大的效用,CBDB的项目工作有一大部分是关于电子化的。CBDB北大项目组在过去修订郝若贝教授为数据库留下的数据时,是利用人工作业的方式录入并处理历史人物资料的。不过,到了最近几年,项目组已经大量运用半自动、半人工的方式处理新数据,大大提高了工作效率。其中自动化作业包括使用计算机语言编写算法,挖掘史料文本中的人物信息,尤其是格式规整的传记文本和人名列表。以下将分别介绍项目组对几部历史文献的处理。

我们在项目开始初期发现,先收录《唐五代人物传记资料综合索引》的资料有很大好处。它是一部唐代人物资料的基本工具书,收书的范围涵盖正史、诗传、职官资料、书目、书画书、五代十国记载、方志及有关释氏之书等共83种,搜罗唐五代的现存人物资料出处,为学者检索史料提供了极大的便利。这书一共收近三万人,其中列出姓名(和其他常用称谓)和传记资料的出处,方便学者翻检。而且,它为CBDB提供了大批人物的“社会区分”资料,共有2,778条人物的身份信息。CBDB中“社会区分”的栏目是记载人物的各种身份的, 包括诗人、画家、僧人、书法家等,尤其便于学者对特定人群进行专题研究。

这部索引除了搜罗资料的范围很广以外,另一好处在于厘清了大量同名人物的情况。同名人物的消歧(disambiguation)是CBDB项目经常要处理的数据问题之一。由于项目收录来自多种不同来源的人物资料,所以同姓名人物不少,放入CBDB时需要小心区分。一般做法是:如果能根据历史材料确定同名者是同一人,则合并同名人物的数据;如果不能确定,则都保留。所以每当可能,我们都尽量吸取已有的研究成果,例如是《唐五代人物传记资料综合索引》的考订。傅璇琮先生曾讨论他和其他编者在这方面的做法:“正因为资料搜集不易,因此区分同姓名人物就特别困难。编一代历史人物的索引,一定会碰到不少同姓名的人物,较具一定水平的索引,遇见这种情况,决不能不加区分,照书既录。”“有时有四、五个人为同一姓名,就须查核其籍贯、郡望、字号、世系、事迹,加以细心的甄别,稍一忽略,就会张冠李戴……还有不少是姓名相同,时代相近,但别无确切材料证明其为同一人的,我们就本着阙疑的精神,姑且作二人处理。” 在编纂此书的时候,傅先生等编者已经综合了许多零散的文献资料,对同姓名人物进行甄别。举一例子,《新唐书·宰相世系表》里出现过两位裴薦,《唐五代人物传记资料综合索引》中就分别列出,并写明其中一位是裴裔的儿子,另一是裴迪的儿子,明确区分。对于这类人物,编者注明了他们的字号、籍贯、职官、时代等,以资区别。这种记载帮我们确定两位裴薦不是同一人,为CBDB的数据工作带来很大的便利。《唐五代人物传记资料综合索引》编者之一许逸民先生曾举书中例子指出,做这种编撰工作需要很好的学术判断力:“譬如人名索引,有时同一人前后姓名有变更,有时并非一人而同名同姓,皆需要合并为一人或区分为二人……辨析同名同姓而非一人的办法,除上述世系不同外,还可以借助字号、籍里、职官、生卒时代有异等加以区别。”除了根据这种现有成果,我们还在哈佛内亚与阿尔泰学系博士生文欣的建议下制定了计算机算法,根据不同史料中亲属人名的重合度,厘清哪些同名人物可由计算机批量判断是否为同一人,哪些不能由机器稳妥地判断,需要人工考证。这样既大大减低了人工操作的工作量,又保证数据比较准确。

除了《唐五代人物传记资料综合索引》以外,我们还对大批唐代官员和士人的资料进行数据化。我们利用的材料包括古今学者对九卿、刺史、方镇和科举士人的考证,主要来源分别是郁贤皓和胡可先的《唐九卿考》、郁贤皓的《唐刺史考全编》、吴廷燮的《唐方镇年表》,还有徐松撰、孟二冬补正的《登科记考补正》。这些都是系统性强、目标在于一网打尽的年表式参考书,以年代、人物或地点排序,一一辑录,并一般有标出文献出处。目前,前三部书已经处理完毕,共得1,765条出任九卿的资料,共1,421人;13,373条出任刺史的资料,共8,818人;15,871条方镇资料,共8,178人。至于《登科记考补正》,笔者执笔之时仍在处理中,但已为5,603条唐代登科资料进行电子化,共4,520人。以上几组人群有所重叠,所以项目组处理时必须对同名人物进行甄别,做法与上述类似。由于因为这些九卿、刺史、方镇和科举士人的资料是系统的,它们成为CBDB数据之后,学者可以用来全面地研究唐代官员和士人群体、官职迁转、制度运作等。例如,我们在过去无法准确并迅速为这样的问题找到答案:曾任刺史者有多少人曾担任九卿官职?不过,当CBDB录入这批资料之后,学者可以运用CBDB的数据迅速得出建立在海量资料上的计算——如果按照这上述参考书的辑录,8,818位刺史中有258位曾任职九卿。显而易见的是,这样的答案如不使用数据库辅助,绝对无法立刻得出,必须经年累月、耗费大量精力。

除了《唐五代人物传记资料综合索引》,我们处理的另一部索引是《唐五代人交往诗索引》。此工具书涵盖唐五代诗人的交往诗作,将每个人所作的交往诗进行交叉比对,再以姓氏排序。由于这些交往诗都是在特定场合中写成的,又有具体的交流对象,所以是很有史料价值的材料。我们的取材是根据《全唐诗》和多种拾遗作品,对这些材料进行整理,列明唐五代人的交往关系。索引中分为两类,A类为作者与其他人交往或提及别人的诗;B为其他人与这作者交往或提及这位作者的诗。用社会网络研究的眼光看,这种编排方式记载的其实是一个诗人的个体社会网络(ego network),而且是有方向性的(directed)。A类资料的每一条都是该诗人对其他人的关系,B类则记载了其他人对该诗人的关系。在CBDB系统中,这一类“社会关系”会归入“著述关系”(Writings)一类下面的“应酬文字”中。在整理这些关系的过程中,索引的编者还考证了大量人名的历史情况,例如各种只提到诗人的姓氏、官名和号的诗题究竟指的是什么人物,为我们了解唐代诗人做了很大贡献。《唐五代人交往诗索引》将为CBDB提供25,978条社会关系数据,对研究唐五代士人交往、诗歌创作、文人群体等课题都有重要价值。

通过这部索引的数据处理工作,我们还发现了在计算机没有广泛通行时编纂和校订同类历史工具书的难度。理论上,一个诗人在A栏的诗歌条目应该在他交往的诗人中B栏目中再次出现,不过由于人工比对成千上万条目的记载难免有错漏,所以这两组条目有时是无法对应的。虽然前辈学者们编纂《唐五代人交往诗索引》的工作是很严谨的,但由于复核和校对的工作量极大,加上需要集体沟通和研讨,局部的错漏总是难免的。计算机的比对可以帮助我们系统地查找这些漏记的条目。经过五次检查,我们发现了2,000多条无法匹配的交往诗数据。我们专门针对这些错漏进行了修订,让CBDB的数据错漏减到最低。

三、唐代墓志史料和官名、地名的数据化

在这个唐代项目中,我们还会处理大批唐代墓志史料,把其中的人物信息加入CBDB。我们目前的主要精力放在《唐代墓志汇编》和《唐代墓志汇编续集》之上,两部汇编共收5,240余篇墓志铭。CBDB已收录其中墓主及其亲属的信息,不过在这些信息之外还值得做更深的挖掘。比如是墓志提到的职官信息,除了墓主的职官信息以外,往往还提到其他相关人物曾任什么官职。在我们对墓志的处理工作中,“码库思”(MARKUS)平台对数据库提供了很大的便利。“码库思”是由莱顿大学魏希德(Hilde De Weerdt)教授与何浩洋(Brent Ho)博士主持研发的线上文献阅读、研究工具,学者可借助它对古籍进行半自动文本标记,快速定位文献中的人名、地名、官职、年号等,并在线阅读和导出资料。由于这个平台可以为标记加上用户定义的标签,CBDB项目组人员在处理墓志的时候就可以分别标出墓志中的人名和官名,然后把人名和官名标签连接起来。这样的步骤使得批量导出墓志中的人名和官名信息成为可能,且能比较容易地对这些信息做数据化。除了人名和官名以外,由于墓志铭文有相对程式化的体例和句式,我们还会挖掘包括墓主的葬地、墓志中提到的著作等信息。为了提取这些信息,项目组正和台湾政治大学的计算机和数字人文专家刘昭麟教授合作,探索如何通过分析这些格式来批量提取人物信息。刘教授目前已经摸索出适合提取以下几类信息的表述模式:姓名、字、籍贯、生卒年、年岁、性別、所属朝代、亲属资料(姓名和曾任官职)等。举个简单的例子,我们可以通过抓取志文中所有“葬于”、“窆于”、“殡于”、“祔于”等字眼后面的特定字数,然后自动按地名层级整理。我们预期这项合作从设计程式到提取数据并非一步到位,而是需要经过不断调整计算机程式,来适应不同墓志句式的变体,方能获取越来越多的信息,逐步提升程式的效用。由于这项工作时对大量墓志同时进行的分析,可以减轻文史研究者重复进行的一些步骤,甚至有望帮助学者更精确地发现过去精读史料时不容易观察到的现象。

作为一个大型的历史人物数据库,CBDB还是一个数据集,也就是各种数据组成的集合。跟中国古代相关的各种数据,只要有利人物资料的整理和研究,项目组都尽量投放精力进行录入和校正,并且以标准化方式纳入数据库中。这些数据是以编码表(code tables)的形式保存的,其中包括各朝地名表、官名表等。比如,打开CBDB单机版的时候,能够看到官名是由“OFFICE_CODES”表格登记,并放在“OFFICE_TYPE_TREE”表格的分层架构下。至于地名,则在“ADDR_CODES”表格记录。这些编码为人物数据里出现的地名和官名等赋予了其各自在数据库系统中职官架构和行政地理架构中的相应位置,方便查询时选取。所以,当我们系统地处理唐代人物资料时,也需要对唐代官名和地名做相应的整理,输入CBDB

首先介绍处理唐代地名的工作。CBDB对唐代地名的整理工作是以已有的研究成果为基础,主要数据来源为郭声波教授的《中国行政区划通史·唐代卷》。作者在编定这本书的过程中,对唐代的行政区划层级提供了定义,因此CBDB对唐代地名的数据化是基于书中的认识。为了处理这方面的工作,郭声波教授的学生、专攻历史地理的暨南大学博士生魏超曾在2015-16年访问CBDB一年,负责整理这本书的地名数据,按照适合的格式将有关内容整合到CBDB之中。要进行这种工作,我们首先在这部书的电子版中提取地名数据,以实现唐代地名的数据化。我们利用了原书的表述格式判断地名的层级,又在计算机上编写了正则表达式(regular expressions)对书中有一定规律的内容进行批量提取和清理。正则表达式的作用是检索或抽取符合某些特定表达格式的文本,用事先定义好的一串字符和字符的组合来实行对字符串的过滤和提取。在完成地名的提取之后,接下来就要为提取出来的地名进行分级。地名的分级处理是建立在对唐代历史行政区划的理解之上的,务求达到规范,方便历史学者使用。《中国行政区划通史·唐代卷》在梳理唐代行政区划时,对每个府州县存在的时间年限都做了详细的考订,并附在相应的地名之后。之后的任务是以经纬度格式为地名登记地理坐标,为这些地名在计算机上的地图呈现做准备。

在我们处理《中国行政区划通史·唐代卷》之前,CBDB数据只包含2,411个唐代地名,而在完成上述工作之后,为数据库补充了6,209条关于道州县地名的记录,其中包括地名、起讫时间、所属层级等方面信息。另外还有1,693条关于羁縻州的记录。和前述《唐五代人交往诗索引》的相关工作原理类似的是,我们利用了计算机对书籍记载进行全面比对和检查,修订原书的一些瑕疵。例如,书中由于政区置废时间无法准确地考订,造成有些地名在时间上无法在隶属关系上匹配到某政区上,我们都一一反馈给原作者,做出修订。通过以上工作,我们体会到不论是《唐五代人交往诗索引》还是《中国行政区划通史·唐代卷》,数据库结构对于这种含有大量系统性资料的工具书,适应性要比印刷媒介好,查找和复核资料的工作也比较容易在计算机上进行。

其次,是处理关于官名表的工作,目前仍在进行中。在项目开始之前,CBDB共登记了2,411个唐代官名。在收录前述各种人物资料时,我们收集到大批职官名称,在官名表中统一登记。这些官名在数据库中被一一归类,系于职官架构之下。这样做是为了让用户能以任何一个分层来查询,都可以找到人物的任官资料。目前这一架构有390个分类,基本涵盖了唐代官制的所有方面。

四、结语

综合以上,通过近年对多种唐人资料进行的数据化工作可见,CBDB项目的建设不只是技术工作。由于这项工作需要一定的研究基础,所以它和学术研究紧密结合。实际上,这些数据化工作是信息时代史学研究工作的一种体现,我们在其中大量借助了计算机科技,以提高处理历史资料的效率和准确度。其中也利用了学界对唐代的既有成果,是建立在前辈学者的耕耘之上的。不管是哈佛还是北大的年轻文史学者都参与进来,为资料的处理和考订贡献力量。所以,CBDB对唐人资料的数据化可说是几代历史专家成果的结晶。傅璇琮先生曾在《唐五代人物传记资料综合索引》的前言中提出,只要把记载唐代人物的史料一一汇聚,加以合理的编排,“我们将有一个网罗全局的唐代人物的材料库”。虽然CBDB并不是史料全文的数据库,但从方便学者查阅人物传记事迹的目标来讲,CBDB近年进行的唐代项目可以说是继承了傅先生这种宏大的构想。而且,CBDB和《唐五代人物传记资料综合索引》一样,既是便利学者的研究工具,又是推动研究的综合性成果。在发展CBDB的过程中,我们坚信历史人物资料的数据化会带来学术创新。过去学界讨论的许多唐代现象,都可以利用数据来重新检讨,作为讨论的其中一个角度。和学术价值同等重要的是数据的开放性。我们处理的数据是在CBDB网站上免费公开的,任何学者都可以下载使用或在线上查询,用于学术研究。

不过,在更普遍地使用数据库之余,学者们也纷纷认识到数字化研究工具的局限。从学术史更长远的角度来看,在史学研究中使用数据库终究是一件新事物。当人们能在短时间内查找出大量历史材料,我们作为历史学者惯常用的其他研究技艺的重要性不但没有减低,反而是加强了。CBDB管理委员会的成员之一、北京大学的邓小南老师作过以下呼吁:“在大数据时代,数据库的广泛应用降低了史料收集的难度,但同时也对历史学者的素质提出了更高要求:既然不能仅靠对史料的熟悉夺得先机,那么,对史料辨析与追问能力的重要性自然就凸显出来。我们应清醒认识到,数据库只是助力研究深化的途径,历史研究不能满足于表层文本的提取和简易的攒凑式结论,深入的研究还要靠阅读体悟、史料辨析,要十分警惕急功近利氛围下历史研究的‘表浅化’倾向。”这样的提醒,正好点出在计算机技术发挥重大影响的新时代背景下,必须提升辨析史料的能力,才能避免肤浅地利用数据库,充分发挥使用资料库的优势。CBDB著录的只是信息,史料隐含的意义往往需要学者深思才能充分诠释,不是单凭查询数据库就能解决的。

当项目在2018年完成之后,CBDB将会增加大量唐代人物的传记信息。不过单就唐代而言,仍有不少资料值得继续补充。从本文的介绍看,不难观察到我们在这三年里的工作模式是集中处理格式化和经过前辈学者考证、整理的人物资料,而不是从浩如烟海里逐条检阅处理。这种工作模式的好处在于可以比较有系统、有效率地处理大批资料,可以在几年之内涵盖大部分重要的唐代人物信息。但其存在的问题是,数据库中人物传记信息的深度还有待加强。我们已经把处理一系列关于唐史的历史文献和研究成果列入工作计划,例如是严耕望先生的《唐仆尚丞郎表》和戴伟华先生的《唐方镇文职僚佐考》,并已完成前期准备,完成了两部书的大部分录入工作 。以后完全录入的时候,可以系统地补充CBDB中唐代尚书省职官和方镇幕府人员的信息。

在新资料以外,我们项目组还会继续探索用相对前沿的计算机方法处理历史文献,丰富CBDB的数据。其中一项工作是利用机器学习的方法,逐步训练计算机判断古籍文本中人物之间的关系,例如是《旧唐书》中列传的记载,以便加入CBDB的“社会关系”信息。这种机器学习的技术未完全成熟,但由于相关科技在近年发展相当迅速,而且可以不断加入更多训练样本来改良机器的学习能力,因此我们相信机器分析古文献并从中提取有用信息的做法将越来越有价值。进行数据化的过程中,也会发现新的学术问题,例如是对同名人物的大批消歧。

除了本文介绍的数据化工作,CBDB项目组同时进行许多其他朝代史料的收录和处理工作,例如宋代登科录、宋至清代的地方志、清代的朱卷资料中的人物信息等。只要CBDB项目仍有足够的资源,就会不断增加新的资料,务求更全面、系统地收录中国历史人物的信息。长期以来,CBDB的宋人资料被认为是相当丰富的,但对其他断代资料的收录情形则不理想。在本文介绍的唐代项目和其他朝代的工作逐步完成以后,这种状况一定会改变。

CBDB尽管从创立至今已有不短的历史,它仍处于开发完善之中。它收录的资料、数据结构和使用方式等方面都处于变动之中,需要通过与用户的不断交流来取得进步。事实上,目前从用户反馈来看,无论是线上版还是单机版,CBDB的一些操作还不够方便易用,造成使用上的障碍。不少用户认为,在数据库中查找人物资料时进行基本检索不难,但要处理更复杂的检索或利用数据进行分析,则技术门槛过高,需要进行系统的学习,容易令人却步。为了减低这方面的障碍,CBDB项目组正致力改进数据库的操作方式。具体做法包括把作业环境转移到MySQL数据库管理系统,让数据的查询变得更加人性化。

适逢“数字人文”(digital humanities)等概念在中国学界引起关注和讨论,有更多学者对数字化研究工具和资源感兴趣,这为CBDB的推广带来了重要契机。项目组也积极跟用户建立联系,持续沟通,孵化研究成果。项目组在台湾的合作者(包括清华大学的祝平次教授、金门大学的李宗翰教授等)为CBDB制作了视频教程,至今包括14部短片,利用直观和循序渐进的方式普及数据库单机版的用法。至于宣传推广的成果,根据项目网站主页的访问量来看,2016年年初以来自中国大陆的访客不断增加。这虽然不能直接说明用户数量和他们使用数据库的情况,但反映中国学界对CBDB的关注度正在提升。学界虽然对坊间更流行的古籍全文类数据库更加熟悉,但经过项目组的推广和用户在使用数据库过程中的摸索,我们相信会有更多学者熟悉CBDB这种数据库的特点和用法,并在自身的研究中利用该数据库。随着各种电子学术资源变得盛行,有意识地善用数据库越来越重要,对研究生的培育也理应加入关于这些工具的课程内容,让年轻学子对它们的特点和优劣有系统的了解和反思。

很多大型研究项目(尤其是数据库项目)都建立在不同研究团队合作的基础上。CBDB项目的三方合作自开展以来已经超过十一年,发展过程中经历了多次转型和扩张,并实现了多学科、多个机构之间的合作与对话。数据库除了得到中外历史学者的参与,亦借助了文学、计算机、互联网、统计学等领域专家的成果。未来要推动更有效、更具规模的合作的话,必须考虑为文史数据库建立一些共通的数据标准,营造数字资源的共享环境。像CBDB这样的数据库和数字化分析手段的结合将变得越来越重要,例如是“码库思”文本标记平台、历史地理信息工具和社会网络分析工具等。应该寻求共享和古代历史研究相关的数据和资源,寻找互惠互利的合作模式,进而建立所谓的“网络基础设施”(cyberinfrastructure),使得和中国古代史研究有关的电子资源在不同平台之间得以互通,便于学者利用。作为一个长期进行、服务学界的研究项目,CBDB未来的发展和提升也必然需要仰赖学界同行们的支持、指导和批评。 

(原载《唐宋历史评论》第三辑,北京:社会科学文献出版社,2017年,第2032页。注释从略。)

徐力恒《唐代人物资料的数据化:中国历代人物传记资料库(CBDB)近年工作管窥》.pdf


版權所有:廈門大學民間歷史文獻研究中心 地址:廈門大學南光一號樓二零四
         電話:0592-2185890 服務信箱:crlhd.amu@gmail.com
Copyright © 2010 , All Rights Reserved 廈門大學ICP P300687