加入收藏   ENGLISH
網站首頁
中心簡介
研究人員
學術活動
出版品
研究資源
所內專區
首页  研究资源  共享资源
吳密察_清末臺灣之「淡新檔案」及其整理
  发布时间: 2017-08-30   信息员:   浏览次数: 11

清末台湾之“淡新档案”及其整理

台湾大学历史系  吴密察

一、

       所谓“淡新档案”,是目前庋藏于台湾大学图书馆的一批清末台湾北部新竹县、淡水厅之州县官府档案。本文将介绍这批档案的大致轮廓与半世纪以来对这批档案的整理经验。这样的经验,可以说是不断尝试错误,也同时因应科技的发展和时代需要而调整、深化的过程。希望这样的经验,可以成为目前各地正在陆续展开之清代州县官府档案整理工作的参考。

二、一九九〇年以前的整理

  “淡新档案”系一八九五年日本领有台湾后,由日本政府接收并以其中内容多有涉及司法事务者而交由新竹地方法院管理,后转藏“覆审法院”(以后改为高等法院)。一九二八年,台北帝国大学成立,文政学部史学科虽以日本涉外史相关之南洋史与东洋史,兼及台湾原住民研究为主要之研究主题,但自一九三六年六月进而开设“台湾史料调查室”,致力于调查台湾史迹、搜集台湾史料。在这样的背景下,一九三七年六月二日,透过前台北地方法院长大里武八郎居中奔走,“台湾史料调查室”自高等法院(院长斋藤三郎)承接了“清朝时代古文书一千一百四十袋数千件”,当时对这批“古文书”的初步评价是:“视其内容、数量,不仅乃台湾史研究之根本资料,而且也是支那法制史研究上之贵重史料。”当时称此批档案为“台湾文书”,虽曾略作整理,但似未有人利用来从事学术专题研究。

一九四五年,国民政府接收“台北帝国大学”改称“国立台湾大学”(在极短的时期,曾自日本时代的校名径改为“国立台北大学”),这批“台湾文书”也便由台湾大学承接。这批档案虽然被台北帝国大学保存了下来,但战后接收时的保存情况却己非常严重,而且“没有留下档案的目录”。战后初次主持整理工作的台大法学院戴炎辉教授,描述当时的档案情况是﹕“淡新档案内之案卷,本来每一案卷各有卷皮,案内各文件糊粘为一宗。日人承接此档案后,将一案卷收存于纸袋之内,袋面上用日文作简单案由,再装纸箱里,极少部分的案卷,日人抄作册子,又些许部分,作过简单的说明。……对此‘淡新档案’,(日人)似乎尚未作过学术的检讨,也没有留下档案的目录。档案历时经久,收藏缺佳,致大部分为纸鱼所蚀。又少部份在抗战中,因搬移受炸或潮湿,致烂破、残缺,且很散乱。”

        一九四七年底起,戴炎辉教授,获得林熊徵学田、中华文化教育基金会之经费支持,及法学院陈棋炎先生、学生曾琼珍、法学院教务分处讲义股同仁之帮助,在做了必要的杀虫工作之后,依照规划进行整理。戴教授自述整理工作之作法及其工作经过是:

1.暂编号码 全部案卷杀虫后,略加以检讨,可认为一个案卷者,随收入新纸袋,暂编其号码。

2.裱褙修补 案卷大破者,加以裱褙,小破者加以修补,而把一案卷内的文件粘连起来。此工作繁重,幸得法学院陈棋炎先生,学生曾珍君及假期中的法学院教务分处讲义股同仁的帮助。

3.初步记录 摘记各案卷的案由、年代月日及关系人,又每一案卷内的各文件,也摘记其年代月日、发文者及收文者,必要时又附以简注,以便于初步分类。

4.初步整理 凡案卷存有案由者,按照其案由;而无案由者,则检讨案卷的内容,大略分为行政、民事及刑事三门,作成整理表,附以整理号码,计有行政案六百八十六,民事案二百六十五,刑事案四百十五案。同时因为防止混乱,且便于检索,另作暂编号码与初编号码对照表。

5.初步分类 经过初步整理,已有眉目,故据此将行政、民事及刑事各门,分作若干类,而制作初步分类表,以便于分离并合。

6.分离并合 大多数案卷,固然是完全的,但分散者,为数也不少。其分散程度,有达十余处之多的。又年代月日前后错杂,案卷的粘连,难免也有错误,故非经过一番分离并合不可。因此,此前所作的案卷初步记录表,也必须加以修正。此工作够繁重,非藉分类之功,便不能把各文件妥归原处。

7.缮抄工作 修正记录表之后,随时加以缮抄。但仍可发见某案内之某文件不得其处,须移到该案卷内的另一处,或移到另一个案卷,遇到这种形,随即加以补正或重抄。

8.确定的分类 初步分类,是便于分离并合的。全部案卷究有几种有几案,尚未可知,又各案卷之正确年代月日,尚未查到。故经初步分类之后,尚须由学术上的观点,作有系统的分类。这确定的分类,仍分为行政、民事及刑事三门。门之下分为类;而类之下再分为款。各款下之各案卷,则按照年代月日序列之。又每一案卷内之各文件,也按照年代月日编号。三门总共案卷达一千一百六十三案之多。

9.确定的记录表 每一案卷,按照分类表次序,记录其案由(原存有案由者照抄,无案由者或已散佚者,则检讨内容补充之)、案内每一文件之年代月日、发文者、收文者、内容概要及附注。

10.简明分类表 为检索方便,另作简明分类表,摘记各案卷要项,尤其年代月日、关系人姓名、附注及简明案由。

11.事项别卡片 已作的案卷记录表,不过摘记其形式上的属性而已。如果要把此档案供作学术研究的材料,须依实质的内容,制作事项别卡片。因此,须详查各案卷内的每一个文件,制作卡片,然后将卡片加以分类。但这工作需要很长时间,现在尚未着手。

经过戴炎辉教授整理后,这批古文书的轮廓已大致可以掌握。戴炎辉教授以这些古文书乃是清朝时代台湾淡水厅、新竹县的档案,故改名为“淡新档案”。从此,这个名称便被承袭了下来。

        根据戴炎辉教授对于内容的简要介绍,我们初步得知这批古文书有几个部分:

1.嘉庆十七年(1812)至光绪五年(1879)三月间的淡水厅档案(当时淡水厅的辖区,北自鸡笼〔基隆〕,南至大甲溪北岸)。

2.光绪五年(1879)三月至光绪廿一年(1895)的新竹县档案(新竹县的辖区,在光绪五年〔1879〕三月至光绪十三年〔1887〕,是原淡水厅范围割去桃涧堡〔桃园〕以北;光绪十三年〔1887〕后,又割去中港溪及支流南港溪以南)。

3.光绪初年的台北府档案。这是因为光绪元年(1875)设台北府后,台北府署未筑成之前,暂假旧淡水厅署(新竹城),而且新竹县也未派正印官,而由台北知府兼摄,台北府、新竹县可谓合署办公,所以这段短期间的台北府档案也留在新竹县。

  戴炎辉教授在整理工作告一段落之后,于《台北文物》第二卷第二期(1953年)发表《清代淡新档案整理序说》,简要地介绍“淡新档案”的内容及其整理过程,并以其锐眼指出了“淡新档案”的价值:“本档案虽稍有损失,还算是整套的档案。又虽不是全台湾的档案,但从上级机关发下的‘札饬’或示谕,仍可窥测府政或省政之一端。何况,由此档案可以明了一厅一县的政治,〔做〕为研究资料很有价值”,而论断:“本档案不但是台湾法制史研究的好材料,对地方政治、社会及经济史研究,相信也有贡献”。

戴炎辉教授的这种初步整理工作,对于以后的研究与后续整理都具有重要的意义,值得稍加说明。

首先,戴炎辉教授确立了以“案”为单位的整理原则。从这批档案被发现时候的状况来看,清代衙门就曾经对档案进行过基本的整理。至少,每一个诉讼案件的相关文件是被汇编在一起的,而且这些相关文件还被以时间之先后,依序地黏贴成一长条状。即使不是诉讼案件的行政性相关档案,也已经将相同业务主题的文件汇合在一起,并依照时间顺序黏贴着。例如,编号31601便是有关验尸的历年(从同治十年到光绪十年)各种公文的汇辑,共15件。这种原来就以文件集存在的形式,可能就是台北帝国大学接手这批档案时号称有“一千一百四十袋”的原因,盖当时应该就是以清代衙门已经黏贴在一起的一份文件集为一袋。也就是戴炎辉教授说的“每一案卷各有卷皮,案内各文件糊粘为一宗”。戴炎辉教授整理时基本上尊重这种清代原有的整理原则,只是将部分显然错置或散页的文件加以调整、汇合。

其次,戴教授将这1100余“案”的档案,以“案”为单位,依照其内容之性质加以分类。戴教授以清代地方行政内容与近代法律概念制作了一个以“编”统“类”,以“类”统“款”的三阶层分类表,并各赋予号码(参照:表一“淡新档案分类表”)。因此,每一“案”都有一个相应的号码。例如,32410就表示是第3编(“刑事”编)第2类(“人身自由”类)第4款(“拐奸”款)的第10案。如果要更进一步进入“案”里的每一“件”,则在“案”码之后的小数点后面表示。例如,32410.0表示是32410案的“案由”,32410.2表示是32410案的第2件;32410.17表示是32410案的第17件。如此,则“淡新档案”中的每一“案”、每一“件”,都有一个与之对应的编码。

戴教授透过上述整理的结果,统计出这批档案总共1163案,其中以行政编最多(574案),刑事编次之(365案),民事编最少(224案)。如果将民事与刑事均视为司法关系案件,则司法相关者共有589案,其案数与行政编相当。戴炎辉教授并指出:行政编除了总务类之外,其重点主题在于财政与抚垦。其次多为乡保行政。民事编则以田房事项为数最多,其中又以霸占与争界占大部分;其次则为钱债。刑事编除总务类之外,财产侵夺类占一大部分,其中窃盗案占多数;其次则为人身自由类。

如果以每一案来比较,每案所包含的件数因案情内容繁简或时间拖延久暂长短,而极为悬殊,少则仅数件,甚或1件,多则200余件,而且拖延多年(例如,编号32611案自光绪十三年缠讼至光绪二十一年割台前夕,前后长达8年)。根据近年台湾大学图书馆的调查,超过100件的“大案”有31案,其中以编号22202(民事门·田房类·抗租款·第2案)最大,有223件;其次则是编号33319(刑事门·财产争夺类·强盗款·第19案),有217但是,戴炎辉教授上述对于各“案之分类与各类“案”之统计结果,只能当成参考,不能径视为当然。例如,戴教授归入行政编的很多档案本身并不是官府行政文书而是诉讼案件,例如被归入抚垦类隘务款的档案其实有不少是纠纷诉讼案件,而不单纯是隘务行政文书,即使将之归入民事编或刑事编也未尝不可。甚至,戴教授对于每一“案”的归类,也存在着各种问题。例如,一个“案”在诉讼之初控诉者号称被掳禁或殴伤,因此被归类为刑事编的“人身自由”款,但随着诉讼的进行、案情的发展,原来双方的纷争是因钱债纠纷而起,其诉讼重心也往这个方向发展,因此反而让人觉得应该归入民事编的“钱债”类。而且,清代并未如近代司法制度采一事一案原则,诉讼者为了在官司中致胜,总是不断推迭案情,因此就使得案情纷岐难以简单归类。所以,戴教授所做出来的分类,值得斟酌者,所在多有。因此直接以戴教授的分类为基础,进行加减统计甚至据此进一步做出解释,都无甚意义。但是,因为戴教授已经在这个分类的基础上,赋予每“案”、每“件”一个确定的号码,对于确指具体档案具有实质的方便性,因此以后的整理者也就都尊重而不加以更动。现在回头来看,可以说戴炎辉教授的分类只有编码的意义。

  一九六八年七月,戴炎辉教授应美国西雅图华盛顿大学之邀,前往该校作专题研究,因此将“淡新档案”全部携赴该校拍摄为35mm的黑白微卷(共33卷)。戴教授赴美途中也曾在日本东京大学法学部发表演讲,介绍“淡新档案”。一九七一年,华盛顿大学的David C. Buxbaum以英文发表文章介绍这批档案,“淡新档案”遂广为海外汉学者所知。后来华盛顿大学曾允许研究机关在负担费用的条件下,从其微卷负片制作正片副本。国内外几处研究机关(例如,东京大学法学部、“中央研究院”历史语言研究所)便是从华盛顿大学购入正片副本的。因此,“淡新档案”不但广为内外学界所知,在一九八○年代起也开始有一些研究者得以利用档案的微卷从事专题研究。

自从战后戴炎辉教授着手进行整理之后,便一直由戴教授保管的“淡新档案”,在一九八六年七月转由台湾大学图书馆收藏。台大图书馆趁此机会曾重新装袋清点,结果与三十年前戴教授首次披露的数量稍有出入,实得1139案,19244件。

三、“淡新档案”的公开

  自从一九五三年戴炎辉教授撰文介绍之后,“淡新档案”做为一种台湾区域史甚至中国史研究之重要材料,已受到学术界的瞩目。尤其是戴教授此后随即利用“淡新档案”陆续进行了一系列有关清代台湾隘制、屯制及地方乡庄组织的研究,“淡新档案”之公开便是学术界所引颈期待的事了。

一九五五年,戴炎辉教授挑选“淡新档案”行政编·民政类·厚俗款的1032件官府示禁告示在《台北文物》第四卷第三期用活字排印刊出,而且以照片的形式披露2张“淡新档案”的原件,这是外界首次得见“淡新档案”的样貌。虽然在此次刊出32件“淡新档案”内容时,戴教授于文中“例言”曾谓:“拟陆续将淡新档案资料公诸学界,供学术研究之参考”,而且刊出时也将题名拟作《淡新档案资料(一)》,但不知何故,却不见如“例言”所说的“陆续公诸学界”,因此其《淡新档案资料(二)》、(三)……也便未曾出现了。此时期,外界只能从戴教授的诸多研究论文所征引的片段,略窥“淡新档案”的堂奥。

一九七一年,戴炎辉教授选录行政编的475件档案,交由台湾银行经济研究室编印成为台湾文献丛刊第295种《淡新档案选录·行政编初集》共四册594页。这是“淡新档案”比较有规模的出版。这使“淡新档案”可以被广泛的阅读,对长期企盼希望利用“淡新档案”的人来说,真是令人兴奋的事。

但是,或许是因为迁就台湾文献丛刊之体例或编辑方针(台湾文献丛刊对于较大部帙之书籍、史料,均以“选录”、“选辑”之方式编辑出版),此次“淡新档案”以活字印刷出版时,并未如戴炎辉教授先前所强调的应该重视其以“案”为单位的重要性,而是就不同公文类型各选一、二“件”为例编印出版。因此,这些印刷出版的“淡新档案”的研究价值大大地打了折扣。因为,研究者将只能读取每“件”档案的信息,而无法研究一个具有丰富、完整信息,甚至一个有首有尾的“”。这种出版档案的方式,如果是在诉讼个案上就更会是严重的缺陷。因为这将会无法分析该诉讼案件的整体内容和诉讼过程中的具体攻防。也就是说,介绍“淡新档案”各种不同的文类,才是这次“淡新档案”出版的实际意义。

另外,这次的出版也具体地考验我们:在将清代档案以活字排版印刷时,到底可以做到如何程度的“如实重现”?在这种将档案原件排版印刷出版时,可以容许档案原件上之信息流失到什么程度?将原文件排字出版的工作,不但费力、费时,而且也有很多极难克服的技术问题。例如,档案原件中的各种图形标记,甚至印章戳记便很难被忠实地原样印刷出来,因此经常必须以其他的形式呈现或完全舍弃﹔而且,“淡新档案”有甚多是淡水厅、新竹县衙门内的公文拟稿,同一文件经常经过多人或多次修改增删,这些修改、增删提供了宝贵的政治过程信息,但如何得以被忠实地在印刷过程中表现出来,却是很大的难题。为了应付这些难题,戴炎辉教授在排版印刷出版之前订立了繁复的《淡新档案选录体例》(共20条),企图在保存档案文件原貌与牵就活字印刷技术之间,求取适度的平衡,但也终不免牺牲了档案原件的诸多信息。其实,这个繁复的《淡新档案选录体例》已充分说明了以活字印刷清代官府档案文件所面临的困局。后来,这个企图将“淡新档案”以活字排版印刷出版的计划,在只出版了4册(475件)《淡新档案选录·行政编初集》之后就没有再继续,其确实原因虽不得而知,但编辑出版印刷上难以克服的技术困难应该是可以想象的原因之一。

“淡新档案”的活字出版计划挫折之后,美国华盛顿大学(西雅图)以拍摄微卷的方式复制档案,无疑是突破上述“原样呈现”难题的好方法。但是,利用过华大拍摄之微卷研究诉讼手续的日本东京大学滋贺秀三教授,对此“淡新档案”微卷副本却还是认为不够理想:“大凡史料文献之原件与复本之间均有差异,而此“淡新档案”之微卷与其原件之落差,则属于较大的部类。原件中墨字与朱笔之交错,在黑白单调的写真中,便只变成些微的浓淡差异而已,而多难以判读。墨字之上按捺朱印之处,若是原件还可判读,但微卷则无法判读。文书上之附笺,时有未翻开拍摄者,亦有难以注意者。也偶有误摄而无法阅读者。另外,各影幅之拍摄比例尺不尽相同,这也必须留意。有几处缺号,但却有原件,不知到底是因何漏拍,抑或本无原件。”在此,我们感受到严谨研究者要求“原样呈现”档案原件的极致,同时也看到即使是微卷也有难以企及用户期待的瓶颈。

四、一九九○年代以后的整理

        一九八六年,“淡新档案”入藏台湾大学图书馆后,台湾大学图书馆除了对档案的数量再次进行清点,并对一些破损的档案加以修补之外,并没有对这批档案进行整理。一九九〇年起,才在一项包含几种台湾史档案的目录整理计划中,在原来戴炎辉教授所制作的目录之基础上,逐“件”地编制“淡新档案”目录。

此次编制目录时,我们借助图书馆编目工作所使用的目录卡概念,设计了一份包含有12个著录字段(元素)的“十二字段(元素)表”,企图想要以详细的metadata来描述“淡新档案”的每一个文件(“件”)。所谓Metadata(中文翻译或作“诠释数据”、“后设数据”、“数据描述格”或是“元数据”),是叙述资源属性的数据,又称为 “Data about data(关于数据的数据) 或是 “Data describes other data(描述其他数据的数据) 、 “Additional information that is necessary for data to be useful(用来使资料成为有用的附加性数据) 、 “information about the data that helps in optimization and management of that data(用来帮助使用、管理数据的信息) 等广狭不一的定义。传统图书馆的目录,就是一种常见的metadata,我们透过它所提供的信息(最常见的是“作者”、“书名”、“出版者”、“出版年、“分类号”等),来从数量庞大的图书馆中找出我们所要的一本书,甚至利用它来找到相关的一些书。相同的道理,“淡新档案”也应该有这样的“诠释数据”,以便来管理、检索它。

        但是,每一“件”“淡新档案”应该有那些“诠释数据”呢?这却是见仁见智的问题,它将因为研究者的期待与需要之不同而有所不同。一般而言,档案的使用者(研究者)总是希望将档案原件里的信息尽量地表现在“诠释数据”里,而要求设计数量众多的“元素”。希望将档案原件里的信息尽可能地透过诠释数据字段表现出来,必然要多设元素数量或者增加元素的著录信息量。当然,这样也就连带着必然增加整理工作(制作诠释资料)的工作量。如果这样的要求无限扩大,则会使诠释数据的份量逼近档案原件的全文数量。档案使用者(研究者)希望以多数元素的“十二字段表”,配合详细的元素著录来增加信息量和使用的方便性,但它却同时必须花费相应的工作成本,这是整理档案时不能不考虑的原则性重要问题。

        另外,档案目录的制作工作看似简单,但真正执行开来时却一定就要遭遇到各种实际的困难。即使已经决定了诠释数据应该要有的元素。但这也还只是决定了初期问题。接下来的问题是,如何实际注录诠释数据字段。图书馆用来管理、检索图书的目录,不论如何简略也都会有“作者”、“题名”、“年代”三个元素。但即使只是这三个元素,用来整理像“淡新档案”这种州县档案时,却也不是那么地顺理成章、毫无困难。例如,一份新竹县知县最后将会被誊清用印后送出去给台北府知府的禀文稿,应该如何注录呢?如果将“作者”当成该件禀文稿的制作者,那么是否应该将它注录成撰写该禀文稿的幕友或胥吏呢?或是应该注录最后送出禀文正本时候的名义人,即新竹县知县呢?至于“题名”,它并不像一般书籍已经由作者标明,而是不见诸于该禀文稿,该禀文稿原件(档案)应该只是在文件之最前头注明文件之类型“禀”接着是该禀文之“事由”,那么“题名”是否应该注录成“禀文稿”、“禀文”,或其他(例如,将“事由”也当成是“题名”的一部分;甚或如我们在制作“十二字段表”时所采取的原则:“题名”乃是结合“发文者”、“收文者”、“事由”、“文类”的总和)呢?至于年代,到底是这份禀文稿的拟稿日期,还是知县的批行日期,甚至是该禀文稿被清缮成正式公文用印后发出的日期呢?

也就是说,即使诠释数据的元素决定了,各元素应该如何著录也还是必须做出政策性的决定。诠释数据之字段应该如何著录,并不是不辩自明的。诠释数据之所以又称“后设数据”(其实,其英文原文metadata的直译反而应该是“后设数据”),乃是因为这些诠释数据多具有“后设”的性质。也就是说,它并不是原本就在那里的,而是后来的整理者、解读者、诠释者所给予的。那么,它也就会因为整理者、解读者、诠释者的不同,或不同的脉络、目的而会有所不同。这样的不同,经常不是对错的问题,而是选择的问题。

因此,上述所指出的,诠释数据应该有什么样的元素、诠释数据元素应该如何著录,也便必须做出选择,即“政策性的决定”。它指的是研究者的目的(或研究主题),将会是决定应该有什么样的诠释数据字段和如何注录这些字段。当然,实际从事整理作业所需要的成本(人力、时间、经费等),也是决定如何选择的重要因素。也就是说,档案的整理工作一直存在着选择问题,至于应该如何选择,则端视档案资料的性质、用户的目的、整理的成本而定。

一九九〇年前期的这个以著录“十二字段表”为重心的“淡新档案”整理工作,从事后的结果来看,几乎可以说是“白忙了一场”。一方面,将19000余件档案的每一件都各填出一份“十二字段表”本身就是一项大工程,况且具体著录字段时多存在着难以简单下笔的困境,甚至多有将字段空白下来的情况,而且这样庞大的工作势必由多人分头进行,如何让不同的字段著录者的著录达到一致性,也是个难题。而且,由于这个工作结束之后不久,另一项将“淡新档案”全面性地打字、标点出版的计划已经展开了,因此这个“十二字段表”也就没有多大意义而被束诸高阁了。

一九九五年起,“淡新档案”的整理进入了新阶段。那就是将所有的档案以打字、标点的方式出版。这是一项工作量更大,困难度更高的计划。但是经过长达15年的持续努力,这项计划在2010年完成,总共出版《淡新档案》36册。

近百年来以规格化的字体、版式来出版原本非规格化的文献(例如,甲骨文、金文、简牍、敦煌文书等),研究者已经累积有相当经验,而且发展出来诸多方法(例如,以各种符号来表示文献中的各种信息;以不同的字体、字的大小等来表示不同性质的文句;以注释的方式说明无法呈现于版面的信息……)。但是因为文献原件之歧异几乎有无限的可能,因此绝对无法全部用已经规格化了的字体、版式来呈现。“淡新档案”这种清代手写档案以现代之打字、排版方式出版时,最大的困难是如何保留档案原件里并不均质,甚至格式与内容都变化无穷的信息。1970年代《淡新档案选录·行政编初集》的出版计划无法持续的经验,已经说明了问题的困难性。

档案原件包含着该档案的物理性成分(例如,载体材料体、高•广•厚、格式等)之外,还有内容信息(文字与非文字)。档案原件中的非文字性信息,例如,图表、印章、画押等,固然多不是标准化了的,也难以印刷出版;即使文字性的信息,也不见得是标准、一致性的(例如,有一些是已经印刷的格式性文字,但另外一些则是手写的文字;这些手写的文字,也经常会有字体大小、书写风格差异、俗字、异体字、错字……等等各种几乎无法完全列举的变异)。这些档案原件中具有差异性质的信息,对于特定的研究者来说或许具有非常重要的意义。例如,一份“淡新档案”的诉讼案件中必然出现的“呈”(诉状)之档案原件,至少存在着以下几类不同性质的文字信息:(1) 它是一张根据官府规定印制的格式纸。其中已印有一些文字信息。(2) 提出诉讼者表达在印制的格式纸上的呈词。一般来说,这是研究者最关心的信息。(3) 衙门接受呈状之后,衙役的登录注记。(4) 主理官的批示。(5) 事后衙吏在文书整理过程中所附加的注记。“淡新档案”中的“票”(主官签发衙役办事的命令书),也经常包括下列几种不同类型的信息:(1) 幕友或书吏的拟稿。(2) 主官在拟稿上的增删修改及批行。(3) 销缴后的整理注记。这些文件中不同性质的信息形成了这个文件的“生命历程”。如果吾人直接阅览史料原件,便会觉察这些不同性质的信息,是以字体书风、墨色浓淡、格式、位置、大小等方式呈现的。这些可据以读取不同性质之信息、重建史料“生命历程”的差异,无疑会是研究者所珍惜的。但是在改用标准化的活字、版式编辑印刷时,这些在原件上本来并不均质的文字却多数要迁就标准化而不得不被割舍,甚至也无法完全如实呈现。即使在将档案原件以活字出版时,编辑者经常都会借助诸多记号、文字大小、不同字体,甚至注释来企图尽量将档案原件中的各种差异标示出来,但还是远远不足以将几乎无法穷举的档案原件中之差异完全呈现出来。

        因此,档案原件的整理、出版工作之每一个环节,都必须做出妥协性的决策。例如,诉讼案件中的呈状在打字、印刷时,只抉取实质的呈词内容,而放弃事先印刷好的诉状纸里的信息;对于文件中的印章戳记,也只能选择部分加以呈现或注记,而无法全数表示;字体大小、抬头、格式,也多只能呈现其中一部分。也就是说,研究者所期待的“原样呈现”的理想,即使投入再多的努力,也势必无法达成而一定要被打折扣。因此,必须在顾虑研究者的期待之下决定哪些必须坚持,哪些必须妥协。如今,“淡新档案”已经全数打字、标点,以纸本的方式出版发行了。这套36册的《淡新档案》,就是在一连串的妥协之下所整理出来的结果。

五、“淡新档案”的数字化整理及其展望

        一九九五年“淡新档案”开始进行全文打字、标点出版纸本之后不久,另一个数字化整理的工作,也在一九九七年展开了。这里所说的数字化整理工作有两部分:(1)将“淡新档案”的原件扫描成图像文件,(2)将“淡新档案”文件里的内容文字形成全文数据库。

“淡新档案”的数字化扫描整理,纾解了打字、标点出版无法达成“原样呈现”之部分缺憾。数字化扫描所得的影像,几乎可以“原样呈现”档案原件的平面性信息(当然,目前的技术还是无法呈现材质、厚度、重量、气味、触感等),可以回应研究者强调的“原样呈现”档案原件的期待。因此,打字、标点出版的《淡新档案》再搭配上档案原件的数字图像,不就可以让“淡新档案”几乎完全原样公诸于世了吗?

“淡新档案”的数字化整理,除了将档案原件进行数字化扫描之外,我们同时也仍然使用metadata来管理这些数字图像文件,并且将打字、标点后要出版为纸本的全文文件来形成全文数据库。因此,我们的“淡新档案”整理此时可以说是全面性地展开了:既有档案原件的数字影像,还有每件档案的metadata,又有全文文本文件。于是,一个可以多方面借助数字技术来进行的“淡新档案”研究之基础建设已经大致完成。

不过,此时我们还是有一段尝试错误的经历。“淡新档案”之数字化整理的同时,我们也在进行其他台湾历史学、人类学、植物学、动物学资料的数字化,因此我们曾经企图发展出一个可以同时整合性地管理、检索这些各种不同学科性质之台湾数据的metadata元素表。这的确是个具有高度理想性的企图,但是经过一番尝试之后,我们不得不宣告失败而放弃。因为每一种学科资料之性质不同,每一个学科之研究者使用数据的目的也不同,因此对应该有哪些metadata元素及其著录要求也不同,彼此之间很难达成一致的看法。所以,metadata元素如何设计,除了有上述求其完备的要求之外,也有可能被要求跨越多种数据,达成整合管理数据的可能性。这种时候,勉强可以达成共识的元素,似乎就会只是最基本的几个元素(例如,作者、题名、时间、地点)而已。其实,即使只是这几个元素,不同的学科对于该元素如何定义、应该如何著录,也存在着不同的侧重或主张。例如,植物学者对于植物标本的“作者”这一个元素,一部分研究者可能希望著录该植物标本的采集者或制作者,也有一些研究者则主张应该著录该植物的命名者。由于各学科之间的差异过大,无法简单地达成共识,因此我们放弃了想要发展出一套可以整合性地管理多学科资料之metadata元素的理想。其实,自从开始整理“淡新档案”以来,可以说就是一连串妥协的连续。这些妥协,或许来自于上面已经提到过的成本考虑,也可能来自于技术上的限制,但同时也是研究者一开始总是习惯性地将特殊化的要求求诸于具有普遍性性质的资料整理工作所致。所以,展开档案资料整理工作时必须认清整理的目的,只先做最基本的整理(尤其在数量庞大时,更应该如此)。如果在此基础之上,还有特殊化的要求时,才另做特殊化的处理工作。

“淡新档案”的数字化整理工作,在完成(1)每一件的数字影像、(2)每一件的Metadata(3)每一件的全文数字文件之后,可以说已经有了得以利用信息科技来协助研究的基础设施。因此,目前台湾大学正在这样的基础之上,企图结合历史学者和资讯工程学者,一方面建设可供研究者使用的数字环境和工具,一方面透过科技的协助做出传统方法难以做出的研究,它可说具有无限可能的前景,端赖研究者的提问了。

以下,只稍稍介绍目前台大研究团队的一些初步研究。

数据库的最基本功用之一是在提供检索。因此,提升检索功能,并使检索方法更加方便,检索结果更加周遍、精准,当然是最基本的努力方向。一般来说,数据库的检索,经常是由使用者键入检索词,透过计算机在数据库中将该词找寻出来,但是检索者要能在计算机中键入一个检索词,显然要是这个检索词要是检索者“已知的”。那么,是否可以让计算机不只是等待检索者键入一个已知的检索词,而可以更积极地由计算机提示一些具有意义但却是检索者所未知的词汇呢?我们由计算机自动从数据库中透过词频分析抽取关键词,然后再由学科专家筛选确定而“发现”了不少新词汇。与此相关的是,为了使检索的机能更加精确有效率,也必须形成各种具有权威控制性质的辞典(例如同音异字词典、同义辞典等)作为辅助检索工具。这些辞典也可以由计算机协助学科专家来完成。除此之外,我们也开发了以地理信息系统(GIS)的方法所支持的,靠地图(地理坐标)来检索数据库的办法。这种检索方法,可以不受地名变迁的影响,而是以不因年代变迁而改变的固定地理坐标来检索出不同时代相同地点的数据。

(原载《中国社会经济史研究》2017年第2期。注释从略。)

吴密察《清末台湾之“淡新档案”及其整理》.pdf


版權所有:廈門大學民間歷史文獻研究中心 地址:廈門大學南光一號樓二零四
         電話:0592-2185890 服務信箱:crlhd.amu@gmail.com
Copyright © 2010 , All Rights Reserved 廈門大學ICP P300687