摘要:随着计算机科技的进步,我们可以解决历史学家在收集和评估基于互联网的海量数据时遭遇到的各类问题。作为范例,本文介绍Dacura数据维护平台。它被用来协助历史研究者从互联网或者其他数据源收集、分析、维护高质量数据。Dacura使用语义知识图谱技术将数据表示为复杂的、相互关联的知识,在不需要查询表的情况下,允许快速搜索和检索特定数据。Dacura使各种工具的生产自动化,以帮助非专业人士逐步构建高质量的知识库,并从大量数据源里将数据整合进它的知识综合维护模型中。Dacura平台所具有的这些特性,为用户快捷地收集和自动分析来自互联网的资源提供了新的途径。本文将为读者提供一个Dacura平台实际操作的范例:这一平台如何应用于填充和管理Seshat数据库。
(原载于《全球史评论》第十九辑)
当前计算机技术的发展为学者们提供了新的途径对来自互联网的数据进行收集、储存和检索,这为历史科学领域里进行文献综述以及数据收集方法的转型提供了可能。作为一个数据综合维护平台,Dacura系统突出地反映了这一发展趋势的三个方面:第一,它是一种基于知识图谱的数据模型,从而区别于标准的用行与列表达的数据结构;第二,使用网络本体语言(WebOntologyLanguage,OWL)对数据进行定义;第三,具有基于语义推理的自动处理进程,以筛选掉成千上万与研究议题不相关或者准确度存疑的在线和数据库点击量。Ducara的建立与Seshat数据库处于伴生关系,后者的组建旨在协调量化历史和考古学数据,以此用统计方法对历史动态模型进行测试。以下我们将提供具体的范例来介绍Dacura和Seshat数据库,以说明上文述及的计算机科学的进步从哪些方面能够惠及历史研究者的工作。
对于史学研究者来说,未经审核的数据过剩是一个基本问题,而Dacura平台旨在为学者们提供解决方案。举例来说,假设研究者打算收集量化数据来回答某个特定问题,比如夏威夷岛上的人口增长是否先于年左右国家的出现,一个简易的人口压力模型就能做出预测。如果她仅仅在谷歌搜索引擎输入“古代夏威夷人口”,将会得到接近个搜索结果(其中一些涉及现代人口统计数据),而且她也没有简单省力的方法去弄清楚,搜索引擎提供的这么多有关古代夏威夷的信息中,哪些信息是她需要的,哪些信息是可靠的(例如,“古代夏威夷人口”的维基百科页面仅仅提供了估算数据,而且明显地源于单一的信息源;而无法明确地鉴别数据来源本身就是一个严重的问题)。如果这个研究者代之以谷歌学术,检索的结果数量会减少到大约条,尽管她可以指望结果的质量更好,不过鉴别这些论文和学术专著是否与她的问题旨趣直接相关,仍然是个令人生畏的工作。甚至使用JSTOR,这一质量有保证的数据库,也将提供大约篇论文给研究者的筛选工作制造障碍。
上述例子表明目前史学研究者所面临的一个中心问题,互联网和出版资源的开放获取为史学工作者们感兴趣的任何研究议题,提供了丰富的信息和材料,然而这些信息没有质量保证,即便是有质量保障的信息源(比如同行评议的开源出版物),信息量也是过剩的。因此对于研究者来说,希望出现这样一种工具:允许研究者建立自己的高质量的、结构化的数据集,为研究者提供解决问题所需要的材料。这种工具要求一种层级结构的(本体)设计,从而让研究者可以较为容易地挖掘出与他们的研究直接相关的检索结果。这个检索工具应该能精确对结果进行索引,研究者检索夏威夷人口的估算值时——正如我们虚构的研究者试图尝试的那样——不仅可以检索到所有与夏威夷人口估算有关的结果,同时也不会检索到与研究题目不相关的其他统计数据和地点信息。简而言之,这样的检索工具必须能够应用集成的词库或词库集作为基本的检索程序的一部分。
除此之外,还有不少检索工具能够提供这种功能:进行跨领域的快速检索特定的、高质量的信息。仅就考古学领域的检索工具(它的第一位创建者是一名考古学家)而言,eHRAF(HumanRelationsAreaFiles;hraf.yale.edu)就是业内的一个典范。它提供两个文件档案库(分别是民族志档案和考古学档案),使用高精确度的本体——世界文化概览和考古传统概览(theOutlineofWorldCulturesandOutlineofArchaeologicalTraditions),以及丰富的词库集——文化史料概览(theOutlineofCulturalMaterials)。因此eHRAF可以从来自将近45万页的考古、民族志原始和二手史料中实现句段检索,能够使用层级结构和布尔搜索策略,轻易地实现信息的搜索和重构。这些检索结果是具体的,并具有极高的质量和专门性,研究者也可以对之进行数量管理。然而,其检索结果的范围仅限于eHRAF数据库囊括的资料。eHRAF之所以能够提供如此高质量的信息检索,是因为其进行了广泛的信息预处理,拥有博士学位的考古学家对每个文档、甚至每个段落都用本体进行了编码。简要来说,该平台提供的简易的高质量信息搜索和检索,其背后却要求巨大的工作量。这一方面意味着eHRAF平台数据扩充比较缓慢,另一方面平台必须要向用户收费。
tDAF(theDigitalArchaeologicalRecord;