历史对书面文字的依赖性极强,然而书写介质的物理退化使得许多古代文本残缺不全。在人类专家难以解决这些问题时,人工智能(AI)模型作为一种现代的“天降神兵”(deus ex machina)出现,为重建失落的文本提供了可能,并已取得了令人瞩目的成果。
AI 在解读和重建古代文本方面展现了巨大潜力:
拉丁和古罗马铭文:
Aeneas 模型:Google DeepMind 的研究人员开发了名为 Aeneas 的模型(以罗马神话祖先命名),专门用于处理拉丁铭文。
填充缺失文本:Aeneas 能够预测拉丁铭文中缺失的文本片段,甚至可以处理长度不确定的空白部分。尽管在处理不确定长度的缺失文本时,其前 20 个预测中包含正确片段的准确率(32.7%)低于处理已知长度文本时的准确率(46.5%),但夏洛特·塔普曼(Charlotte Tupman)博士认为这仍是“一次重大飞跃”。
年代和地理来源预测:Aeneas 还能为拉丁铭文样本提供可能的年代和地理来源建议。在测试中,它能将未曾见过的文本的年代精确到与公认数字相差 13 年以内。
古希腊文本:Google DeepMind 的 Ithaca 系统,在 78,000 份古希腊铭文上进行训练,在恢复受损文本方面取得了 62% 的准确率,远高于人类专家单独工作的 25% 准确率。当人类专家与 AI 合作时,准确率更是提升到 72%。
碳化卷轴和更多语言:AI 已经协助完成了从拼凑破碎的巴比伦泥板到破译中国古代龟甲上的文字等任务。最突出的例子是 AI 爱好者利用高分辨率扫描,数字化展开了公元 79 年维苏威火山爆发时被碳化且无法打开的赫库兰尼姆纸莎草卷轴,这一突破被视为一项“技术奇迹”,解决了近 2000 年来被认为不可能实现的任务。研究人员还在开发针对埃及象形文字(已实现 44% 的缺失符号预测准确率)、玛雅文字、阿拉米语文本和中国手稿的专业系统。
然而,老托尼曾提到的“拼接错误和误读缺失部分”的担忧是完全合理的,这正是 AI 在古代文本重建中面临的核心挑战和局限性:
“幻觉”问题:AI 系统可能自信地生成从未存在过的、看似合理但实际是虚假的信息,这被称为“幻觉”。在文本修复任务中,这表现为 AI 发明听起来合理但从未存在过的文本,造成“好得不像真的”情景。
“循环推理偏见”:由于 AI 系统(如 Ithaca 和 Aeneas)是在包含学者既有修复和解释的数据库上训练的,它们有固化历史偏见的风险,而非发现新真相。意味着如果 19 世纪的碑铭学家基于他们对古代社会的假设来填补空白,这些假设就会被嵌入训练数据中,从而形成一个强化既有解释的反馈循环。
关于《红楼梦》失落的 40 章:
《红楼梦》的案例提供了一个关于 AI 局限性的严峻教训。尽管使用了复杂的语言模型和精细调整,尝试重建该小说失落的 40 章所产生的结果范围从“令人失望的公式化”到“荒谬的时代错乱”。
AI 无法捕捉到小说中“错综复杂的故事情节”、“草蛇灰线”式的伏笔以及“深刻的哲学深度”。当测试时,AI 模型产生的章节大纲看似合理,但经检查后却暴露出严重的缺陷:它们复制了零碎的证据而不理解语境,遗忘了主要情节,并逐渐将微妙的心理剧变成“科幻小说风格”。
这突出表明,即使 AI 能够完美模仿古代作者的写作风格,其结果也可能不具备“真实性”,因为文学创作不仅包含语言模式,还包括作者的生活经验、文化知识和艺术愿景,这些都源于人类意识而非统计分析。