外国档案工作:为网络世界的记忆存档

作者:杨太阳 编译
来源:中国档案报
2017-03-17 星期五
网络内容不会永恒,它们时刻可能被修改和删除,超链接也会过期或消逝在空间中。美国公共广播公司(PBS)的记者日前对互联网档案馆的创始人布鲁斯特·卡尔进行了一次采访,该访谈是“濒危的文化”系列之一。

人们越来越多地通过在线方式记录、更新自己的生活,比如Facebook、Twitter、ins、YouTube等。我们身处于一个“数字(信息)优先、被数字(产品)占据”的世界。这种无限制的数字存储的优点很突出,但这些文件信息的持久性如何?我们应该如何保存数字历史呢?

卡尔介绍道:“互联网档案馆就像一个古老的寺庙在现代苏醒过来一样。最初创立互联网档案馆就是基于亚历山大图书馆(其历史可以追溯到公元前295年左右,是世界上最古老的图书馆之一,收藏了公元前400年至前300年之间的手稿。可惜的是,这座举世闻名的古代文化中心后来被毁,至于是何时和何种原因被毁坏至今仍备受争议)在现代的重生。收集和保存世界的知识——这是一个古老的想法,但在互联网档案馆却成为现实。历经20多年的努力,我们需要具备保存数字历史的能力,建立起一个数字图书馆,对不断扩张的互联网进行必要备份。”

卡尔说,任何人都可以在计算机上设置或登录一个网页服务器,正是因为太简便了所以也很脆弱,如果在任意一台设备上发生问题,网站便会瞬间消失。

网上的信息会不会过期?当然会的。据了解,一个网页的平均寿命只有92天,网页信息会因各种原因被修改或删除。据研究显示,2013年美国最高法院审理案件的超链接中超过一半被破坏了,这种现象为“链接无效”。随着政府机构删除文档、公司破产而注销网站,以及公司结束某项网络服务业务等,其所对应网页和信息均会失效。

艾比·史密斯·拉姆西著有《当我们失去身份:数字记忆重塑我们的未来》一书。她的学术研究生涯始于研究“极权苏维埃制度时期信息是如何被故意删除”。近期,她的关注点转向人们面临的一种新的保存和检索问题。人们误认为因特网上普遍存在的事实是永久的。她认为,数字技术可以让人们在电脑上书写,但是书写的内容不能放在书架上,多年后的随意读取是个困难,更不敢奢望这些信息能够保存500年了。实际上,即便信息本身多年过后依然存在,但由于缺乏相应的软硬件设备,仍旧无法读取使用。尽管网上充斥着大量无用且不值得保存的信息,拉姆西仍感到,我们正在失去属于每个人的历史记录,在某种程度上讲,人们的记忆和身份正遭到破坏性打击。

针对这些,卡尔发起的“时光机”有效解决了部分问题。项目负责人马克·格雷厄姆称,在过去的20年里,5000亿页网络信息被捕获收集下来。通过网络爬虫或者“蜘蛛”软件,进入各个网页及其相关链接并对其归档。通过电脑进入互联网档案馆,用户们可以在浏览不同时期的历史网页,看到网站不断修改和变化的过程。

卡尔指出,作为一个网络图书馆,我们对人们的需求并不关心,我们只想拥有尽可能丰富的馆藏,以备不时之需。互联网档案馆要保存的内容(网页)实际上是取决于受欢迎程度的,比如网页被引用或链接的频率,互联网档案馆与全国约1000名图书管理员和专家合作,来完成归档内容的选取和决定。

举例来说,2014年7月,由俄罗斯支持的叛军声称在乌克兰上空击落了一架军用飞机,最终证实他们击落的是一架客机并导致机上283名乘客死亡。在互联网档案馆留存了当时抓取的网页快照,这是一名叛军成员在俄社交媒体网站上发布的当时关于击落飞机的消息,一共有38条。事后的数小时后,这些内容全被删除了。据了解,互联网档案馆是唯一捕获这部分网页的机构。类似的网页甚至已经在一些案件中被作为呈堂证供,在法院审理中发挥作用。

卡尔指出,我的想法是打造一个亚历山大图书馆的升级版。我们努力将人类所有已公开发表的著作,如书籍、音像制品、网页、软件,甚至24小时不间断的电视节目,提供给世界上任何一个想要利用它们的人,互联网档案馆为人类历史存档和提供所有知识信息的全球获取,这一志向是宏大的。

现如今,互联网档案馆对电影、图书、电动游戏、软件、24小时滚动播出的电视节目进行数字化处理是日常工作之一。

卡尔强调,从亚历山大图书馆被毁汲取的教训是,一定要有备份!如果我们在印度或中国存有经典馆藏的副本,那么就会有更多亚里士多德的作品、欧里庇得斯的戏剧存世了。遗憾的是我们并没有进行备份。

卡尔惋惜地说:“除了那些我们遗失的,我们甚至不知道自己曾拥有过什么,而它们就那样消失了。我确信,有些事的确是忘却比较好,但是有更多东西和事件是值得铭记并要“活”下去的。

卡尔和他的团队任重而道远,目前他们正在和诸如莫泽拉(致力于在互联网领域多样化选择和创新的公益组织)、维基百科等公司合作,提高网页归档的自动化程度。他们还在努力使“时光回溯机”网站更易检索。诚然,在建立一个真正意义上的全球图书馆的过程中,知识产权制度改革是一个重要且常见问题。

互联网档案馆已经运营20年了,卡尔提出了一个质疑:为什么所有图书馆里所有图书没有完成全文数字化呢?他认为,“这些机构对于在未来自己所将扮演的角色不明确。在过去,他们仅购买书籍然后上架,但现在情况不同了,他们有开展数字化服务吗?难道是要在其他机构完成这项工作后才开始订阅服务吗?我希望,到2020年之前,建设美国国会图书馆的完整的在线数字图书馆,不只是停留在口头阶段。这项工作做完了,下一步我们应该考虑如何提供更好的服务,怎样创造一个‘全球大脑’,怎样做才能使获得诺贝尔奖的科学家们充分利用这些海量资源,取得更多新的发现和研究进展。我们现在做的只是刚刚起步,还有数以亿计的信息随时等待被收集捕获”。

相关链接:

布鲁斯特·卡尔是早期的互联网企业家,于1996年着手创建了被称为“时光回溯机”的互联网档案馆。互联网档案馆是一个数字图书馆,定期收录并永久保存全球网站上可被抓取的信息,旨在将互联网上的存档信息提供给希望检索的人;同时还是一个记录保存了数十亿网页的非营利性数字信息资源档案库,面向全球用户免费公开其收集到全部互联网信息。

互联网档案馆位于美国旧金山普雷西迪奥的芬斯顿大街300号,这是一座希腊文艺复兴式的宫殿式建筑,拥有黄铜制的大门和象征圣洁的白色外墙,原来这幢建筑是基督科学教会所在地,卡尔的团队之所以选中这个建筑,是因为它形似互联网档案馆的标识(logo)——一座白色的希腊神殿。

原载于《中国档案报》2017年3月16日 总第3040期 第三版

发表评论

电子邮件地址不会被公开。 必填项已用*标注