《基于文档型非关系型数据库的档案数据存储规范》解读

作者：聂曼影

《基于文档型非关系型数据库的档案数据存储规范》（以下简称《规范》）（DA/T 82—2019）由国家档案局于2019年12月16日发布，2020年5月1日起正式实施。《规范》规定了使用文档型数据库存储档案数据的总体要求，提出了使用文档型数据库存储和管理档案数据的基本功能和实施方法，适用于各级各类档案馆、机关、团体、企事业单位对档案数据的存储。

编制背景

随着数字档案馆（室）建设的推进，馆藏传统载体档案数字化普遍开展。2018年，国务院发布了《国务院关于加快推进全国一体化在线政务服务平台建设的指导意见》，“互联网+政务服务”“一网通办”在全国深入推进，档案馆面临最直接的问题就是如何高效、快速、敏捷地对接各种业务系统，并且完整地收集、归档、保存各类业务数据。

目前，我国档案部门大都采用关系型数据库存储和管理档案数据。关系型数据库对数据的规范性要求高，能够很好地管理和存储结构化数据，但对数据结构复杂类型多样的非结构化数据的存储和管理存在诸多局限。据统计，档案数字资源中非结构化数据占据绝大部分，未来还将出现爆炸性增长。有效存储、管理、利用非结构化数据是档案工作者必须面对的课题。历时3年，国家档案局档案科学技术研究所于2016年完成了“基于非关系数据库的电子档案存储规范研究及系统实现”国家档案局科技项目，在该项研究成果的基础上，向全国档案工作标准化技术委员会提交了《规范》的立项申请，旨在解决大规模档案数据集合多重数据种类带来的挑战，优化档案数据存储，推动档案数据科学管理。《规范》被列入2017年档案行业标准制修订项目计划。

编制思路

《规范》主要以问题与需求为导向，充分考虑档案数据体量大且增长快、类型繁多且结构复杂的特点，切实从我国档案数据管理实际需要出发，详细阐述文档型非关系型数据库存储和管理档案数据的技术要求、基本功能和实施方法。注重适用性、规范性、开放性、互补性，着重先进性与可操作相结合，使其利于实施。

主要内容解读

《规范》分10章和2个资料性附录，涵盖了使用文档型数据库存储档案数据所涉及的各个工作环节，构成一个内在关联的整体，能够起到规范使用文档型数据库存储档案数据的作用。

1. 术语与定义

《规范》规定的“内容数据”“非关系型数据库”“文档型数据库的拆分”以及“文档型数据库的合并”术语和定义属于国内外首次提出。

2. 文档型数据库字段

《规范》提出的字段类型是为了适应不同的内容数据格式以及元数据需要。文档型数据库字段类型包括字符串、数值、日期、时间、文本、二进制等，其中文本字段用于存储文本中的句子和段落，包括从电子文件中抽取的文字信息（或称文本数据），二进制字段用于存储任何类型的字符，包括ASCII字符以及图像、视频、音频等二进制数据。文档型数据库允许创建不同类型的字段，存储任意格式的数据。采用文档型数据库，能够简单地将不同类型、不同格式的档案数据装入数据库或映射到数据库。

3. 文档型数据库存储

《规范》提出，文档型数据库的存储对象是内容数据和元数据(含目录数据)。内容数据是电子档案和传统载体档案数字化副本的固有信息。存储方式之一是将内容数据和元数据全部装入数据库，按照与元数据的匹配关联关系，内容数据存储在二进制字段中，不是挂接在数据库上；多种格式的内容数据可装入同一数据库，不同记录（行）的内容数据的格式可不同；同一条记录可存储一个或多个内容数据，同一条记录（行）中多个内容数据的格式可不同，这些是文档型数据库存储内容数据的显著特点，也是《规范》制定的重点之一。关系型数据库的优势在于能够很好地管理和存储结构化数据。鉴于关系型数据库和文档型数据库各自的特点和优势，档案部门可以将文档型数据库、关系型数据库共同作为档案数据存储和管理的工具。

4. 文档型数据库的拆分与合并

当内容数据全部载入数据库，数据库会迅速变大。当数据库容量超过备份介质容量时，就难于对数据库整体进行备份，需要将数据库拆分成若干个小容量的数据库才能进行备份，数据库拆分是《规范》制定的另一个重点。《规范》给出了文档型数据库拆分的确切定义：一个数据库被分成若干个数据完整的子数据库。数据库拆分的方法是以数据库中的记录为单位进行拆分，通过数据库中的记录号、记录的容量或检索和统计分析从原数据库中提取相应的记录，按顺序将记录导入各子数据库。每一条记录是一组完整的相关信息，包括内容数据及元数据，保证子数据库中各记录的关联数据完整。数据库拆分可以部分拆分，数据库拆分生成的子数据库结构与原数据库结构可以不同。

数据库合并是数据库拆分的逆操作，是若干个子数据库合成一个数据完整的数据库。数据库合并的方法是以子数据库中的记录为单位进行合并，通过各子数据库中的记录号、记录容量或检索和统计分析从各子数据库中提取相应的记录，按顺序将记录导入一个数据库。数据库合并可以合成子数据库中的部分，记录数据库合并形成的数据库结构与子数据库结构可以不同。

5. 数据库备份与还原

文档型数据库备份的内容应包括数据库数据、数据库结构和数据库定义文件，应按照数据库结构（字段）备份数据库数据。离线备份是文档型数据库备份的重要方法，是《规范》制定的第三个重点。离线备份的存储介质有磁盘、固态硬盘、光盘等，其存储容量有限。当数据库容量大于备份介质容量时，需要将数据库拆分成容量小于备份介质容量的若干个子数据库，每个子数据库结构与原数据库结构相同，且保证各子数据库中记录的关联数据完整，然后将各子数据库分别备份到备份介质上。采用这种拆分备份数据库的方法，可以直接在子数据库中完成该记录范围的数据检索和查询，不需要对同一记录的不同字段数据在各子数据库间进行数据检索，保持了各子数据库的数据完整性。同时，保留原有的访问控制策略，保证了原数据库的完整性。当数据库的容量小于备份介质的容量时，无需对文档型数据库做任何处理，直接对数据库整体进行复制备份即可。

针对数据库拆分备份的数据库还原，《规范》提出合并还原的方法：(1)在新建数据库系统合并全部子数据库数据，然后将合并形成的数据库数据还原到原数据库系统。(2)在原数据库系统中合并还原全部子数据库数据。

6. 检索与统计分析

随着信息技术的发展和档案数据利用的需要，利用检索和统计分析从数据库中提取相应的记录进行数据库拆分和数据库合并，《规范》提出2个资料性附录：检索和统计分析。

(1)检索

检索的内容包括：中文自动分词与中文分词词典、索引、检索。为提高文档型数据库中档案数据的查准率和检索速度，实现对中文内容的统计分析，应对内容数据和元数据的中文信息进行中文自动分词，并根据不同的档案门类编写相应的中文分词词典。中文分词词典是词的集合，中文自动分词是一种基于规则和词典并能够自动进行分词的方法。规则教系统如何读数据，词典告诉系统所读数据是不是一个单词。在档案数据装入数据库时自动调用分词程序，在入库的同时扫描入库字串，将其切分成供查找和统计分析应用的中文单词。

随着《纸质档案数字复制件光学字符识别（OCR）工作规范》的发布实施以及电子档案管理日渐成熟，为档案数据全文检索奠定了基础。全文索引是档案数据快速检索的有效手段。内容数据装入数据库时抽取的文字信息存储在文本字段，对文本字段每个字、词、词茎进行全文索引。

中文词汇中有许多同义词，典型的例子是政府部门大多有现用名称、多个曾用名称和简称，如果用其中一个名称作为检索词查找，会严重影响档案数据的查全率；如果用全部名称和简称作为检索词查找，需要采用逻辑“或”，即设置多个检索条件进行检索，这会影响检索效率。为保障档案数据的查全率、查准率，提高检索质量和检索效率，词表检索是强有力的手段。词表检索是用词表库中的词及词之间的逻辑关系对数据库中的文字信息进行检索。逻辑关系包括：主词（控制词）、同义词、广义词、狭义词和相关词，它们既可以是中文的词，也可以是其他语种的词。政府部门的现用名、曾用名称和简称属于同义词，如果用其中一个名称作为检索词查找，会用全部同义词进行查找。

(2)统计分析

档案数据的统计分析对象是内容数据和元数据的文字信息，能够按照字段类型进行统计分析。字符串字段统计分析是对整个字段内容和字段中的词汇（包括词、单字、数字等）分别进行统计分析，例如：对归档部门、题名、发文单位、责任者进行统计分析，获得归档部门、题名、发文单位、责任者的数量和分布。文本字段统计分析是对文本字段中的词汇进行统计分析，给出不同词汇出现的频度和记录数，例如：统计分析不同年份或不同时期国家档案局优秀科技成果材料中不同词汇出现的频度。

《规范》确定采用文档型非关系型数据库存储和管理档案数据的技术要求、基本功能和实施方法具有很强的技术指导性和可操作性，为档案部门优化档案数据存储、推动档案数据科学管理提供了有力支撑。同时，《规范》填补了相关标准的空白，对顺应在线政务服务的趋势、主动对接政府数字化转型、实现单套制归档单轨制管理目标具有重要的现实意义。