
编者按:“十四五”期间,为深入贯彻落实习近平总书记对档案工作的重要指示批示精神,推广档案信息化建设创新成果与先进经验,助力档案事业高质量发展,国家档案局组织开展了档案信息化创新案例征集工作,我省报送的4个案例从全国报送的328个案例中脱颖而出,成功入选全国档案信息化创新案例。
摘要:为破解进馆档案数字化成果质检难题,杭州市档案馆创新引入人工智能技术,构建档案智能质检体系。通过开发智能化预检工具,实现档案数据源头自检;构建AI质检模型,自动生成著录信息并与数字化成果进行多维比对,形成闭环复核机制;建立动态化质量管控体系,实时预警错误率阈值。该体系成功推动杭州档案质检模式由传统的“有限人工抽检”向“全量智能核查+人工精准复核”升级,显著提升了质检效率和成果质量。
一、业务场景
随着档案事业的快速发展,杭州市档案馆每年需接收进馆档案25~30万卷(件)。在传统工作模式下,这些档案数字化成果的质量检查完全依赖人工逐条核查,面临着严峻的挑战:质检效率瓶颈、档案质量隐患、人力资源压力。档案质检一度成为档案接收进馆过程中的一个堵点。为破解这一难题,杭州市档案馆自2023年起创新性地引入人工智能技术,采用OCR(光学字符识别)、NLP(自然语言处理)和LLM(大语言模型)构建档案智能质检体系。通过对档案内容进行数据化、标签标引、信息抽取后自动生成档案著录信息与数字化成果进行比对,大幅减少人工检查的工作量和错误率,提高档案质检的效率和质量,打通档案进馆流程中的堵点。
二、主要做法
1.开发智能化预检工具,实现档案数据质量前置管控。针对档案数字化成果中常见的逻辑性问题(如案卷目录总件数与卷内文件件数不符、文件页数与数字化原文页数不一致、档号与全宗号/年度/保管期限/件号逻辑冲突、文件级目录与数字化全文无法匹配等),开发轻量级智能化质检工具,基于自动化校验技术对关键数据逻辑关系进行智能比对与纠错。进馆单位可在数据送检前利用该工具进行自检,并根据系统自动生成错误报告针对性进行整改。同时建立“预检-整改-准入”机制,要求所有送检数据必须通过预检工具的合规性检测,方可进入正式质检流程。从源头把控数据质量,减少重复性错误,提升整体质检效率。
2.构建AI档案质检模型,实现智能复核与迭代优化。基于杭州市档案馆《OCR+NLP技术在档案数据化中的研究与实践》项目成果,构建档案质检模型。一是综合应用OCR文字识别、NLP自然语言处理、LLM大语言模型实现档案内容的结构化解析;二是通过数据化处理、语义标签标引及关键信息抽取,自动生成标准化著录信息;三是将档案质检模型生成的著录数据与原始数字化成果进行多维度比对,自动标注差异项并生成待复核清单;四是人工根据具体错误定位进行复核确认,形成完整的质检报告清单。进馆单位可根据质检报告清单对档案数据进行相应整改。档案质检模型支持按质检批次进行多轮次复核,复核时可根据上一次整改要求进行智能审核是否完成整改。形成“检查-反馈-整改-验证”的完整质检闭环。
3.建立智能化质量管控体系,强化档案数据源头提质。建立动态智能预警机制,当质检错误率达到20%阈值时,系统将自动冻结该质检批次并启动全量退回流程;对同一批次档案累计质检退回超过3次的,本年度将不再受理该批次档案的送检申请。系统记录每批次档案的送检时间、质检完成时间、错误率、整改时间等关键指标,并与档案中介服务企业的项目信息进行智能关联,作为中介服务机构质量评价体系的核心考核指标。通过该机制的实施,有效提升企业对数字化服务质量管理的重视程度,促进服务质量持续改进。
三、技术应用
1.智能版面分析OCR技术。突破传统OCR算法只识别出图像中字符信息的局限,杭州市档案馆在对图像进行OCR处理时创新性采用“版面分析+坐标定位”双引擎识别架构。通过深度学习算法将档案图像智能划分为文本区、表格区、图像区等语义区块。在字符识别过程中同步嵌入二维坐标信息,建立文字内容与空间位置的映射关系。基于版面坐标体系实现表格数据的结构化重建(如跨页表格关联)、文档层级推理(如标题与正文的隶属关系),显著提升档案原文的机器可读性,为模型的信息抽取提供更精准的内容。
2.多模态档案实体识别技术。构建“文本+布局”的档案质检模型,以BERT-BiLSTM-CRF为基础框架,引入LayoutLM的版面编码器,形成文本特征(字符语义)与视觉特征(版面位置)的跨模态融合。通过联合训练从档案内容中提取关键要素,如精准提取公文类档案中的文件标题、发文字号(位置敏感型要素)、落款签章、发文日期(图文混合型要素)等,出生医学证明类档案中的新生儿姓名、父母亲姓名、身份证号、出生医学证编号等。
3.知识库驱动的著录规则引擎。建立档案著录知识库与档案质检模型的协同工作机制。模型在对档案进行智能分类(如批件办理类)后,调用对应的著录规则知识库把抽取识别的档案关键要素按规则转换生成标准的档案著录信息(如抽取的是“文件标题”、“批件人”、“案由”,转换规则为“文件标题:批件人对案由的批示”)。转换生成的著录内容与待检数据进行语义级比对(非简单字符串匹配),以提高模型质检的准确率,减少人工复核的工作量。
四、主要成效
1.质检效率显著提升,档案进馆周期大幅缩短。通过持续优化档案质检模型的参数与算法,结合人工智能技术,实现了质检效率的突破性提升,有效缓解了传统人工质检的瓶颈问题。以出生医学证明档案为例,杭州市档案馆2023年进馆档案数据中出生医学证明有171986件。如沿用传统人工逐条检查开展质检工作,由三人组成的质检小组需要将近7个月的时间完成首轮全量初检。借助于档案质检模型,人工对1440件合格数进行抽查审核和23460件不合数全量审核,包括模型质检时间和人工质检时间1个月左右即完成首轮全量初检,效率提升6-7倍。普通文书受限于部分档案要素的OCR识别准确率及知识库覆盖范围,其召回率与F1值略低于结构化档案(如出生医学证明),但模型仍能精准识别大部分有效字段,人工仅需重点核查异常项,效率提升3-4倍。
2.质检质量全面提升,标准化与精准度双突破。人工智能技术的应用不仅提升了质检速度,更在数据规范性、错误识别率及图像质量等方面实现质的飞跃。依托档案著录知识库,模型对所有进馆档案执行统一质检标准,消除传统模式下因工作人员业务水平差异导致的质量波动。通过OCR识别与系统比对,快速定位著录中的错字、多字、漏字问题,较传统人工逐字检查减少90%以上的漏检率。通过图像质检模型,自动识别数字化成果中低分辨率、倾斜、污损或黑边图像,确保数字化图像符合归档要求。
杭州市档案馆通过人工智能质检模型的深度应用,构建了“智能为主、人工为辅”的现代化档案数字化成果质检体系,推动档案质检模式从“有限人工抽检”向“全量智能核查+人工精准复核”转变,实现效率提升、质量保障和成本优化,为加速档案数字化成果质检打造“杭州样本”。