
编者按:“十四五”期间,为深入贯彻落实习近平总书记对档案工作的重要指示批示精神,推广档案信息化建设创新成果与先进经验,助力档案事业高质量发展,国家档案局组织开展了档案信息化创新案例征集工作,我省报送的4个案例从全国报送的328个案例中脱颖而出,成功入选全国档案信息化创新案例。
摘要:案例以数字化深度转型为抓手,推动人工智能等新技术与档案馆业务工作深度融合,提升省域档案数字资源治理科学化、精准化、协同化水平。一是以档案惠企惠民为突破口,利用“大模型+知识库”探索档案知识化的工作路径。二是基于大模型探索档案数据智能标签标注、专题数据库、知识图谱建设的技术路径,构建档案数字资源治理的新范式。三是鼓励相关企业入馆开展智慧档案应用场景的先行先试,推动AI与档案业务的有效结合,提升工作效能。
一、案例背景
为加快全省各级综合档案馆数字化深度转型,推动人工智能等新技术与档案馆业务工作深度融合,推进档案数字资源规范有效治理,浙江省档案馆以档案数字化深度转型工作为抓手,探索档案数字资源数据化、知识化、价值化新方向,推动大模型在档案部门落地部署,加快档案数据仓和知识库建设,打造一批具有辨识度的大模型赋能档案数字资源治理场景,提升省域档案数字资源治理科学化、精准化、协同化水平,助力全省档案工作高质量发展。
二、主要做法
(一)聚焦实战实效,搭建档案智能知识库。完成了DeepSeep大模型私有化部署,利用“大模型+知识库”,采用RAG(检索增强生成)技术,在馆内开发上线了智能办公知识库系统,采用公共知识库和个人知识库的双库架构,构建面向办公场景的智能知识库系统,实现办公和个人文档知识的精准检索与高效利用。聚焦企业、农业两大领域,会同省档案局共同开发了浙档惠企、浙档惠农的档案政策知识库系统,在浙江档案服务网上线运行,帮助企业和农户规避潜在政策风险,降低经营成本。
(二)聚焦规范先行,构建档案资源治理体系。建设档案多模态数字资源治理平台,利用大模型强大的语义分析理解、深度学习能力,对文书、照片、音视频等多模态档案数据进行清洗与标准化,开展馆藏档案数字资源质量整治。以数据与实体数量一致、内容正确、目录准确为目标,制定工作方案,应用先进技术,高效提升存量档案数字资源的数据质量,夯实数字化深度转型的数据根基。
(三)聚焦价值挖掘,开发高质量档案数据产品。根据档案编研、档案宣传等工作需要,创建以馆藏档案数字资源为基础的馆藏档案数字资源多元主题库;加强馆藏档案数字资源的分级分类管理,探索打造“良渚文化”等馆藏档案数字资源多模态专题库;挖掘馆藏档案内在知识联系,抽取档案中的人物、时间、事件、主题和机构等要素及相互关系,构建“实体—关系—实体”的语义三元组,创建档案专题知识图谱,助力打造“浙档”文化品牌,推动档案工作社会影响力的提升。
(四)聚焦AI赋能,打造智慧档案应用场景。优化人工智能辅助档案开放审核场景。利用“大模型+规则库”的“白盒”方式,构建大模型辅助档案开放审核框架,形成机器初审辅助、人工复审确认的档案开放审核路径,实现档案开放审核工作提质增效。探索大模型辅助档案资政编研场景。开展大模型在档案资政编研工作全周期各阶段嵌入的可行性研究,构建大模型辅助档案资政编研框架,研究开发资政编研素材库自动生成、自动文字润色、自动提纲生成等辅助编研功能,协助资政编研人员开展工作,推动资政编研工作效率提升。
三、取得成效
(一)形成档案数字化深度转型工作路径。通过全省档案数字资源的统筹归集和大模型底座的统建部署,形成全省共建共享的工作格局。一是依托政务云资源,部署政务外网档案数字资源大模型应用底座,利用开放档案资源搭建全省共享的开放档案知识库。二是在省馆局域网建设算力,逐步归集全省的档案资源,分步建设全省档案知识库,搭建全省档案的统一知识库,实现普惠共享。三是统筹智慧档案场景打造,省档案馆统筹协调,各级档案馆积极参与,以“大馆带小馆”的工作机制,鼓励各档案馆根据数字化深度转型的工作部署,先行先试,推广“一地创新、全省共享”的建设模式,逐步将智慧档案场景应用组件化、工具化,建设档案AI工具箱,全面赋能全省档案业务工作。
(二)构建档案数字资源治理范式。针对档案数据体量庞大、分类分级标准不健全、人工治理效率低等难题,通过“大模型预处理+人工复核”和“规范+技术”双维治理模式创新,探索建立主题标签、实体标签和文件类型等多维度的档案标签体系,通过大模型的语义分析和理解能力,采取智能标注策略,从档案文本中提取关键信息,开展数据半自助标注,通过档案多维标签的分类和聚类,突破档案知识流动的固化边界,打造互联、灵活、高效、准确的档案数字资源治理体系,为档案数字资源的高效利用打下基础。
(三)推动了档案价值的释放。利用大模型技术,挖掘档案数字资源富矿,打通档案数字资源的数据化比例不高、结构化程度不足、知识化水平不够等工作堵点,打造档案知识问答、辅助开放审核、智能标签标注等一批具有辨识度的大模型赋能档案数字资源治理场景,推动低密度高价值的档案数字资源开发利用。探索了以各级综合档案馆馆藏档案数字资源为基础,建设多样化的档案专题数据库、业务知识库、分类知识图谱,深度赋能多元化的数字政务场景和便捷查档服务,推动数字化应用与党委政府中心工作和经济社会现实需求同频共振、融合发展。