首页
产品中心
资讯动态
帮助中心
生态合作
律师入驻
人才招聘
关于我们
APP下载
登录
免费注册
动态资讯>详情页>

科普专栏 | 多重检索模型助力解决法律领域检索难题

2023-02-22 00:00:00




编者按

Editor's note




本公号现正式推出科普专栏,通过系列专业性文章向大家讲述法律科技产品的技术来源以及人工智能技术在法律科技领域的应用,期待与各位法律从业者以及法律科技行业的同仁们切磋交流,共同进步。

本文共2104字,阅读时间约为8分钟。



文本匹配是自然语言处理中的一个核心问题,很多自然语言处理的任务都可以抽象成文本匹配问题,例如信息检索可以归结为查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配。针对不同的任务选取合适的匹配模型,提高匹配的准确率成为自然语言处理任务的重要挑战。

摄图网_401154154_banner_科幻城市芯片(企业商用).jpg

文本匹配系统总体上分为三个部分:查询处理部分、粗排召回部分和精排部分组成。其中查询处理部分根据需求对用户输入的查询文本进预处理,最终生成检索领域专用语言,输入粗排召回部分的检索数据库。粗排召回部分由检索数据库和粗排召回模型组成。检索数据库采用倒排索引数据结构,该种数据结构可以极大地降低检索时精准匹配召回操作的时间复杂度。粗排召回模型一般与检索数据库中的对应数据结构相结合,从大规模数据中实现高速的数据召回,输出小规模的候选集后到精排部分。精排部分包含精排模型,负责对候选集合进行精确排序,将与用户输入查询最相关的数据优先呈现给用户。示意图如下:

科普推文二1.png




01

传统检索模型

传统检索模型的特点为使用人工构造的匹配特征,基于这些特征建立查询文本和文档的相关性的数学模型。


最常用的查询文本与文档的匹配特征为词频数、文档频数、文本长度。最具代表性的模型有:词频数-逆文档频数(Term Frequency–Inverse Document Frequency,TF-IDF)模型、BM25(Best Match 25)模型等。TF-IDF的思想为:一个单词与文档的相关程度与其在文档中出现的的频数(TF)成正比、与语料库中包含该词的文档数(逆文档频数,IDF)成反比。因此一个单词与文档的相关度表示为TF×IDF。BM25在TF-IDF的基础上做出了改进,(1)通过超参控制词频数的上限,解决词频无限增长的问题;(2)通过超参数控制文章长度对相关度得分的影响。BM25模型由于其简单、快速、有效和可解释性较强的特点,至今仍被大多数检索系统所采用。


BM25模型存在一些问题:第一,特征过于简单,语义理解能力不强。基本思想都为将文档建模为一个“词袋”模型,其语义仅与词袋中的词汇数量有关,忽略了词与词之间的位置关系。但在自然语言中,词汇之间的位置关系也是一个重要的语义特征,这就导致模型在较为精细的语义检索任务上效果较差。第二,容易受到噪声的干扰。因为BM25依赖于人工设计的特征,当查询文本或文档中含有一些噪声,如无意义的虚词、标点符号等,就会导致词频、文档长度等特征提取不准,从而导致相关性得分计算不准。虽然通过过滤停用词等技术使得噪声的影响有所减少,但仍难以避免。

摄图网_402423020_banner_科技互联智能创意背景(企业商用).jpg




02

深度检索模型

深度检索模型根据模型本身的结构特点,可以分为基于交互的检索模型和基于表示的检索模型。


基于表示的深度检索模型,利用了深度神经网络模型分别提取查询文本和候选文档的语义特征向量,将它们从语义空间映射到向量空间,然后利用向量空间中向量之间的关系计算相关性得分,常用的方式有:向量间的余弦距离、向量间的欧几里得距离、向量间的内积等,或者定义更复杂的相关性得分计算函数。


基于交互的深度检索模型相对于基于表示的模型,将查询文本和候选文档同时输入同一个深度神经网络,而不是分别单独输入,目的就是为了满足非常精细化的语义匹配的需求,利用深度学习强大的特征提取能力,直接提取交互特征,最终输出相似度得分。

科普推文二2.png

如上图左所示,基于表示的检索模型,将查询文本Q和候选文本D分别输入特征向量提取模型Φ,得到特征向量vQ、vD。如上图右所示,在基于交互的模型中,查询文本Q和候选文本D同时输入同一个模型 ϕ 提取交互特征向量x,然后经过输出网络fout(x)得到相关性得分。


随着预训练语言BERT的出现,大部分的深度检索模型采用了基于BERT或BERT变体的框架。模型通过掩膜语言模型(Masked Language Model,MLM)(可理解为完型填空)任务在大量的无监督语料上进行预训练,从而预先学习丰富的文本语义特征。基于“预训练+精调”的BERT模型训练范式,简称精调(Finetune)范式,使得许多自然语言处理任务效果得到了明显的提升,如文本分类、序列标注、文本生成等,在众多垂直领域得到了广泛的应用,例如法律,专利等。

摄图网_400344174_banner_维科幻科技能量场景(企业商用).jpg

法律领域中有多种任务可以归结为文本匹配问题,例如案例检索,法规检索,智能问答等。在处理实际的任务时,需要根据数据特点和数据规模选择合适的模型和系统架构。例如在类案检索中,整体架构分为三个部分:数据处理部分、粗排召回部分和精排部分。数据处理部分包括分词、生成词向量、生成文本向量等步骤。粗排召回的方式可以采用多路召回,例如使用基于向量的召回方式和基于词频统计的召回方式相结合。每一路召回需要尽可能的保持独立性与互斥性,从而在保证各路能够并行召回的同时,增加召回的多样性。精排可以采用基于表示的方式也可以采用基于交互的方式。根据案例文本很长的特点,为了避免截断数据带来的信息丢失问题,可以选用专门处理长文本的模型,例如BigBird。也可以采用分段交互最后再聚合的方式,例如BERT-PLI。




D L S


结  语

目前大多数法律案例或文本检索系统都具备三个部分,有些省去了精排部分,直接使用基于词匹配或者向量匹配的召回模型的排序结果作为最终的输出结果。根据以上描述,法律案例检索系统的核心技术主要为相关性排序模型。粗排召回部分多采用传统的检索模型与深度检索模型相结合的方式。精排模型多采用基于BERT或BERT变体的深度检索模型,实际使用时可采用基于交互的检索模型或基于表示的检索模型。


- 完 -






相关知识
裁判观点 第111期 | 一文速览最新发布18批典型案例及5条裁判要旨 法律商机周盘点丨深圳4项法律顾问项目密集招标,最高预算127万元;紧急标讯七项目7日内截标 调研100家英美律所:律所究竟在使用什么AI工具?纽约一法律研究平台推出“命题搜索”获400万元融资丨法律科技简讯 讲座分享丨法律 AI的“最后一公里”: 技术落地为何需要律师主导? 裁判观点 第110期 | 一文速览最新发布7批典型案例及5条裁判要旨
得理产品
得理法搜
查看更多
法律数据新一代智能引擎
得理律助
查看更多
专为律师打造的智能助手
得理法问
查看更多
"AI+律师"一站式法律服务

在线客服

关于我们

  • 公司简介
  • 企业文化
  • 企业荣誉
  • 律师入驻

得理产品

  • 小理AI
  • 得理法搜
  • 得理律助
  • 资讯动态

联系我们

  • 咨询热线:0755-26907610
  • 投稿邮箱:admin@delilegal.com
  • 公司地址:
    深圳市丨南山区
    香港中文大学深圳研究院
    2层201、210、211室
得理公众号
得理微信客服
Copyright © 2024 深圳得理科技有限公司版权所有
粤公网安备 44030502009348号
粤ICP备18045616号-2