12月4日,“AI+法律”服务助力企业高质量发展专场活动圆满结束,深圳得理科技有限公司首席技术官、联合创始人雷宇先生受邀进行主题分享。
雷宇先生带来了“法律大模型的应用”的主题分享,指出法律大模型相较于基础大模型的独特优势,并深入探讨了其在多种法律业务场景下的实际应用。
以下为主题分享内容,经过编辑整理。
通用大模型VS行业大模型
在近两年的“百模大战”中,国内出现了众多大模型,如百度的文心一言、阿里的通义千问、腾讯的混元、科大讯飞的星火模型以及初创公司推出的智谱AI、Kimi等。在各垂直领域如医疗、金融、教育等也出现了各种不同的行业大模型。
关于基础大型人工智能模型,市场上既存在开源版本也存在闭源版本。开源模型依据其授权协议,用户通常可以直接使用;而闭源模型则可能提供接口供第三方进行调用。
鉴于已有的基础大模型,是否还有必要开发法律大模型?
(图源:腾讯研究院)
通用大模型可以看作是一个通才,其特点在于参数规模庞大和泛化能力出众,能够提供广泛的回答。
但企业和用户需要的是能够实打实解决复杂决策任务、有效提升工作效率和生产效率的工具。在金融、医疗、法律等特定专业领域,基础通用大模型往往难以满足深层次的需求。
因此,有必要将大模型定制化为特定的行业大模型,即通过引入行业数据并对基础大模型进行针对性优化,以构建行业大模型。这样的行业大模型不仅具有成本效益高、专业性强的特点,还能实现私有化部署,确保数据安全。
行业大模型的优势(以法律大模型为例)
01
专业知识深度与精度
02
行业特定任务优化
03
合规性与安全性
04
可解释性与可信度
05
生态整合
得理科技已积累了超过8亿的各类法律数据,涵盖案例法规、知识政策、域名专利以及大量用于AI训练的标注数据,这些数据构成了训练大模型的基础。训练过程分为三个阶段:
01
预训练
02
微调
03
模型价值对齐
在资深律师及专业法律人士的专业指导下,引导模型精准判别可接受的回答内容范畴,确保其输出成果契合既定价值导向与规范要求,有效规避不合规信息的产生,从而实现法律大模型在应用与功能层面的优化与完善。
此外,为确保模型输出的正确性与可靠性,大模型采用生成式与检索式相结合的模式,在提供专业法律问题解答的同时精准引用法条与案例,以此保障严谨性。法律大模型的训练阶段除了对算力和数据等硬性要求外,对知识专业性的要求同样很高。行业模型在训练过程中强烈依赖于行业专业人士的介入,这也相应提高了数据标注的成本。
智能法律检索
01
语义检索
02
智能摘要
03
案情预测
智能法律文本
01
法律文书起草
02
合同起草审查
03
文本分析
智能法律问答
01
法律问题咨询
02
政策合规咨询
03
法律风险评估
律师智推
目前开发的得理智慧法律系统已应用于多个领域:针对律所的数智系统,包括智能办公、智能检索、案源智推、智能文书等功能,旨在帮助律师律所实现数字化转型,并逐步向智能化方向发展;针对政府单位的法律数据智能系统,包括裁判文书智能分析,专业数据库等功能;针对企业智慧法务服务平台,涵盖知识产权、AI律师顾问、合规性检查与合同管理等功能;针对个人用户,提供法律咨询服务,并搭建连接律师的平台。
安全风险成因
在大模型数据准备阶段,生成式模型依赖于大规模的训练数据,这些数据源包括维基百科、电子书籍、网络数据等。由于数据来源多样,可能会包含与人类价值观不一致或彼此冲突的内容。
在预训练阶段,大模型采用自监督的方式进行训练,模型根据已有文本预测下一个词。由于大模型学习到的知识具有显著的概率特性,因此生成的内容存在不确定性和不可控性。
安全规范
-
数据安全性与隐私保护 :确保训练数据来源的合规性,避免使用非法或侵权数据,包括知识产权和著作权侵犯问题。对数据进行必要的脱敏和匿名化处理,以保护用户隐私,并采用加密技术保护数据在传输和存储过程中的安全。 模型可解释性与透明度:对于关键应用,确保模型具有一定程度的可解释性,以便用户和相关利益方能够理解模型的决策和行为基础。
防止模型逆向攻击与篡改:加强对模型参数和输入数据的保护,防止恶意修改,确保模型的完整性和真实性。
内容安全性与合规性:监控模型生成的内容,确保其符合法律法规和社会道德规范,避免传播有害或违规信息。建立内容审核机制,对模型生成的内容进行人工或自动化的审查和过滤。
安全更新与维护:定期对模型进行安全更新,以应对新出现的安全威胁和漏洞。
针对大模型安全问题,得理科技采取了以下保障措施:在数据安全方面,使用公开数据并对数据进行脱敏和加密存储;在用户安全方面,对隐私数据进行加密存储和传输,并在用户间实现隔离;完成了算法备案安全认证与信息安全认证;在内容安全方面,采用人工与机器相结合的审核方式。
-END-