饭桶教程-大语言模型实战-

大语言模型实战

大型语言模型的对话要素抽取应用

对话作为信息和知识的交流媒介，在信息化时代愈加重要。对话要素抽取，即从对话中提取核心内容，如实体、主题、三元组、事件、情感、摘要、观点、意图等，是一个复杂的过程。

本章首先详细介绍对话要素抽取的应用领域，然后以医疗对话数据为例，展示如何利用GPT-3.5和Qwen模型进行有效的要素抽取。最后，还探讨了如何通过模型微调技术，进一步提升对话要素抽取的效果，帮助读者全面理解对话要素抽取的任务本质，并指导如何在实际场景中有效落地。

7.1 对话要素抽取

对话作为人类日常信息交互的媒介，不仅进行信息的交换，而且还传递知识、解决问题、共享情感、表达文化等，因此对话中蕴含了丰富且多样的内容。在信息化时代，人与人之间、人与机器之间每天都产生大量的对话语料，如果可以充分提取和挖掘对话中的信息内容，不仅可以在对话中提高对话效率、快速明确目的、准确完整交互，还可以在对话后进行知识的积累与沉淀，快速应用在之后的对话场景中。

对话要素抽取是指从对话中抽取或提炼核心内容，包括实体、主题、三元组、事件、情感、摘要、观点、意图等。对话作为语言、知识的高级应用，在对话中往往存在以下特点：

1）口语化的随意表述，如表达内容不完整、不符合语法规律、存在大量错别字等。

2）多角色之间的表述切换，存在省略、指代、状态继承、推理等。

3）具有一定的知识目的性，往往要解决某些特殊的问题。

因此，对话要素抽取比从文档中进行要素抽取更难、更复杂。在ChatGPT模型问世之后，人工智能进入大型语言模型时代。随着模型的参数越来越大，模型的训练数据越来越充分，模型对口语化、多角色、复杂的对话进行要素抽取也具有较为优秀的效果。

目前，对话要素抽取可以应用在客服工单自动填写、医疗报告生成、会议纪要提炼、对话情感趋势分析、市场调研分析、高频知识提取、用户兴趣推荐、安全监管等多个场景中。

·客服工单自动填写：在客户与客服的实时对话中识别关键信息，例如：客户的个人信息（姓名、联系方式、身份证号等）、产品信息（产品名称、产品型号等）、问题描述、解决方案等，将关键信息正确地填写到工单的相应字段中。在自动填写的过程中，加快了工单的处理速度，提高了客服的工作效率，使客服的工作更专注于解决客户问题而非信息记录。当然，工单自动填写也可以是非实时抽取，在整个对话结束后统一进行抽取也是一种模式，可以在降低模型调用次数的同时，辅助客服人员进行工单填写。

·医疗报告生成：在医疗咨询过程中，对话要素抽取可以从患者与医生之间的对话中提取关键医疗信息，如症状描述、历史病情、用药记录等，可以辅助医生快速获取患者的健康背景，使医生不仅能够更快地对患者进行评估，还可以提供更准确的诊断和治疗建议。并在对话结束后，可以节省医生手动编写医疗报告的时间。

·会议纪要提炼：会议后往往需要进行会议内容的纪要提炼，便于参与者回顾和后续行动，对话要素抽取可以自动抽取会议对话中主要议题、决策点、行动项等相关内容。自动化的会议记录总结大幅提高了会议的效率和生产力，确保团队对决策和任务有清晰的理解。

·对话情感趋势分析：在客服和用户的对话场景中，对话要素抽取可以分析用户对具体商品、产品、服务的情感倾向，方便及时进行情绪疏导，后期对商品、产品、服务等进行改进。

·高频知识提取：对话语料中包含大量的知识及高频问答对，对话要素抽取可以从对话中抽取常用的问答对，进行知识沉淀、知识集成，并构建FAQ库，用于后期知识培训或智能机器人搭建等。