各个行业的 AI 机器人问答数据集
- 医疗行业
- RJUA-QA 数据集:由蚂蚁集团医学 LLM 团队与上海交通大学医学院附属仁济医院泌尿外科专家团队合作创建,是国内首个结合临床经验的医疗专科 QA 数据集。该数据集为中文医疗问答数据集,基于医生参考临床经验中真实患者情况改写的虚拟患者临床数据构建,不涉及医患隐私。其涵盖 2019 - 2023 连续 5 年的多形式临床参考数据,包括门诊诊疗、急诊抢救等。病种覆盖泌尿系肿瘤、结石等 10 个亚专业,占泌尿科就诊患者的 97.6%。数据集中包含 2132 个 QA 问答对,约 25000 余条诊疗依据和临床数据 。通过对该数据集的学习,AI 机器人能深入掌握泌尿外科专业知识,为患者提供专业的疾病咨询和诊疗建议。
- CasiMedicos - Arg 数据集:由法国和西班牙的研究人员创建的首个多语言医疗问答数据集。它由 558 个临床病例组成,标注了 5021 个主张、2313 个前提、2431 个支持关系和 1106 个袭击关系 。该数据集具有多语言(英语、西班牙语、法语和意大利语)、对论证结构注释详细的特点,包含正确和错误的诊断结果,并由医生提供自然语言解释。在训练医疗 AI 机器人时,能帮助机器人理解复杂的医学论证逻辑,向患者和医生提供更具解释性的诊断辅助信息。
- AI Medical Chatbot 医学对话数据集:这是一个为运行医学聊天机器人而设计的实验数据集,包含 256,916 条患者与医生之间的对话。这些真实的对话数据可以让 AI 机器人学习到医患交流的模式、患者常见问题以及医生的回复方式,有助于提升 AI 机器人在与患者交流过程中的流畅性和准确性,更好地理解患者诉求并提供合适的引导或初步诊断建议 。
- 电商行业
- E - Commerce Product Question Answering Dataset:该数据集包含来自亚马逊、沃尔玛、家得宝等电商网站的商品问答数据。例如,消费者可能会问 “这款手机的电池续航能力如何?”“这个品牌的衣服尺码标准吗?” 等问题。通过对这个数据集的训练,AI 机器人可以精准理解用户对商品信息的询问意图,为电商平台的用户提供关于商品特性、使用方法、规格参数等方面的准确解答,提升用户购物体验和购买决策效率 。
- 金融行业
- Financial Phrasebank:此数据集涵盖金融表达的短语、句子和段落。其中包含对股票走势分析、理财产品介绍、金融政策解读等相关内容的表述。利用该数据集训练的 AI 机器人,能够理解金融领域复杂的语义,回答用户关于金融市场动态、投资产品风险收益特征、金融法规政策等方面的问题,为投资者或金融客户提供专业的金融咨询服务 。
- Banking77:包含 77 个金融领域的意图和实体,可用于训练金融 chatbot 的意图分类和实体识别模型。例如,当用户询问 “我想办理贷款,需要什么条件?” 时,AI 机器人能通过在该数据集上训练的模型识别出用户的贷款申请意图以及 “贷款” 这个关键实体,从而准确引导用户进入贷款业务流程并解答相关问题 。
- 教育行业
- AI2 Education Questions Dataset:来源于 AI2 教育问答网站,包含超过 200,000 个问题和答案。问题涉及学科知识讲解、学习方法指导、考试政策解读等教育领域的多个方面。借助这个数据集训练的 AI 机器人,可以成为学生的学习助手,解答学习过程中遇到的各种疑惑,提供学习建议和知识拓展 。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。