华佗 GPT-II 医疗大模型

HuatuoGPT(华佗GPT)是由香港中文大学(深圳)和深圳市大数据研究院的王本友教授团队发布的AI医疗大模型。
 

 
HuatuoGPT是一个基于广泛的中文医学语料库训练的大型语言模型(LLM),旨在通过HuatuoGPT为医疗咨询场景构建更专业的“ChatGPT”。
 
HuatuoGPT 使用了四种不同的数据集,分别如下:
蒸馏 ChatGPT 指令数据集(Distilled Instructions from ChatGPT):这个数据集受到 Alpaca 模型创建指令集的方法启发,从 ChatGPT 中提炼出医疗相关的指令。与之前工作不同的是,本方法还加入了科室和角色信息,根据采样的科室或角色生成符合条件的指令数据集。
真实医生指令数据集(Real-world Instructions from Doctors):这个数据集来源于真实医生和患者之间的问答。医生的回复通常简洁且口语化,因此本方法通过润色以提高其可读性。
蒸馏 ChatGPT 对话数据集(Distilled Conversations from ChatGPT):这个数据集通过为两个 ChatGPT 模型提供共享的对话背景,让它们分别模仿医生和患者进行对话。
真实医生对话数据集(Real-world Conversations with Doctors):这个数据集来源于真实医生的对话,但对医生的回复使用模型进行了润色。
这些数据集共同为模型提供了一个统一的语言模式、医生的诊断能力以及指令跟随能力。
 
体验网址:https://www.huatuogpt.cn
 
项目地址:https://github.com/FreedomIntelligence/HuatuoGPT-II
 
模型下载:
https://huggingface.co/FreedomIntelligence/HuatuoGPT2-7B
https://huggingface.co/FreedomIntelligence/HuatuoGPT2-13B
 
论文地址:https://arxiv.org/pdf/2305.15075.pdf

THE END