Medicine and Health

Towards building multilingual language model for medicine

P. Qiu, C. Wu, et al.

Discover groundbreaking advancements in multilingual medical language modeling as researchers from Shanghai Jiao Tong University unveil a model that outperforms existing frameworks. With an impressive multilingual medical corpus and a unique question-answering benchmark, this study redefines the boundaries of healthcare AI.

00:00

Playback language: English

Index

Abstract

This paper addresses the limitation of existing medical language models primarily focusing on English by presenting a multilingual medical language model. The contributions are threefold: (1) a multilingual medical corpus (MMedC) with 25.5B tokens in six languages; (2) a multilingual medical multi-choice question-answering benchmark (MMedBench) with rationale; and (3) an evaluation of several open-source LLMs, including those further trained on MMedC. The final model, MMed-Llama 3 (8B parameters), surpasses other open-source models on MMedBench and English benchmarks, even rivaling GPT-4.

Publisher

Nature Communications

Published On

Sep 27, 2024

Authors

Pengcheng Qiu, Chaoyi Wu, Xiaoman Zhang, Weixiong Lin, Haicheng Wang, Ya Zhang, Yanfeng Wang, Weidi Xie