AIは医者より賢い、でも患者と組むと…？－LLM医療アシスタントの実力を無作為化試験で暴く

2026年度第 1 回薬剤師のジャーナルクラブ開催のお知らせ

開催日時：2026 年 4 月 19 日 (日)
午後 20 時 45 分〜仮配信
午後 21 時 00 分〜本配信
なお配信時間は 60 分を予定しております．

Reliability of LLMs as medical assistants for the general public: a randomized preregistered study

Bean AM, Payne RE, Parsons G, Kirk HR, et al.

Nature Medicine 2026;32(2):609-615.

DOI: 10.1038/s41591-025-04074-y

PMID: 41663592

令和 8 年度第 1 回目の薬剤師のジャーナルクラブです（JJCLIP）。

近年、ChatGPTをはじめとする大規模言語モデル（LLM）が医療情報の提供に活用される機会が増えています。LLMは医師国家試験レベルの問題ではほぼ満点を取れるほど高い医学的知識を持つとされますが、実際に一般市民が使ったときも同じように役立つのでしょうか？

本研究は、オックスフォード大学のグループが実施した事前登録無作為化比較試験です。1,298名の一般参加者を対象に、10の医療シナリオ（症状から疾患名と受診行動を判断するタスク）を使い、LLM（GPT-4o・Llama 3・Command R+）を使用するグループと使用しない対照群を比較しました。

【主な結果】

・LLMが単独でシナリオを解くと、疾患の正答率は平均94.9%、適切な受診行動の正答率は56.3%と高水準

・しかし、一般参加者がLLMを使いながら解くと、疾患の正答率は34.5%以下、受診行動の正答率も44.2%以下に低下

・LLMを使った群は、対照群（ネット検索等を使用）と比較しても成績が同等かそれ以下

つまり、LLMは単独では非常に優秀であっても、一般ユーザーとのインタラクションが介在すると、その能力が大幅に活かされないという問題が明らかになりました。また、医療知識テストや模擬患者シミュレーションによる評価では、この実態を予測できなかったことも示されています。

著者らは、医療分野へのLLM実装にあたっては、ベンチマーク評価だけでなく実際の人間ユーザーを対象とした評価が不可欠であると提言しています。

薬剤師・医療職として「AIに医療相談を委ねることの限界」をどう考えるか、ぜひ一緒に議論しましょう！

JJCLIPってなに？

薬剤師のジャーナルクラブ（Japanese Journal Club for Clinical Pharmacists：JJCLIP）とは, 当法人が運営する，EBMを実践するための学びの場を提供するSNSコミュニティです.

設立当初は薬剤師向けを意識した勉強会でしたが，現在は他職種，および一般の方々にも楽しく視聴できるよう配慮をしております．