【Science】AIを使う医師が 「弱くなる」 条件とは
著者

HOKUTO編集部

14日前

【Science】AIを使う医師が 「弱くなる」 条件とは

【Science】AIを使う医師が 「弱くなる」 条件とは
誌に、 AIが複数の臨床推論タスクで医師を上回ったことが報告されました。 ただし評価はテキスト情報に限られており、 身体診察や責任ある判断は含まれていません。 
本研究から、 臨床推論におけるAIの可能性と臨床医が押さえるべき限界を整理します。

今回のニュースはこちら!

原著論文で詳細を確認する

Performance of a large language model on the reasoning tasks of a physician. Science. 2026 Apr 30;392(6797):524-527.

ニュースの概要

Scienceに掲載された、 大規模言語モデル (LLM) が医師の臨床推論タスクでどこまで通用するかを検証した研究¹⁾を取り上げる。

研究チームはOpenAIのo1系モデルを、 診断候補の作成や診断推論の説明、 トリアージ時の鑑別、 確率推定、 マネジメント推論などの課題で、 数百人規模の医師ベースラインと比較した。 さらに、 米国の大規模救急医療センターでランダムに選ばれた救急外来患者76例について、 AIと医師のセカンドオピニオンを比較した。

結果として、 「LLMはすべての実験で医師ベースラインを上回った」 と報告された。 救急外来の初期トリアージでは、 正解または近い診断に到達した割合がo1で67%、 2人の担当医では55%と50%だった。

ただし、 これはテキスト情報に基づく評価であり、 患者を診察し、 説明し、 責任をもって治療することをAIが担ったわけではない。

Dr. 大塚の着眼ポイント5選

1. 主役は「医学知識」ではなく「臨床推論」

医療AIの評価は長い間、 医師国家試験や専門医試験のような知識問題に偏りがちだった。

もちろん知識問題に答えられることは重要である。 しかし、 実際の診療では、 診断名を一つ選ぶだけでは足りない。 限られた情報から鑑別を広げ、 危険な疾患を落とさず、 次に何を確認するかを決める必要がある。

今回の研究は、 診断候補や推論の説明、 トリアージ時の鑑別、 確率推定、 マネジメント推論まで含めて評価した点に意味がある。 「AIが医学知識を持っているか」 ではなく、 「医師が日常的に行う思考の一部をどこまで再現できるか」 に踏み込んだ研究である。

2. 「救急の初期トリアージ」 でAIが上回る

最も目を引くのは、 実際の救急外来患者76例で行った評価である。 患者が救急外来に来た直後、 医師が最初に診察した時点、 入院時点という3つのタイミングで、 AIと医師の診断候補が比較された。

初期トリアージでは、 o1が正解または近い診断に到達した割合は67%、 2人の担当医は55%と50%だった。 情報が少ない段階でAIが医師を上回ったことは興味深い。

AIは膨大な鑑別リストを素早く展開し、 稀な疾患も候補に残しやすい。 忙しい救急外来では、 見落としを減らす補助になる可能性がある。

3. 「救急診療で医師を超えた」 とは言い切れない

ここは強調しておきたい。 今回の評価は、 テキスト情報に基づくセカンドオピニオンである。 患者の表情や呼吸状態、 皮膚所見、 歩き方、 家族の不安、 診察室の空気、 画像や心電図そのものを総合して判断したわけではない。

Science同号のCommentでも、 「本研究は、 リアルタイムの救急判断や患者管理そのものを評価したものではない」 と指摘されている²⁾。

「AIが診断候補をうまく出せること」 と、 「救急外来で患者を安全に診ること」 は同じではない。 診断は診療の一部であり、 診療は患者との関係や身体診察、 検査の選択、 患者への説明、 そして責任を含んでいる。

4. AIを使う医師が 「自動的に強くなる」 わけではない

本研究は、 AI単独の性能だけでなく、 医師とAIの関係も考えさせる。 過去の同じマネジメント推論課題では、 GPT-4を使った医師の得点はGPT-4単独とほぼ同じで、 医師単独より高かったと報告されている。

これは、 「AIを横に置けば、 必ず医師の思考が深まる」 という話ではない。 AIの答えを先に見ると、 人間はその表現に引っ張られやすい。 医療AIでよく問題になる自動化バイアスである。

AIを使うなら、 まず自分の鑑別と判断を書き、 その後でAIに抜けや反証を探させる順番がよい。

5. 次の課題は 「患者に利益があったか」

前回の記事では、 医療AI研究の多くが実患者データや前向き試験まで到達していないことを取り上げた。 今回のScience論文は、 従来の知識問題より一歩進んだ評価であり、 救急外来の実データも含んでいる。

それでも、 今回の評価は、 前向き試験ではない。 AIを使ったことで診断遅延が減ったのか、 不要な検査が減ったのか、 患者の安心や予後が改善したのかは、 この研究だけでは分からない。

今後の論点は、 AIが医師よりよい診断候補を出せるかではなく、 医師と患者の間に入ったときに、 実際の診療をよくするかである。

関連記事

医療AI論文の"質"を見抜く5つの視点

第10回 「生成AIニュース」 : 大塚篤司先生

今日から始める実践ポイント

AIは 「診断の補助」 として使う

「診断を丸投げする相手」 ではなく、 「見落としを確認する相手」 として扱うのが現実的である。

まず、 自分で鑑別診断や危険疾患、 追加で確認したい情報を数行で書く。 その後AIに 「見落としやすい重篤疾患」 や 「この仮説に矛盾する所見」、 「次に確認すべき情報」 を尋ねる。 最後に、 AIの提案をカルテや身体所見、 検査値、 患者背景に照らして採否する。

施設ルールを先に決める

対象タスク、 入力してよい情報、 患者情報の匿名化、 ログ保存、 責任者、 エスカレーション基準を先に決める。 個人情報を外部サービスにそのまま入力しない。

カルテには 「自分の判断」 として記録する

「医師が確認した内容」 として記録する。 AIが挙げた診断名をそのまま採用するのではなく、 なぜ採用するのか、 なぜ除外するのかを自分の言葉で説明できる状態にする。

【Science】AIを使う医師が 「弱くなる」 条件とは

<出典>

1) Science. 2026 Apr 30;392(6797):524-527.

2) Science. 2026 Apr 30;392(6797):466-467.

※X (旧Twitter) の利用規約に基づき、 サブライセンスが認められている埋め込み形式でポストを紹介しています。

【Science】AIを使う医師が 「弱くなる」 条件とは

大塚先生執筆の書籍はこちら!

【Science】AIを使う医師が 「弱くなる」 条件とは

医師による医師のためのChatGPT入門 3

アイデアがパッと論文に変わる!AI超・時短執筆術
2026年2月発刊!ChatGPTを単なる 「文章生成ツール」 としてではなく、  「論文執筆の伴走者」 として使いこなす具体的手法を解説する。 生成AIを活用し、 アイデア出しから構成設計、 下書き、 投稿準備までを効率化する実践書。

>> 書籍の詳細はこちら

【Science】AIを使う医師が 「弱くなる」 条件とは
医師による医師のためのChatGPT入門

あっという間のAIスライド作成術

「スライドづくりの時間が足りない」 を一瞬で解決。 各種生成AIを場面別に使い分け、 構成やデザインをあっという間に整える実践書。  「伝える」 スライド作成のテクニックも公開! 

>> 書籍の詳細はこちら

【Science】AIを使う医師が 「弱くなる」 条件とは
医師による医師のためのChatGPT入門

臨床・研究を変える究極のプロンプト500選

医療現場でそのまま使えるプロンプトをテーマ別に収載。 日々の診療・教育・研究に役立つ実践的な1冊。  

>> 書籍の詳細はこちら

ポストのGif画像
【Science】AIを使う医師が 「弱くなる」 条件とはの全コンテンツは、医師会員限定でアプリからご利用いただけます*。
*一部のコンテンツは非医師会員もご利用いただけます
臨床支援アプリHOKUTOをダウンロードしてご覧ください。
こちらの記事の監修医師
HOKUTO編集部
HOKUTO編集部

編集・作図:編集部、 監修:所属専門医師。各領域の第一線の専門医が複数在籍。最新トピックに関する独自記事を配信中。

HOKUTO編集部
HOKUTO編集部

編集・作図:編集部、 監修:所属専門医師。各領域の第一線の専門医が複数在籍。最新トピックに関する独自記事を配信中。

監修・協力医一覧
QRコードから
アプリを
ダウンロード!
【Science】AIを使う医師が 「弱くなる」 条件とは