寄稿ライター
4ヶ月前

こんにちは、 Dr.Genjohです。 進歩が目覚ましい医療AIですが、 最近では 「経験豊富な医師と比べ、 4倍以上の正診率となった」 という驚くべきニュースが話題となりました。 緊急シリーズ 「医療AIは専門医の職を奪うか?」 第2回では、 このニュースについて掘り下げます。
ニュースソースはこちらです。
The Path to Medical Superintelligence *¹⁾
New England Journal of Medicine(NEJM)誌には毎週、 米国マサチューセッツ総合病院の症例報告が掲載され、 診断に苦慮する難しい症例が多く含まれています。
本研究ではNEJMに掲載された最新の304症例をデータベースとしてGPTやLlamaのほか、 Claude、 Gemini、 Grok、 DeepSeekなどの生成AIを用いてベンチマークが設定されています。 それを叩き台としてMicrosoft AI Diagnostic Orchestrator (MAI-DxO)が開発されました。

【資料1】はMAI-DxOの稼働プロセスです。
仮説を立てたり、 患者安全に責任を負ったり、 必要な検査を選んだりと、 現実の医師が並行してこなしている業務を各agentが分担して行っています。 Agent同士が協議することで疑似的な医師人格を形成し(virtual doctor panel)、 相互に干渉しつつ次に行うべき行動を決定します。
エヴァンゲリオンに登場するMAGIシステムみたいですね。

さらに、 疾患に関する質問を行ったり、 検査の実施を要求したりして仮診断を提示しつつ、 それらに対する回答からフィードバックを受け、 再度疾患のアセスメントを行います。 やっていることは医師業務そのものです。
驚くべきことに、 評価基準にはコストが含まれています。 AIは正しい臨床診断に辿り着くことのみならず、 いかに安く確定診断に辿り着くかも検討しながらアセスメントを行っています。
実際の稼働状況は下記の動画からご覧下さい。
Introducing SDBench from Microsoft AI

【資料2】を見て下さい。 最終テストでは 「MAI-DxO + OpenAI + o3」 の組み合わせが最も成績が良く、 NEJMベンチマークの症例のうち85.5%で正しい診断に至ることができました。
米国と英国の開業医21人(5~20年の臨床経験)に関しても同様のテストが行われましたが、 その正診率は平均20%、 【資料2】の赤い十字マークの部分でした。
AIは医師に比べて圧倒的に高い正診率を誇り、 しかも診断に至るためのコストも安上がりでした。
「我々医師はもうおしまいだぁ…」 と考えるのは早計だと筆者は考えています。
今回の検討は
正診率も費用も圧倒した、 ということです。
当たり前と言えば当たり前でしょう。 前回解説したメタアナリシスとは異なり、 圧倒的にAIと医師の成績に差がついた理由はこのあたりにあるのではないでしょうか。

もちろん、 Microsoft社もそんなことは承知の上です。
本研究には重要なlimitationがあり、 「MaAI-DxOは研究デモンストレーションに過ぎず、 これは最初の一歩に過ぎない」 と述べられています。
ただ、 【資料2】は304症例の箱庭の中で行われた限定的な実験に過ぎないものの、 「MAI-DxO + OpenAI + o3」 が他AIや臨床医を圧倒したことは事実です。
現代はビッグデータの時代です。 倫理的な承認を突破し、 世界に存在する無数の症例情報を取り込んだ時、 医療AIは箱庭の柵を食い破って我々の立ち位置を大きく揺るがす存在となるでしょう。
*¹⁾マイクロソフト社 : The Path to Medical Superintelligence(2025/6/30)

Xアカウント : @DrGenjoh

編集・作図:編集部、 監修:所属専門医師。各領域の第一線の専門医が複数在籍。最新トピックに関する独自記事を配信中。
編集・作図:編集部、 監修:所属専門医師。各領域の第一線の専門医が複数在籍。最新トピックに関する独自記事を配信中。