医療AIに追いつかれた専門医

こんにちは､ Dr.Genjohです｡ 進歩が目覚ましい医療AIですが､ 最近では ｢経験豊富な医師と比べ､ 4倍以上の正診率となった｣ という驚くべきニュースが話題となりました｡ 緊急シリーズ ｢医療AIは専門医の職を奪うか？｣  (全3回) では､ 医療AIの歴史と急激な進化､ そして､ 医師が生き残る方法について考えていきます｡

センセーショナルなニュース

2025年7月1日､医師を含めた多くの医療関係者にとって衝撃的なニュースがありました｡以下の｢報告｣が配信されたのです｡

医療AIはNew England Journal of Medicine(NEJM)に掲載された症例のうち85%を正しく診断することが可能で､ その正診率は経験豊富な医師のグループの 4 倍以上であった｡

※この報告については第2回で詳述するため､出典のURLは省略しています｡

医療AIの黎明期

このニュースについて考察する前に､医療AIの歴史を振り返ってみます｡

画像はイメージです

起源は､米国スタンフォード大学でMycin (マイシン) が開発された1970年初頭にまで遡ります｡医師に対してYes/Noの質問を繰り返し､起因菌と考えられる細菌名を羅列｡選択すべき抗菌薬を提示するシステムであったとされています｡

同じころ､米ピッツバーグ大学で｢INTERNIST-I｣も開発されました｡内科的な臨床診断を行うシステムとして注目されましたが､ 1982年のNEJMでは､人間による症例検討より診断能力は劣ると示されました｡ *¹⁾

手段を得て進歩するAI

画像はイメージです

2010年代以降､ AIはさらなる進化を遂げました｡

蓄積されたデータからAI自身がパターンを学習し､予測や判断を行う｢機械学習｣､多層のニューラルネットワークを用いて複雑な学習を行う｢ディープラーニング｣､新しい多量の学習素材を得るための｢ビッグデータ｣へのアクセス…｡

そして2025年3月､医療AIの最新の診断能力について､ Nature npj digital medicineにレビューおよびメタアナリシスが掲載されました｡ *²⁾

つい先日まで､専門医の診断能力を脅かすものではなかった

2025年3月の発表

本研究は｢AI｣ vs ｢非専門医｣ vs ｢専門医｣を対比した18,371件の研究から83件の研究を選出し､メタアナリシスを行ったものです｡

結論は以下です｡

① AI､ 専門医､ 非専門医すべてをまとめた場合の診断精度は52.1%｡

② 診断精度において､ AIと医師全体(p = 0.10)の間に有意差はない｡

③ 診断精度において､ AIと非専門医の医師(p = 0.93)の間に有意差はない｡

④ 診断精度において､ AIは専門医よりも有意に劣っていた(p = 0.007)｡

平たく言えば､医療AIは当該分野における非専門医と同程度の診断能力はあるけれども､専門医には及ばない､という事です【図1】｡

【図1】モデルと医師の比較結果｡ (A systematic review and meta-analysis of diagnostic performance comparison between generative AI and physiciansより引用)

2018~2024年の研究を対象としているため､｢古いAIを除外すれば有意差がつくのでは？｣と筆者は考えましたが､そうでもないようです｡

GPT-4V､ GPT-4o､ Prometheus､ Llama 3 70B､ Gemini 1.0 Pro､ Gemini 1.5 Pro､ Claude 3 Sonnet､ Claude 3 Opus､ PerplexityのAIを個々で評価した場合､専門医と有意差がつかないレベルまで診断能力は向上するものの､専門医を凌駕するものではありませんでした｡

余談ですが､ AIの診断能力を単独で評価した場合､一般内科に比べて泌尿器科､皮膚科領域に関してはAIの正診率は高めであったようです｡これらの領域はAIの得意分野なのかも知れません【図2】｡