記事

2025年10月7日

医療画像AIの臨床試験の現在地

CADの歴史とDeep Learningの台頭

「第1世代」CAD:マンモグラフィや胸部X線での挫折と反省

1998年にR2 Technology ImageCheckerが米FDAで初のCADとして承認され、2001年にはMedicareの加算も始まり、CADは急速に普及しました。ところが、現実臨床での効果は限定的で、とりわけマンモグラフィでは再撮影・生検を増やす=偽陽性の増加が問題になりました。大規模実臨床データを用いたFentonら(NEJM 2007, 5;356(14):1399–1409)は、429,345件のスクリーニングを解析し、CAD使用施設では特異度・PPV・総合精度が低下し、追加医療費の増大も指摘しています。これはCADが不要な偽陽性の候補を多く提示し、読影を撹乱したことが一因と考えられます。さらに、Freer & Ulissey(Radiology 2001, 5;356(14):220(3):781-786)の前向き研究や、その後の検証でも要精査増がしばしば観察されました。胸部X線でも初期CADは偽陽性の候補提示が多く、例えばKakedaらの研究(AJR 2004, 182(2):505-510)では正常100例で315個の偽陽性(1症例あたり3個超)という報告があり、読影者にとってはノイズとなりやすかったことがわかります。こうした経験は「偽陽性増加」という負の学びとしてCADの分野に刻まれました。

 「第2世代」DL-CAD:Deep learningによる性能向上と医用画像への波及

2012年のAlexNetのImageNetでの大幅な性能改善は、画像認識の転機となり、その波は医用画像へも急速に拡大しました。Gulshanら(JAMA 2016, 316(22):2402-2410)は糖尿病網膜症で、McKinneyら(Nature 2020, 577(7788):89-94)は乳がんスクリーニングで、それぞれ高性能を示し、RajpurkarらのCheXNet(ArXiv 2017, arXiv:1711.05225)は胸部X線での深層学習の可能性を示しました。これらはハンドメイドの特徴に依存していた第1世代のCADから、大規模データ+エンドツーエンド学習に基づく第2世代(DL)のCADへの転換を象徴する論文だと思います。 

なぜAIはRCTが少ないのか

前提として、当然AI医療機器もRandomied clinical trial(RCT)が重要であり、実施されていくべきです。ただ、承認/認証の制度として薬剤などと比較して、RCTは少なくなりがちになる側面があります。AIは医療機器(SaMD)として審査されるのが一般的で、薬剤の第3相RCTのような要件は基本的に課されません。米FDAはAI/ML SaMDアクションプラン(2021)を公表し、PCCP(事前変更管理計画)最終ガイダンス(2024)などで「継続的学習」を前提にした承認枠組みを整備しています。EU MDRでもMDCGガイダンスでソフトウェアの臨床評価が規定されますが、RCTは義務ではなく、性能実証・リスク管理・市販後監視の組み合わせで適合性を判断するのが基本です。実際、FDAの公的リストやレビューを見ると、多くのAI医療機器はRCTではなく、後ろ向き・前向き観察・読影者試験で実臨床導入されています。

医療画像診断AIのメジャーなRCT

胸部レントゲン

AI Improves Nodule Detection on Chest Radiographs in a Health Screening Population: A Randomized Controlled Trial
Radiology. 2023;307(2):e221894

  • デザイン

健康診断を受けた10,476名を対象に、AIを使う群(5,238名)と使わない群(5,238名)に分けて比較しました。3名のベテラン放射線科医が読影を行い、AI群ではCADの結果も参考にしました。主な評価項目は、「CTで確認された臨床的に対応が必要な結節(Lung-RADS 4相当)をどれだけ見つけられたか」でした。

  • 結果

AI群では0.59%、非AI群では0.25%の検出率となり、AI群が統計学的に有意に優れていました(オッズ比2.4、p=0.008)。悪性結節の検出率もAI群0.15% vs 非AI群0%(p=0.008)でした。重要なのは、偽陽性(誤った陽性判定)の増加は見られなかったことです。つまり、AIは「本当に対応が必要な病変」の検出を増やしたのです。

  • 限界

単施設、健診集団(事前確率が低い)、アウトカム(がん死亡など)ではなく診断プロセス指標が主要。CXp自体の限界(病変微小・重なり)を踏まえ、多施設展開の検証が課題です。

胸部CT

Impact of Artificial Intelligence Assistance on Chest CT Interpretation Times: A Prospective Randomized Study
American Journal of Roentgenology. 2022;219(5):743–751

  • デザイン

前向きのランダム化比較試験で、胸部CT読影に多病変を包括的に検出するAIプラットフォームをPACSに組み込みました。3名の心胸部放射線科医が、AIの結果を見られる場合と見られない場合で読影を行い、読影時間を比較しました。

  • 結果

AIを使うと平均93秒(22.1%)の時間短縮が実現しました(421秒→328秒)。造影検査でも非造影検査でも、異常がある場合でもない場合でも、一貫して時間が短縮されました。1日40件読影する場合、約1時間の負担軽減に相当します。

  • 限界

単一施設での研究で、読影時間というプロセス評価が中心でした。診断精度や患者アウトカム、アラート疲労(警告が多すぎて疲れてしまう現象)などについては、別の試験で検証される必要があります。

乳房撮影

MASAI試験(Mammography Screening with AI)

The Lancet Oncology. 2023;24(8):936–944 ― 安全性(中間)解析

  • デザイン

スウェーデンの住民検診で実施された大規模研究です。AIサポート読影と従来の二重読影(2人の医師が読影)を比較しました。AI群では、AIのリスクスコアに基づいて、1人で読影するか2人で読影するかを振り分けました。主要な評価項目は「インターバルがん(検診で見逃されて次の検診までに見つかるがん)の発生率」で、10万人・2年間の追跡で評価する予定です。今回は中間解析の結果です。

  • 結果

AI群では39,996名から244例のがんを検出し、対照群では40,024名から203例を検出しました。がん検出率は1000人あたり6.1 vs 5.1(比1.2、p=0.052)、リコール率(再検査を受けた人の割合)は2.2% vs 2.0%、偽陽性率は1.5% vs 1.5%でした。最も注目すべきは、読影ワークロードが44.3%減少したことです。安全性に問題はなく、試験は継続中です。

  • 臨床的意義

二重読影の一部をAIで代替しても、安全性と精度を維持しながら業務量を大幅に削減できる可能性が示されました。最終的なインターバルがんの評価と過剰診断の有無が今後の鍵となります。

ScreenTrustMRI(AIで補助MRI対象者を選別)

Nature Medicine. 2024;30(9):2623–2630 ― 二次評価項目の先行報告

  • デザイン

マンモグラフィで異常なしとされた方の中から、AIスコアが上位6.9%の方(59,354人中4,103人)を抽出し、同意が得られた1,315人をMRI実施群と非実施群に分けました。主要評価は27か月間での「進行乳がん」の発生ですが、今回は事前に決めていた副次評価である「MRIのがん検出効率」を報告しています。

  • 結果

MRIを受けた559人から36例のがんが見つかりました(1000人あたり64.4例)。AIは「リスク」「マスキング(乳腺濃度による見えにくさ)」「がん所見」の3つの要素で構成されています。高濃度乳房だけを条件とする従来の選別方法より、約4倍効率的にMRIでがんを見つけられました。

  • 限界

AIは院内で開発され、Hologic社の装置で学習したため、他の施設や装置での適用性は今後の検証が必要です。主要評価である進行乳がんの抑制効果については、追跡完了後に報告される予定です。

脳主幹動脈閉塞(LVO)検出ソフトと治療時間

Automated Large Vessel Occlusion Detection Software and Thrombectomy Treatment Times: A Cluster Randomized Clinical Trial
JAMA Neurology. 2023;80(11):1182–1190 ― ステップドウェッジ・クラスターRCT

  • デザイン

ヒューストンの4つの包括的脳卒中センターで実施されたクラスターランダム化比較試験です。CTA(CT血管造影)の自動判定とモバイル通知機能を持つAIソフトを順次導入し、入院から穿刺までの時間(DTG)を比較しました。対象は血栓除去術を受けた脳主幹動脈閉塞の急性脳梗塞患者243例です。

  • 結果

DTGは11.2分短縮、CT開始から血栓除去術開始までは9.8分短縮しました。90日後の機能的自立には有意差がありませんでした。

骨年齢(Bone age)

Artificial Intelligence Algorithm Improves Radiologist Performance in Skeletal Age Assessment: A Prospective Multicenter RCT
Radiology. 2021;301(3):692–699

  • デザイン

6施設の93名の放射線科医が、手根骨X線をAI支援あり(792例)となし(739例)で読影しました。主要評価は、ゴールドスタンダード(4名の専門家の平均)との絶対誤差でした。

  • 結果

誤差は5.36か月 vs 5.95か月(p=0.04)、12か月を超える誤差は9.3% vs 13.0%(p=0.02)、24か月を超える誤差は0.5% vs 1.8%(p=0.02)となりました。読影時間の中央値も102秒 vs 142秒(p=0.001)と短縮しました。施設間の差はありましたが、精度と効率の両方が統計学的に改善しました。

CXRからの骨粗鬆症スクリーニング誘導(CXR→DXA)

OPSCAN RCT(Osteoporotic Precise Screening Using Chest Radiography and ANN)
Radiology. 2024;311(3):e231937

  • デザイン

胸部X線をAIで解析し、骨粗鬆症の高リスクと判定された4,912人(全体40,658人の12.1%)を、全額補助でDXA検査(骨密度測定)に案内する群(2,456名)と通常診療群(2,456名)に分けて比較しました。主要評価は新規骨粗鬆症診断率でした。

  • 結果

診断率は11.1% vs 1.1%、オッズ比11.2、p<0.001でした。従来のDXA検査の適応基準を満たさない群でも効果が大きく(オッズ比23.2)、AIによって「見落とされがちな対象者」を実際のDXA検査につなぐ価値が示されました。

  • 臨床的意義

疾患発見の対象集団を設計する(誰に次の検査を提示するか)際に、AIで最適化するアプローチが実証されました。今後は骨折イベントなどのアウトカムに踏み込んだ研究が期待されます。

まとめ 

第一世代のCADでは、マンモグラフィや胸部X線において偽陽性の増加や実臨床との乖離が目立ちました。Fentonら(2007)やKakedaら(2004)の報告が示すように、CADが多数の候補点を提示することは読影者の注意を散らし、かえって診断精度を損なう結果につながることがありました。この経験から、「候補点の多さは必ずしも善ではなく、時に害となる」という教訓が得られたことは、医療AIの歴史の中で重要な反省点だと言えます。

第二世代のディープラーニング技術の登場により、AIの性能は飛躍的に向上しました。大規模データを基盤とする学習により、感度やAUCは従来を大きく上回る水準となりました。マンモグラフィのMASAI試験では、安全性を保ちつつ読影負荷を44%削減し、胸部X線のRCTでは臨床的に意義のある結節(Actinable nodule)の検出率を向上させました。さらに、胸部CTや脳主幹動脈閉塞の試験では、読影時間や治療開始までの時間を短縮するなど、実際の運用面における価値が明確に示されています。これらの成果は、AIが単に精度を高めるだけでなく、医療現場の効率化に実質的な貢献を果たしつつあることを示しています。

AIにおいてもRCTは制度上必須の要件とはなっていません。しかしながら、非常に重要なエビデンスを提供することに変わりなく、今回紹介した各RCTが示すように、AIが実臨床で真に機能するか。すなわち、診断精度の向上だけでなく、読影時間の短縮、ワークフローの改善、患者アウトカムへの寄与を検証するには、前向きランダム化比較試験が最も信頼性の高い手法です。後ろ向き研究や読影者試験では測定しきれない「実臨床での行動変容」や「システム全体への影響」を捉えるためには、こうした厳密な試験デザインが不可欠となります。

RCTをするには、研究デザインの工夫も求められます。個人単位での無作為化が難しいワークフロー介入には、ステップドウェッジ法やクラスターRCTのような設計が有効です。LVO検出のRCTはその代表例であり、現場導入を想定した実践的な設計思想の重要性を示しています。また、ScreenTrustMRI試験やOPSCAN試験に見られるトリアージ型のアプローチは、限られた人的・装置資源のなかで検査効率を最大化する現実的な解決策であり、費用対効果の改善にもつながると考えられます。

一方で、単施設研究や特定ベンダー依存、装置特有の制約といった課題は依然として存在しています。AIの一般化性能と公平性を確保するためには、多施設前向き試験や外部検証の充実、さらにはバイアスを低減する体系的な取り組みが不可欠です。規制当局であるFDAやEUも、リアルワールドでの性能や透明性を重視する方向に進んでおり、今後はAIが「継続的に学習し進化する」技術であると同時に、「社会的に信頼される医療技術」であることを両立させることが重要です。