ロジスティック回帰は、臨床現場で最適化された機械学習アルゴリズムと同様のパフォーマンスを発揮: 若年成人における1型糖尿病と2型糖尿病の識別への応用

Lynam AL, Dennis JM, Owen KR, Oram RA, Jones AG, Shields BM, & Ferrat LA (2020) Logistic regression has similar performance to optimised machine learning algorithms in a clinical setting: application to the discrimination between type 1 and type 2 diabetes in young adults. Diagnostic and prognostic research, 4, 1-10. https://doi.org/10.1186/s41512-020-00075-2

https://pubmed.ncbi.nlm.nih.gov/32607451/

  • 前提条件として、ロジスティック回帰とROC曲線を理解していること。
  • 機械学習6種類とロジスティック回帰を比較。
  • R script がある。
  • ハイパーパラメータ、キャリブレーションを行なっている。
  • アウトカムは、糖尿病の1型または2型、対象者はイギリスの成人糖尿病患者。
  • 査読が公開されている。

Abstract

バックグラウンド

臨床医学のすべての分野での予後および診断予測モデルの使用に大きな関心が寄せられている。この分野での予後と診断の精度を向上させるための機械学習の使用は、古典的な統計モデルを犠牲にして増加している。以前の研究では、これら2つのアプローチのパフォーマンスを比較したが、それらの調査結果には一貫性がなく、多くには制限がある。潜在的な予測因子の数が限られていることが多い臨床環境で、ロジスティック回帰と最適化された機械学習アルゴリズムを使用して構築された7つのモデルの識別とキャリブレーションを比較し、モデルを外部で検証することを目的とした。

メソッド

ロジスティック回帰と6つの一般的に使用される機械学習アルゴリズムを使用してモデルをトレーニングし、糖尿病と診断された患者が1型糖尿病(2型糖尿病ではない)であるかどうかを予測した。英国の成人参加者(18〜50歳)のコホートを使用して、7つの予測変数(年齢、BMI、GADA膵島自己抗体、性別、総コレステロール、HDLコレステロール、トリグリセリド)を使用した。n = 960、1型糖尿病で14%)。各アプローチの識別性能(ROC AUC)、キャリブレーション、および決定曲線分析を、個別の外部検証データセットで比較した(n = 504、1型糖尿病で21%)。

結果

内部検証で得られた平均パフォーマンスは、すべてのモデルで同様だった(ROCAUC \(\geq\) 0.94)。外部検証では、すべてのメソッドで AUC ROC が0.93以上のままで、識別が非常にわずかに減少した。ロジスティック回帰は、外部検証で数値的に最も高い値を示した(ROC AUC 0.95)。ロジスティック回帰は、キャリブレーションと決定曲線分析の点で優れたパフォーマンスを示した。ニューラルネットワークと勾配ブースティングマシンは、最高のキャリブレーションパフォーマンスを示した。ロジスティック回帰とサポートベクターマシンの両方で、臨床的に有用な閾値確率について優れた決定曲線分析が行われた。

結論

1型糖尿病と2型糖尿病の患者を分類するために、ロジスティック回帰と最適化されたマシンアルゴリズムが実行された。この研究は、特に少数のよく理解された強力な予測変数を使用する場合に、従来の回帰モデリングを機械学習と比較することの有用性を強調している。

Background

臨床医学のすべての領域における予後および診断の予測モデルの使用に大きな関心がある。 例えば、癌[1,2]、心血管疾患[3,4]及び糖尿病[5,6]などがある。 これらのモデルは、ますますウェブ電卓として使用され[7-9]、 スマートフォンのための医療アプリ[10-12]、 そして多くの臨床ガイドライン[に組み込まれている[13-17]。

これらのモデルの開発に使用できるさまざまなアプローチがある。 例えばロジスティック回帰などの古典的な統計モデルは、一般的に適用されるが、機械学習の応用に興味を増加させることが臨床研究における予後及び診断の精度を向上させることがある([18-21]、それらの使用の多くの例[22])。 機械学習(ML)は、コンピューター(機械)が適応して経験(データ)から学習するアルゴリズムを扱うデータサイエンス分野である。 これらのアルゴリズムには、医療画像、バイオバンク、電子健康などの膨大な量のデータを処理する機能がある。 教師あり学習は、機械学習の中で最も広く採用されているカテゴリである。 教師あり学習では、マシンは一連の予測変数でトレーニングされた結果(バイナリまたは連続)の値を予測する。

多くの適用される異なる機械学習アルゴリズムへの古典的なモデルの性能を比較した研究があるが[23-34]、 それらの知見は矛盾している。 このような比較研究の多くには以下のような限界がある。 すべてがデフォルト以外のパラメーター設定(ハイパーパラメーター調整)を使用したり、外部データのパフォーマンスを検証したりするわけではない[35]。 受信者動作特性曲線 (ROC) の下の面積 (AUC)によって測定される識別は、ほとんどの場合提供されるが、リスク予測が信頼できるかどうかを評価する研究はほとんどない(キャリブレーション)[35]。

機械学習は、元データとモデル (y ~ x1 + x2 などのこと) に加えて、それぞれの機械学習手法に必須なパラーメーターがある。 これをハイパーパラメーターと呼ぶ。 例えばニューラルネットワークでは層数、ユニット数、活性化関数、ドロップアウト率、最適化手法等など。 Grid Search, Random Search, Baysian Optimisation などがある。

ハイパーパラメーター

ROC 曲線の AUC は、スクリーニングツールの開発に用いられる。 0.5〜1の値をとり、1に近づくほど、スクリーニングツールとして優れている。

ロジスティック回帰と機械学習は、アウトカムは2値変数。 つまり、0 か 1 であるが、モデルから得られるのは 0〜1の間の小数。 モデルの種類によって、0.5付近に集まりやすいなどの性質があるため、0, 1に近づける補正を行うこと。

キャリブレーション

機械学習のパフォーマンスを調査および比較するための方法論的アプローチと、糖尿病分類モデルの例を使用した古典的な統計モデリングアプローチを使用することを目的とした。糖尿病の分類は、臨床診療においてかなりの誤分類がある領域であるため、興味深い事例研究を提供する。1型糖尿病と2型糖尿病は、特に成人では区別が難しい場合がある。正しい分類は、特に治療の観点から、患者にとって非常に重要である。1型糖尿病の人は、生命を脅かす糖尿病性ケトアシドーシスを防ぐためにインスリン注射が必要だが、2型糖尿病の人は、食事や錠剤で高血糖を治療することができる。

Methods

古典的なモデル、線形効果のみのロジスティック回帰(LR)、および(1)分類問題に適切であり、(2)以前に医療アプリケーションで使用されていた6つの教師あり機械学習アルゴリズムを選択した:勾配ブースティングマシン(GBM)、多変量適応回帰スプライン(MARS)、ニューラルネットワーク(NN)、k最近傍法(KNN)、ランダムフォレスト(RF)、サポートベクターマシン(SVM)。ハイパーパラメータ調整を組み込んだ各アルゴリズムを使用してモデルをトレーニングし、個別の外部検証データセットで最適化されたモデルのパフォーマンスを比較した。

調査母集団-トレーニングデータセット

エクセターコホートは、英国エクセターから既知の糖尿病 (募集に参加することによって、臨床記録から同定および確認)1378人の参加含む[36-39]。 妊娠糖尿病、既知の続発性または単一遺伝子性糖尿病、または外分泌膵臓の既知の障害のある参加者は除外された。 募集およびデータ収集方法を含むコホートの要約は、補足表1および図S1に示されている(追加ファイル1を参照)。

調査母集団-外部検証データセット

オックスフォードの若い糖尿病(YDX)の研究から566人の参加者が特定された[40]。 参加者は英国のテムズバレー地域で募集され、50歳までの糖尿病と診断された。 同じ適格基準がこのコホートに適用された。

この研究に含まれるすべての参加者(内部および外部の検証データセット)は、ヨーロッパ出身だった。募集およびデータ収集方法を含むコホートの要約は、補足表1に示されている(追加ファイル1を参照)。

モデルの結果: 1型および2型糖尿病の定義

1型または2型糖尿病のバイナリ結果を使用した。 1型糖尿病は、糖尿病の診断から3年以内にインスリン治療を受け、重度のインスリン欠乏症(非空腹時Cペプチド<200 pmol / L)であると定義された。 2型糖尿病は、(1)糖尿病診断から3年間インスリンを必要としないか、 (2)$$5年の糖尿病期間で、診断から3年以内にインスリンが開始され、内因性インスリン分泌が実質的に保持されている(C-ペプチド > 600 pmol/L)と定義された。 上記の基準を満たしていない、または情報が不十分な参加者は、糖尿病のタイプと迅速なインスリン必要量を明確に定義できなかったため、分析から除外された(n = トレーニングデータセットの342)。 こうした除外は避けられないが、私たちの意見では、体系的なバイアスを導入したり、さまざまなモデリングアプローチのパフォーマンスの比較である問題に影響を与える可能性は低い。 分析から除外された主な理由は、糖尿病の期間が短いことだった(除外された342のうち223)。 これは、最近発症した疾患では結果(T1Dの診断時に重度のインスリン欠乏症の発症がないことが多いことに基づく)を定義できないためである。 中間C-ペプチドのために少数の参加者が除外されている。 これは、結果を確実に定義できないことを意味する(n = 37)。 87人の参加者では、DARE研究のごく初期の段階で血清が保存されていなかったため、C-ペプチド測定用に保存された血清サンプルは利用できなかった。 C-ペプチドは、結果の測定を必要とするこれらのコホートの他のすべての参加者で測定された。

予測変数

事前に指定された7つの予測変数、診断時年齢、BMI、GADA膵島自己抗体、性別、総コレステロール、HDLコレステロール、トリグリセリドを使用した。 診断時の年齢と性別は参加者によって自己報告された。 身長と体重は、BMIを計算するために研究看護師による研究募集時に測定された。 総コレステロール、HDLコレステロール、およびトリグリセリドは、最も近いNHSレコードから抽出された。 連続変数は標準化された[41]。 GADA膵島自己抗体は、臨床ガイドライン[42]に従って、臨床的に定義されたカットオフに基づいて陰性または陽性に二分された。

予測値が欠落しているすべての観測値を削除した(完全なケース分析): トレーニングコホートで74件(HDLコレステロール74件とトリグリセリド値68件が欠落)、外部検証コホートで61件(性別値53件が欠落、総コレステロール8件が欠落) 。 最終的に、臨床的に不可能な値(zスコア > 50)の観測値をすべて削除した。 トレーニングコホートの場合は2件、外部検証コホートの場合は1件であった。。 960人の参加者が選択基準を満たし、トレーニングデータセットに含まれ、そのうち135人(14%)が1型糖尿病に分類された。 54人の参加者(1型糖尿病、nYDXコホートの = 105(21%))は基準を満たし、外部検証データセットに含まれていた。 エクセターコホートの参加者と比較して、 YDXコホートの参加者は診断時に若く(中央値 37歳 vs 43歳、p < 0.001)、 BMIが低かった(中央値 31 kg/\(m^2\) vs 33 kg/m\(^2\)、p < 0.001)、 GADAの割合が高く(20% vs 13%、p < 0.001)、 1型糖尿病の有病率が高かった(「調査母集団-外部検証データセット」セクションのモデル結果定義で定義)(21% vs 14%、p < 0.001)(参加者の特性については補足表2(追加ファイル1を参照))。

z-スコアは、平均が0, 標準偏差が 1 (-1) となるように変換した標準得点。 zスコア > 50 なんてあるのか?

モデルトレーニング

すべてのモデルは、トレーニングデータセット全体を使用してトレーニングされた。 7つの分類アルゴリズムを評価した: 勾配ブースティングマシン(GBM)、 ロジスティック回帰(LR)、 多変量適応回帰スプライン(MARS)、 ニューラルネットワーク(NN)、 k最近傍法(KNN)、 ランダムフォレスト(RF)、 サポートベクターマシン(SVM)。 SVMの場合、動径基底関数カーネルパラメーター[41]を使用し、NNの場合、準ニュートン逆伝播(BFGS)[43]最適化法を使用してトレーニングされた最も一般的に使用される単一隠れ層ニューラルネットワーク[41]を使用した。 アルゴリズムの選択、または特定の臨床設定におけるそれぞれの長所と短所に関する明確なガイドラインはない。 各アルゴリズムの概要を表1に示す。

表1

アルゴリズム 説明 引用
Logistic regression 最尤推定を用いた、二値の結果に対する古典的な統計アルゴリズム。完全なパラメトリック手法。設定すべきモデルのハイパーパラメータはない。係数は特性間の依存性を考慮して調整される。推論、推定、解釈、予測に有用である。 [41, 44,45,46]
Random forest 予測変数のランダムな選択を用いてブートストラップサンプル上で分類木の大規模なアンサンブルを成長させ、クラス選択のためにバギングを行うアルゴリズム。すべての木が成長した後、予測クラスは、木のアンサンブルで計算された平均推定クラス確率から決定される。 [41, 47, 48]
Gradient boosting machine 多数の決定木を平均化して予測を行うという意味で、ランダムフォレストに似たアンサンブル学習手法。両者の違いは、勾配ブースティングを採用している点にある。勾配ブースティングでは、決定木は順次学習され、次のモデルの重みは、前のモデルの誤差を減らすことに基づいて調整される。予測されたクラスは、木のアンサンブルで計算された平均推定クラス確率(または予測されたクラスの多数決)から決定される。 [41, 49, 50]
Multivariate adaptive regression spline MARSとロジスティック回帰には共通点がある。ロジスティック回帰モデルでは、オッズの対数は、予測変数の線形結合で適合される。MARSモデルでは、オッズの対数は、非線形項と相互作用項をカバーするためにスプラインでフィッティングされる。スプラインのモデル化には、ヒンジ関数(整流器と呼ばれることもある)が用いられる。 [51]
Neural network 生物学的なニューラルネットワークを模倣した、適応的で非連続的な学習方法を用いた手法。最初の層(入力層)から最後の層(出力層)まで信号が伝わるノンパラメトリックな手法である。各層は、ニューロンのセットで構成されている。各ニューロンの出力は、前の層のニューロンからの加重入力の合計の非線形関数によって計算される。重みは、接続部での信号の強さを増加または減少させる。 [41, 52,53,54,55]
K-nearest neighbours インスタンスベース学習または遅延学習の一種で、学習段階がなく、代わりにアルゴリズムが学習データを記憶するモデルフリーの手法。分類プロセスでは、データセット全体からユークリッド距離で最も近いk個の学習点(k-neighbours)を検索し、これらのk-neighboursにおける実際のクラスの平均投票数に基づいて、予測されるクラスの確率を決定する。 [41, 53, 56, 57]
Support vector machine これは,ペナルティの最小化とマージン幅の最大化を含む二次最適化問題であり、2つのクラス間のマージンを最大化するカーネルトリックを用いて非線形決定境界(超平面)を構築することで2つのクラスを分離する。生成された事後推定値は、元の分類器のスコアをロジスティック変換によって再スケールしたもの。 [41, 58, 59]

グリッド検索を使用して、モデルパラメータを調整した(ハイパーパラメータ調整)[60]。 つまり、機械学習アルゴリズムのパフォーマンスを最適化した。 グリッド検索に適用されるハイパーパラメータメトリックは、補足表3に示されている(追加ファイル1を参照)。 トレーニングデータセット全体にモデルを適合させるために、最初に5分割交差検定を使用してハイパーパラメーターを推定し、推定されたアルゴリズムを使用してモデルを適合させた。 内部検証は、ネストされた相互検証を使用して実行された。 ネストされた相互検証は、外部の相互検証にネストされた内部ループの相互検証で構成される。 内側のループはモデルの選択/ハイパーパラメータの調整(検証セットと同様)を担当し、外側のループはエラー推定(テストセット)を担当する。 ループごとに、5つのフォールドを使用した。 ネストされた交差検定は、パフォーマンス測定値を推定するためにのみ使用され、最終モデルはトレーニングデータセット全体に適合する。

相互検証で計算された受信者動作特性曲線(ROC AUC)の下の最大平均面積を使用して、最適なモデルが選択された。 補足表3(追加ファイル1を参照)には、交差検定リサンプリングで最適なモデル用に選択された最終的なモデル調整パラメーターが含まれている。 平均の周りの変動が正規分布していると仮定して95%CIを計算し、交差検定によって計算された各フォールドで推定されたさまざまな値を使用して標準の正規化区間を計算した。

モデルのパフォーマンス測定

モデルの識別を評価するための要約メトリックとして ROC AUC [61]を使用した。 ROC AUCは、この状態の有無にかかわらず、ランダムに選択された個人のペアからのリスクスコアが正しく順序付けられる確率を定量化する。 値1は、完全なテストを示する。

キャリブレーションプロットを使用して視覚的にキャリブレーションを評価し、キャリブレーションパフォーマンス測定値を計算した。 つまり、キャリブレーションスロープ(1に近いほど良い)と大規模なキャリブレーション(ゼロに近いほど良い)を計算した。 線形予測子の勾配係数ベータは、1の理想的な勾配からの偏差を反映している。

意思決定をサポートするためのモデルのパフォーマンスを、意思決定曲線分析と比較した[62]。 決定曲線分析では、予測モデルに関連する利益(真陽性の症例の治療)と害(偽陽性の症例の治療)の相対的価値の臨床的判断が、さまざまな閾値確率に対して行われる[63]。 正味の利益は、真陽性の割合から偽陽性のすべての患者の割合を差し引き、偽陽性と偽陰性の結果の相対的な害によって重み付けすることによって計算される。

外部テスト

トレーニングデータセットで開発された各最適モデルについて、外部パフォーマンスがYDX研究コホートで評価され、内部(相互検証リサンプリング)パフォーマンスと比較された。 検量線を用いて検量線を調べた。 また、各モデルからの予測でピアソンの相関を確認した。

ソフトウェア

すべての分析は、Rソフトウェア(バージョン3.5.2)を使用して実行された。 モデル訓練はRパッケージ caret を使用して実施した [64-68]。

コード

補足資料では、コードを共有して、機械学習アルゴリズムと任意の数の予測変数との同様の比較を再現できるようにする(追加ファイル2を参照)。

Results

リサンプリングで得られた最適モデルの平均(平均)パフォーマンス ROC AUC は、すべてのモデルで高く(ROC AUC \(\geq\) 0.93)(表2)、モデル間のパフォーマンスの差はわずかだった。

外部検証データセットに適用すると、すべてのモデルの ROC AUC が低下したが(表2)、すべてのモデルで高レベルのパフォーマンス(ROC AUC \(\geq\) 0.92、図S3)を示した。 モデルの予測は、モデル間で高度に相関していた(図S2(追加ファイル1を参照))。 ROC AUC のパフォーマンスは、リサンプリングの有無にかかわらずモデルをフィッティングした場合と同様だった。

外部検証データセットで実行されたキャリブレーションテストでは、GBM と NN は、0に近い大きなキャリブレーションと、1に近いキャリブレーション勾配で、非常に優れたキャリブレーションパフォーマンスを示している。 ロジスティック回帰とサポートベクトルマシンは、満足のいくキャリブレーション結果を示すが、 1型糖尿病を予測することは、平均してわずかに過小評価されている。 他のすべてのモデルのキャリブレーションパフォーマンスは不十分であり(図1および表3(0未満の大きな値でのキャリブレーションはリスクを過大評価していることを示す))、これらのモデルには視覚的なミスキャリブレーションの証拠があった(多くの場合、タイプ1の過小評価が原因である)。

図1

表3

図S3は、最もパフォーマンスの高い機械学習アルゴリズムが同様の予測を提供することを示している。 この図では、XYD の観測ごとに、各アルゴリズムの予測がプロットされている。 SVM、NN、およびLRの予測には強い相関関係がある(LR-NN、0.992、LR-SVM、0.99、NN-SVM、0.983)。 すべてのモデルで、予測される確率の大部分は0.3未満である(予想どおり、79%の人が1型糖尿病を患っていない)。 KNNモデルを除いて、0.3から0.7の間にある予測はほとんどない。

図2は、純利益が閾値確率に対してプロットされている決定曲線分析だ。 LRモデルは、広範囲の閾値確率で他のモデルより優れているか類似しているが、閾値確率が高い場合は他のモデルよりも悪くなる。 1型糖尿病は正しい治療を受けないと生命が脅かされる可能性があるため、実際には、臨床医は慎重になり、はるかに低い確率閾値で患者を治療する可能性がある。 一方、2型糖尿病の患者にインスリンを投与することは不便で費用がかかるが、生命を脅かすものではない。

図2

高い閾値確率でのパフォーマンスの低下は、SVMモデルと同様にLRモデルが、リスクが最も高い(85%を超えるリスク)人々の1型糖尿病のリスクを過大評価する傾向があるという事実によるものだ。 図1を参照。

Discussion

主な調査結果の要約

内部検証データセットと外部検証データセットの両方で、ロジスティック回帰と6つの最適化された機械学習アルゴリズムを適用して1型糖尿病と2型糖尿病を分類すると、同様のパフォーマンスが見られた。 識別はすべてのモデルで高く、ロジスティック回帰では、外部検証で数値的に最も高い識別が示され、識別の違いは小さかった。 ニューラルネットワークと勾配ブースティングマシンは最高のキャリブレーションパフォーマンスを示し、ロジスティック回帰とサポートベクターマシンも十分なキャリブレーションを示した。

強みと限界

我々の研究の強みは、 (1) 訓練するために異なるデータセットを使用、 (2) テストモデル、チューニングパラメータの最適化を含む [24,30] (3) キャリブレーション[18] および(4)決定曲線分析 という、以前の研究の限界に対応したモデル比較への体系的なアプローチの使用を含んでいる点である[35,70]。 同じデータセットを使用して、すべてのモデルをトレーニングした。 モデルのパフォーマンスは設定によって異なるため、有効なモデルの比較には同じデータセットの使用が重要である。 チューニングパラメータの選択は、モデルのパフォーマンスに影響し[60]、認識されたグリッド検索アプローチを使用してハイパーパラメータ調整を適用することにより、モデルを最適化した。 外部検証データセットを使用して、結果の妥当性を高めた。

設定への適合性のために選択されたいくつかの機械学習アルゴリズムを比較した。 7つの予測変数のみを使用するということは、過剰適合のリスクが非常に低いことを意味する。 機械学習アルゴリズムの場合、従来の統計モデリングと比較して、安定した結果を達成するには、変数ごとに10倍以上のイベントが必要であることが示唆されている[69]。 これらの機械学習アルゴリズムは、より大きなデータセットとより多くの変数を処理するように設計されているため、7つの予測子のみの使用も研究の限界と見なすことができる。 ただし、臨床現場では、いくつかの意味のある予測因子を使用するのが一般的である。 少数の予測子を使用して機械学習モデルのパフォーマンスを知ることは重要である。 より多くの変数またはより多くの観測値を使用すると、機械学習アプローチがより識別力を高める可能性がある。 ただし、これら7つの予測子だけを使用して優れたパフォーマンスを達成した。 私たちの研究のもう1つの限界は、モデルのパフォーマンスのみでモデルを判断することだ。 実際には、「最良の」モデルを選択する際には、実装と解釈の容易さを考慮したいと考えている。

LR、SVM、およびNNは、ROC AUC が最も高いモデルである。 推定確率の精度が重要な要素である場合、NN、LR、GBM、およびSVMが最善のアプローチである。 全体として、最良のモデルの概念はコンテキストに依存するが、この研究では、モデルは同様に機能する。 臨床的有用性の観点から、LR と SVM は他のモデルよりもわずかに優れているように見えた。

外部検証データで評価したときに観察された ROC AUC の減少は、モデルの可搬性をテストするための外部検証の重要性を浮き彫りにする。 実際、すべてのアルゴリズムは、外部検証セットでわずかにパフォーマンスが低下していた。 厳密な内部検証にもかかわらず、トレーニングデータセットに適合したモデルが過剰に適合し、そのパフォーマンスが過大評価される可能性がある(表2の内部パフォーマンスと外部パフォーマンスの違いを参照)。 ただし、最も可能性の高い理由は、YDXの母集団の年齢とBMIの範囲が狭く、GADA が Exeter コホートと比較して YDX の識別力が低いことだ。 これはパフォーマンスを低下させる可能性があり、必ずしも過剰適合を意味するわけではない。

内部検証データセットと外部検証データセットの両方での LR のパフォーマンスは、予測子の線形性を仮定することによって不利になった場合でも、従来のアルゴリズムがより高度なアルゴリズムと同様に実行できることを示している。 LRモデルは、「ブラックボックス」と呼ばれることが多いモデルの解釈が難しいために使用が制限される機械学習アルゴリズムと比較して、比較的使いやすく、理解しやすいものだ。 LRモデルには、変数の統計的有意性を調査するために明確に定義された統計的検定を使用する可能性につながる強力な理論的背景もある。 多数の設定で、LRがより良くはないにしても同様に機能することを実証する研究が増えている[35]。 ただし、この調査で行ったように、最適化されたハイパーパラメータを使用した機械学習アルゴリズムと外部データセットのLRを比較した調査は見つからなかった。 これは、LRがより複雑なアプローチと同様に機能することを示している。

リアルワールドデータ医療アプリケーションは不均衡である可能性があるが、Synthetic Minority Over-Sampling Technique(SMOTE)などのサンプリング方法を使用すると、モデルの予測パフォーマンスが向上する可能性がある[70]。 SMOTEの使用を、リサンプリングなしの従来のアプローチと比較した。 それでも、同様のROC AUCとしてSMOTEを使用しない場合の結果のみを示すが、SMOTEを使用しない場合は、より優れた結果キャリブレーションと決定曲線分析のパフォーマンスが達成された。

この調査を通じて、機械学習がこの予測問題に対して同様に機能することを示した。 ただし、いくつかの違いがある。 前述のように[71]、各データベースは一意であり、「無料の昼食」はない。 つまり、アルゴリズムが特定のクラスの問題でうまく機能する場合、他の一連の問題でパフォーマンスが低下することで、必然的にその代償を払う[35,72]。 したがって、ロジスティック回帰に対してベンチマークされたさまざまなアルゴリズムをテストして、一方のアルゴリズムが他方よりも優れているかどうかを識別することが重要だ。 パフォーマンスが類似している場合は、最も単純で最も解釈しやすいモデルを使用できる。

Conclusion

3つの強力な予測変数を使用した糖尿病分類設定では、従来のロジスティック回帰アルゴリズムと、より高度なマシンアルゴリズムが実行された。 この研究は、特に少数のよく理解された強力な予測変数を使用する場合に、従来の回帰モデリングを機械学習と比較することの有用性を強調している。 さらに、この記事では、モデルを選択するときに外部検証を実行する必要性をもう一度強調する。 これは、すべてのアルゴリズムが外部データに対してパフォーマンスが低下する可能性があることを示している。

References

  1. Shariat SF, Karakiewicz PI, Roehrborn CG, Kattan MW. An updated catalog of prostate cancer predictive tools. Cancer. 2008;113(11):3075–99.

  2. Amir E, Freedman OC, Seruga B, Evans DG. Assessing Women at High Risk of Breast Cancer: A Review of Risk Assessment Models. J Natl Cancer Inst. 2010;102(10):680–91.

  3. Damen JA, Hooft L, Schuit E, Debray TP, Collins GS, Tzoulaki I, et al. Prediction models for cardiovascular disease risk in the general population: systematic review. BMJ. 2016;353:i2416.

  4. Wessler BS, Lai Yh L, Kramer W, Cangelosi M, Raman G, Lutz JS, et al. Clinical prediction models for cardiovascular disease: tufts predictive analytics and comparative effectiveness clinical prediction model database. Circ Cardiovasc Qual Outcomes. 2015;8(4):368–75.

  5. Noble D, Mathur R, Dent T, Meads C, Greenhalgh T. Risk models and scores for type 2 diabetes: systematic review. BMJ. 2011;343.

  6. Abbasi A, Peelen LM, Corpeleijn E, van der Schouw YT, Stolk RP, Spijkerman AM, et al. Prediction models for risk of developing type 2 diabetes: systematic literature search and independent external validation study. BMJ. 2012;345:e5900.

  7. Hippisley-Cox J, Coupland C. Development and validation of risk prediction algorithms to estimate future risk of common cancers in men and women: prospective cohort study. BMJ Open. 2015;5(3):e007825.

  8. Gray LJ, Taub NA, Khunti K, Gardiner E, Hiles S, Webb DR, et al. The Leicester Risk Assessment score for detecting undiagnosed Type 2 diabetes and impaired glucose regulation for use in a multiethnic UK setting. Diabet Med. 2010;27(8):887–95.

  9. Rabin BA, Gaglio B, Sanders T, Nekhlyudov L, Dearing JW, Bull S, et al. Predicting cancer prognosis using interactive online tools: a systematic review and implications for cancer care providers. Cancer Epidemiol Biomarkers Prev. 2013;22(10):1645–56.

  10. Watson HA, Carter J, Seed PT, Tribe RM, Shennan AH. The QUiPP App: a safe alternative to a treat-all strategy for threatened preterm labor. Ultrasound Obstet Gynecol. 2017;50(3):342–6.

  11. Shields BM, McDonald TJ, Ellard S, Campbell MJ, Hyde C, Hattersley AT. The development and validation of a clinical prediction model to determine the probability of MODY in patients with young-onset diabetes. Diabetologia. 2012;55(5):1265–72.

  12. D’Agostino RB Sr, Vasan RS, Pencina MJ, Wolf PA, Cobain M, Massaro JM, et al. General cardiovascular risk profile for use in primary care: the Framingham Heart Study. Circulation. 2008;117(6):743–53.

  13. Hippisley-Cox J, Coupland C, Robson J, Brindle P. Derivation, validation, and evaluation of a new QRISK model to estimate lifetime risk of cardiovascular disease: cohort study using QResearch database. BMJ. 2010;341:c6624.

  14. Fong Y, Evans J, Brook D, Kenkre J, Jarvis P, Gower-Thomas K. The Nottingham Prognostic Index: five- and ten-year data for all-cause survival within a screened population. Ann R Coll Surg Engl. 2015;97(2):137–9.

  15. Fox KA, Dabbous OH, Goldberg RJ, Pieper KS, Eagle KA, Van de Werf F, et al. Prediction of risk of death and myocardial infarction in the six months after presentation with acute coronary syndrome: prospective multinational observational study (GRACE). BMJ. 2006;333(7578):1091.

  16. Johnston SC, Rothwell PM, Nguyen-Huynh MN, Giles MF, Elkins JS, Bernstein AL, et al. Validation and refinement of scores to predict very early stroke risk after transient ischaemic attack. Lancet. 2007;369(9558):283–92.

  17. Lip GY, Nieuwlaat R, Pisters R, Lane DA, Crijns HJ. Refining clinical risk stratification for predicting stroke and thromboembolism in atrial fibrillation using a novel risk factor-based approach: the euro heart survey on atrial fibrillation. Chest. 2010;137(2):263–72.

  18. Shah ND, Steyerberg EW, Kent DM. Big data and predictive analytics: recalibrating expectations. JAMA. 2018;320(1):27–8.

  19. Beam AL, Kohane IS. Big data and machine learning in health care. JAMA. 2018;319(13):1317–8.

  20. Kavakiotis I, Tsave O, Salifoglou A, Maglaveras N, Vlahavas I, Chouvarda I. Machine learning and data mining methods in diabetes research. Comput Struct Biotechnol J. 2017;15:104–16.

  21. Kourou K, Exarchos TP, Exarchos KP, Karamouzis MV, Fotiadis DI. Machine learning applications in cancer prognosis and prediction. Comput Struct Biotechnol J. 2015;13:8–17.

  22. Shillan D, Sterne JAC, Champneys A, Gibbison B. Use of machine learning to analyse routinely collected intensive care unit data: a systematic review. Crit Care. 2019;23(1):284.

  23. Talaei-Khoei A, Wilson JM. Identifying people at risk of developing type 2 diabetes: A comparison of predictive analytics techniques and predictor variables. Int J Med Inform. 2018;119:22–38.

  24. van der Ploeg T, Smits M, Dippel DW, Hunink M, Steyerberg EW. Prediction of intracranial findings on CT-scans by alternative modelling techniques. BMC Med Res Methodol. 2011;11(1):143.

  25. Casanova R, Saldana S, Chew EY, Danis RP, Greven CM, Ambrosius WT. Application of random forests methods to diabetic retinopathy classification analyses. PLoS One. 2014;9(6):e98587.

  26. Casanova R, Saldana S, Simpson SL, Lacy ME, Subauste AR, Blackshear C, et al. Prediction of incident diabetes in the Jackson Heart Study using high-dimensional machine learning. PloS One. 2016;11(10):e0163942-e.

  27. Lo-Ciganic W-H, Huang JL, Zhang HH, Weiss JC, Wu Y, Kwoh CK, et al. Evaluation of machine-learning algorithms for predicting opioid overdose risk among medicare beneficiaries with opioid prescriptions. JAMA Network Open. 2019;2(3):e190968-e.

  28. Wong A, Young AT, Liang AS, Gonzales R, Douglas VC, Hadley D. Development and validation of an electronic health record–based machine learning model to estimate delirium risk in newly hospitalized patients without known cognitive impairment. JAMA Network Open. 2018;1(4):e181018-e.

  29. Dreiseitl S, Ohno-Machado L, Kittler H, Vinterbo S, Billhardt H, Binder M. A comparison of machine learning methods for the diagnosis of pigmented skin lesions. J Biomed Inform. 2001;34(1):28–36.

  30. Harrison RF, Kennedy RL. Artificial neural network models for prediction of acute coronary syndromes using clinical data from the time of presentation. Ann Emerg Med. 2005;46(5):431–9.

  31. Faisal M, Scally A, Howes R, Beatson K, Richardson D, Mohammed MA. A comparison of logistic regression models with alternative machine learning methods to predict the risk of in-hospital mortality in emergency medical admissions via external validation. Health Inform J. 2018;1460458218813600.

  32. Ennis M, Hinton G, Naylor D, Revow M, Tibshirani R. A comparison of statistical learning methods on the Gusto database. Stat Med. 1998;17(21):2501–8.

  33. Hsieh MH, Sun L-M, Lin C-L, Hsieh M-J, Hsu C-Y, Kao C-H. Development of a prediction model for pancreatic cancer in patients with type 2 diabetes using logistic regression and artificial neural network models. Cancer Manag Res. 2018;10:6317–24.

  34. Frizzell JD, Liang L, Schulte PJ, Yancy CW, Heidenreich PA, Hernandez AF, et al. Prediction of 30-day all-cause readmissions in patients hospitalized for heart failure: comparison of machine learning and other statistical approaches. JAMA Cardiol. 2017;2(2):204–9.

  35. Christodoulou E, Ma J, Collins GS, Steyerberg EW, Verbakel JY, van Calster B. A systematic review shows no performance benefit of machine learning over logistic regression for clinical prediction models. J Clin Epidemiol. 2019;110:12–22.

  36. DiabetesGenes.org. Diabetes alliance for research in England (DARE) [Cited 15/11/2018]. Available from: https://www.diabetesgenes.org/current-research/dare/.

  37. ClinicalTrials.gov. RetroMASTER - Retrospective Cohort MRC ABPI STratification and Extreme Response Mechanism in Diabetes [Cited 15/11/2018]. Available from: https://www.clinicaltrials.gov/ct2/show/NCT02109978.

  38. ClinicalTrials.gov. MASTERMIND - Understanding individual variation in treatment response in type 2 diabetes (Mastermind) [Cited 31/07/2018]. Available from: https://www.clinicaltrials.gov/ct2/show/NCT01847144?term=mastermind.

  39. clinicaltrials.gov. PROMASTER - PROspective Cohort MRC ABPI STratification and Extreme Response Mechanism in Diabetes (PROMASTER) [Cited 31/07/2018]. Available from: https://www.clinicaltrials.gov/ct2/show/NCT02105792?term=promaster&rank=1.

  40. Thanabalasingham G, Pal A, Selwood MP, Dudley C, Fisher K, Bingley PJ, et al. Systematic assessment of etiology in adults with a clinical diagnosis of young-onset type 2 diabetes is a successful strategy for identifying maturity-onset diabetes of the Young. Diabet Care. 2012;35(6):1206–12.

  41. Hastie T, Tibshirani R, Friedman J. The elements of statistical learning. New York: Springer New York Inc.; 2001.

  42. National Institute for Health and Care Excellence. Type 1 diabetes in adults: diagnosis and management (NICE guideline NG17) 2015 [Cited 14/08/2018]. Available from: https://www.nice.org.uk/guidance/ng17.

  43. Setiono R, Hui LCK. Use of a quasi-Newton method in a feedforward neural network construction algorithm. IEEE Trans Neural Netw. 1995;6(1):273–7.

  44. Menard SW. Applied logistic regression analysis. Thousand Oaks: Sage Publications; 1995.

  45. van Houwelingen JC, le Cessie S. Logistic Regression, a review. Statistica Neerlandica. 1988;42(4):215–32.

  46. Steyerberg EW, Eijkemans MJ, Harrell FE Jr, Habbema JD. Prognostic modeling with logistic regression analysis: in search of a sensible strategy in small data sets. Med Decis Making. 2001;21(1):45–56.

  47. Breiman L. Random forests. Machine Learning. 2001;45(1):5–32.

  48. Ho TK, editor. Random decision forests. Proceedings of 3rd International Conference on Document Analysis and Recognition; 1995 14-16 Aug. New York: IEEE Computer society press; 1995. p. 278–82.

  49. Friedman JH. Greedy function approximation: a gradient boosting machine. Ann Stat. 2001;29(5):1189–232.

  50. Ridgeway G. Generalized boosted models: a guide to the gbm package. 2007(21/06/2019).

  51. Friedman JH. Multivariate adaptive regression splines. Ann Stat. 1991;19(1):1–67.

  52. Goodfellow I, Bengio Y, Courville A. Deep learning: the MIT press; 2016. p. 800.

  53. Ripley BD. Pattern Recognition and Neural Networks. New York: Cambridge University Press; 1996.

  54. Hertz J, Krogh A, Palmer R. Introduction to the theory of neural computation. Redwood City: Addison-Wesley; 1991.

  55. Bishop C. Neural networks for pattern recognition. New York: Oxford University Press; 1995.

  56. Kotsiantis S, Zaharakis I, Pintelas P. Supervised machine learning: a review of classification techniques. Informatica. 2007;31:249–68.

  57. Dasarathy B. Nearest neighbor: pattern classification techniques. Los Alamitos: IEEE Computer Society Press; 1991.

  58. Vapnik VN. The nature of statistical learning theory: Springer-Verlag; 1995. p. 188.

  59. Moguerza JM, Munoz A. Support vector machines with applications. Statist Sci. 2006;21(3):322–36.

  60. Claesen M, Moor BD. Hyperparameter search in machine learning: MIC 2015: The XI Metaheuristics International Conference; 2015.

  61. Bradley AP. The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recognition. 1997;30(7):1145–59.

  62. Vickers AJ, Elkin EB. Decision curve analysis: a novel method for evaluating prediction models. Med Decis Making. 2006;26(6):565–74.

  63. Zhang Z, Rousson V, Lee W-C, Ferdynus C, Chen M, Qian X, et al. Decision curve analysis: a technical note. Ann Transl Med. 2018;6(15).

  64. Greenwell B, Boehmke B, Cunningham J, Developers G. gbm: Generalized Boosted Regression Models 2018 [Available from: https://CRAN.R-project.org/package=gbm.

  65. Meyer D, Dimitriadou E, Hornik J, Weingessel A, Leisch F. e1071: Misc Functions of the Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien 2018 [Available from: https://CRAN.R-project.org/package=e1071.

  66. Venables WN, Ripley BD. Modern Applied Statistics with S. Fourth ed. New York: Springer; 2002.

  67. Liaw A, Wiener M. Classification and Regression by randomForest. R News. 2002;2(3):18–22.

  68. Kuhn M. Building Predictive Models in R Using the caret Package. J Stat Software. 2008;28(5):1–26.

  69. van der Ploeg T, Austin PC, Steyerberg EW. Modern modelling techniques are data hungry: a simulation study for predicting dichotomous endpoints. BMC Med Res Methodol. 2014;14(1):137.

  70. Kuhn M, Johnson K. Applied predictive modeling. New York: Springer.

  71. Wolpert DH, Macready WG. No free lunch theorems for optimization. IEEE Transact Evol Comput. 1997;1(1):67–82.

  72. Fernandez-Delgado M, Cernadas E, Barro S, Amorim D. Do we need hundreds of classifiers to solve real world classification problems? J Mach Learn Res. 2014;15(1):3133–81.