大規模な行政健康データを使用したアルツハイマー病の発生率の機械学習予測

Ji Hwan Park、Han Eol Cho、Jong Hun Kim、Melanie M. Wall、Yaakov Stern、Hyunsun Lim、Shinjae Yoo、Hyoung Seop Kim、Jiook Cha

概要

全国的な人口ベースのコホートは、既存のリスク予測モデルを超えて、個人の健康とヘルスケアの履歴に基づいて自動化されたリスク予測モデルを構築する新しい機会を提供する。 大規模な行政健康データを使用して、アルツハイマー病(AD)の将来の発生率を予測するための機械学習モデルの可能性をテストした。 2002年から2010年までの韓国国民健康保険サービスのデータベースから、ICD-10コード、投薬コード、検査値、個人と家族の病歴、社会人口統計など4,894の固有の臨床的特徴を含む65歳以上の高齢者(N = 40,736)の匿名化された健康データを取得した。 インシデントADを定義するために、診断コードと認知症治療薬を使用した「確定AD」(n = 614)と診断のみを使用した「推定AD」(n = 2026)の2つの操作上の定義を検討した。 ランダムフォレスト、サポートベクターマシン、ロジスティック回帰をトレーニングおよび検証して、1年後、2年後、3年後、および4年後のインシデントADを予測した。 バランスの取れたサンプル(ブートストラップ)でのADの将来の発生率を予測するために、機械学習モデルは、「明確なAD」と「可能性のあるAD」の結果に基づいて、 AUC がそれぞ1年間の予測でれ0.775と0.759、2年間で 0.730 および 0.693、3年間で 0.677 と 0.644、4年間で 0.725 と 0.683 で、妥当なパフォーマンスを示した。 (不均衡な)サンプル全体を使用した場合の結果は同様だった。 ロジスティック回帰で選択された重要な臨床的特徴には、ヘモグロビンレベル、年齢、尿タンパクレベルが含まれていた。 この研究は、ADリスク予測における大規模な管理上の健康データに基づくデータ駆動型機械学習モデルの有用性に光を当てる可能性がある。 これにより、臨床試験または臨床環境での早期発見においてADのリスクがある個人をより適切に選択できる可能性がある。

Introduction

前臨床段階の医療健康記録に基づいてアルツハイマー病(AD)のリスクがある個人をスクリーニングすると、ADの病状を早期に発見し、ADの発症を遅らせるためのより良い治療戦略につながる可能性がある\(^{1-3}\)。 ADの現在のバイオマーカーは、検体(血清や体液など)または画像データの収集を必要とする。 一方、臨床現場の健康記録や管理上の健康データなどの電子医療データは、データ収集に追加の時間や労力を必要としない。 また、デジタル化の到来により、そのようなデータの量は指数関数的に増加した\(^4\)。 ユビキタスで費用効果が高く、巨大であるため、デジタル化されたヘルスケアデータベースは、ADやその他の疾患のスケーラブルな予測モデルをテストするための非常に貴重なリソースになる可能性がある。ただし、その途方もない潜在的な価値にもかかわらず、大規模な管理上の健康データがADリスク予測にどの程度役立つかについてはほとんどわかっていない。

ADリスク予測の場合、以前のモデルは通常、社会人口統計(年齢、性別、教育)、ライフスタイル(身体活動)、中年期の健康リスク要因(収縮期血圧、BMI、総コレステロールレベル)\(^(5,6)\)とおよび認知プロファイル\(^{7,8}\)などの事前定義された健康プロファイル変数に基づいている。 選択された変数の小さなセットに基づくこれらの単純な予測モデルが、臨床設定における多因子ADの不均一な病因を十分に説明できるかどうかは重要な未解決の問題である。 確かに、メタアナリシス研究は、多因子モデルが認知症のリスクを最もよく予測するのに対し、単一因子モデルは不十分であることを示しており\(^6\)、正確なADリスク予測には大きな特徴空間が必要であることを示唆している。 ここでは、データ駆動型マシンアプローチが、個人の健康軌道の数千のデータを含む大規模なヘルスケアデータから顕著な情報を収集する範囲をテストし、ADリスクの個人固有の予測を行うかどうかを検証する。

機械学習は、数十万人の個人からの数千の記述子を含む大規模な管理上の健康データを分析するための分析の最適な選択である。 研究によると、AD以外の偶発的疾患(糖尿病、メタボリックシンドローム、自殺死、オピオイド過剰摂取または薬剤耐性てんかんなど)の予測における大規模な管理データへの機械学習の適用の成功が示されている\(^{9-13}\)。 機械学習テクノロジーの最近の急速な成長を考えると、臨床予測モデリングへの AI テクノロジーの適用は、医学に深い影響を与える可能性がある\(^{14-16}\)。 しかし、私たちの知る限り、全国的な人口ベースの行政健康データに基づくデータ駆動型予測モデリングは、AD リスク予測でまだテストされていない。

予測モデルのテストでは、母集団を表す十分に大きなデータを使用することが重要だ。 データのサイズはモデルのパフォーマンス(精度など)にとって重要だが、代表性はモデルの一般化可能性にとって重要だ。 この研究では、韓国国民健康保険サービスデータベース内の現代韓国の人口を代表する100万人の国民健康保険サービス-全国サンプルコホート(NHIS-NSC)を使用しました17。 このデータベース内の大規模で徹底的な長期的な管理ヘルスケアデータ(保険金請求や健康診断など)を使用して、データ駆動型機械学習モデルを構築および検証し、ADの将来の発生率を予測した。

結果

サンプルの特徴

2002年に65歳以上の40,736人の個人のうち、definitive AD 結果を使用してインシデントADのある614人のユニークな個人、probable AD 定義を使用してインシデントADのある2026人、およびインシデントADのない38,710人の高齢者を特定した(図1)。 このコホートのADの割合は、definitive AD 定義を使用した場合は1.56%、probable AD 定義を使用した場合は4.97%だった。 人口統計学的特性は、ADグループと非ADグループの両方の間で年齢に有意差があり、収入と性別に有意差がないことを示した(表1)。

図1

Table 1 Sample characteristics.

From: Machine learning prediction of incidence of Alzheimer’s disease using large-scale administrative health data

Definite AD Probable AD Non-AD
Number 614 2026 38,710
Age 80.7 (80.2–81.1) 79.2 (79.0–79.5) 74.5 (74.4–74.5)
Sex (male: female) 229 (44.6%): 285 (55.4%) 733 (36.2%): 1293 (63.8%) 18,200 (47.0%): 20,510 (53.0%)
Income level\(^a\) 6.00 (5.73–6.27) 5.90 (5.87–5.93) 6.02 (5.87–6.17)

モデル予測

分類子は、0、1、2、3、および4年後のインシデントADを予測するようにトレーニングされた。 バランスの取れたサンプル(置換によるブートストラップ)では、明確なAD定義(ICD-10コードと認知症処方に基づく)を使用すると、ADの0年の発生率を予測する際に、ランダムフォレスト(RF)が0.823の精度と AUC 0.898 で最高のパフォーマンスを示した(図2および表2)。 可能性のあるAD定義(ICD-10コードに基づく)を使用した場合、分類パフォーマンスはわずかに低く、精度は0.788、 AUC は0.850(RF)だった。 分類パフォーマンスは、後年の将来のインシデントADを予測する際に低下した。 明確なAD定義を使用すると、精度/ AUC は0.713 / 0.775(1年)、0.675 / 0.730(2年)、0.632 / 0.677(3年)、0.663 / 0.725( 4年)。 推定AD定義を使用すると、精度/ AUC は0.688 / 0.759(1年)、0.645 / 0.693(2年)、0.610 / 0.644(3年)、0.641 / 0.683(4年)になる。 モデルのトレーニングと評価に不均衡なサンプル全体を使用した場合の結果は同様であり(補足表1)、RFは、明確なAD定義を使用した場合の AUC が0.887、 AUC が0.805の場合にADの発生率を0年で予測するのに最高のパフォーマンスを示した。 可能性のあるAD定義を使用する。予測期間が長くなるにつれて、分類のパフォーマンスは低下した。 definitive AD定義を使用して、 AUC は0.781(1年)、0.739(2年)、0.686(3年)、および0.662(4年)であった。 probable AD定義を使用すると、 AUC は0.730(1年)、0.645(2年)、0.575(3年)、および0.602(4年)になる。 機能の数とルックバック期間も後年に減少した(補足表2)。

図2

重要な機能

ロジスティック回帰により、インシデンスADに積極的に関連する機能が特定された。 これらには、年齢(b = 0.689; オッズ比(OR)= 1.991)、尿タンパク質の上昇(b = 0.303; OR = 1.353)、ゾテピン(抗精神病薬)の処方(b = 0.303; OR = 1.353)が含まれる。 インシデンスADと負の関連があるのは、ヘモグロビンの減少(b = −0.902; OR = 0.405)、クエン酸ニカメテートの処方(b = −0.297; OR = 0.743)、神経系の他の変性障害の診断(b = −0.292)など (OR = 0.747)、および外耳の障害(b = −0.274; OR = 0.760)(表3)。

Table 3 Top ten features and weights from logistic regression (0-year prediction).

From: Machine learning prediction of incidence of Alzheimer’s disease using large-scale administrative health data

Type of data Name b value 95% CI Odd ratio p-value
Health checkup Hemoglobin (g/dL) −0.902 −0.903/−0.901 0.405 <0.001
Demography Age 0.689 0.687/0.690 1.991 <0.001
Health checkup Urine proteina 0.303 0.300/0.306 1.353 <0.001
Medication Zotepine (antipsychotic drug) 0.303 0.280/0.325 1.353 <0.001
Medication Nicametate Citrate (vasodilator) −0.297 −0.298/−0.295 0.743 <0.001
Disease code Other degenerative disorders of nervous system in diseases classified elsewhere −0.292 −0.309/−0.274 0.746 <0.001
Disease code Disorders of external ear in diseases classified elsewhere −0.274 −0.328/−0.220 0.760 <0.001
Medication Tolfenamic acid 200 mg (pain killer) −0.266 −0.279/−0.254 0.766 <0.001
Disease code Adult respiratory distress syndrome −0.259 −0.282/−0.236 0.771 <0.001
Medication Eperisone Hydrochloride (antispasmodic drug) 0.255 0.237/0.272 1.290 <0.001

重要な機能のみを使用したモデル予測

ロジスティック回帰によってインシデントADに関連する重要な機能を特定した後、分類子は、ADの0、1、2、3、および4年後の発生率を予測するためだけに上位20の重要な機能でトレーニングされた。 これらのモデルは、全体的に同様のパフォーマンスを示した。 0年後と1年後の予測では、 AUC は、上位20の機能モデルと比較して、すべての機能モデルで最大11.5%高かった。 2、3、4年後の予測では、 AUC の差ははるかに小さく、負の5から正の1%の範囲だった(表2、補足表3)。

Discussion

この研究では、ADの将来の発生率を予測する上での全国的な人口ベースの行政健康データの有用性を評価した。 機械学習を使用して、1年間の予測で0.713( AUC 0.781に関して)の許容可能な精度でADの将来の発生率を予測した。 全国規模の大規模なサンプルに基づくモデルの高精度は、ADにおける管理データベースの予測モデルの潜在的な有用性をサポートする可能性がある。 臨床表現型を直接確認できないなど、管理上の健康データに固有の制限にもかかわらず、この研究は、データ駆動型機械学習と組み合わせた場合のADリスク予測における潜在的な有用性を示している。

ベースライン、その後の1年、および4年のインシデントADの予測における AUC が0.898、0.775、および0.725のモデルのパフォーマンスは、文献と比較して比較的正確である。 遺伝的(ApoE)または神経心理学的評価、MRI、健康指標(糖尿病、高血圧、ライフスタイル)、および人口統計(年齢、性別、教育)変数に基づくすべての原因による認知症リスク予測では、以前のモデルは0.5〜0.78の範囲の精度を示している。 AUC (参考文献18でレビュー)。 注目すべきは、研究計画(たとえば、20年後のADリスクの予測)、母集団(たとえば、非アジア人)、および分析モデル(たとえば、線形モデル)。 それにもかかわらず、主に精巧な神経心理学、遺伝子検査、または脳画像から得られたターゲット変数に基づく以前の研究と比較して、私たちのアプローチは管理上の健康データのみに基づいていることに注意する必要がある。 これは、評価やテストの前に臨床医にADリスクの早期の兆候を提供できるという点で、実用性にとって重要な意味を持っている。 既存のスクリーニングツール(MMSEなど)とともに、これは、特定の患者に対して個人固有の方法でさらに臨床評価を求める時期を決定するのに役立つ場合がある。

サンプリングされたバランスの取れたセットと全体のアンバランスなセットに基づいてモデルを比較すると、モデルのパフォーマンスに小から中程度の違いが見られた。 たとえば、0年の明確なADを予測するRFモデルに基づくと、 AUC は不平衡サンプルと平衡サンプルでそれぞれ0.887と0.898であり、1%の増加を示している。 一方、4年間の明確なADを予測する場合、 AUC は不均衡サンプルと均衡サンプルでそれぞれ0.662と0.725であり、9.5%の増加を示している。 これらの結果は、バランスの取れたサンプルとバランスの取れたサンプルの間で、モデルのパフォーマンスにわずかな違いから中程度の違いがあることを示している。 ただし、再発性神経ネットワーク19など、臨床的特徴間の時間情報を処理できるアルゴリズムを使用する場合は、データ全体をスケーラブルな学習に使用することが有益である可能性が高いことを指摘しておく必要がある。

数年にわたるモデルのパフォーマンスを比較すると、3年の予測は4年の予測よりも精度が低くなる。 これは最初は直感に反しているように見えるが、私たちのデータは、データの長さが3年予測よりも4年予測の方が長いことを示している(補足表2)。 このデータの可用性の違いが、後年の予測で予想されるパフォーマンスの向上の原因である可能性があると考えられる。 これは、医療政策の変更による NHIS-NSC データセットの不規則性にも関連している可能性がある。

私たちのモデルは、インシデントADに関連する興味深い臨床的特徴を検出した。 データ駆動型の機能の選択は、文献に見られるリスク要因と一致している。 ヘモグロビンレベルの低下は、インシデントADに最も強く関連する特徴として選択された。 確かに、貧血は認知症の重要な危険因子として知られている\(^{20-22}\)。 韓国のNHIS健康診断データである National Health Insurance Service-National Health Screening Cohort (NHIS-HEALS)を使用した研究では、貧血が認知症に関連しているだけでなく、貧血と認知症の用量依存的な関係も明らかになった\(^{23}\)。 同様に、私たちのデータ駆動型モデルは、最も重要な予測因子としてヘモグロビンレベルを示している。 貧血は修正可能な要因であるため、この発見は公衆衛生に影響を及ぼす。 ヘモグロビンレベルとADおよびその他の認知症との関連に関する私たちの発見と一貫した文献を考えると、将来の研究では、ADの病理および認知機能低下に対する貧血の寄与の生物学的経路を調査する可能性がある。

また、尿タンパク濃度と probable AD との間に正の関連性があることも発見した。 NHIS-NSC では、尿中のタンパク質は通常、ディップスティックを使用して測定される。 これは尿タンパク質の定量的測定ではありないが、タンパク尿のスクリーニング方法として有用である\(^{24,25}\)。 文献は、アルブミン尿と認知症との関連を示している\(^{26}\)。 私たちの発見は、ADリスク予測のための定期健康診断の一部としての尿検査の潜在的な有用性を示唆している。

4つの薬もトップ10の特徴の中で偶発的な認知症と関連していた。 ゾテピン、塩酸エペリゾンは正の関連があり、クエン酸ニカメテートとトルフェナム酸はADの発生と負の関連があることがわかった。 トルフェナム酸を処方された患者がADの発生率が低いことを示したのは興味深いことである。 この薬は、関節リウマチなどのコンディショナーの痛みを抑えるために韓国で使用されている。 特異性タンパク質1(Sp1)の分解を促進することにより、アミロイド前駆体タンパク質1(APP1)およびベータサイトAPP切断酵素1(BACE1)の遺伝子発現を低下させることが知られている\(^{27-29}\)。 タウタンパク質の潜在的な修飾因子として、トルフェナム酸は、AD の進行を予防および修飾する潜在的な薬剤として調査中である\(^{30}\)。 この研究の結果は、上記の実験結果を裏付けており、トルフェナム酸が潜在的な抗認知症薬である可能性があることを示している。

ゾテピンは、統合失調症の治療に有効性が証明されている非定型抗精神病薬だ。 私たちのモデルは、ゾテピンの使用がインシデントADと正の相関があることを示した。 2つの可能な解釈がある。 ゾテピンは、インシデント AD の発症またはADの診断の前に、認知症の行動的および心理的症状(BPSD)を治療するために使用された可能性がある\(^{31}\)。 したがって、ゾテピンの処方は、初期のAD症状を示し、その結果、ADの発症の可能性が高まる可能性がある。 あるいは、統合失調症の人は認知症の発症リスクが高い可能性があることを示す研究もある\(^{32}\)。 これを考えると、ゾテピンが処方されている統合失調症の症状のある個人では、インシデントADが高い可能性がある。 しかし、私たちのモデルでは、統合失調症の疾患コードが重要な特徴として選択されていないことを考えると、この代替解釈は疑わしいかもしれない。 いずれの場合も、私たちの結果はゾテピンとインシデント AD の間の潜在的な関係を示していますが(認知症の一般的な慣行を反映している可能性がある)、因果関係を描くべきではないことに注意するべきである。

血管拡張薬であるクエン酸ニカメテートも、インシデント AD と負の関連があった。 これは、正確なメカニズムは不明なままだが、認知機能の増加と血管性認知症のリスクの低減に対する血管拡張薬の効果を示す文献と一致している可能性がある\(^{33,34}\)。 さらなる研究が必要だ。

この研究の限界の1つは、データベース内のADの診断が臨床的に確認されていないことだ。 たとえば、クレームデータに AD の誤った診断または誤診がある可能性がある。 この問題を軽減するために、まず、インシデント AD の2つの異なる定義、(AD疾患コードに基づく)「probable AD」と(AD疾患コードと抗認知症薬の両方に基づく)「definitive AD」を使用して、同様の予測結果を確認した。 第二に、韓国では、60歳のすべての高齢者は、公的医療センターの国民健康保険サービスによってサポートされている補完的な認知症スクリーニングを受ける必要がある。 そこでは、認知症のリスクが高い個人がさらなる臨床検査のために医師に紹介される。 このようなシステムは、偽陰性のケースを減らすのに役立つ可能性がある。 最後に、韓国の健康保険制度と政策は、AD診断の信頼性をサポートしている。 つまり、NHISの健康保険審査評価院は、AD薬の医療請求を審査および監督する。 たとえば、認知症治療薬の保険適用範囲を検討するには、次の条件が必要だ。 ドネペジルおよびリバスチグミンパッチの場合、MMSE(ミニメンタルステート検査)= <26およびCDR(臨床認知症評価)= 1–3またはGDS(グローバル劣化)スケール)= 3–7。 ガランタミンおよびリバスチグミンカプセルの場合、MMSE = 10–26およびCDR = 1–2またはGDS = 3–5。 メマンチンの場合、MMSE = <20およびCDR = 2–3またはGDS = 4–7(補足図1)。 したがって、認知症の薬を服用した記録を持つ個人は、強力な診断基準を満たしている可能性がある。 これらの側面は、韓国の行政保健データにおけるAD診断の潜在的な妥当性の問題を軽減する可能性がある。 もう1つの限界は、インシデント AD に関連する機能が因果関係を示さないことだ。 むしろ、この発見は、大規模な管理データからのデータ駆動型の発見を示している。 この知識は、新しい仮説を生成したり、既存の仮説を確認したり、大きな特徴空間を考慮してインシデント AD を予測する際の相対的な重要性を比較するのに役立つ場合がある。 これはデータ駆動型科学の有用な価値であると私たちは信じている。

要約すると、この研究は、管理上の健康データのみに基づいて、ADリスクのある個人の統計的に意味のある検出をサポートする。 他の国、民族、医療および保険システムの独立したデータに対する私たちの調査結果の一般化可能性は、まだテストされていない。 再現された場合、この研究は、ADのリスクを警告する可能性のある臨床設定でのシステムの実装をさらに動機付ける可能性があり、その後の臨床試験のためのより早期かつより正確なスクリーニングを可能にする可能性がある。

メソッド

データセット

NHIS-NSC コホートは、2002年に韓国の適格人口全体の2.2%を占めるランダムに選択された1,025,340人の参加者で構成され、死亡または移民のために参加者の資格が失格にならない限り、2013年まで11年間追跡された17。 このデータベースには、NHISが提供するすべての医療サービスに関連するサービス、診断、処方箋の各個人の機能が含まれている。 臨床的特徴には、参加者保険適格性データベースからの被験者の月給に基づいて、人口統計および収入レベルを10レベルで分割したもの、 HealthcareU tilization データベースからの疾病および投薬コード、国立健康診断データベース(40歳以上の高齢者に必要な年2回の健康診断から)からの検査値、健康プロファイル、および個人および家族の病気の病歴が含まれる。 これらのサンプルのうち、40,736人の高齢者がこの研究で選択され、その記録は3つのデータベース(参加者保険適格性データベース、医療利用データベース、および国民健康スクリーニングデータベース)すべてに存在する。

ADの運用上の定義

ADの運用上の定義について、「3,404人の成人からのカナダの EMR の研究では、2年間で少なくとも30日間隔で1つの入院コードまたは3つの医師請求コードのアルゴリズムを使用した場合に79%の感度と99%の特異度が示されている期間またはAD-RD特定の薬剤のために満たされた処方箋」35。 この研究では、ADの操作上の定義、特に感度の精度をさらに向上させるために、以下のアルゴリズムを使用して、インシデントADを操作的に定義した。 AD:AD36のICD-10コード(F00、F00.0、F00.1、F00.2、F00.9、G30、G30.0、G30.1、G30.8、G30.9)および処方された認知症治療薬AD診断(例、ドネペジル、リバスチグミン、ガランタミン、メマンチン)を使用。 さらに、偽陰性の症例を最小限に抑えるために、ICD-10コードのみを使用してADのより広い定義を検討した(例、薬を服用しなかったAD診断の個人)。 これは「可能性のあるAD」としてラベル付けされた。 インシデント AD、インシデント後のデータは除外された。 これらの2つの運用上の定義に基づくと、有病率は definitive AD で1.5%、probable AD で4.9%だった。 前者は韓国の高齢者(65歳以上)の訪問調査で報告されたものよりも小さかったが、後者はそれに類似していた\(^{37}\)

データと前処理

NHIS-NSC データから次の変数を使用した。検査値、健康プロファイル、健康スクリーニングデータベースからの家族の病気の履歴を含む21の機能。 参加者保険資格データベースの年齢と性別を含む2つの機能。 ICD-10 コードと投薬コードを含む6412の機能。 ICD-10 コードと投薬コードを除くすべての機能のデータコーディングと除外基準の説明は、補足表4にある。

データの前処理手順は次のとおりである。 (i)データアラインメント:各個人の最初のAD診断(イベント中心の順序付け)にデータをアラインメントした。 (ii)ICD-10と投薬コーディング:ICD-10と投薬コードは階層構造を持っているため、F00.0 [早期発症のアルツハイマー病の認知症]を含む最初の疾患カテゴリーコード(例:F00 [アルツハイマー病の認知症])を使用した。 ]、F00.1 [遅発性アルツハイマー病の認知症]、F00.2 [アルツハイマー病の認知症、非定型または混合型]、およびF00.9 [アルツハイマー病の認知症、詳細不明])、および最初の4つ主な成分を表す投薬コードの文字。 (iii)データ全体で5回未満で見つかった希少疾患または投薬コードは、分析から除外された(1179の疾患および362の投薬コード)。 (iv)参加者が処理されたデータの過去2年間に健康診断データ(実験値、健康プロファイル、および国民健康診断データベースからの個人および家族の病気の病歴)を持っていない場合(韓国ではすべての高齢者について年2回の健康診断が必要)、その参加者を分析から除外した。 この前処理手順により、モデルで使用される4894個の一意の変数が生成された(詳細については、補足表2を参照)。

各n年の予測について、ADグループ内で、2002年からインシデントADの年-n年までのデータを使用した。 これは、インシデント AD の少なくともn年前が必要であるためである。 非ADグループ内では、2002年から2010–n年までのデータを使用した。 たとえば、0年の予測では、患者が2009年にADと診断された場合、2002年から2009年までのデータを使用した。 1年間の予測は2002年から2008年、2年間の予測は2002年から2007年、3年間の予測は2002年から2006年、4年間の予測は2002年から2005年。

モデルのトレーニング、検証、およびテストには、ランダムにサンプリングされた平衡データセットと、不平衡データセット全体を使用した。 バランスの取れたデータセットについては、10回の置換でブートストラップサンプリングを実行した。

機械学習分析

ランダムフォレスト、線形カーネルを備えたサポートベクターマシン、ロジスティック回帰の3つの機械学習アルゴリズムを実装した。 モデルのトレーニング、検証、およびテストは、5回の反復でネストされた層化5分割交差検証を使用して行われた。 特徴選択は、分散しきい値法を使用してトレインセット内で行われた\(^{38}\)。 ハイパーパラメータの最適化は、検証セット内で行われた。 次のハイパーパラメータが調整された。 ランダムフォレストの場合、リーフノードで必要なサンプルの最小数とフォレスト内のツリーの数。 サポートベクターマシンの場合、正則化の強さ。 ロジスティック回帰の場合、正則化強度の逆数。 ロジスティック回帰では、L2正則化が使用された。最後に、モデルのパフォーマンスの一般化可能性がテストセットで評価された。 テストセットでは、次のモデルパフォーマンスメトリックを測定した。受信者動作特性曲線(ROC)の下の領域、感度、および特異度。

倫理的承認

この研究は、個人の予後または診断のための多変数予測モデルの透過的報告(TRIPOD)報告ガイドラインに準拠している。 インフォームドコンセントを免除された研究(遡及的、匿名化された、公開されているデータ)は、韓国の京畿道にある国民健康保険公団(NHIS)一山病院の施設内審査委員会によって承認された(IRB番号NHIMC 2018–12– 006)。 この研究のすべての方法は、ヘルシンキ宣言に従って実施された。

レポートの概要

研究デザインの詳細については、この記事にリンクされている Nature Research Reporting Summary を参照。

データの可用性

この研究のデータは、リクエストに応じて入手できる。

コードの可用性

コードはhttps://github.com/a011095/koreanEHRで入手できる。