dr. Eka Satrio Putra, Sp.An-TI
Anestesiologi dan Terapi Intensif
Web ini berisi rangkuman hasil penelitian beserta kalkulator model prediktif berbasis machine learning (pembelajaran komputasional).
// Penelitian Perawatan Kritis · MIMIC-IV · 2026
XGBoost vs Regresi Logistik — model prediktif untuk menghitung kegagalan ekstubasi pada pasien geriatri on ventilator di ICU.
dr. Eka Satrio Putra, Sp.An-TI
Anestesiologi dan Terapi Intensif
Web ini berisi rangkuman hasil penelitian beserta kalkulator model prediktif berbasis machine learning (pembelajaran komputasional).
// Research Summary
XGBoost versus Regresi Logistik untuk Prediksi Kegagalan Ekstubasi pada Pasien Geriatri ICU: Studi Komparatif pada Database MIMIC-IV
Asisten RAG · BETA
Asisten AI yang dijamin grounded dari paper. Setiap jawaban menyertakan sumber. Tingkat penjelasan adaptif: pemula → klinisi → data scientist.
// 01 — Mengapa Pemelajaran Mesin?
RSBI, P0.1, MIP, CROP — tidak ada satu pun yang terbukti akurat untuk memprediksi keberhasilan weaning secara individual pada level pasien.
[1] Thille et al., Am J Respir Crit Care Med 2013
Meskipun protokol weaning terus disempurnakan, angka kegagalan ekstubasi tidak berubah secara dramatis selama bertahun-tahun.
[2] Osborne & Toner, EMJ Respir 2023
ICU menghasilkan ratusan titik data per pasien per hari. Analisisnya melampaui kemampuan pemrosesan kognitif klinisi dan membutuhkan proses otomatis seperti AI.
[3] Celi et al., Am J Respir Crit Care Med 2013
Late weaning menyebabkan trauma jalan napas, disfagia, delirium pasca-ekstubasi, pneumonia ventilator, dan atrofi diafragma — semua meningkatkan mortalitas.
[4] Boles et al., Eur Respir J 2007
Setiap tahun, jumlah publikasi tentang machine learning dan XGBoost di critical care bertambah — bahkan pertahun hingga 3× lipat. Tren ini menunjukkan bahwa komunitas medis global semakin mengadopsi pendekatan komputasional.
Data: PubMed, query "Machine Learning" AND "XGBoost" AND "Critical Care", 2020–2025
"Dunia terus bergerak. Terlambat beradaptasi hari ini adalah tiket menuju penyesalan di masa depan."
// 02 — Abstrak
Kegagalan ekstubasi — didefinisikan sebagai reintubasi dalam 48 jam pasca-ekstubasi terencana — terjadi pada 10–25% pasien ICU dan berdampak pada peningkatan mortalitas serta lama rawat. Pasien geriatri (≥65 tahun) memiliki kerentanan lebih tinggi akibat sarkopenia, penurunan compliance paru, dan malnutrisi.
Studi kohort retrospektif pada 11.191 episode ventilasi dari 7.511 pasien dalam database MIMIC-IV v3.1. Model XGBoost (85 fitur) dibandingkan dengan Regresi Logistik (26 variabel). Interpretabilitas dieksplorasi menggunakan analisis SHAP untuk mengidentifikasi prediktor kunci kegagalan ekstubasi. Model selanjutnya divalidasi secara eksternal pada sebuah penelitian kohort retrospektif ICU sekunder di Indonesia (n=106, AUC 0.797), tanpa retraining — mengonfirmasi generalisabilitas lintas populasi.
// 03 — Kebaruan
Model ML ekstubasi pertama yang berfokus eksklusif pada pasien ≥65 tahun — kelompok dengan pola fisiologis ekstubasi yang berbeda secara fundamental.
Berbeda dengan studi single-center, MIMIC-IV memungkinkan reproduktibilitas penuh dan perbandingan langsung dengan penelitian internasional.
XGBoost untuk prediksi + OR/CI dari Logistic Regression untuk faktor risiko — dua output yang saling melengkapi untuk kebutuhan klinis.
SHAP waterfall plot memungkinkan klinisi memahami mengapa model memprediksi pasien tertentu berisiko tinggi — menjawab kekhawatiran black-box AI.
// Perbandingan dengan penelitian sejenis
| Penelitian | Model | AUC | Geriatri | MIMIC-IV | SHAP | Dual Output | Ekstubasi 48j |
|---|---|---|---|---|---|---|---|
| Lin et al. 2021 · Taiwan | XGBoost | 0.908 | ✕ | ✕ | ✕ | ✕ | ✓ |
| Xu et al. 2024 · China | Random Forest | 0.805 | ✕ | ✕ | ✕ | ✕ | ✕ |
| Zhao et al. 2021 · China | CatBoost | 0.835 | ✕ | ✓ | ✕ | ✕ | ✕ |
| Pai et al. 2022 · Taiwan | XGBoost | 0.921 | ✕ | ✕ | ✓ | ✕ | ✕ |
| Kim et al. 2023 · Korea | Voting Classifier | 0.861 | ✕ | ✓ | ✕ | ✕ | ✕ |
| Liao et al. 2022 · Taiwan | XGBoost | 0.868 | ✕ | ✕ | ✕ | ✕ | ✕ |
| Penelitian ini 2026 · Indonesia | XGBoost + LR | 0.820 | ✓ | ✓ | ✓ | ✓ | ✓ |
AUC 0.820 (95% CI 0.801–0.840) vs Regresi Logistik 0.753 (95% CI 0.729–0.776); DeLong's test p < 0.001.
Dual Output = probabilitas (XGBoost) + OR/95% CI (Logistic Regression).
// 04 — Metode
// Key Variables
// 05 — Hasil Penelitian
0.820
XGBoost AUC-ROC
95% CI 0.801–0.840. Cross-validation 5-fold: AUC 0.795 ± 0.006 — mengonfirmasi generalizability.
20.7%
Angka kegagalan ekstubasi
2.316 dari 11.191 episode ventilasi mengalami kegagalan ekstubasi (reintubasi dalam 48 jam pasca-ekstubasi).
* Berdasarkan mean |SHAP value| pada test set (n = 2.266). TreeExplainer.
ΔAUC = 0.068 (95% CI 0.050–0.086) · Z = 7.41 · p < 0.001 (DeLong's test) · Test set n = 2.266, split by stay_id
// Performa Diagnostik
Perbandingan head-to-head pada test set identik (n = 2.266), menggunakan threshold optimal Youden Index masing-masing model.
XGBoost · threshold 0.41
Regresi Logistik · threshold 0.18
Pada threshold optimal masing-masing (Youden Index), XGBoost mengungguli regresi logistik di seluruh metrik diagnostik — sensitivitas lebih tinggi (+6.8%), spesifisitas lebih tinggi (+3.9%), PPV lebih tinggi (+4.9%), dan NPV lebih tinggi (+2.7%).
Yang lebih mencolok: regresi logistik memerlukan threshold sangat rendah (0.18) untuk mencapai sensitivitas 75.5% — artinya model harus "menurunkan standar" dan mengorbankan banyak spesifisitas. Sementara XGBoost mencapai sensitivitas 82.3% pada threshold yang jauh lebih tinggi (0.41), menunjukkan kemampuan diskriminasi yang secara fundamental lebih baik.
Keunggulan ini bersumber dari kemampuan XGBoost menangkap hubungan non-linear (seperti kurva GNRI) dan interaksi antar variabel (misal: kombinasi albumin rendah + balance cairan tinggi) yang tidak terlihat oleh regresi logistik.
Tabel Diagnostik — XGBoost
| Threshold | Sensitivitas | Spesifisitas | PPV | NPV | Akurasi | F1 |
|---|---|---|---|---|---|---|
| 0.20 | 96.3% | 39.5% | 30.6% | 97.5% | 51.9% | 0.464 |
| 0.30 | 89.6% | 54.4% | 35.2% | 95.0% | 62.0% | 0.506 |
| 0.40 | 82.9% | 67.4% | 41.3% | 93.4% | 70.8% | 0.551 |
| 0.41 ← Youden | 82.3% | 68.5% | 41.9% | 93.3% | 71.4% | 0.555 |
| 0.50 | 70.5% | 77.9% | 46.8% | 90.5% | 76.3% | 0.563 |
| 0.60 | 52.3% | 87.0% | 52.7% | 86.8% | 79.5% | 0.525 |
| 0.70 | 30.5% | 94.2% | 59.3% | 83.1% | 80.4% | 0.403 |
Tabel Diagnostik — Regresi Logistik
| Threshold | Sensitivitas | Spesifisitas | PPV | NPV | Akurasi | F1 |
|---|---|---|---|---|---|---|
| 0.18 ← Youden | 75.5% | 64.6% | 37.0% | 90.6% | 67.0% | 0.497 |
| 0.20 | 70.0% | 69.7% | 38.9% | 89.4% | 69.8% | 0.500 |
| 0.30 | 43.9% | 85.2% | 44.9% | 84.6% | 76.3% | 0.444 |
| 0.40 | 23.9% | 92.1% | 45.4% | 81.5% | 77.4% | 0.313 |
| 0.50 | 11.4% | 96.1% | 44.9% | 79.8% | 77.9% | 0.182 |
| 0.60 | 5.7% | 98.1% | 44.7% | 79.1% | 78.1% | 0.101 |
| 0.70 | 3.1% | 99.1% | 47.9% | 78.8% | 78.4% | 0.059 |
Test set n = 2.266 · Split by stay_id · Prevalensi kegagalan ekstubasi: 20.7%
Threshold optimal ditentukan dengan Youden Index (J = Sensitivitas + Spesifisitas − 1)
// 05.5 — Bukti Empiris
Salah satu asumsi mendasar regresi logistik adalah hubungan log-odds outcome harus linear terhadap variabel prediktor. Pada data MIMIC-IV, kami menguji asumsi ini secara langsung pada GNRI (Geriatric Nutritional Risk Index) — salah satu prediktor terkuat kegagalan ekstubasi geriatri.
0.854
R² jika diasumsikan linear
Asumsi regresi logistik
0.897
R² jika diizinkan melengkung
Polynomial fit (pola sebenarnya)
p < 0.001
Box-Tidwell test
Asumsi linearitas dilanggar
Titik merah: log-odds aktual per bin GNRI dari MIMIC-IV (n = 11.191) · Garis abu-abu putus: asumsi linearitas (R² = 0.854) · Garis biru: polynomial fit (R² = 0.897) · Box-Tidwell p < 0.001
Mengapa ini penting
Regresi logistik memaksa hubungan GNRI dengan risiko kegagalan menjadi garis lurus. Akibatnya, model meremehkan risiko di rentang malnutrisi berat (GNRI < 80) dan meremehkan efek protektif dari status nutrisi sangat baik (GNRI > 110).
XGBoost — sebagai algoritma tree-based — menangkap kurva ini secara natural lewat decision tree splits, tanpa perlu asumsi parametrik. Inilah salah satu alasan fundamental mengapa XGBoost konsisten mengungguli regresi logistik di seluruh metrik diagnostik.
// 06 — Kalkulator Risiko
Model XGBoost dengan 10 fitur bedside. Masukkan parameter klinis pasien untuk mendapatkan probabilitas kegagalan ekstubasi. Minimal 4 parameter.
// Asam-Basa
// Oksigenasi
// Ventilasi & Respirasi
// Laboratorium & Antropometri
PROBABILITAS PREDIKSI
—
Masukkan data pasien// Interpretasi Klinis
Isi parameter klinis lalu tekan "Hitung Risiko".
Hanya untuk penelitian. Kalkulator ini berdasarkan studi retrospektif database MIMIC-IV (Beth Israel Deaconess
Medical Center, AS). Model telah divalidasi secara eksternal pada sebuah penelitian
kohort retrospektif ICU sekunder di Indonesia (n=106, AUC 0.797) — namun belum
divalidasi secara prospektif multisenter. Tidak menggantikan penilaian klinis.
Model: XGBoost (10 fitur bedside, AUC = 0.810, 11.191 episode ventilasi geriatri).
Prevalensi kohort: 20.7%.
// 07 — Rencana Pengembangan
Penelitian ini adalah pilot project. Masih banyak pertanyaan selanjutnya: apakah model ini cocok diterapkan pada populasi Indonesia? Apakah penambahan parameter bedside akan menjadikannya lebih baik? Apakah penerapannya akan mengubah luaran pasien, dan berapa biaya yang bisa dihemat?
Fase 1 — Prioritas utama
Model saat ini dilatih dari data rumah sakit di Boston (AS). Komposisi tubuh, pola nutrisi, dan profil komorbiditas pasien geriatri Indonesia berbeda secara bermakna. Tanpa validasi lokal, model tidak bisa diterapkan.
Target
Kolaborasi dengan ≥3 RS pendidikan tipe A di Indonesia untuk membentuk kohort ICU geriatri multisenter. Rekalibrasi dan validasi model pada populasi lokal.
Fase 2 — Pengayaan parameter
Beberapa prediktor kuat kegagalan ekstubasi saat ini tidak tercatat dalam database elektronik manapun, tapi bisa diukur langsung di samping pasien.
USG Diafragma
Diaphragm Thickening Fraction (DTF) & Excursion — mengukur kekuatan kontraksi otot napas utama secara real-time.
Lung Ultrasound Score
Menilai derajat aerasi paru di 12 zona. Cepat, bedside, dan non-invasif.
Ekokardiografi
E/e' ratio, TAPSE — mendeteksi penyebab kardiak kegagalan ekstubasi yang sering terlewat.
Fase 3 — Implementasi
Model berjalan di balik layar — mengambil data pasien otomatis dari RME, menghitung probabilitas kegagalan, dan memberikan notifikasi ke klinisi saat risiko melewati ambang batas.
Skenario: Saat dokter membuka halaman pasien di RME, sistem otomatis menampilkan skor risiko kegagalan ekstubasi beserta variabel pendorong utama (via SHAP) — tanpa perlu input manual.
Fase 4 — Bukti dampak
Akurasi statistik saja tidak cukup — perlu dinilai dampaknya secara klinis maupun ekonomi kesehatan. Pertanyaan yang harus dijawab: berapa reintubasi yang berhasil dicegah, dan berapa rupiah yang dihemat?
Satu kali reintubasi menambah lama rawat ICU rata-rata 7–12 hari. Dengan asumsi biaya ICU Rp 3–5 juta per hari, satu reintubasi yang berhasil dicegah menghemat Rp 20–60 juta. Jika model mencegah 5% saja dari kasus reintubasi di satu RS — berarti ratusan juta per tahun dapat dihemat, dan ratusan pasien terhindar dari komplikasi reintubasi.
Desain studi: RCT atau studi before-after di ICU yang telah mengadopsi CDSS — bandingkan angka reintubasi, lama rawat, mortalitas, dan total biaya antara periode dengan dan tanpa model prediktif.
// 08 — Validasi Eksternal
// Pertanyaan Lanjutan
Model dilatih pada data Boston, AS (lihat // 04 Metode ). Pertanyaan logis berikutnya: apakah model masih bekerja di populasi Indonesia dengan komposisi tubuh, pola nutrisi, dan profil komorbid yang berbeda?
// Independent Cohort
Sebuah penelitian kohort retrospektif geriatri ≥65 tahun di RS sekunder. Diekstubasi terencana setelah SBT. Outcome: reintubasi 48 jam — sama persis dengan Phase I.
// Validation Method
Bobot model dari MIMIC-IV diterapkan apa adanya. Murni uji generalisabilitas — bukan rekalibrasi, bukan fine-tuning.
// Result
Performa diskriminasi tetap kuat di populasi independen. Pada Youden threshold 0.33: sensitivitas 86.4% — siap sebagai rule-out tool.
Validasi prospektif multisenter di Indonesia masih dibutuhkan sebelum deployment klinis — lihat // 07 Rencana Pengembangan .
// Memahami XGBoost
Sebuah analogi untuk menjelaskan cara kerja XGBoost tanpa latar belakang IT.
Di sebuah rumah sakit pendidikan, ada masalah yang menghantui para dokter ICU: pasien lansia yang diekstubasi terlalu sering harus reintubasi, sehingga lama rawat inap memanjang dan tagihan membengkak. Setelah dihitung secara kohort retrospektif hasilnya mencengangkan: satu dari lima pasien geriatri mengalami hal tersebut.
Selama bertahun-tahun, rumah sakit mengandalkan satu profesor senior (regresi logistik) yang mengajukan serangkaian pertanyaan bercabang — seperti pohon keputusan: "Albumin di bawah 3?" → ya → "Balance cairan di atas 20.000 mL?" → ya → risiko tinggi. Tapi ia hanya mampu mempertimbangkan 16 variabel, dan hanya melihat hubungan lurus. Padahal penurunan skor status gizi (GNRI — Geriatric Nutritional Risk Index) dari 98 ke 92 hanya menambah risiko kegagalan ekstubasi 6% — tapi dari 92 ke 82, risikonya melonjak dua kali lipat. Membentuk sebuah kurva, bukan garis lurus linear.
Seorang peneliti muda mengajukan pendekatan baru: 300 penguji yang bekerja berurutan. Setiap penguji membuat pohon keputusan sendiri, tapi kuncinya — setiap penguji baru secara khusus mengoreksi kesalahan penguji pendahulunya (gradient boosting). Bukan mengulangi yang sudah benar, tapi fokus pada yang masih salah.
ATURAN DEWAN
Hasilnya: Tim 300 penguji benar 82.2% vs profesor tunggal hanya 74%.
Pada pemelajaran mesin, salah satu kelemahannya adalah kita tidak tahu apa yang dipikirkan oleh mesin — hal ini disebut blackbox atau kotak hitam. Bagaimana membuka "kotak hitam" 300 penguji? Dengan Dewan Penjelasan (SHAP) — teknik dari teori permainan yang menghitung kontribusi setiap variabel terhadap prediksi setiap pasien. Hasilnya: 6 dari 10 variabel terpenting di kedua pendekatan sama — hanya saja tim 300 penguji menangkap hubungan non-linear yang tak terlihat oleh profesor tunggal.
// Referensi