Dewan 300 Penguji

Sebuah analogi panjang untuk menjelaskan cara kerja XGBoost — gradient boosting dan SHAP — tanpa latar belakang IT.

2026

Di sebuah rumah sakit pendidikan terbesar di negeri itu, ada masalah yang sudah bertahun-tahun menghantui para dokter ICU: pasien lansia yang selang napasnya dicabut, terlalu sering harus dipasang ulang. Satu dari lima pasien gagal. Sebagian meninggal.

Direktur rumah sakit mengumpulkan Dewan Peneliti Besar — 16 profesor senior dari berbagai disiplin — untuk memecahkan satu pertanyaan: “Bisakah kita memprediksi siapa yang akan gagal, sebelum kita mencabut selang itu?”

Sang Profesor Tunggal

Selama bertahun-tahun, rumah sakit mengandalkan satu profesor senior bernama Dr. Logistik untuk menilai kesiapan pasien.

Cara kerja Dr. Logistik sederhana. Ia duduk di depan berkas pasien dan mengajukan serangkaian pertanyaan bercabang — seperti pohon yang tumbuh ke bawah:

“Apakah albumin pasien di bawah 3?” — Jika ya, lanjut ke pertanyaan berikutnya. “Apakah balance cairan di atas 20.000 mL?” — Jika ya lagi, maka keputusannya: risiko tinggi.

Inilah yang disebut pohon keputusan — sebuah alur tanya-jawab ya/tidak yang bercabang hingga menghasilkan prediksi di ujungnya.

Dr. Logistik hanya mampu mempertimbangkan 16 variabel sekaligus. Lebih dari itu, ia mulai bingung — variabel-variabel saling berkaitan dan ia tak bisa membedakan mana yang benar-benar penting. Ia juga hanya bisa melihat hubungan yang lurus: jika skor status gizi (GNRI) turun satu titik, risiko naik sekian persen — selalu dengan proporsi yang sama. Padahal tubuh manusia tidak bekerja sesederhana itu. Penurunan GNRI dari 98 ke 92 hanya menambah risiko kegagalan sekitar 6%, tapi penurunan dari 92 ke 82 menambah risiko hampir dua kali lipat. Makin rendah skor gizi, makin curam bahayanya — hubungannya melengkung, bukan garis lurus.

Hasil penilaian Dr. Logistik memang lumayan — ia benar sekitar 74% dari waktu. Tapi 26% kesalahan itu berarti ratusan pasien lansia yang nasibnya salah ditebak setiap tahunnya.

Direktur tahu: dibutuhkan pendekatan yang sama sekali berbeda.

Ide Gila: Merekrut 300 Penguji Baru

Seorang peneliti muda bernama Dr. XG mengajukan proposal yang awalnya terdengar absurd:

“Bagaimana kalau kita tidak mengandalkan satu profesor, tapi merekrut 300 penguji yang bekerja secara berurutan?”

Dewan tertawa. Tiga ratus? Bukankah itu berlebihan?

Dr. XG menjelaskan. Setiap penguji akan membuat pohon keputusan sendiri — alur pertanyaan bercabang yang sederhana, seperti yang dilakukan Dr. Logistik. Satu pohon saja memang lemah, mungkin hanya sedikit lebih baik dari menebak. Tapi kekuatan sesungguhnya terletak pada cara 300 pohon itu disusun menjadi satu tim — sebuah strategi yang disebut ensemble.

Bukan ensemble yang asal kumpul. Ada aturan ketat.

Aturan Pertama: Setiap Penguji Mengoreksi Kesalahan Pendahulunya

Penguji pertama memeriksa seluruh berkas pasien dan membuat prediksi awal. Hasilnya pasti banyak salahnya — ia baru saja mulai.

Penguji kedua tidak mengulang dari nol. Ia menerima catatan khusus: “Ini daftar pasien yang diprediksi salah oleh penguji sebelummu. Fokuslah pada mereka.”

Penguji kedua membuat pohon keputusannya sendiri, tapi kali ini pohon itu didesain secara spesifik untuk mengoreksi sisa kesalahan — bukan mengulangi apa yang sudah benar. Inilah yang disebut gradient boosting: setiap pohon baru secara khusus menargetkan residu — kesalahan yang masih tersisa dari seluruh pohon sebelumnya.

Penguji ketiga melakukan hal yang sama: mempelajari kesalahan gabungan penguji pertama dan kedua, lalu membuat koreksi lanjutan.

Begitu seterusnya, hingga penguji ke-300. Setiap penguji memperbaiki sedikit demi sedikit. Prediksi akhir adalah gabungan penilaian seluruh 300 penguji — dan hasilnya jauh lebih akurat daripada satu profesor mana pun.

Aturan Kedua: Koreksi Harus Kecil dan Hati-hati

Dr. XG menetapkan aturan penting: setiap penguji baru hanya boleh mengoreksi sedikit — tepatnya 5% dari kesalahan yang tersisa.

“Mengapa tidak langsung koreksi besar-besaran?” tanya seorang anggota dewan.

“Karena koreksi besar membuat kita terlalu percaya diri pada satu penguji,” jawab Dr. XG. “Kalau penguji kedua langsung mengubah 100% kesalahan, dan ternyata ia sendiri keliru, kita sudah terlanjur melenceng jauh.”

Ini seperti memutar setir mobil: lebih aman memutar sedikit-sedikit daripada membanting setir ke satu arah. Angka 5% ini disebut learning rate — seberapa besar koreksi yang diizinkan per putaran. Kecil berarti hati-hati dan stabil, tapi butuh lebih banyak penguji untuk mencapai akurasi optimal.

Aturan Ketiga: Jangan Melihat Seluruh Data

Setiap penguji tidak boleh memeriksa semua berkas pasien. Dari total ribuan berkas, setiap penguji hanya menerima 80% berkas yang dipilih secara acak — ini disebut subsample.

Selain itu, setiap penguji juga tidak boleh melihat semua variabel. Dari 85 informasi yang tersedia tentang setiap pasien — usia, albumin, balance cairan, hemoglobin, skor keparahan, dan puluhan lainnya — setiap penguji hanya bisa mengakses 80% variabel, dipilih acak. Ini disebut colsample_bytree.

“Bukankah itu membuat penguji kurang informasi?” protes seorang profesor.

“Justru itulah tujuannya,” kata Dr. XG. “Kalau setiap penguji melihat semua data dan semua variabel, mereka akan memberikan jawaban yang nyaris identik. Dengan membatasi informasi, setiap penguji dipaksa menemukan pola dari sudut pandang yang berbeda. Dan ketika 300 sudut pandang berbeda itu digabungkan, hasilnya jauh lebih kaya.”

Ada alasan lain yang lebih krusial: mencegah para penguji menghafal berkas pasien tertentu alih-alih memahami pola umum. Jika seorang penguji melihat berkas yang sama berulang kali, ia akan mengingat bahwa “Pasien nomor 7.482 gagal ekstubasi” — bukan karena ia memahami polanya, tapi karena ia menghafal jawabannya. Inilah yang disebut overfitting — seperti siswa yang menghafal kunci jawaban tanpa memahami materi. Saat menghadapi pasien baru yang belum pernah dilihat, penguji yang overfitting akan gagal total.

Aturan Keempat: Jangan Terlalu Dalam Bertanya

Setiap pohon keputusan memiliki batas: maksimal 6 tingkat pertanyaan. Ini disebut max depth.

Pertanyaan pertama mungkin: “Apakah skor asam-basa tinggi?” Lalu bercabang ke: “Apakah balance cairan berlebihan?” Lalu: “Apakah albumin rendah?” Dan seterusnya — tapi berhenti di pertanyaan keenam.

Mengapa dibatasi? Kalau pohon boleh bertanya tanpa batas — 10, 15, 20 tingkat — ia akan membuat aturan yang sangat spesifik: “Pasien perempuan, usia 78, albumin 2,7, hemoglobin 8,3, balance cairan 22.450 mL, RSBI 112…” Aturan sespesifik ini mungkin hanya cocok untuk satu pasien tertentu dalam data. Pohon telah menghafal, bukan belajar.

Sebaliknya, pohon yang terlalu dangkal — hanya 1 atau 2 pertanyaan — terlalu sederhana untuk menangkap pola nyata.

Enam tingkat adalah titik tengah: cukup dalam untuk menangkap hubungan bermakna, tapi tidak terlalu dalam hingga menghafal detail yang tidak relevan.

Aturan Kelima: Berhenti Jika Sudah Tidak Ada Perbaikan

Di luar ruang sidang, ada papan skor yang memantau performa gabungan seluruh penguji terhadap sekelompok pasien yang tidak pernah disentuh oleh penguji mana pun — data yang murni tersimpan untuk validasi.

Setiap kali penguji baru selesai bekerja, papan skor diperbarui. Jika 20 penguji berturut-turut tidak berhasil meningkatkan skor pada data validasi, seluruh proses dihentikan.

Ini disebut early stopping. Mungkin hanya 200 dari 300 penguji yang benar-benar dibutuhkan. Menambah 100 penguji lagi setelah titik itu justru berbahaya — mereka akan mulai “belajar” hal-hal yang hanya kebetulan ada di data latih, bukan pola yang nyata. Kembali lagi ke overfitting.

Aturan Keenam: Beri Perhatian Lebih pada Kasus Langka

Dari ribuan pasien dalam data, hanya 1 dari 5 yang gagal ekstubasi. Sisanya berhasil.

Tanpa penyesuaian, para penguji akan belajar strategi malas: prediksi semua pasien “berhasil” dan mereka sudah benar 80% dari waktu. Tapi justru 20% yang gagal itulah yang paling penting untuk dideteksi — di situlah nyawa dipertaruhkan.

Maka Dr. XG menerapkan scale_pos_weight: setiap kasus kegagalan diberi bobot lebih besar. Kalau penguji salah menilai pasien yang seharusnya gagal, hukumannya lebih berat daripada salah menilai pasien yang berhasil. Ini memaksa para penguji untuk tidak mengabaikan kelompok minoritas.

Aturan Ketujuh: Hukum Penguji yang Terlalu Rumit

Dr. XG memasang mekanisme pengawasan yang disebut regularisasi L1 dan L2.

Bayangkan setiap penguji harus membayar “pajak” untuk setiap pertanyaan yang ia ajukan dan setiap bobot yang ia berikan. L1 menghukum penguji yang mengajukan terlalu banyak pertanyaan — mendorong mereka membuang variabel yang tidak benar-benar penting. L2 menghukum penguji yang memberikan bobot berlebihan pada satu variabel — mencegah satu faktor tunggal mendominasi keputusan.

Hasilnya: setiap pohon tetap sederhana, fokus, dan tidak berlebihan.

Ketika Data Tidak Lengkap

Di dunia nyata, berkas pasien sering tidak lengkap. Kadar albumin tidak diperiksa pada 31% pasien. Rasio neutrofil-limfosit hilang pada 44% kasus.

Dr. Logistik, sang profesor tunggal, punya kebiasaan mengisi kekosongan dengan nilai rata-rata — pendekatan yang kasar dan sering menyesatkan.

Para penguji dalam tim Dr. XG tidak melakukan itu. Ketika mereka menemui data kosong, mereka mempelajari sendiri ke arah mana percabangan terbaik untuk data yang hilang — berdasarkan pola di seluruh data yang tersedia. Ini disebut learned split direction.

Yang lebih menarik: terkadang ketiadaan data itu sendiri adalah informasi. Fakta bahwa albumin tidak diperiksa mungkin menandakan bahwa dokter yang merawat tidak menduga ada masalah nutrisi — atau sebaliknya, pasiennya terlalu kritis untuk menunggu hasil lab. Para penguji belajar membaca makna dari kekosongan itu.

Hasil: Tim 300 vs Profesor Tunggal

Setelah seluruh 300 penguji bekerja secara berurutan — masing-masing mengoreksi kesalahan pendahulunya, masing-masing hanya melihat sebagian data dan sebagian variabel, masing-masing dibatasi 6 tingkat pertanyaan — hasilnya dibandingkan dengan penilaian Dr. Logistik secara head-to-head pada kelompok pasien yang sama.

Tim 300 penguji benar 82,2% dari waktu. Dr. Logistik hanya 74%.

Selisih 8% itu mungkin terdengar kecil di atas kertas. Tapi di ICU, 8% berarti ratusan pasien lansia yang nasibnya diprediksi dengan benar — yang selang napasnya tidak dicabut terlalu dini, atau yang tidak menunggu terlalu lama.

Membuka Kotak Hitam: Dewan Penjelasan

Ada satu keberatan yang langsung muncul dari para profesor senior:

“Satu profesor, kami bisa bertanya: ‘Kenapa kau memutuskan pasien ini berisiko tinggi?’ dan ia akan menjawab dengan odds ratio dan interval kepercayaan. Tapi 300 penguji yang bekerja berurutan? Bagaimana kami tahu apa yang sebenarnya mereka pertimbangkan? Ini kotak hitam!”

Dr. XG mengangguk. Ia sudah menyiapkan jawaban untuk ini.

Ia memanggil sebuah tim independen yang disebut Dewan Penjelasan — menggunakan metode bernama SHAP, yang berakar pada teori permainan.

Cara kerja SHAP seperti ini: bayangkan Anda ingin tahu seberapa besar kontribusi seorang pemain dalam tim sepak bola. Anda bisa menghitung performanya di semua kemungkinan kombinasi tim — kadang ia bermain dengan pemain A dan B, kadang dengan A dan C, kadang sendirian. Dari semua skenario itu, Anda bisa menghitung kontribusi rata-rata pemain tersebut yang adil dan konsisten.

SHAP melakukan hal serupa untuk setiap variabel klinis, pada setiap pasien. Hasilnya adalah sebuah angka — SHAP value — yang menunjukkan seberapa besar variabel tertentu menggeser prediksi model untuk pasien tertentu.

Jika SHAP value albumin untuk Pasien A adalah −0,15, artinya kadar albumin pasien tersebut menurunkan prediksi risiko kegagalan — albuminnya cukup baik, jadi model menilai ia lebih aman.

Jika SHAP value balance cairan untuk Pasien B adalah +0,22, artinya kelebihan cairan pasien tersebut meningkatkan prediksi risiko — model menganggapnya sinyal bahaya.

Implementasi spesifik yang digunakan disebut TreeExplainer — versi SHAP yang dirancang khusus untuk model berbasis pohon keputusan. Karena memanfaatkan struktur percabangan pohon, TreeExplainer bisa menghitung nilai SHAP secara efisien tanpa harus mencoba semua kemungkinan kombinasi variabel satu per satu.

Ketika Dewan Penjelasan merangkum kontribusi seluruh pasien, mereka menghitung mean |SHAP value| — rata-rata dari nilai absolut SHAP di seluruh kasus. Variabel dengan mean |SHAP value| tertinggi adalah variabel yang paling sering dan paling besar pengaruhnya terhadap keputusan model, di seluruh populasi pasien.

Hasilnya: skor asam-basa adalah variabel paling berpengaruh, diikuti balance cairan, laju napas, rasio oksigen, dan albumin.

Kotak hitam itu kini terbuka. Para profesor bisa melihat persis variabel mana yang mendorong prediksi, untuk setiap pasien individu. Dan yang mengejutkan: enam dari sepuluh variabel terpenting dalam tim 300 penguji ternyata sama dengan variabel yang dipilih oleh Dr. Logistik — hanya saja tim 300 penguji mampu menangkap hubungan non-linear dan interaksi yang tak terlihat oleh sang profesor tunggal.

Epilog

Dr. Logistik tidak dipecat. Ia tetap dihormati — karena hasil analisanya yang sederhana, transparan, dan bisa dihitung di atas kertas justru memvalidasi temuan tim 300 penguji.

Tapi untuk keputusan klinis yang mempertaruhkan nyawa pasien lansia di ICU, rumah sakit kini mengandalkan Dewan 300 Penguji — yang bekerja berurutan, saling mengoreksi, masing-masing hanya melihat sebagian gambaran, tapi bersama-sama melihat lebih jernih dari siapa pun.

Dan di atas meja Dewan Penjelasan, selalu terpasang satu catatan:

“Kami bukan satu orang jenius. Kami 300 orang biasa yang saling memperbaiki.”

Cerita ini adalah analogi untuk menjelaskan cara kerja algoritma XGBoost — ditulis agar dapat dipahami tanpa latar belakang ilmu komputer.