Statistik yang Benar-Benar Dibutuhkan untuk Machine Learning

Jangan Takut Statistik

Banyak mahasiswa langsung merasa minder ketika mendengar kata statistik. Padahal, statistik yang digunakan dalam Machine Learning tidak selalu serumit yang dibayangkan. Dalam praktiknya, statistik berfungsi sebagai alat untuk memahami data sebelum model dibangun. Tanpa memahami data, Machine Learning hanya akan menjadi proses "menebak" tanpa dasar yang kuat.

Saat ini, banyak perusahaan keuangan, fintech, dan institusi investasi menggunakan Machine Learning untuk membantu pengambilan keputusan. Namun sebelum model dibuat, analis data biasanya melakukan eksplorasi statistik terlebih dahulu untuk memahami karakteristik data yang dimiliki. Karena itu, statistik tetap menjadi fondasi penting dalam Data Science dan Financial Engineering.

Kabar baiknya, kamu tidak harus menjadi ahli statistik untuk mulai belajar Machine Learning. Beberapa konsep dasar seperti rata-rata, median, distribusi data, korelasi, dan outlier sudah cukup untuk membangun pemahaman yang kuat di tahap awal. Fokus utama bukan menghafal rumus, tetapi memahami arti dari angka yang muncul dalam data.

Mengenal Sebaran Data

Salah satu hal pertama yang dilakukan Data Scientist adalah melihat bagaimana data tersebar. Sebaran data membantu kita memahami apakah nilai-nilai dalam dataset cenderung berkumpul di satu area atau tersebar secara luas.

Misalnya pada data pendapatan pelanggan, kita perlu mengetahui apakah sebagian besar pelanggan memiliki pendapatan yang mirip atau justru sangat bervariasi. Informasi ini penting karena dapat memengaruhi performa model Machine Learning yang akan digunakan.

Point Penting

Mean (Rata-rata) → nilai rata-rata seluruh data.
Median → nilai tengah dari data.
Standar Deviasi → mengukur tingkat penyebaran data.
Distribusi Data → menunjukkan pola persebaran nilai.

Dalam Financial Engineering, analisis sebaran sering digunakan untuk memahami risiko investasi, perilaku harga aset, dan karakteristik pelanggan.

Korelasi Tanpa Drama

Korelasi adalah ukuran yang menunjukkan seberapa kuat hubungan antara dua variabel. Misalnya, apakah kenaikan suku bunga berkaitan dengan perubahan investasi atau apakah pendapatan pelanggan berhubungan dengan kemampuan membayar kredit.

Namun ada satu hal penting yang harus diingat: korelasi bukan berarti sebab-akibat. Dua variabel bisa terlihat saling berhubungan tetapi belum tentu salah satunya menyebabkan yang lain.

Point Penting

Korelasi positif → dua variabel bergerak searah.
Korelasi negatif → bergerak berlawanan arah.
Korelasi mendekati nol → hubungan lemah.
Korelasi tidak selalu berarti kausalitas.

Dalam proyek Machine Learning, korelasi sering digunakan untuk memilih variabel yang paling relevan sebelum model dilatih.

Outlier: Musuh atau Teman?

Outlier adalah data yang nilainya sangat berbeda dibanding sebagian besar data lainnya. Banyak pemula menganggap outlier sebagai kesalahan yang harus langsung dihapus. Padahal tidak selalu demikian.

Dalam dunia keuangan, outlier justru sering menjadi informasi yang sangat berharga. Contohnya transaksi kartu kredit yang jumlahnya tidak biasa bisa menjadi indikasi fraud. Lonjakan harga saham yang ekstrem juga bisa menunjukkan adanya peristiwa penting di pasar.

Point Penting

Outlier = data yang jauh berbeda dari mayoritas data.
Tidak semua outlier adalah kesalahan.
Bisa menjadi indikasi fraud atau kejadian penting.
Harus dianalisis sebelum diputuskan untuk dihapus.

Karena itu, Data Scientist biasanya memeriksa penyebab munculnya outlier terlebih dahulu sebelum melakukan pembersihan data.

Membaca Data Sebelum Membuat Model

Salah satu kesalahan paling umum pemula adalah langsung membuat model Machine Learning tanpa memahami data yang digunakan. Padahal banyak penelitian dan praktik industri menunjukkan bahwa kualitas pemahaman data sering lebih menentukan hasil dibanding pemilihan algoritma.

Tahap ini dikenal sebagai Exploratory Data Analysis (EDA). Tujuannya adalah memahami pola, distribusi, hubungan antar variabel, data yang hilang (missing values), serta potensi masalah yang dapat memengaruhi hasil model.

Point Penting

Periksa data yang hilang (missing values).
Analisis distribusi dan sebaran data.
Cari hubungan antar variabel.
Identifikasi outlier dan anomali.

Banyak praktisi Data Science bahkan menghabiskan sebagian besar waktu proyek untuk memahami dan membersihkan data sebelum mulai melatih model Machine Learning.

Statistik bukan musuh bagi mahasiswa yang ingin belajar Machine Learning. Justru statistik membantu kita memahami cerita yang tersembunyi di balik data. Dengan memahami konsep dasar seperti sebaran data, korelasi, outlier, dan eksplorasi data, kamu sudah memiliki fondasi yang sangat kuat untuk membangun model Machine Learning yang lebih akurat dan dapat dipercaya. Dalam dunia Financial Engineering, kemampuan membaca data sering kali lebih penting daripada sekadar menjalankan algoritma yang canggih.