Peningkatan jumlah data biologi mendorong penerapan machine learning (ML) dalam penelitian biologi. Sebagaian besar data biologi dihasilkan dari teknologi Next Generation Sequencing (NGS). Sayers et al. (2023) melaporkan jumlah kumpulan data publik yang ada di GenBank sekitar 19,6 triliun pasangan basa [1]. Kompleksitas data biologi yang semakin rumit membutuhkan teknik analisis yang memadai, seperti machine learning. Machine learning sangat berguna ketika kita memiliki data berukuran besar dengan kompleksitas yang rumit.
Pada artikel ini, saya akan memberikan penjelasan singkat tentang apa itu machine learning. Kemudian, saya akan memberikan beberapa contoh penerapan ML pada penelitian biologi.
Otak manusia memiliki keterbatasan dalam mengenali suatu pola. Hal ini terjadi kita kita dihadapkan pada sejumlah besar data. Disisi lain, machine learning merupakan studi untuk mengidentifikasi pola dan hubungan pada data yang kompleks [2]. Machine learning menggunakan metode komputasi untuk mensimulasikan bagaimana manusia belajar dengan cara mengekplorasi pola yang ada dalam data [3]. Sama seperti manusia, model ML akan terus belajar untuk meningkatkan kinerjanya dalam menyelesaikan tugas.
Algoritma ML dibagi menjadi 2 pendekatan, meliputi supervised learning dan unsupervised learning [4].
Terkadang dua pendekatan ML di atas digabungkan menjadi satu, Semi supervised learning [4]. Semi supervised learning merupakan gabungan dari supervised dan unsupervised learning. Algoritma ini menggunakan sejumlah kecil data berlabel yang digabungkan dengan sejumlah besar data tidak berlabel [4].
Kemampuan utama machine learning adalah pembuat prediksi tanpa perlu asumsi yang kuat tentang mekanisme yang mendasarinya. ALgoritma ML cukup memelajari pola yang ada dalam kumpulan data untuk membuat prediksi. Kumpulan data terdiri dari sejumlah titik titik data yang dijelaskan oleh suatu fitur. Fitur dalam kumpulan data dapat berupa, pola ekspresi gen, sekuens nukleotida, sekuens protein, dan konsentrasi obat. Misalnya, pada eksperimen klasifikasi taksonomi, kita mungkin ingin memprediksi nama spesies tertentu berdasarkan sekuens nukelotida. Dalam contoh tersebut, sekuens nukleotida berperan sebagai fitur, sedangkan nama spesies berperan sebagai target prediksi (output).
Secara umum, alur kerja machine learning berawal dari mengumpulkan data mentah. Data mentah yang telah diperoleh harus dibersihkan untuk meningkatkan kualitas data tersebut. Hasil prediksi model ML bergantung pada seberapa bagus kualitas datanya. Selanjutnya adalah pemilihan fitur yang tepat berdasarkan jenis permasalahan yang ingin diselesaikan. Jenis fitur yang tersedia akan digunakan sebagai pertimbangan dalam memilih model ML yang tepat. Model ML akan dilatih berdasarkan fitur-fitur yang telah ditentukan. Setelah pelatihan selesai, model ML dapat digunakan untuk menghasilkan suatu prediksi.
Greener et al. (2020) menjelaskan bahwa ada 2 tujuan kenapa machine learning digunakan di biologi. Pertama, ML digunakan untuk membuat prediksi yang akurat ketika ketersediaan data eksperimen kurang. Kedua, ML digunakan untuk meningkatkan pemahaman tentang kopleksitas biologi [4].
Berikut merupakan beberapa contoh penelitian biologi yang telah mengaplikasikan machine learning.
Moradigaravand et al. (2018) menggunakan berbagai algoritma machine learning untuk mendeteksi resistensi antibiotik mikroba. Berbagai algoritma yang mereka gunakan, meliputi regresi logistik, random forest, gradient boosted decision tree, dan neural networks. Mereka menggunakan data genom sekuens untuh dari 1936 galur E. coli untuk memprediksi resistensi terhadap 11 senyawa di empat kelas antibiotik [7].
Ghensi et al. (2020) menggunakan algoritma random forest untuk memprediksi kondisi kesehatan implan gigi. Mereka menggunakan kumpulan data metagenomik mikrobioma pada plak gigi sebagai fitur. Sedangkan, kondisi kesehatan implan gigi pasies digunakan sebagai target prediksi [8].
Strydom et al. (2021) meninjau algoritma jaringan syaraf sederhana untuk memprediksi interaksi spesies. Mereka berhasil mengembangkan model yang akurat dengan data yang terbatas. Memprediksi jairngan interaksi spesies dapat memberikan informasi terkait konservasi untuk melindungi spesies, komunitas, dan ekosistem [9].
Angermueller et al. (2016) meninjau penggunaan supervised learning dalam memprediksi viabilitas sel kanker. Mereka menggunakan varian sel somatik, susunan kimiawi obat, dan konsentrasi obat sebagai fitur. Algoritma yang mereka gunakan meliputi support vector machine (SVM) dan random forest [6].
Parks et al. (2011) menggunakan algoritma Naive Bayes (NB) untuk mengklasifikasikan mikroba. Mereka menggunakan data sekuens genom mikroba sebagai fitur, dan label taksonomi sebagai target prediksi. Mereka membuktikan bahwa algoritma NB memiliki keunggulan pada tingkat akurasi [10].
Thomas et al. (2019) menggunakan algoritma random forest untuk mengidentifikasi hubungan antara mikrobioma usus dan kanker kolorektal. Model ML yang mereka hasilkan memiliki skor AUC 0.84 yang divalidasi pada data yang tidak disertakan pada training set [11].
Solis-Reyes et al (2018) mengembangkan software open-source untuk mendeteksi ada tidaknya human immunodeficiency virus tipe 1 (HIV-1) berdasarkan data sekuens genomnya. Mereka menggunakan berbagai algoritma untuk tugas klasifikasi, seperti support vector machine (SVM), regresi logistik, decision tree, random forest, naive Bayes, dll [12].
Liu (2019) membangun sebuah platform, BioSeq-Analysis, untuk analisis sekuens biologis berbasis machine learning. Pada platform BioSeq-Analysis, pengguna hanya perlu menggunggah benchmark data set. Kemudian, BioSeq-Analysis akan menghasilkan prediktor yang optimal dan pelaporan ukuran kinerja [13].
Zhang et al. (2015) mengadopsi teknik pembelajaran multi label untuk memprediksi efek samping obat. Mereka menggunakan metode ensemble, yaitu “feature selection-based multi-label k-nearest neighbor method” (FS-MLKNN) [14].
Asif et al. (2018) memprediksi gen kandidat Autism Spectrum Disorder (ASD) berdasarkan gene ontology (GO). Mereka menggunakan metode klassfikasi yang berbeda, seperti naive Bayes, decision tree, random forest, SVM linier dan radial. Mereka melaporkan bahwa algoritma random forest memiliki tingkat akurasi yang lebih tinggi dengan nilai AUC mencapai 0.80 [15].
Penerapan machine learning pada bidang biologi memberikan potensi yang menjanjikan. Namun, masih ada beberapa hambatan dan tantangan yang harus diselesaikan oleh peneliti. Berikut adalah hambatan dan tantangan penerapan machine learning pada penelitian biologi [3]:
Peningkatan jumlah data biologi secara eksponensial memberikan peluang sekaligus tantangan dalam menerapkan machine learning pada penelitian biologi. Dua tujuan utama penerapan machine learning di penelitian biologi adalah untuk melakukan prediksi yang akurat dan memahami kompleksitas data biologi. Machine learning telah banyak diterapkan pada penelitian biologis, seperti prediksi resistensi antibiotik, prediksi kanker kolorektal, klasifikasi taksonomi mikroba, identifikasi gen penyebab penyakit, dll. Namun, masih ada beberapa tantangan dan hambatan dalam penerapan machine learning pada penelitian biologi.
Tidak ada komentar