Arsip

Kategori

Image by Freepik.com

Ketika Machine Learning Diterapkan pada Penelitian Biologi

Peningkatan jumlah data biologi mendorong penerapan machine learning (ML) dalam penelitian biologi. Sebagaian besar data biologi dihasilkan dari teknologi Next Generation Sequencing (NGS). Sayers et al. (2023) melaporkan jumlah kumpulan data publik yang ada di GenBank sekitar 19,6 triliun pasangan basa [1]. Kompleksitas data biologi yang semakin rumit membutuhkan teknik analisis yang memadai, seperti machine learning. Machine learning sangat berguna ketika kita memiliki data berukuran besar dengan kompleksitas yang rumit. 

Pada artikel ini, saya akan memberikan penjelasan singkat tentang apa itu machine learning. Kemudian, saya akan memberikan beberapa contoh penerapan ML pada penelitian biologi. 

Apa itu machine learning?

Otak manusia memiliki keterbatasan dalam mengenali suatu pola. Hal ini terjadi kita kita dihadapkan pada sejumlah besar data. Disisi lain, machine learning merupakan studi untuk mengidentifikasi pola dan hubungan pada data yang kompleks [2]. Machine learning menggunakan metode komputasi untuk mensimulasikan bagaimana manusia belajar dengan cara mengekplorasi pola yang ada dalam data [3]. Sama seperti manusia, model ML akan terus belajar untuk meningkatkan kinerjanya dalam menyelesaikan tugas. 

Algoritma ML dibagi menjadi 2 pendekatan, meliputi supervised learning dan unsupervised learning [4]. 

  1. Supervised learning merupakan tipe algoritma ML memelajari data berlabel. Unsupervised learning banyak digunakan untuk menyelesaikan tugas regresi dan klasisifikasi. Contoh algoritma supervised learning, seperti regresi linier, support vector machine (SVM), decision tree, dan random forest.
  2. Unsupervised learning merupakan tipe algoritma ML yang mampu menemukan pola dari data yang tidak berlabel. Unsupervised learning banyak digunakan untuk tugas clustering. Contoh algoritma unsupervised learning, seperti K-means clustering dan Principal component analysis (PCA).
Penerapan supervised dan unsupervised learning pada berbagai jenis data biologi
Penerapan supervised dan unsupervised learning pada berbagai jenis data biologi [3]

Terkadang dua pendekatan ML di atas digabungkan menjadi satu, Semi supervised learning [4]. Semi supervised learning merupakan gabungan dari supervised dan unsupervised learning. Algoritma ini menggunakan sejumlah kecil data berlabel yang digabungkan dengan sejumlah besar data tidak berlabel [4].

Bagaimana cara kerja machine learning?

Kemampuan utama machine learning adalah pembuat prediksi tanpa perlu asumsi yang kuat tentang mekanisme yang mendasarinya. ALgoritma ML cukup memelajari pola yang ada dalam kumpulan data untuk membuat prediksi. Kumpulan data terdiri dari sejumlah titik titik data yang dijelaskan oleh suatu fitur. Fitur dalam kumpulan data dapat berupa, pola ekspresi gen, sekuens nukleotida, sekuens protein, dan konsentrasi obat. Misalnya, pada eksperimen klasifikasi taksonomi, kita mungkin ingin memprediksi nama spesies tertentu berdasarkan sekuens nukelotida. Dalam contoh tersebut, sekuens nukleotida berperan sebagai fitur, sedangkan nama spesies berperan sebagai target prediksi (output).

Secara umum, alur kerja machine learning berawal dari mengumpulkan data mentah. Data mentah yang telah diperoleh harus dibersihkan untuk meningkatkan kualitas data tersebut. Hasil prediksi model ML bergantung pada seberapa bagus kualitas datanya. Selanjutnya adalah pemilihan fitur yang tepat berdasarkan jenis permasalahan yang ingin diselesaikan. Jenis fitur yang tersedia akan digunakan sebagai pertimbangan dalam memilih model ML yang tepat. Model ML akan dilatih berdasarkan fitur-fitur yang telah ditentukan. Setelah pelatihan selesai, model ML dapat digunakan untuk menghasilkan suatu prediksi.

Alur kerja proyek machine learning
Alur kerja proyek machine learning secara umum [6]

Penggunaan machine learning pada penelitian biologi

Greener et al. (2020) menjelaskan bahwa ada 2 tujuan kenapa machine learning digunakan di biologi. Pertama, ML digunakan untuk membuat prediksi yang akurat ketika ketersediaan data eksperimen kurang. Kedua, ML digunakan untuk meningkatkan pemahaman tentang kopleksitas biologi [4].

Berikut merupakan beberapa contoh penelitian biologi yang telah mengaplikasikan machine learning

1. Prediksi resistensi antibiotik

Moradigaravand et al. (2018) menggunakan berbagai algoritma machine learning untuk mendeteksi resistensi antibiotik mikroba. Berbagai algoritma yang mereka gunakan, meliputi regresi logistik, random forest, gradient boosted decision tree, dan neural networks. Mereka menggunakan data genom sekuens untuh dari 1936 galur E. coli untuk memprediksi resistensi terhadap 11 senyawa di empat kelas antibiotik [7].

2. Prediksi status kesehatan implan gigi

Ghensi et al. (2020) menggunakan algoritma random forest untuk memprediksi kondisi kesehatan implan gigi. Mereka menggunakan kumpulan data metagenomik mikrobioma pada plak gigi sebagai fitur. Sedangkan, kondisi kesehatan implan gigi pasies digunakan sebagai target prediksi [8].

3. Prediksi jaringan interaksi spesies

Strydom et al. (2021) meninjau algoritma jaringan syaraf sederhana untuk memprediksi interaksi spesies. Mereka berhasil mengembangkan model yang akurat dengan data yang terbatas. Memprediksi jairngan interaksi spesies dapat memberikan informasi terkait konservasi untuk melindungi spesies, komunitas, dan ekosistem [9].

4. Prediksi viabilitas sel kanker

Angermueller et al. (2016) meninjau penggunaan supervised learning dalam memprediksi viabilitas sel kanker. Mereka menggunakan varian sel somatik, susunan kimiawi obat, dan konsentrasi obat sebagai fitur. Algoritma yang mereka gunakan meliputi support vector machine (SVM) dan random forest [6].

5. Klasifikasi taksonomi mikroba

Parks et al. (2011) menggunakan algoritma Naive Bayes (NB) untuk mengklasifikasikan mikroba. Mereka menggunakan data sekuens genom mikroba sebagai fitur, dan label taksonomi sebagai target prediksi. Mereka membuktikan bahwa algoritma NB memiliki keunggulan pada tingkat akurasi [10].

6. Prediksi kanker kolorektal

Thomas et al. (2019) menggunakan algoritma random forest untuk mengidentifikasi hubungan antara mikrobioma usus dan kanker kolorektal. Model ML yang mereka hasilkan memiliki skor AUC 0.84 yang divalidasi pada data yang tidak disertakan pada training set [11].

7. Prediksi keberadaan HIV-1

Solis-Reyes et al (2018) mengembangkan software open-source untuk mendeteksi ada tidaknya human immunodeficiency virus tipe 1 (HIV-1) berdasarkan data sekuens genomnya. Mereka menggunakan berbagai algoritma untuk tugas klasifikasi, seperti support vector machine (SVM), regresi logistik, decision tree, random forest, naive Bayes, dll [12].

8. Analisis sekuens biologis berbasis machine learning

Liu (2019) membangun sebuah platform, BioSeq-Analysis, untuk analisis sekuens biologis berbasis machine learning. Pada platform BioSeq-Analysis, pengguna hanya perlu menggunggah benchmark data set. Kemudian, BioSeq-Analysis akan menghasilkan prediktor yang optimal dan pelaporan ukuran kinerja [13].

9. Prediksi efek samping obat

Zhang et al. (2015) mengadopsi teknik pembelajaran multi label untuk memprediksi efek samping obat. Mereka menggunakan metode ensemble, yaitu “feature selection-based multi-label k-nearest neighbor method” (FS-MLKNN) [14].

10. Identifikasi gen penyebab penyakit autism

Asif et al. (2018) memprediksi gen kandidat Autism Spectrum Disorder (ASD) berdasarkan gene ontology (GO). Mereka menggunakan metode klassfikasi yang berbeda, seperti naive Bayes, decision tree, random forest, SVM linier dan radial. Mereka melaporkan bahwa algoritma random forest memiliki tingkat akurasi yang lebih tinggi dengan nilai AUC mencapai 0.80 [15].

Hambatan dan tantangan penerapan machine learning dalam penelitian biologi

Penerapan machine learning pada bidang biologi memberikan potensi yang menjanjikan. Namun, masih ada beberapa hambatan dan tantangan yang harus diselesaikan oleh peneliti. Berikut adalah hambatan dan tantangan penerapan machine learning pada penelitian biologi [3]:

  1. Sulitnya merepresentasikan data biologis yang beragam menjadi format yang mudah dimengerti oleh algoritma machine learning.
  2. Seringkali jumlah data yang tersedia hanya untuk domain tertentu, misalnya biologi medis.
  3. Sulitnya menggabungkan berbagai jenis data, misalnya pada data multi-OMICS.
  4. Reproduksibilitas yang dipengaruhi oleh jalur pemrosesan data yang berbeda walaupun menggunakan kumpulan data yang sama.
  5. Kurangnya latar belakang statistik bagi pada ahli biologi menyulitkan dalam mengintepretasikan model machine learning.

Kesimpulan

Peningkatan jumlah data biologi secara eksponensial memberikan peluang sekaligus tantangan dalam menerapkan machine learning pada penelitian biologi. Dua tujuan utama penerapan machine learning di penelitian biologi adalah untuk melakukan prediksi yang akurat dan memahami kompleksitas data biologi. Machine learning telah banyak diterapkan pada penelitian biologis, seperti prediksi resistensi antibiotik, prediksi kanker kolorektal, klasifikasi taksonomi mikroba, identifikasi gen penyebab penyakit, dll. Namun, masih ada beberapa tantangan dan hambatan dalam penerapan machine learning pada penelitian biologi.

Referensi

  1. Sayers, E. W., Cavanaugh, M., Clark, K., et al. 2023. GenBank 2023 update. Nucleic acids research. 51(D1): D141–D144.
  2. Asnicar, F., Thomas, A.M., Passerini, A. et al. 2023. Machine learning for microbiologists. Nature Reviews Microbiology.
  3. Auslander, N., Gussow, A. B., & Koonin, E. V. 2021. Incorporating Machine Learning into Established Bioinformatics Frameworks. International Journal of Molecular Sciences. 22(6): 2903.
  4. Greener, J.G., Kandathil, S.M., Moffat, L. et al. 2022. A guide to machine learning for biologists. Nature Reviews Molecular Cell Biology. 23: 40–55.
  5. Angermueller, C., Pärnamaa, T., Parts, L., & Stegle, O. (2016). Deep learning for computational biology. Molecular Systems Biology. 12(7): 878.
  6. Moradigaravand D, Palm M, Farewell A, Mustonen V, et al. 2018. Prediction of antibiotic resistance in Escherichia coli from large-scale pan-genome data. PLoS Computational Biology. 14(12): e1006258.
  7. Ghensi, P., Manghi, P., Zolfo, M., et al. 2020. Strong oral plaque microbiome signatures for dental implant diseases identified by strain-resolution metagenomics. Npj Biofilms and Microbiomes. 6(1): 1–12.
  8. Strydom, T., Catchen, M. D., Banville, F., et al. 2021. A roadmap towards predicting species interaction networks (across space and time). Philosophical Transactions of the Royal Society B: Biological Sciences. 376(1837).
  9. Parks, D. H., MacDonald, N. J., & Beiko, R. G. 2011. Classifying short genomic fragments from novel lineages using composition and homology. BMC Bioinformatics. 12(1): 328.
  10. Thomas, A. M., Manghi, P., Asnicar, F., et al. 2019. Metagenomic analysis of colorectal cancer datasets identifies cross-cohort microbial diagnostic signatures and a link with choline degradation. Nature Medicine. 25(4): 667–678.
  11. Solis-Reyes, S., Avino, M., Poon, A., & Kari, L. (2018). An open-source k-mer-based machine learning tool for fast and accurate subtyping of HIV-1 genomes. PLOS ONE. 13(11): e0206409.
  12. Liu B. 2019. BioSeq-Analysis: a platform for DNA, RNA, and protein sequence analysis based on machine learning approaches. Briefings in Bioinformatics. 20(4): 1280–1294.
  13. Zhang, W., Liu, F., Luo, L., & Zhang, J. 2015. Predicting drug side effects by multi-label learning and ensemble learning. BMC bioinformatics. 16, 365.
  14. Asif M, Martiniano HFMCM, Vicente AM, Couto FM. 2018. Identifying disease genes using machine learning and gene functional similarities, assessed through Gene Ontology. PLoS ONE. 13(12): e0208626.

Dede Kurniawan
Penulis di Medium: https://dedekurniawann.medium.com/. Anggota Divisi Bioteknologi Yayasan Generasi Biologi Indonesia. LinkedIn: https://www.linkedin.com/in/dede-kurniawann/