KLASIFIKASI GENOM HUMAN PAPILLOMAVIRUS GENUS BETA DAN GAMMA MENGGUNAKAN FITUR 3-MER DAN ALGORITMA MACHINE LEARNING
Kata Kunci:
Bioinformatika, Human Papillomavirus, Klasifikasi Genom, Machine Learning, 3-MerAbstrak
Human Papillomavirus (HPV) merupakan virus DNA yang memiliki keragaman genetik tinggi dan dikelompokkan ke dalam beberapa genus, termasuk Beta dan Gamma. Meningkatnya ketersediaan data genom membuka peluang penerapan metode machine learning untuk melakukan klasifikasi genom secara otomatis berdasarkan karakteristik sekuens DNA. Penelitian ini bertujuan mengklasifikasikan genom HPV ke dalam genus Beta dan Gamma menggunakan algoritma machine learning dan fitur berbasis 3-mer. Sebanyak 259 sekuens genom HPV lengkap diperoleh dari basis data National Center for Biotechnology Information (NCBI) dan divalidasi menggunakan Basic Local Alignment Search Tool (BLAST). Karakteristik genom direpresentasikan melalui frekuensi kemunculan 3-mer sehingga menghasilkan 64 fitur numerik pada setiap sekuens. Untuk mengatasi ketidakseimbangan kelas, diterapkan metode Synthetic Minority Oversampling Technique (SMOTE) pada data pelatih. Tiga algoritma machine learning, yaitu Random Forest, Extra Trees, dan CatBoost, dibangun dan dievaluasi menggunakan stratified 5-fold cross-validation. Hasil penelitian menunjukkan bahwa seluruh model mampu menghasilkan performa klasifikasi yang tinggi, dengan Extra Trees memperoleh nilai rata-rata akurasi dan F1-score terbaik dibandingkan model lainnya. Hasil tersebut menunjukkan bahwa fitur genomik berbasis 3-mer mampu merepresentasikan pola sekuens DNA yang membedakan genom HPV genus Beta dan Gamma secara efektif. Penelitian ini menunjukkan bahwa machine learning berpotensi menjadi pendekatan yang cepat dan terotomatisasi dalam klasifikasi genom HPV serta dapat mendukung pengembangan analisis data genom pada bidang bioinformatika
Human Papillomavirus (HPV) is a DNA virus with high genetic diversity and is classified into several genera, including Beta and Gamma. The increasing availability of genomic data has created opportunities to apply machine learning techniques for automated genome classification based on DNA sequence characteristics. This study aimed to classify HPV genomes into Beta and Gamma genera using machine learning algorithms and 3-mer sequence features. A total of 259 complete HPV genome sequences were obtained from the National Center for Biotechnology Information (NCBI) database and validated using the Basic Local Alignment Search Tool (BLAST). Genomic features were extracted using 3-mer frequency representation, resulting in 64 numerical features for each sequence. To address class imbalance, the Synthetic Minority Oversampling Technique (SMOTE) was applied to the training dataset. Three machine learning algorithms, namely Random Forest, Extra Trees, and CatBoost, were developed and evaluated using stratified 5-fold cross-validation. The results demonstrated that all models achieved high classification performance, with Extra Trees obtaining the highest average accuracy and F1-score. The findings indicate that 3-mer-based genomic features effectively capture sequence patterns that distinguish Beta and Gamma HPV genomes. This study highlights the potential of machine learning as a rapid and automated approach for HPV genome classification and demonstrates its applicability in bioinformatics-based genomic data analysis


