PREDIKSI PELUANG LOLOS PROGRAM STUDI SIMAK UI TAHUN 2009 MENGGUNAKAN KLASTER K-MEANS DATA HISTORIS 2006-2008
Kata Kunci:
K‑Means, Simak UI, Clustering, Prediksi Persaingan, Data MiningAbstrak
Persaingan masuk perguruan tinggi melalui seleksi Simak UI menunjukkan peningkatan rasio peminat per daya tampung pada periode 2006–2008, yang memerlukan prediksi kuantitatif untuk strategi pendaftaran calon mahasiswa dan perencanaan kapasitas universitas. Penelitian ini bertujuan mengelompokkan 20 program studi Simak UI berdasarkan tingkat persaingan historis serta meramalkan persaingan tahun 2009 dengan algoritma K‑Means (k = 3). Data bersumber dari Sarwono (2010), meliputi jumlah peminat tahun 2006–2007, daya tampung tahun 2008, dan persentase persaingan tahunan. Tahapan Knowledge Discovery in Databases (KDD) diterapkan, mencakup imputasi nilai hilang, Min–Max Scaling, penentuan k optimal melalui elbow method dan silhouette score (≥ 0,5), serta implementasi K‑Means di Python (scikit‑learn). Hasil clustering menghasilkan tiga kelompok karakteristik persaingan rendah (rata‑rata 6,1 %), sedang (14,2 %), dan tinggi (24,8 %), dengan silhouette score rata‑rata 0,62. Model regresi linier berbasis centroid memprediksi persaingan 2009 masing‑masing sebesar 5,3 %, 14,4 %, dan 25,7 % (R² = 0,89). Kontribusi penelitian ini adalah penyediaan peta klaster persaingan historis dan prediksi yang dapat digunakan calon mahasiswa untuk menyusun pilihan studi serta membantu universitas dalam kebijakan daya tampung yang lebih adaptif.
Competition to enter higher education through SimakUI selection shows an increase in the ratio of applicants per capacity in the period 2006–2008, which requires quantitative predictions for prospective student registration strategies and university capacity planning. This study aims to group 20 SimakUI study programs based on historical competition levels and predict competition in 2009 using the K‑Means algorithm (k=3). Data sourced from Sarwono (2010), including the number of applicants in 2006–2007, capacity in 2008, and annual competition percentage. The Knowledge Discovery in Databases (KDD) stages are applied, including missing value imputation, Min–Max Scaling, determining optimal k using the elbow method and silhouette score (≥0.5), and implementing K‑Means in Python (scikit‑learn). The clustering results produced three groups of low competition characteristics (average 6.1%), medium (14.2%), and high (24.8%), with an average silhouette score of 0.62. The centroid-based linear regression model predicted 2009 competition of 5.3%, 14.4%, and 25.7%, respectively (R²=0.89). The contribution of this study is the provision of historical and predicted competition cluster maps that can be used by prospective students to organize study choices and assist universities in more adaptive capacity policies.