PENGUKURAN KUALITAS LLM MENGGUNAKAN GLUE
Kata Kunci:
LLM, GLUE, STS-B, Cosine Similarity, Pearson Correlation, Spearman Correlation, LLaMAAbstrak
Penelitian ini mengevaluasi kualitas Large Language Models (LLMs) menggunakan tolok ukur General Language Understanding Evaluation (GLUE), dengan fokus pada model LLaMA dan dataset Semantic Textual Similarity Benchmark (STS-B). Evaluasi dilakukan menggunakan Cosine Similarity, Pearson Correlation, dan Spearman Correlation untuk mengukur kesamaan semantik antara kalimat yang dihasilkan model dengan referensi manusia. Hasil penelitian menunjukkan bahwa model all-mpnet-base-v2 unggul dalam tugas kesamaan semantik, dengan skor Pearson dan Spearman Correlation sebesar 0,88, mengindikasikan kemampuannya dalam memahami hubungan antar kalimat. Sementara itu, dalam evaluasi chatbot, model LLaMA memperoleh skor Cosine Similarity sebesar 0,79, menunjukkan kinerja yang baik dalam menjawab pertanyaan umum, tetapi kurang stabil dalam domain yang lebih kompleks seperti sains dan teknologi. Hasil ini menunjukkan bahwa pemilihan model yang tepat sangat penting untuk tugas NLP tertentu. Selain itu, penelitian ini menyarankan bahwa fine-tuning pada model LLaMA dapat meningkatkan akurasi dan relevansi responsnya. Penelitian ini berkontribusi dalam pengembangan kerangka evaluasi LLM yang lebih komprehensif, dengan menekankan pentingnya metrik kesamaan dalam menilai efektivitas model bahasa.
This research evaluates the quality of Large Language Models (LLMs) using the General Language Understanding Evaluation (GLUE) benchmark, focusing on the LLaMA model and the Semantic Textual Similarity Benchmark (STS-B) dataset. The evaluation employs Cosine Similarity, Pearson Correlation, and Spearman Correlation to measure the semantic similarity between model-generated sentences and human-labeled references. The result shows that the all-mpnet-base-v2 model performs best in semantic similarity tasks, achieving Pearson and Spearman Correlation scores of 0.88, demonstrating its ability to understand relationships between sentences. Meanwhile, in chatbot evaluations, the LLaMA model achieved a Cosine Similarity score of 0.79, showing strong performance in answering general questions but exhibiting variability in more complex domains such as science and technology. This result highlights the importance of selecting the right model for specific NLP tasks. Additionally, this research suggests that fine-tuning the LLaMA model can further enhance its accuracy and response relevance. This study contributes to the development of a more comprehensive LLM evaluation framework, emphasizing the role of similarity metrics in assessing model effectiveness.