Model Semi-supervised Learning Menggunakan Logistic Regression Untuk Anotasi Sentimen
Abstract
Sentimen analisis menggunakan dataset berlabel untuk melatih model klasifikasi. Dataset berlabel sentimen tidak selalu tersedia untuk setiap percobaan. Permasalahannya, untuk menyiapkan dataset beranotasi sentimen membutuhkan ahli sebagai anotator, membutuhkan banyak waktu, dan biaya. Semi-supervised annotation (SSA) hadir sebagai metode yang menjanjikan untuk mengatasi sulitnya proses pelabelan data, yaitu meminimalkan ketergantungan pakar, mengurangi waktu dan biaya. Tujuan penelitian ini membangun model anotasi teks dengan pendekatan semi-supervised annotation (SSA-Model) untuk sentimen analisis. Model klasifikasi sentimen dengan SSA akan dibandingkan akurasinya dengan model baseline yaitu model dengan dataset yang diberi label secara manual oleh pakar. Model SSA adalah model dengan anotasi machine learning. Tahap vektorisasi data menggunakan pendekatan BoW dan N-gram dengan jumlah N=1,2,3. Sedangkan model klasifikasi menggunakan Logistic Regression dan Naïve Bayes. Penelitian ini menggunakan dataset IMDB untuk menguji model. Model divaluasi menggunakan confusion matrix ,dilihat dari nilai akurasi dan F1 score. Kesimpulannya, semi-supervised annotation dapat digunakan untuk memberikan label kelas sentimen secara otomatis. Namun, kinerjanya dipengaruhi oleh jumlah data training dan kesesuaian dataset dengan algoritma machine learning. Semakin banyak data training berlabel yang digunakan dalam model SSA maka kinerja klasifikasi makin baik. Pada dataset IMDB yang terdiri dari dua kelas, kinerja model klasifikasi dengan Logistic Regression lebih baik dibandingkan Naïve Bayes.