In [1]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report, accuracy_score


In [2]:
file_path = r"C:/Users/surya/Documents/Surya Files/Coba Analysis/Timnas1.csv"

In [3]:
#Import Data
data = pd.read_csv(file_path)
print(data)

                                              komentar    label
0    <username> Simulasi indonesia kembali dijajah ...  negatif
1    <username> <username> <username> keturunan lai...  negatif
2    <username> <username> uda botak keturunan penj...  negatif
3    <username> <username> <username> Belum tentu, ...  negatif
4    <username> <username> <username> Lu nya aja yg...  negatif
..                                                 ...      ...
393  <username> <username> 3 tahun lalu indonesia m...  positif
394                                                  \  positif
395  Naturalisasi pemain keturunan menjadi langkah ...  positif
396  semua persyaratan yang diperlukan untuk proses...  positif
397  <username> Mau percaya sama akmal aja udah ane...  positif

[398 rows x 2 columns]


In [4]:
# Buat Daftar stop words bahasa Indonesia
stop_words_indonesia = [
    "yang", "untuk", "dengan", "dan", "pada", "ini", "itu", "di", "ke", "dari", "adalah",
    "atau", "sebagai", "dalam", "juga", "akan", "tersebut", "mereka", "kami", "kita",
    "sudah", "belum", "bisa", "tidak", "harus", "akan", "ada", "karena", "saja"
]

In [5]:

# Proses pra-pengolahan teks (cleansing data)
def clean_text(text):
    # Menghapus username dan karakter/simbol/emot
    text = text.replace("<username>", "").replace("\\", "").strip()
    return text

data['komentar'] = data['komentar'].apply(clean_text)

In [6]:
# Mengubah teks ke representasi numerik dengan CountVectorizer
vectorizer = CountVectorizer(stop_words=stop_words_indonesia)
X = vectorizer.fit_transform(data['komentar'])
y = data['label']


In [7]:
# bagi dataset menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [8]:
# Latih model Naive Bayes
model = MultinomialNB()
model.fit(X_train, y_train)

MultinomialNB()

In [9]:
# prediksi data uji
y_pred = model.predict(X_test)

In [10]:
# hasil evaluasi
print("Akurasi:", accuracy_score(y_test, y_pred))
print("Laporan Klasifikasi:\n", classification_report(y_test, y_pred))

Akurasi: 0.7125
Laporan Klasifikasi:
               precision    recall  f1-score   support

     negatif       0.78      0.66      0.72        44
     positif       0.65      0.78      0.71        36

    accuracy                           0.71        80
   macro avg       0.72      0.72      0.71        80
weighted avg       0.72      0.71      0.71        80



In [11]:
# Coba Model
contoh_komentar = ["Indonesia luar biasa!", "Keturunan penjajah tidak pantas"]
contoh_vector = vectorizer.transform(contoh_komentar)
prediksi = model.predict(contoh_vector)

for komentar, label in zip(contoh_komentar, prediksi):
    print(f"Komentar: {komentar} -> Sentimen: {label}")

Komentar: Indonesia luar biasa! -> Sentimen: positif
Komentar: Keturunan penjajah tidak pantas -> Sentimen: negatif


In [12]:
# Grafik Distribusi Sentimen
plt.figure(figsize=(6, 4))
data['label'].value_counts().plot(kind='bar', color=['skyblue', 'orange'])
plt.title('Distribusi Sentimen')
plt.xlabel('Sentimen')
plt.ylabel('Jumlah Komentar')
plt.xticks(rotation=0)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

NameError: name 'plt' is not defined

### Analisis Hasil Model

1. **Akurasi Model (71.25%)**:  
   - Model berhasil memprediksi sentimen dengan tingkat akurasi yang cukup baik, yaitu **71.25%**. Ini menunjukkan bahwa model bisa mengklasifikasikan sekitar 71 dari 100 komentar dengan benar ke dalam kategori `positif` atau `negatif`.

2. **Evaluasi Berdasarkan Precision, Recall, dan F1-Score**:
   - **Precision**: 
     - Untuk sentimen **negatif**, precision adalah **0.78**, berarti dari semua prediksi negatif, 78% benar-benar negatif.
     - Untuk sentimen **positif**, precision adalah **0.65**, menunjukkan ada sedikit kesalahan dalam memprediksi komentar positif.
   - **Recall**:
     - Recall untuk sentimen **negatif** adalah **0.66**, artinya model hanya menangkap 66% dari semua komentar negatif yang sebenarnya.
     - Recall untuk sentimen **positif** adalah **0.78**, menunjukkan model lebih baik dalam mengidentifikasi komentar positif.
   - **F1-Score**:
     - Skor **F1** untuk kedua kelas hampir seimbang, yaitu **0.72** untuk negatif dan **0.71** untuk positif. Ini menunjukkan kinerja keseluruhan yang cukup stabil untuk kedua kategori sentimen.

3. **Macro Avg vs Weighted Avg**:
   - **Macro Avg (0.72)** memberikan rata-rata sederhana antara metrik untuk kedua kelas, tanpa mempertimbangkan distribusi data.
   - **Weighted Avg (0.71)** memperhitungkan jumlah sampel di setiap kelas. Nilai yang sedikit lebih rendah menunjukkan ketidakseimbangan data antara kategori `negatif` dan `positif`.

---

### Interpretasi Contoh Prediksi

- **Komentar: "Indonesia luar biasa!"**  
  Prediksi: **positif**  
  Analisis: Model berhasil mengidentifikasi kata-kata seperti *luar biasa* yang biasanya dikaitkan dengan sentimen positif.

- **Komentar: "Keturunan penjajah tidak pantas"**  
  Prediksi: **negatif**  
  Analisis: Kata-kata seperti *tidak pantas* memiliki konotasi negatif, sehingga model mampu menangkap konteks ini dengan benar.

---

### Kesimpulan dan Saran

1. **Kesimpulan**:
   - Model menunjukkan kinerja yang cukup baik, terutama pada kategori sentimen negatif.
   - Ada potensi untuk meningkatkan identifikasi komentar positif, seperti yang terlihat dari precision yang lebih rendah (0.65).

2. **Saran Perbaikan**:
   - **Imbangi Data**: Jika memungkinkan, tambahkan lebih banyak komentar positif untuk melatih model sehingga distribusi data menjadi lebih seimbang.
   - **Pengayaan Stop Words**: Perluas daftar stop words untuk menghapus kata-kata umum yang kurang relevan.
   - **Gunakan Teknik NLP Lanjutan**: Gunakan model berbasis *embedding* seperti Word2Vec atau BERT untuk menangkap konteks yang lebih dalam.

3. **Praktis untuk Aplikasi**:
   - Dengan akurasi **71.25%**, model sudah cukup layak untuk analisis sentimen dasar, seperti memantau opini publik terhadap timnas Indonesia di era STY. Namun, untuk penggunaan di industri, kinerja ini masih perlu ditingkatkan.