In [None]:
import pandas as pd
import re
import matplotlib.pyplot as plt
import seaborn as sns

# ==========================================
# 1. DEFINISI KAMUS KATA (LEXICON)
# ==========================================
# Anda bisa menambah kata-kata ini sesuai konteks dataset Anda
pos_words = [
    'bagus', 'baik', 'mantap', 'hebat', 'keren', 'luar biasa', 'salut', 'dukung',
    'setuju', 'bangga', 'maju', 'sukses', 'cinta', 'senang', 'bahagia', 'semangat',
    'terima kasih', 'positif', 'optimis', 'aman', 'sejahtera', 'adil', 'jujur',
    'cerdas', 'pintar', 'bijak', 'tegas', 'berani', 'membangun', 'pro', 'suka',
    'benar', 'akurat', 'percaya', 'harapan', 'solusi', 'bantu', 'menang', 'jaya',
    'istiqomah', 'peduli', 'selamat', 'naik', 'untung', 'profit', 'surplus'
]

neg_words = [
    'jelek', 'buruk', 'hancur', 'rusak', 'gagal', 'kecewa', 'sedih', 'marah',
    'benci', 'tolak', 'anti', 'bohong', 'palsu', 'korupsi', 'curang', 'bodoh',
    'gila', 'parah', 'payah', 'lemah', 'mundur', 'takut', 'ancam', 'bahaya',
    'negatif', 'pesimis', 'rugi', 'salah', 'sesat', 'kacau', 'ribet', 'bencana',
    'antek', 'asing', 'penjajah', 'dosa', 'dzalim', 'zalim', 'tumbang', 'turun',
    'lengser', 'usir', 'biadab', 'kejam', 'jahat', 'sampah', 'muak', 'hujat',
    'utang', 'beban', 'sengsara', 'miskin', 'melarat', 'naik harga', 'mahal'
]

# ==========================================
# 2. FUNGSI SCORING
# ==========================================


def get_lexicon_sentiment(text):
    # Simple cleaning agar matching lebih akurat
    text = str(text).lower()
    text = re.sub(r'[^a-z0-9\s]', '', text)  # Hapus simbol

    words = text.split()
    score = 0

    # Hitung skor
    for word in words:
        if word in pos_words:
            score += 1
        elif word in neg_words:
            score -= 1

    # Tentukan label
    if score > 0:
        return 'Positif'
    elif score < 0:
        return 'Negatif'
    else:
        return 'Netral'


# ==========================================
# 3. EKSEKUSI PADA DATASET
# ==========================================
# Load dataset Anda (Gunakan file yang belum dilabel atau file full)
df_auto = pd.read_csv('dataset_tugas_purbaya_vs_srimulyani.csv')

print("Sedang melakukan pelabelan otomatis...")
df_auto['label_otomatis'] = df_auto['text'].apply(get_lexicon_sentiment)

# Tampilkan Distribusi
print("\nDistribusi Label Otomatis:")
print(df_auto['label_otomatis'].value_counts())

# Visualisasi
plt.figure(figsize=(6, 4))
sns.countplot(x='label_otomatis', data=df_auto, palette='coolwarm')
plt.title('Distribusi Hasil Auto-Labeling (Lexicon)')
plt.show()

# Simpan hasil untuk dibandingkan nanti
df_auto.to_csv('hasil_label_otomatis.csv', index=False)
print("âœ“ Hasil disimpan ke 'hasil_label_otomatis.csv'")

# Preview Data
display(df_auto[['text', 'label_otomatis']].head(10))