# Tahap 3: Pelabelan Sentimen Berbasis Leksikon

### Pastikan Anda sudah menginstal library yang dibutuhkan:
### pip install pandas

In [7]:
import pandas as pd
import nltk

# --- Download kamus NLTK jika belum ada ---
try:
    nltk.data.find('tokenizers/punkt')
except nltk.downloader.DownloadError:
    nltk.download('punkt')

In [8]:
# --- 1. Membaca File Hasil Preprocessing ---
input_filepath = '../Data/hasil_preprocessing_transjakarta.csv'
try:
    df = pd.read_csv(input_filepath)
    print(f"File '{input_filepath}' berhasil dibaca. Jumlah data: {len(df)} baris.")
except FileNotFoundError:
    print(f"Error: File '{input_filepath}' tidak ditemukan.")
    exit()

File '../Data/hasil_preprocessing_transjakarta.csv' berhasil dibaca. Jumlah data: 150 baris.


In [9]:
# --- 2. Membangun Kamus Leksikon Sederhana ---
# Kamus ini bisa diperkaya agar lebih akurat
positive_words = [
    'aman', 'bangga', 'baik', 'bahagia', 'baru', 'berhasil', 'bermanfaat', 'bersih',
    'dukung', 'efisien', 'efektif', 'gratis', 'gembira', 'hebat', 'inovasi',
    'lancar', 'maju', 'membantu', 'membaik', 'memudahkan', 'meningkat',
    'nyaman', 'optimis', 'penghargaan', 'positif', 'puas', 'ramah', 'solusi',
    'sukses', 'terbantu', 'terbaik', 'terjangkau', 'cepat', 'untung', 'mudah', 'senang',
    'andal', 'apresiasi', 'gratis', 'hemat', 'lengkap', 'modern', 'promo', 'solutif'
]

negative_words = [
    'antre', 'mogok', 'rusak', 'terganggu', 'kecelakaan', 'keluhan', 'kriminal',
    'terbakar', 'demo', 'macet', 'masalah', 'negatif', 'protes', 'ricuh',
    'salah', 'sulit', 'terlambat', 'tewas', 'buruk', 'celaka', 'curang', 'gagal',
    'jelek', 'kecewa', 'korban', 'lambat', 'mahal', 'menurun', 'merugi',
    'sesak', 'sakit', 'susah', 'tilang', 'aniaya', 'ancam', 'bahaya', 'bentrok',

    'leceh', 'menjerit', 'padat', 'penumpukan', 'vandalisme'
]

In [10]:
# --- 3. Fungsi untuk Pelabelan Sentimen ---
def label_sentiment(text):
    if not isinstance(text, str):
        return 'netral' # Kembalikan netral jika teks kosong atau bukan string
        
    positive_score = 0
    negative_score = 0
    
    # Tokenisasi teks menjadi kata-kata
    words = nltk.word_tokenize(text)
    
    # Hitung skor positif dan negatif
    for word in words:
        if word in positive_words:
            positive_score += 1
        elif word in negative_words:
            negative_score += 1
            
    # Tentukan sentimen berdasarkan perbandingan skor
    if positive_score > negative_score:
        return 'positif'
    elif negative_score > positive_score:
        return 'negatif'
    else:
        return 'netral'

In [11]:
# --- 4. Terapkan Fungsi Pelabelan ---
# Kita gunakan kolom 'Teks_Stemmed' karena lebih bersih
print("\nMemulai proses pelabelan sentimen...")
df['Sentimen'] = df['Teks_Stemmed'].apply(label_sentiment)
print("Proses pelabelan selesai.")


Memulai proses pelabelan sentimen...
Proses pelabelan selesai.


In [12]:
# --- 5. Menyimpan Hasil ---
output_filepath = '../Data/hasil_pelabelan_transjakarta.csv'
df.to_csv(output_filepath, index=False, encoding='utf-8')
print(f"\n✅ Proses pelabelan selesai. Hasil disimpan di file: {output_filepath}")

# Menampilkan distribusi sentimen dan cuplikan hasil
print("\nDistribusi Sentimen:")
print(df['Sentimen'].value_counts())

print("\nCuplikan 5 baris pertama dari data hasil pelabelan:")
print(df[['Teks_Stemmed', 'Sentimen']].head())


✅ Proses pelabelan selesai. Hasil disimpan di file: ../Data/hasil_pelabelan_transjakarta.csv

Distribusi Sentimen:
Sentimen
positif    84
negatif    52
netral     14
Name: count, dtype: int64

Cuplikan 5 baris pertama dari data hasil pelabelan:
                                        Teks_Stemmed Sentimen
0  hore transjakarta moda raya padu lintas rel pa...  positif
1  layan transjakarta ganggu imbas demo daftar ru...  positif
2  truk mogok jalan gatsu arah cawang rute transj...  negatif
3  rano karno rute transjakarta ancolblok luncur ...  positif
4  bus listrik transjakarta celaka setiabudi rem ...  negatif
