In [3]:
import pandas as pd
import json

df = pd.read_csv('dataset-berlabel.csv')

# Tentukan Aspek dengan Skor
def tentukan_aspek(text, aspek_kompensasi, aspek_kepuasan_kerja, aspek_aktualisasi, aspek_hubungan):
    # Hitung jumlah kata yang cocok dengan aspek
    kompensasi = sum(1 for word in text.split() if word in aspek_kompensasi)
    kepuasan = sum(1 for word in text.split() if word in aspek_kepuasan_kerja)
    aktualisasi = sum(1 for word in text.split() if word in aspek_aktualisasi)
    hubungan = sum(1 for word in text.split() if word in aspek_hubungan)

    # Tentukan label dan skor
    scores = {
        'Kompensasi': kompensasi,
        'Kepuasan Kerja': kepuasan,
        'Aktualisasi': aktualisasi,
        'Hubungan': hubungan
    }

    # Pilih aspek dengan skor terbanyak
    label_aspek = max(scores, key=scores.get)
    # skor_aspek = scores[label_aspek]

    return label_aspek

# Load lexicon for each aspect
def load_lexicon(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        return set(json.load(file))

# Load leksikon dari file
aspek_kompensasi = load_lexicon('leksikon/aspek-kompensasi.json')
aspek_kepuasan = load_lexicon('leksikon/aspek-kepuasan-kerja.json')
aspek_aktualisasi = load_lexicon('leksikon/aspek-aktualisasi.json')
aspek_hubungan = load_lexicon('leksikon/aspek-hubungan-kerja.json')


# Misalkan df adalah DataFrame yang sudah ada dan memiliki kolom 'teks'
# Terapkan fungsi tentukan_aspek pada kolom 'teks' dan simpan hasilnya pada kolom baru
df[['label-aspek']] = df['teks'].apply(
    lambda x: pd.Series(tentukan_aspek(x, aspek_kompensasi, aspek_kepuasan, aspek_aktualisasi, aspek_hubungan))
)

# Menambahkan kolom 'skor-label-aspek' berdasarkan kondisi tertentu
def assign_skor_label_aspek(label_aspek):
    if 'Kompensasi' in label_aspek:
        return 0
    elif 'Kepuasan Kerja' in label_aspek:
        return 1
    elif 'Aktualisasi' in label_aspek:
        return 2
    elif 'Hubungan' in label_aspek:
        return 3
    else:
        return 4  # Nilai default jika tidak ada yang cocok

# Terapkan fungsi ke kolom 'label-aspek' untuk membuat kolom 'skor-label-aspek'
df['skor-label-aspek'] = df['label-aspek'].apply(assign_skor_label_aspek)

# Menampilkan hasil
print(df[['teks', 'label-aspek','skor-label-aspek']].head())

df.to_csv('dataset-berlabel-aspek.csv', index=False)
df.to_csv('dataset-berlabel-aspek.txt', index=False)

                                                teks label-aspek  \
0  pandemik bayar gaji selesa kerja relaks fikir ...  Kompensasi   
1                                         gaji cepat  Kompensasi   
2  pilih salah harga level tutup bawa gerbong rom...  Kompensasi   
3  bangun pagi semangat pergi kerja tepu kerja ru...  Kompensasi   
4  alas jahat banget arah kerja visi jahat bungku...  Kompensasi   

   skor-label-aspek  
0                 0  
1                 0  
2                 0  
3                 0  
4                 0  
