In [3]:
import pandas as pd
from collections import Counter
import ast

# Define the file path
file_path = r"C:\Users\ghiff\Documents\kuliah\Analisa_Sentimen_Gojek\percobaa15\new-data.csv"

# Read the CSV file into a pandas DataFrame
df = pd.read_csv(file_path)

# Initialize an empty list to store all stemmed tokens
all_stemmed_tokens = []

# Iterate through the 'stemmed_tokens' column
for index, row in df.iterrows():
    try:
        # Safely evaluate the string representation of the list
        tokens = ast.literal_eval(row['stemmed_tokens'])
        all_stemmed_tokens.extend(tokens)
    except (ValueError, SyntaxError) as e:
        print(f"Error processing stemmed_tokens in row {index}: {row['stemmed_tokens']}")
        print(f"Error details: {e}")
        # Handle the error appropriately, e.g., skip the row or log the error

# Count the occurrences of each token
token_counts = Counter(all_stemmed_tokens)

# Get the 100 most common tokens
top_100_tokens = token_counts.most_common(100)

# Print the top 100 tokens and their counts
print("Top 100 Most Frequent Stemmed Tokens:")
for token, count in top_100_tokens:
    print(f"{token}: {count}")

Top 100 Most Frequent Stemmed Tokens:
gojek: 33103
aplikasi: 24878
bantu: 22013
driver: 18635
bagus: 17796
mantap: 15392
baik: 13089
gopay: 12088
good: 10758
banget: 9171
promo: 7832
layan: 7832
tolong: 7729
mudah: 7686
udah: 7595
guna: 7094
bayar: 6516
pesan: 6470
gofood: 6307
cepat: 5665
makan: 5591
akun: 5531
masuk: 5406
order: 5364
mahal: 5281
susah: 5050
saldo: 4923
apk: 4663
baru: 4617
kecewa: 4428
voucher: 4302
biaya: 4270
update: 4263
drivernya: 4004
suka: 3921
jauh: 3600
kali: 3507
buka: 3414
harga: 3402
bintang: 3360
ramah: 3335
waktu: 3292
diskon: 3251
jelas: 3242
pas: 3224
udh: 3179
jalan: 3151
sen: 3128
beli: 2903
terimakasih: 2797
moga: 2759
tambah: 2732
ongkir: 2674
jam: 2578
transaksi: 2577
keren: 2541
mohon: 2537
nunggu: 2536
klo: 2492
kurang: 2453
cari: 2433
masalah: 2402
butuh: 2390
aman: 2380
nyaman: 2378
kirim: 2366
tepat: 2338
puas: 2338
blokir: 2282
gopaylater: 2242
naik: 2236
minta: 2235
muas: 2217
hp: 2207
uang: 2196
up: 2194
bikin: 2193
gocar: 2190
ribet: 2159

In [1]:
import csv

input_file_path = r'C:\Users\ghiff\Documents\kuliah\Analisa_Sentimen_Gojek\percobaa15\new-data.csv'
output_file_path = r'C:\Users\ghiff\Documents\kuliah\Analisa_Sentimen_Gojek\percobaa15\label-permaslahan.csv'

label_categories = [
    ("Permasalahan Aplikasi Lambat/Lagging", ["lambat"]),
    ("Permasalahan Aplikasi Error/Gangguan", ["error", "gangguan"]),
    ("Permasalahan Sering Keluar Sendiri (Force Close)", ["keluar"]),
    ("Permasalahan Tidak Bisa Login/Masuk Akun", ["masuk", "akun"]),
    ("Permasalahan Masalah Update Aplikasi", ["update", "baru"]),
    ("Permasalahan Tampilan Aplikasi Bermasalah", ["tampil"]),
    ("Permasalahan Notifikasi Tidak Muncul", ["notifikasi"]),
    ("Permasalahan Aplikasi Tidak Respon", ["respon"]),
    ("Permasalahan Fitur Aplikasi Tidak Berfungsi", ["guna", "fitur", "fungsi"]),
    ("Permasalahan Bug pada Aplikasi", ["bug"]),
    ("Permasalahan Kompatibilitas Aplikasi dengan HP", ["hp"]),
    ("Permasalahan Data Aplikasi Tidak Sinkron", ["sinkron"]),
    ("Permasalahan Pencarian Lokasi/Alamat Bermasalah", ["cari", "lokasi", "alamat"]),
    ("Permasalahan Peta (Maps) Tidak Akurat", ["peta"]),
    ("Permasalahan Akun Diblokir", ["blokir", "akun"]),
    ("Permasalahan Saldo Gopay Bermasalah", ["saldo", "gopay"]),
    ("Permasalahan Transaksi Gopay Gagal", ["transaksi", "gopay"]), 
    ("Permasalahan Potongan Saldo Tidak Sesuai", ["potong", "sesuai", "biaya"]),
    ("Permasalahan Masalah dengan GopayLater", ["gopaylater"]),
    ("Permasalahan Kesulitan Menarik/Mencairkan Dana", ["tarik", "cair", "uang"]),
    ("Permasalahan Riwayat Transaksi Tidak Akurat", ["riwayat", "transaksi"]),
    ("Permasalahan Verifikasi Akun Bermasalah", ["verifikasi"]),
    ("Permasalahan Keamanan Akun", ["aman"]),
    ("Permasalahan Kesulitan Order (Gojek/Gocar/Gofood)", ["order", "pesan"]),
    ("Permasalahan Driver Lama Menjemput", ["jemput", "nunggu", "waktu"]),
    ("Permasalahan Driver Tidak Sesuai Aplikasi", ["drivernya"]),
    ("Permasalahan Driver Membatalkan Pesanan", ["cancel", "batal"]),
    ("Permasalahan Estimasi Waktu Tidak Akurat", ["waktu"]),
    ("Permasalahan Tarif/Harga Terlalu Mahal", ["mahal", "harga", "ongkir", "biaya"]),
    ("Permasalahan Promo Tidak Bisa Digunakan", ["promo", "voucher", "diskon"]),
    ("Permasalahan Kualitas Layanan Driver Buruk", ["driver", "ramah", "sopan"]),
    ("Permasalahan Makanan/Barang Tidak Sesuai Pesanan", ["makan", "gofood"]),
    ("Permasalahan Order Fiktif", ["fiktif"]),
    ("Permasalahan Kesulitan Menghubungi Driver", ["hubung"]),
    ("Permasalahan Kendala Saat Proses Pengiriman (Gojek/Gosend)", ["kirim"]),
    ("Permasalahan Lokasi Penjemputan/Pengantaran Tidak Akurat", ["jemput", "antar", "lokasi"]),
    ("Permasalahan Kualitas Layanan Pelanggan (CS) Buruk", ["bantu", "tolong", "cs", "layan"]),
    ("Permasalahan Respon CS Lambat", ["respon", "lambat"]),
    ("Permasalahan Informasi Tidak Jelas", ["jelas"]),
    ("Permasalahan Kebijakan Aplikasi yang Merugikan", ["kebijakan"]),
    ("Permasalahan Perubahan Tarif yang Tidak Transparan", ["tarif"]),
    ("Permasalahan Kekecewaan Terhadap Layanan Gojek Secara Umum", ["kecewa", "parah"]),
    ("Permasalahan Sulit Mendapatkan Driver", ["driver"]),
    ("Permasalahan Persaingan Tidak Sehat Antar Driver", ["driver"]),
    ("Permasalahan Masalah dengan Fitur Tertentu (GoMart, GoSend)", ["gmart", "gosend"]),
    ("Permasalahan Feedback/Ulasan Tidak Ditanggapi", ["feedback", "ulas"]),
    ("Permasalahan Permintaan Fitur Baru", ["tambah", "fitur"]),
    ("Permasalahan Promosi yang Menyesatkan", ["promo"]),
    ("Permasalahan Kesulitan Menggunakan Aplikasi untuk Pengguna Baru", ["baru", "susah"]),
    ("Permasalahan Kritik Terhadap Kepemilikan/Manajemen Gojek", ["tokopedia"]),
    ("Permasalahan Pin Salah", ["pin", "salah"]),
    ("Permasalahan Uninstall Aplikasi", ["uninstal"]),
    ("Permasalahan Lainnya", []) # Label catch-all
]

def get_label(stemmed_tokens_list):
    for label, keywords in label_categories:
        for keyword in keywords:
            if keyword in stemmed_tokens_list:
                return label
    return "Permasalahan Lainnya"

# Baca data dari file CSV
data_with_labels = []
with open(input_file_path, 'r', encoding='utf-8') as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        stemmed_tokens = eval(row['stemmed_tokens']) # Convert string list to actual list
        label = get_label(stemmed_tokens)
        row['permasalahan'] = label
        data_with_labels.append(row)

# Tulis data yang sudah dilabeli ke file CSV baru
with open(output_file_path, 'w', newline='', encoding='utf-8') as csvfile:
    fieldnames = list(data_with_labels[0].keys())
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerows(data_with_labels)

print(f"File labeled successfully and saved to {output_file_path}")

File labeled successfully and saved to C:\Users\ghiff\Documents\kuliah\Analisa_Sentimen_Gojek\percobaa15\label-permaslahan.csv


In [2]:
import csv
from collections import Counter

file_path = r'C:\Users\ghiff\Documents\kuliah\Analisa_Sentimen_Gojek\percobaa15\label-permaslahan.csv'

def get_frequent_problems(file_path, top_n=10):
    """
    Menganalisis file CSV untuk menemukan masalah yang paling sering muncul.

    Args:
        file_path (str): Path ke file CSV yang berisi kolom 'permasalahan'.
        top_n (int): Jumlah masalah teratas yang ingin ditampilkan.

    Returns:
        list: Daftar tuple yang berisi masalah dan jumlah kemunculannya,
              diurutkan berdasarkan frekuensi tertinggi.
              Mengembalikan None jika file tidak ditemukan atau kolom tidak ada.
    """
    try:
        with open(file_path, 'r', encoding='utf-8') as csvfile:
            reader = csv.DictReader(csvfile)
            if 'permasalahan' not in reader.fieldnames:
                print(f"Error: Kolom 'permasalahan' tidak ditemukan di file {file_path}")
                return None

            problems = [row['permasalahan'] for row in reader]
            problem_counts = Counter(problems)
            most_frequent = problem_counts.most_common(top_n)
            return most_frequent

    except FileNotFoundError:
        print(f"Error: File tidak ditemukan di path: {file_path}")
        return None

# Mendapatkan masalah yang paling sering muncul (default: top 10)
frequent_problems = get_frequent_problems(file_path)

if frequent_problems:
    print("Masalah yang Paling Sering Muncul:")
    for masalah, jumlah in frequent_problems:
        print(f"- {masalah}: {jumlah}")

# Contoh mendapatkan top 20 masalah yang paling sering muncul
frequent_problems_20 = get_frequent_problems(file_path, top_n=20)

if frequent_problems_20:
    print("\nTop 20 Masalah yang Paling Sering Muncul:")
    for masalah, jumlah in frequent_problems_20:
        print(f"- {masalah}: {jumlah}")

Masalah yang Paling Sering Muncul:
- Permasalahan Lainnya: 123403
- Permasalahan Kualitas Layanan Pelanggan (CS) Buruk: 22104
- Permasalahan Tidak Bisa Login/Masuk Akun: 7963
- Permasalahan Promo Tidak Bisa Digunakan: 6771
- Permasalahan Kualitas Layanan Driver Buruk: 6555
- Permasalahan Saldo Gopay Bermasalah: 6230
- Permasalahan Masalah Update Aplikasi: 6099
- Permasalahan Fitur Aplikasi Tidak Berfungsi: 6013
- Permasalahan Kesulitan Order (Gojek/Gocar/Gofood): 5175
- Permasalahan Potongan Saldo Tidak Sesuai: 3976

Top 20 Masalah yang Paling Sering Muncul:
- Permasalahan Lainnya: 123403
- Permasalahan Kualitas Layanan Pelanggan (CS) Buruk: 22104
- Permasalahan Tidak Bisa Login/Masuk Akun: 7963
- Permasalahan Promo Tidak Bisa Digunakan: 6771
- Permasalahan Kualitas Layanan Driver Buruk: 6555
- Permasalahan Saldo Gopay Bermasalah: 6230
- Permasalahan Masalah Update Aplikasi: 6099
- Permasalahan Fitur Aplikasi Tidak Berfungsi: 6013
- Permasalahan Kesulitan Order (Gojek/Gocar/Gofood): 51

In [6]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sentence_transformers import SentenceTransformer
import os

# Path ke file CSV Anda
csv_path = r"C:\Users\ghiff\Documents\kuliah\Analisa_Sentimen_Gojek\percobaa15\label-permaslahan.csv"

# Path untuk menyimpan file fitur
output_path = r"C:\Users\ghiff\Documents\kuliah\Analisa_Sentimen_Gojek\percobaa15"

# Baca file CSV
df = pd.read_csv(csv_path)

# Pastikan kolom 'cleaned_content' ada
if 'cleaned_content' not in df.columns:
    raise ValueError("Kolom 'cleaned_content' tidak ditemukan dalam file CSV.")

# Ambil data teks dari kolom 'cleaned_content'
documents = df['cleaned_content'].astype(str).tolist()

# 1. Bag of Words (BoW)
bow_vectorizer = CountVectorizer()
bow_features = bow_vectorizer.fit_transform(documents)
bow_df = pd.DataFrame(bow_features.toarray(), columns=bow_vectorizer.get_feature_names_out())
bow_df = pd.concat([df, bow_df], axis=1)

# Simpan fitur BoW
bow_output_file = os.path.join(output_path, "bow_features.csv")
bow_df.to_csv(bow_output_file, index=False)
print(f"Fitur Bag of Words disimpan di: {bow_output_file}")

# 2. TF-IDF
tfidf_vectorizer = TfidfVectorizer()
tfidf_features = tfidf_vectorizer.fit_transform(documents)
tfidf_df = pd.DataFrame(tfidf_features.toarray(), columns=tfidf_vectorizer.get_feature_names_out())
tfidf_df = pd.concat([df, tfidf_df], axis=1)

# Simpan fitur TF-IDF
tfidf_output_file = os.path.join(output_path, "tfidf_features.csv")
tfidf_df.to_csv(tfidf_output_file, index=False)
print(f"Fitur TF-IDF disimpan di: {tfidf_output_file}")

# 3. Sentence Embeddings (Sentence-BERT)
# Pilih model Sentence-BERT yang sesuai (tersedia banyak pilihan)
model_name = 'all-mpnet-base-v2'  # Contoh model yang cukup baik
model = SentenceTransformer(model_name)

sentence_embeddings = model.encode(documents)
embedding_cols = [f'embedding_{i}' for i in range(sentence_embeddings.shape[1])]
sentence_embeddings_df = pd.DataFrame(sentence_embeddings, columns=embedding_cols)
sentence_embeddings_df = pd.concat([df, sentence_embeddings_df], axis=1)

# Simpan fitur Sentence Embeddings
sentence_embeddings_output_file = os.path.join(output_path, "sentence_embeddings_features.csv")
sentence_embeddings_df.to_csv(sentence_embeddings_output_file, index=False)
print(f"Fitur Sentence Embeddings disimpan di: {sentence_embeddings_output_file}")

print("Pembuatan fitur selesai dan disimpan.")

MemoryError: Unable to allocate 128. GiB for an array with shape (225001, 76282) and data type int64