Dokumentasi Project STKI

1. Judul / Topik Project dan Identitas Lengkap
Judul: Analisis Sentimen Ulasan Kamera Berbasis Text Processing
Dibuat oleh: Dwi Hargy Sabdani, NIM: A11.2022.14415

2. Ringkasan dan Permasalahan Project + Tujuan yang Akan Dicapai
Ringkasan: Proyek ini bertujuan untuk menganalisis sentimen ulasan kamera dari berbagai tipe kamera (instan, mirrorless, dan pocket). Data ulasan akan diproses untuk mengidentifikasi kata kunci positif dan negatif yang memberikan wawasan terkait kelebihan dan kekurangan dari tiap jenis kamera.

Permasalahan:
Bagaimana cara melakukan preprocessing data teks ulasan?
Bagaimana menentukan sentimen dari ulasan (positif atau negatif)?
Bagaimana cara mengekstraksi kata kunci positif dan negatif dari ulasan?

Tujuan:
Membersihkan data ulasan untuk analisis lebih lanjut.
Menentukan sentimen ulasan menggunakan TextBlob.
Mengidentifikasi kata kunci dominan dalam ulasan positif dan negatif.

3. Penjelasan Dataset, EDA, dan Proses Features Dataset
Penjelasan Dataset: Dataset berisi ulasan tentang kamera, yang disimpan dalam format CSV dan dikelompokkan berdasarkan tipe kamera: kamera instan, kamera mirrorless, dan kamera pocket.
Kolom utama: review (berisi teks ulasan).

EDA (Exploratory Data Analysis):
Memeriksa distribusi data ulasan berdasarkan tipe kamera.
Mengidentifikasi adanya ulasan yang kosong atau duplikat.
Proses Features Dataset:
Menghapus angka, tanda baca, dan URL dari teks ulasan.
Mengonversi teks ulasan menjadi huruf kecil untuk normalisasi.
Menghapus stopwords (kata-kata umum yang tidak memiliki makna penting).
Melakukan stemming menggunakan pustaka Sastrawi untuk mendapatkan akar kata.

4. Proses Learning / Modeling
Proses Sentiment Analysis:
Menggunakan TextBlob untuk menghitung nilai polaritas setiap ulasan.
Ulasan dengan polaritas lebih besar dari 0 dianggap positif, sementara yang memiliki polaritas lebih kecil atau sama dengan 0 dianggap negatif.
Ekstraksi Kata Kunci: Menggunakan CountVectorizer untuk mengekstraksi kata kunci yang paling sering muncul dalam ulasan positif dan negatif.

5. Performa Model
Analisis Hasil:
Model TextBlob memberikan hasil yang cukup sederhana namun efektif dalam menentukan sentimen dari ulasan.
Ekstraksi kata kunci menunjukkan pola tertentu yang mengarah pada kelebihan dan kekurangan masing-masing tipe kamera.
6. Diskusi Hasil dan Kesimpulan
Diskusi Hasil:
Kamera Instan:
Kelebihan: Kata kunci positif seperti "good", "barang", "ok", dan "bagus" sering muncul pada ulasan positif.
Kekurangan: Kata kunci negatif yang sering muncul adalah "bagus", "barang", "suka", dan "cepat".

Kamera Mirrorless:
Kelebihan: Kata kunci positif termasuk "barang", "kirim", "original", dan "good".
Kekurangan: Kata kunci negatif seperti "barang", "sesuai", "cepat", dan "terima" dominan dalam ulasan negatif.

Kamera Pocket:
Kelebihan: Kata kunci positif yang paling sering muncul adalah "barang", "ok", "kamera", dan "harga".
Kekurangan: Kata kunci negatif utama termasuk "barang", "bagus", "sesuai", dan "kamera".

Kesimpulan:
Proses preprocessing data yang baik sangat berpengaruh pada kualitas analisis sentimen.
TextBlob dapat digunakan untuk analisis sentimen dasar, meskipun masih memiliki keterbatasan dalam memahami konteks bahasa Indonesia secara lebih mendalam.
Ekstraksi kata kunci membantu untuk memahami opini pengguna secara keseluruhan dan memberikan wawasan berharga tentang kelebihan dan kekurangan dari masing-masing tipe kamera.

7. Hasil Rangkumannya
Kamera Instan:
Kelebihan: "good", "barang", "ok", "bagus", "cepat", "cepet", "kasih", "original", "top", "sesuai".
Kekurangan: "bagus", "barang", "banget", "kamera", "suka", "cepat", "nya", "sesuai", "terima", "kurir".
Hasil rangkuman disimpan di: C:/Users/acer/Downloads/Tugas 3/Dataset/rangkuman_kamera instan.txt.

Kamera Mirrorless:
Kelebihan: "barang", "kirim", "original", "good", "seller", "thanks", "bonus", "lazada", "sesuai", "ok".
Kekurangan: "barang", "sesuai", "cepat", "terima", "bagus", "kirim", "deskripsi", "kamera", "mantap", "kasih".
Hasil rangkuman disimpan di: C:/Users/acer/Downloads/Tugas 3/Dataset/rangkuman_kamera mirrorless.txt.
Kamera Pocket:

Kelebihan: "barang", "ok", "kamera", "nya", "main", "bagus", "harga", "sesuai", "cepat", "lazada".
Kekurangan: "barang", "bagus", "sesuai", "kamera", "nya", "kirim", "lazada", "terima", "yg", "cepat".
Hasil rangkuman disimpan di: C:/Users/acer/Downloads/Tugas 3/Dataset/rangkuman_kamera pocket.txt.

In [None]:
import os
import pandas as pd
import re
import string
from nltk.corpus import stopwords
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from sklearn.feature_extraction.text import CountVectorizer
from textblob import TextBlob



In [None]:
# Fungsi untuk membaca semua CSV dalam direktori
def load_reviews_from_directory(directory):
    data_frames = []
    for root, dirs, files in os.walk(directory):
        for file_name in files:
            if file_name.endswith('.csv'):
                csv_path = os.path.join(root, file_name)
                df = pd.read_csv(csv_path)
                if not df.empty:
                    data_frames.append(df)
    if data_frames:
        return pd.concat(data_frames, ignore_index=True)
    else:
        raise ValueError("Tidak ada file CSV valid di direktori:", directory)

# Stopwords dan stemmer
stop_words = set(stopwords.words('indonesian'))
factory = StemmerFactory()
stemmer = factory.create_stemmer()



In [None]:
# Fungsi untuk preprocessing teks
def preprocess_text(text):
    text = re.sub(r"\d+", "", text)
    text = text.translate(str.maketrans("", "", string.punctuation))
    text = re.sub(r"[^a-zA-Z\s]", "", text)
    text = text.lower()
    text = re.sub(r"http\S+|www\S+|https\S+", "", text, flags=re.MULTILINE)
    words = text.split()
    words = list(dict.fromkeys(words))
    words = [word for word in words if word not in stop_words]
    words = [stemmer.stem(word) for word in words]
    return " ".join(words)



In [None]:
# Direktori dataset
directories = [
    'C:/Users/acer/Downloads/Tugas 3/Dataset/kamera instan',
    'C:/Users/acer/Downloads/Tugas 3/Dataset/kamera mirrorless',
    'C:/Users/acer/Downloads/Tugas 3/Dataset/kamera pocket'
]



In [None]:
# Proses setiap direktori untuk analisis
for directory in directories:
    # Memuat ulasan dari direktori
    df = load_reviews_from_directory(directory)

    # Preprocessing teks
    df['processed_text'] = df['review'].astype(str).apply(preprocess_text)

    # Analisis sentimen
    sentiment_scores = df['processed_text'].apply(lambda text: TextBlob(text).sentiment.polarity)
    df['sentiment'] = sentiment_scores.apply(lambda score: 'positif' if score > 0 else 'negatif')

    # Pisahkan ulasan positif dan negatif
    positive_reviews = df[df['sentiment'] == 'positif']['processed_text']
    negative_reviews = df[df['sentiment'] == 'negatif']['processed_text']

    # Ekstraksi kata kunci dari ulasan positif dan negatif
    vectorizer = CountVectorizer(max_features=10)

    # Kata kunci dari ulasan positif
    positive_keywords = vectorizer.fit_transform(positive_reviews).toarray().sum(axis=0)
    positive_keyword_freq = dict(zip(vectorizer.get_feature_names_out(), positive_keywords))
    positive_keyword_freq = sorted(positive_keyword_freq.items(), key=lambda x: x[1], reverse=True)

    # Kata kunci dari ulasan negatif
    negative_keywords = vectorizer.fit_transform(negative_reviews).toarray().sum(axis=0)
    negative_keyword_freq = dict(zip(vectorizer.get_feature_names_out(), negative_keywords))
    negative_keyword_freq = sorted(negative_keyword_freq.items(), key=lambda x: x[1], reverse=True)

    # Tampilkan rangkuman untuk tiap direktori
    print(f"\nKamera: {os.path.basename(directory)}")
    print("Kelebihan (Kata Kunci Positif):")
    for keyword, freq in positive_keyword_freq:
        print(f"- {keyword}: {freq} kali")

    print("\nKekurangan (Kata Kunci Negatif):")
    for keyword, freq in negative_keyword_freq:
        print(f"- {keyword}: {freq} kali")

    # Simpan hasil rangkuman ke file
    output_path = f'C:/Users/acer/Downloads/Tugas 3/Dataset/rangkuman_{os.path.basename(directory)}.txt'
    with open(output_path, 'w') as file:
        file.write(f"Kamera: {os.path.basename(directory)}\n")
        file.write("Kelebihan (Kata Kunci Positif):\n")
        for keyword, freq in positive_keyword_freq:
            file.write(f"- {keyword}: {freq} kali\n")

        file.write("\nKekurangan (Kata Kunci Negatif):\n")
        for keyword, freq in negative_keyword_freq:
            file.write(f"- {keyword}: {freq} kali\n")

    print("\nHasil rangkuman disimpan di:", output_path)



Kamera: kamera instan
Kelebihan (Kata Kunci Positif):
- good: 5 kali
- barang: 4 kali
- ok: 4 kali
- bagus: 3 kali
- cepat: 3 kali
- cepet: 3 kali
- kasih: 3 kali
- original: 3 kali
- top: 3 kali
- sesuai: 2 kali

Kekurangan (Kata Kunci Negatif):
- bagus: 33 kali
- barang: 24 kali
- banget: 16 kali
- kamera: 13 kali
- suka: 11 kali
- cepat: 10 kali
- nya: 9 kali
- sesuai: 7 kali
- terima: 7 kali
- kurir: 6 kali

Hasil rangkuman disimpan di: C:/Users/acer/Downloads/Tugas 3/Dataset/rangkuman_kamera instan.txt

Kamera: kamera mirrorless
Kelebihan (Kata Kunci Positif):
- barang: 12 kali
- kirim: 9 kali
- original: 7 kali
- good: 5 kali
- seller: 5 kali
- thanks: 5 kali
- bonus: 4 kali
- lazada: 4 kali
- sesuai: 4 kali
- ok: 3 kali

Kekurangan (Kata Kunci Negatif):
- barang: 22 kali
- sesuai: 16 kali
- cepat: 14 kali
- terima: 14 kali
- bagus: 13 kali
- kirim: 12 kali
- deskripsi: 8 kali
- kamera: 8 kali
- mantap: 8 kali
- kasih: 7 kali

Hasil rangkuman disimpan di: C:/Users/acer/Downloads