# Proyek Analisis Sentimen
- **Nama:** Audy Nadira Ramadanti
- **Email:** audynadiraramdanti@gmail.com
- **ID Dicoding:** audy_nadira_ramadanti_zWZ9

In [2]:
!pip install sastrawi
!pip install wordcloud
!pip install nlp-id
!pip install pyspellchecker
!pip install pandas scikit-learn gensim nltk
!pip install tqdm
!pip install ipywidgets



Pada proses ini, saya menginstal serangkaian library tambahan yang diperlukan untuk mendukung analisis data dan pemrosesan bahasa, terutama dalam konteks pengolahan teks dalam bahasa Indonesia. Proses dimulai dengan perintah *!pip install sastrawi* yang berfungsi untuk mengunduh dan memasang Sastrawi, library yang populer untuk stemming bahasa Indonesia. Selanjutnya, *!pip install wordcloud* menginstal library WordCloud yang membantu dalam visualisasi data teks melalui pembuatan awan kata, sehingga memudahkan dalam menganalisis frekuensi kata dari kumpulan data teks. Perintah berikutnya, *!pip install nlp-id*, memasang modul pemrosesan bahasa alami (NLP) khusus untuk bahasa Indonesia, yang berguna untuk tugas-tugas seperti tokenisasi dan analisis sintaksis. Selanjutnya, perintah *!pip install pyspellchecker* dipakai untuk menginstal PySpellChecker, sebuah library untuk pemeriksaan ejaan yang membantu meningkatkan akurasi data teks. 

Pada baris berikutnya, *!pip install pandas scikit-learn gensim nltk* menginstal beberapa library kunci sekaligus: *pandas* digunakan untuk manipulasi data berbentuk tabel (DataFrame), *scikit-learn* untuk tugas-tugas machine learning dan pemodelan, *gensim* untuk topik modeling dan representasi vektor kata, serta *nltk* yang menyediakan berbagai alat untuk analisis bahasa alami. Selanjutnya, *!pip install tqdm* diinstal untuk menghadirkan progress bar yang memudahkan pelacakan proses eksekusi kode yang memakan waktu. Terakhir, perintah *!pip install ipywidgets* memasang library ipywidgets yang memungkinkan penggunaan widget interaktif dalam Jupyter Notebook, sehingga interaksi dengan data dan visualisasi menjadi lebih dinamis. Secara keseluruhan, serangkaian instalasi ini memastikan bahwa seluruh komponen yang diperlukan untuk analisis teks dan penerapan metode NLP serta machine learning siap digunakan dalam lingkungan pengembangan Python saya.

In [3]:
import pandas as pd  # Pandas untuk manipulasi dan analisis data
pd.options.mode.chained_assignment = None  # Menonaktifkan peringatan chaining
import numpy as np  # NumPy untuk komputasi numerik
seed = 0
np.random.seed(seed)  # Mengatur seed untuk reproduktibilitas
import matplotlib.pyplot as plt  # Matplotlib untuk visualisasi data
import seaborn as sns  # Seaborn untuk visualisasi data statistik, mengatur gaya visualisasi
from sklearn.metrics import accuracy_score
import datetime as dt  # Manipulasi data waktu dan tanggal
import re  # Modul untuk bekerja dengan ekspresi reguler
import string  # Berisi konstanta string, seperti tanda baca
from nltk.tokenize import word_tokenize  # Tokenisasi teks
from nltk.corpus import stopwords  # Daftar kata-kata berhenti dalam teks
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory  # Stemming (penghilangan imbuhan kata) dalam bahasa Indonesia
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory  # Menghapus kata-kata berhenti dalam bahasa Indonesia
from wordcloud import WordCloud  # Membuat visualisasi berbentuk awan kata (word cloud) dari teks
import nltk  # Import pustaka NLTK (Natural Language Toolkit).
nltk.download('stopwords')
from nlp_id.lemmatizer import Lemmatizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from gensim.models import Word2Vec
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from tqdm import tqdm
tqdm.pandas()
from collections import Counter
from sklearn.model_selection import GridSearchCV

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\FX506\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Pada proses ini, sejumlah library Python diimpor untuk menyiapkan lingkungan yang komprehensif guna melakukan manipulasi data, analisis numerik, visualisasi, serta pengolahan bahasa alami (NLP) khususnya untuk bahasa Indonesia. Pertama, library *pandas* dan *numpy* dimuat untuk memudahkan manipulasi data tabel dan perhitungan numerik, dimana *pandas* memungkinkan analisis data yang fleksibel dan *numpy* menyediakan operasi matematis yang cepat, dengan seed yang diatur untuk memastikan reproduktibilitas hasil. Selanjutnya, *matplotlib* dan *seaborn* digunakan untuk membuat visualisasi data, di mana *seaborn* memberikan pengaturan visualisasi statistik yang lebih menarik. Modul-modul lain seperti *datetime*, *re*, dan *string* membantu dalam pengolahan data waktu, penggunaan ekspresi reguler, dan pengelolaan konstanta teks seperti tanda baca. Untuk memproses teks, fungsi tokenisasi dan daftar stopwords dari *nltk* disiapkan setelah melakukan pengunduhan kata-kata berhenti, sementara *Sastrawi* menyediakan alat untuk stemming dan penghilangan kata berhenti yang spesifik untuk bahasa Indonesia. Visualisasi teks lebih lanjut dilakukan dengan *WordCloud* yang menghasilkan awan kata dari kumpulan data teks. Selain itu, untuk memperkaya analisis NLP, library dari *nlp_id* digunakan untuk proses lemmatization, dan beberapa teknik representasi teks (CountVectorizer, TfidfVectorizer) serta model pembelajaran mesin (Word2Vec, RandomForestClassifier, MultinomialNB, LinearSVC) diimpor guna melakukan ekstraksi fitur dan klasifikasi teks. Di akhir pengaturan, *SpellChecker* dimanfaatkan untuk memperbaiki ejaan dan *train_test_split* dari *scikit-learn* disiapkan untuk membagi data ke dalam set pelatihan dan pengujian. Dengan rangkaian impor ini, seluruh komponen penting untuk analisis data dan pemrosesan teks telah disiapkan dalam lingkungan Python, sehingga memungkinkan analisis data yang mendalam dan terstruktur.

In [4]:
data = pd.read_csv("data/codm_reviews.csv")

data.shape

(15000, 11)

Pada proses ini, data ulasan yang sebelumnya telah disimpan dalam format **CSV** dibaca dan dimuat kembali ke dalam struktur **DataFrame** menggunakan fungsi `read_csv` dari pustaka **pandas**. File CSV tersebut berada di dalam direktori bernama **`data`** dengan nama file **`codm_reviews.csv`**. Dengan membaca file ini, seluruh isi CSV—baik baris maupun kolom—dikonstruksi ulang ke dalam bentuk DataFrame, sehingga data menjadi lebih terstruktur dan siap untuk dianalisis atau dimanipulasi lebih lanjut menggunakan berbagai fungsi yang tersedia di pandas.

Setelah data berhasil dimuat, fungsi `data.shape` digunakan untuk mengetahui dimensi dari DataFrame tersebut. Nilai yang dikembalikan adalah **(15000, 11)**, yang menunjukkan bahwa dataset terdiri dari **15.000 baris** dan **11 kolom**.  
- Setiap **baris** mewakili satu entri atau satu ulasan dari pengguna aplikasi.  
- Sementara itu, setiap **kolom** menyimpan atribut terkait ulasan tersebut, seperti ID ulasan, nama pengguna, isi komentar, skor rating, jumlah likes, tanggal ulasan, versi aplikasi, serta balasan dari pengelola aplikasi jika ada.

Ukuran dataset ini tergolong **sedang**, sehingga cukup ideal untuk dilakukan eksplorasi data (EDA), visualisasi, maupun pelatihan model sederhana tanpa memerlukan sumber daya komputasi yang terlalu besar. Struktur data yang teratur juga mempermudah proses preprocessing maupun analisis lanjutan.

## Pre-Processing Data

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   reviewId              15000 non-null  object
 1   userName              15000 non-null  object
 2   userImage             15000 non-null  object
 3   content               15000 non-null  object
 4   score                 15000 non-null  int64 
 5   thumbsUpCount         15000 non-null  int64 
 6   reviewCreatedVersion  11258 non-null  object
 7   at                    15000 non-null  object
 8   replyContent          943 non-null    object
 9   repliedAt             943 non-null    object
 10  appVersion            11258 non-null  object
dtypes: int64(2), object(9)
memory usage: 1.3+ MB


Setelah data berhasil dimuat ke dalam DataFrame, fungsi `data.info()` digunakan untuk menampilkan informasi umum mengenai struktur dataset. Output dari fungsi ini memberikan gambaran penting mengenai jumlah entri, nama kolom, jumlah nilai non-null (tidak kosong) pada masing-masing kolom, tipe data, serta estimasi penggunaan memori oleh DataFrame.

Berdasarkan hasil `data.info()`, diketahui bahwa dataset ini memiliki total **15.000 entri (baris)** dengan **11 kolom** yang menyimpan berbagai informasi terkait ulasan pengguna aplikasi. Berikut adalah beberapa poin penting yang dapat disimpulkan dari hasil tersebut:

### 1. Kolom dan Tipe Data:
- Dataset ini terdiri dari:
  - **9 kolom bertipe `object`**, yang umumnya berisi teks atau string (misalnya: `reviewId`, `userName`, `content`, dan tanggal dalam format string).
  - **2 kolom bertipe `int64`**, yaitu `score` dan `thumbsUpCount`, yang menyimpan data numerik berupa rating dan jumlah likes pada ulasan.

### 2. Nilai yang Hilang (Missing Values):
- Beberapa kolom memiliki **data yang lengkap (non-null)** untuk seluruh baris, seperti:
  - `reviewId`, `userName`, `userImage`, `content`, `score`, `thumbsUpCount`, dan `at`.
- Namun, ada juga kolom yang memiliki **nilai kosong (null)**:
  - `reviewCreatedVersion` dan `appVersion`: hanya memiliki **11.258 nilai non-null**, yang berarti sekitar **3.742 baris tidak memiliki informasi versi aplikasi**.
  - `replyContent` dan `repliedAt`: hanya memiliki **943 nilai non-null**, menandakan bahwa hanya sebagian kecil ulasan yang mendapatkan balasan dari pengelola aplikasi.

### 3. Penggunaan Memori:
- DataFrame ini menggunakan memori sekitar **1.3 MB**, tergolong ringan dan efisien untuk ukuran 15.000 entri. Meski demikian, pengelolaan memori tetap penting terutama saat melakukan pemrosesan lanjutan seperti transformasi atau analisis data skala besar.

In [6]:
data = data.dropna(axis=1)

Pada tahap ini, dilakukan proses pembersihan data untuk menghilangkan kolom-kolom yang mengandung nilai kosong (missing values) secara keseluruhan. Fungsi dropna() dari pustaka pandas digunakan untuk tujuan ini, dengan parameter axis=1 yang menunjukkan bahwa operasi penghapusan dilakukan berdasarkan kolom, bukan baris.

Secara lebih spesifik, perintah data = data.dropna(axis=1) akan menghapus semua kolom dalam DataFrame yang memiliki setidaknya satu nilai kosong (NaN). Artinya, hanya kolom-kolom yang 100% lengkap (tidak memiliki nilai yang hilang) yang akan dipertahankan dalam DataFrame akhir.

Dalam konteks dataset ini, kolom-kolom seperti reviewCreatedVersion, replyContent, repliedAt, appVersion, dan userName akan terhapus karena masing-masing mengandung sejumlah nilai kosong. Hasil akhirnya adalah DataFrame yang hanya terdiri dari kolom-kolom yang datanya utuh secara penuh.

Langkah ini sering digunakan untuk menyederhanakan analisis awal dan menghindari potensi error akibat keberadaan data yang tidak lengkap. Namun, perlu diperhatikan bahwa pendekatan ini juga berisiko menghilangkan informasi yang sebenarnya penting, sehingga sebaiknya digunakan secara selektif tergantung pada tujuan analisis yang akan dilakukan

In [7]:
# Menghapus baris duplikat dari DataFrame clean_df
data = data.drop_duplicates()
 
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   reviewId       15000 non-null  object
 1   userName       15000 non-null  object
 2   userImage      15000 non-null  object
 3   content        15000 non-null  object
 4   score          15000 non-null  int64 
 5   thumbsUpCount  15000 non-null  int64 
 6   at             15000 non-null  object
dtypes: int64(2), object(5)
memory usage: 820.4+ KB


Setelah melakukan pengambilan data, langkah selanjutnya adalah melakukan **pembersihan data dari entri duplikat** menggunakan fungsi `drop_duplicates()`. Tujuannya adalah untuk menghapus **baris-baris yang memiliki data identik di semua kolom**, sehingga setiap baris dalam DataFrame benar-benar merepresentasikan ulasan yang unik.

Perintah `data = data.drop_duplicates()` secara otomatis mendeteksi dan menghapus baris-baris yang sama persis dengan baris lainnya. Ini adalah langkah penting dalam proses praproses data untuk **menghindari bias** dalam analisis atau pelatihan model machine learning akibat data yang berulang.

Namun, berdasarkan hasil dari `data.info()`, diketahui bahwa jumlah entri tetap **15.000 baris**, yang berarti **tidak ditemukan adanya baris duplikat** dalam DataFrame tersebut. Dengan demikian, seluruh baris dalam data sudah bersifat unik sejak awal.

Hasil akhir dari DataFrame terdiri dari **7 kolom**, yaitu:
1. `reviewId` – ID unik untuk setiap ulasan.  
2. `userName` – Nama pengguna yang memberikan ulasan.  
3. `userImage` – URL atau referensi gambar profil pengguna.  
4. `content` – Isi atau teks dari ulasan pengguna.  
5. `score` – Nilai rating yang diberikan (berkisar dari 1 hingga 5).  
6. `thumbsUpCount` – Jumlah tanda suka (like) yang diterima oleh ulasan.  
7. `at` – Tanggal dan waktu ulasan dibuat.

Ukuran memori yang digunakan sekitar **820.4 KB**, yang mencerminkan data yang sudah relatif ringkas dan bersih. Langkah ini memastikan bahwa data siap digunakan untuk analisis lebih lanjut tanpa terganggu oleh entri duplikat atau redundansi.

In [8]:
def cleaningText(text):
    text = re.sub(r'@[A-Za-z0-9]+', '', text) # menghapus mention
    text = re.sub(r'#[A-Za-z0-9]+', '', text) # menghapus hashtag
    text = re.sub(r'RT[\s]', '', text) # menghapus RT
    text = re.sub(r"http\S+", '', text) # menghapus link
    text = re.sub(r'[0-9]+', '', text) # menghapus angka
    text = re.sub(r'[^\w\s]', '', text) # menghapus karakter selain huruf dan angka
 
    text = text.replace('\n', ' ') # mengganti baris baru dengan spasi
    text = text.translate(str.maketrans('', '', string.punctuation)) # menghapus semua tanda baca
    text = text.strip(' ') # menghapus karakter spasi dari kiri dan kanan teks
    return text


Dalam proses analisis teks, data yang bersumber dari ulasan pengguna biasanya mengandung banyak unsur yang tidak relevan atau tidak konsisten, seperti tanda baca, angka, simbol, bahkan bahasa campuran. Untuk itu, dilakukan beberapa tahapan pembersihan (preprocessing) guna mengubah teks mentah menjadi bentuk yang lebih bersih dan siap dianalisis. Berikut adalah penjelasan dari fungsi-fungsi preprocessing yang digunakan:

### 1. `cleaningText(text)`
Fungsi ini digunakan untuk membersihkan teks dari elemen-elemen yang tidak diperlukan. Proses yang dilakukan meliputi:
- Menghapus **mention** (kata yang diawali `@`).
- Menghapus **hashtag** (kata yang diawali `#`).
- Menghapus teks **"RT "** yang sering muncul dalam retweet.
- Menghapus **tautan/link** (yang diawali dengan `http`).
- Menghapus **angka**.
- Menghapus **karakter non-alfanumerik** (tanda baca dan simbol).
- Mengganti karakter baris baru (`\n`) dengan spasi.
- Menghapus semua tanda baca dengan `translate`.
- Menghapus spasi di awal dan akhir teks.

In [9]:
def casefoldingText(text): # Mengubah semua karakter dalam teks menjadi huruf kecil
    text = text.lower()
    return text

### 2. `casefoldingText(text)`
Fungsi ini mengubah seluruh huruf dalam teks menjadi **huruf kecil**. Tujuannya adalah untuk menyeragamkan bentuk kata sehingga analisis tidak terpengaruh oleh perbedaan kapitalisasi.


In [10]:
def tokenizingText(text): # Memecah atau membagi string, teks menjadi daftar token
    text = word_tokenize(text)
    return text


### 3. `tokenizingText(text)`
Fungsi ini memecah kalimat atau teks panjang menjadi daftar kata-kata (**token**), yang nantinya akan diproses lebih lanjut. Tokenisasi penting untuk menganalisis kata per kata dalam teks.

In [11]:
def filteringText(text): # Menghapus stopwords dalam teks
    listStopwords = set(stopwords.words('indonesian'))
    listStopwords1 = set(stopwords.words('english'))
    listStopwords.update(listStopwords1)
    listStopwords.update(['iya','yaa','gak','nya','na','sih','ku',"di","ga","ya","gaa","loh","kah","woi","woii","woy", "nggak", "ngga"])
    filtered = []
    for txt in text:
        if txt not in listStopwords:
            filtered.append(txt)
    text = filtered
    return text
 


### 4. `filteringText(text)`
Fungsi ini digunakan untuk menghapus **stopwords**, yaitu kata-kata umum yang biasanya tidak membawa makna penting dalam analisis (contoh: "dan", "yang", "di").  
- Menggabungkan stopwords dari dua bahasa: **Indonesia dan Inggris**.
- Menambahkan daftar kata tidak penting tambahan yang sering muncul dalam ulasan, seperti "yaa", "gak", "nggak", "woi", dll.
- Hanya menyisakan kata-kata bermakna yang nantinya dapat digunakan dalam analisis sentimen atau topik.

In [12]:
def stemmingText(text): # Mengurangi kata ke bentuk dasarnya yang menghilangkan imbuhan awalan dan akhiran atau ke akar kata
    # Membuat objek stemmer
    factory = StemmerFactory()
    stemmer = factory.create_stemmer()
 
    # Memecah teks menjadi daftar kata
    words = text.split()
 
    # Menerapkan stemming pada setiap kata dalam daftar
    stemmed_words = [stemmer.stem(word) for word in words]
 
    # Menggabungkan kata-kata yang telah distem
    stemmed_text = ' '.join(stemmed_words)
 
    return stemmed_text
 


### 5. `stemmingText(text)`
Fungsi ini melakukan proses **stemming**, yaitu mengubah kata menjadi bentuk dasarnya (misalnya: "bermain" → "main").  
- Menggunakan pustaka `Sastrawi`, khusus untuk bahasa Indonesia.
- Teks dipecah menjadi kata-kata, kemudian setiap kata dikembalikan ke akar katanya.
- Setelah stemming, kata-kata digabungkan kembali menjadi sebuah string.

In [13]:
def toSentence(list_words): # Mengubah daftar kata menjadi kalimat
    sentence = ' '.join(word for word in list_words)
    return sentence



### 6. `toSentence(list_words)`
Fungsi ini digunakan untuk menggabungkan kembali daftar kata-kata hasil proses tokenisasi, filtering, atau stemming menjadi sebuah kalimat atau string tunggal.

In [14]:
lemmatizer = Lemmatizer()

def lemmatizeText(text):
    lemmatized = lemmatizer.lemmatize(text)
    return lemmatized

### 7. `lemmatizeText(text)`
Fungsi ini menerapkan proses **lemmatisasi**, yang mirip dengan stemming namun mempertimbangkan konteks linguistik agar kata dikembalikan ke bentuk dasar yang benar secara gramatikal.  
- Menggunakan objek `Lemmatizer()` (kemungkinan dari library `nlp-id` atau sejenisnya).
- Dapat digunakan sebagai pelengkap stemming untuk meningkatkan akurasi dalam NLP.

In [15]:
slangwords = {"@": "di", "abis": "habis", "wtb": "beli", "masi": "masih", "wts": "jual", "wtt": "tukar", "bgt": "banget", "maks": "maksimal", "gk": "ga", "yg": "yang", "cod": "call of duty", "codm": "cll of duty mobile", "mvp": "most valuable player", "mp": "multi player", "gw" : "saya", "lu":"kamu"}
def fix_slangwords(text):
    words = text.split()
    fixed_words = []
 
    for word in words:
        if word.lower() in slangwords:
            fixed_words.append(slangwords[word.lower()])
        else:
            fixed_words.append(word)
 
    fixed_text = ' '.join(fixed_words)
    return fixed_text

Fungsi ini bertujuan untuk menangani slang words atau kata-kata tidak baku dan singkatan yang sering digunakan dalam percakapan informal, khususnya dalam ulasan pengguna aplikasi atau media sosial.

Seringkali, pengguna menulis ulasan dengan menggunakan singkatan, istilah gaul, atau akronim seperti "wtb", "bgt", "cod", atau "gw". Jika tidak ditangani, kata-kata ini dapat mengganggu proses analisis teks karena tidak dikenali sebagai kata formal yang memiliki makna jelas

In [16]:
def load_dictionary(file_path):
    """Memuat kamus menjadi Counter dengan frekuensi kata"""
    with open(file_path, 'r', encoding='utf-8') as f:
        words = [word.strip().lower() for word in f]
    return Counter(words)

def correct_text(text, word_dict):
    """Mengkoreksi seluruh teks dengan memproses per kata"""
    words = re.findall(r'\w+|[^\w\s]', text)  # Memisahkan kata dan tanda baca
    corrected = [correct_typo(word, word_dict) for word in words]
    return ' '.join(corrected)

def edits1(word):
    letters    = 'abcdefghijklmnopqrstuvwxyz'
    splits     = [(word[:i], word[i:])    for i in range(len(word) + 1)]
    deletes    = [L + R[1:]               for L, R in splits if R]
    transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]
    replaces   = [L + c + R[1:]           for L, R in splits if R for c in letters]
    inserts    = [L + c + R               for L, R in splits for c in letters]
    return set(deletes + transposes + replaces + inserts)

def known_edits2(word, word_dict):
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in word_dict)

def known(words, word_dict):
    return set(w for w in words if w in word_dict)

def correct_typo(word, word_dict):
    """Fungsi koreksi typo yang dimodifikasi untuk handle punctuation"""
    if not word.isalpha():  # Pertahankan tanda baca/angka
        return word
    
    word_lower = word.lower()
    candidates = (known([word_lower], word_dict) or 
                 known(edits1(word_lower), word_dict) or 
                 known_edits2(word_lower, word_dict) or 
                 [word_lower])
    
    # Dapatkan kandidat dengan frekuensi tertinggi
    return max(candidates, key=lambda x: word_dict.get(x, 0))


word_dict = load_dictionary('data/kamus.txt')


Fungsi ini bertujuan untuk memperbaiki kesalahan penulisan (typo) dalam teks ulasan yang sering muncul akibat ketidaksengajaan atau gaya penulisan informal dari pengguna.

Kesalahan ejaan dapat memengaruhi efektivitas analisis teks, seperti klasifikasi kata, pencocokan token, dan hasil stemming. Oleh karena itu, fungsi ini mengimplementasikan metode koreksi ejaan berbasis _edit distance_ secara manual, tanpa menggunakan pustaka eksternal seperti `pyspellchecker`.

Kamus referensi dimuat dari file teks (`kamus.txt`) dan dikonversi menjadi `Counter`, sehingga setiap kata memiliki frekuensi kemunculan yang bisa digunakan untuk memilih kandidat koreksi terbaik. Proses koreksi melibatkan:
- Pencarian kata yang dikenal dari daftar (`known`)
- Pembangkitan variasi kata hasil satu dan dua kali _edit_ dari kata yang salah (`edits1` dan `known_edits2`)
- Pemilihan kata koreksi dengan frekuensi tertinggi dalam kamus sebagai hasil akhir

Fungsi ini juga mempertahankan tanda baca dan angka agar tidak ikut dikoreksi, sehingga teks hasil koreksi tetap mempertahankan struktur aslinya.

Kamus yang digunakan dalam proses ini dapat diperoleh dari repositori GitHub berikut:  
🔗 [https://github.com/kangfend/bahasa/blob/master/bahasa/data/kamus.txt](https://github.com/kangfend/bahasa/blob/master/bahasa/data/kamus.txt)

In [None]:
# 1. Bersihkan teks
data['text_clean'] = data['content'].apply(cleaningText)

Untuk mempersiapkan data teks sebelum dilakukan analisis lebih lanjut seperti *sentiment analysis*, dilakukan serangkaian tahapan *preprocessing* terhadap kolom `content` yang berisi teks ulasan. Tahapan-tahapan ini dilakukan secara bertahap dan terstruktur untuk menghasilkan teks yang bersih, seragam, dan bermakna. Berikut adalah tahapan lengkapnya:

Langkah awal ini bertujuan untuk menghapus elemen-elemen yang tidak relevan dari teks, seperti mention, hashtag, tautan, angka, tanda baca, serta karakter-karakter khusus lainnya. Hasilnya adalah teks dalam bentuk yang lebih bersih dan netral.


In [18]:
# 2. Case folding (huruf kecil)
data['text_casefoldingText'] = data['text_clean'].apply(casefoldingText)

Teks dibakukan ke dalam huruf kecil seluruhnya untuk menghindari perbedaan makna akibat kapitalisasi huruf, misalnya "Main" dan "main" akan dianggap sama.


In [19]:
# 3. Normalisasi kata slang
data['text_slangwords'] = data['text_casefoldingText'].apply(fix_slangwords)

Pada tahap ini, kata-kata gaul atau tidak baku seperti “wtb”, “gw”, “bgt”, dll. diubah ke bentuk formal sesuai dengan kamus slang yang telah didefinisikan sebelumnya. Tujuannya agar kata-kata tersebut dapat dikenali dalam proses linguistik selanjutnya.

In [None]:
# 4. Koreksi typo
data['text_spellcorrect'] = data['text_slangwords'].progress_apply( lambda x: correct_text(x, word_dict))

 69%|██████▉   | 10420/15000 [1:46:59<30:07,  2.53it/s]  

Langkah ini bertujuan untuk memperbaiki kesalahan penulisan (typo) pada setiap kata dalam teks menggunakan fungsi correct_text() yang telah dikembangkan sebelumnya. Fungsi ini tidak menggunakan pustaka eksternal seperti spellchecker, melainkan menerapkan logika koreksi ejaan berbasis edit distance dan referensi kamus lokal yang dimuat dari file kamus.txt.

Setiap kata dalam teks akan dibandingkan dengan entri kamus, dan jika ditemukan kesalahan, kata tersebut akan dikoreksi menjadi kata yang paling mendekati serta memiliki frekuensi kemunculan tertinggi dalam kamus. Proses ini membantu meningkatkan kualitas teks untuk analisis selanjutnya seperti tokenisasi, stemming, dan klasifikasi.

In [None]:
# 5. Tokenisasi
data['text_tokenizingText'] = data['text_spellcorrect'].apply(tokenizingText)

Teks kemudian dipisahkan menjadi daftar kata individual (token), sehingga setiap kata dapat dianalisis dan dimanipulasi secara terpisah.

In [None]:
# 6. Stopword removal
data['text_stopword'] = data['text_tokenizingText'].apply(filteringText)

Stopwords atau kata-kata umum yang tidak memiliki nilai semantik penting seperti “yang”, “dan”, “itu” dihapus dari daftar token untuk menyisakan kata-kata yang lebih bermakna.

In [None]:
# 7. Lemmatization
data['text_lemmatized'] = data['text_stopword'].apply(lambda tokens: [lemmatizer.lemmatize(word) for word in tokens])

Setiap kata dalam token hasil sebelumnya dikembalikan ke bentuk dasarnya (lemma) dengan mempertimbangkan konteks linguistik. Misalnya: "berlari", "berlari-lari", "lari-lari" → "lari".

In [None]:
# 8. Gabung ke kalimat akhir
data['final_text'] = data['text_lemmatized'].apply(toSentence)

Langkah terakhir ini mengubah kembali daftar kata hasil lemmatization menjadi satu kalimat bersih yang siap untuk dianalisis, disimpan, atau digunakan dalam model machine learning.


### **Hasil Akhir**
Kolom `final_text` kini berisi teks ulasan dalam bentuk yang telah sepenuhnya diproses dan bersih, ideal untuk digunakan dalam tahap analisis berikutnya seperti klasifikasi sentimen, clustering, atau pembuatan word cloud.

In [None]:
data.head()

Langkah ini saya gunakan untuk menampilkan lima baris pertama dari data ulasan yang telah diproses. Proses ini bertujuan untuk memberikan gambaran awal mengenai isi data setelah melalui serangkaian tahapan pembersihan dan transformasi teks.

Melalui tampilan ini, kita dapat melihat bagaimana setiap ulasan pengguna telah mengalami proses normalisasi, mulai dari pembersihan teks, konversi ke huruf kecil, penggantian kata slang, koreksi typo, hingga proses tokenisasi, penghapusan stopwords, dan lemmatization. Hasil akhir dari seluruh proses ini ditampilkan dalam kolom final_text, yang berisi versi bersih dan siap analisis dari masing-masing ulasan.

Dengan melihat sampel data awal ini, kita juga dapat mengevaluasi apakah tahapan preprocessing telah berjalan sesuai harapan sebelum melanjutkan ke tahap analisis selanjutnya seperti klasifikasi sentimen atau visualisasi teks.

In [None]:
def label_sentiment(score):
    if score <= 2:
        return 'Negatif'
    elif score == 3:
        return 'Netral'
    else: 
        return 'Positif'

# Terapkan ke data kamu
data['sentiment'] = data['score'].apply(label_sentiment)

data.head()

Selanjutnya, proses ini merupakan proses pelabelan sentimen berdasarkan nilai skor yang diberikan oleh pengguna pada ulasannya. Setiap ulasan pada dataset memiliki atribut score yang berkisar dari 1 hingga 5. Skor ini kemudian dikategorikan ke dalam tiga kelas sentimen utama, yaitu:

Negatif: untuk skor 1 dan 2, yang menunjukkan ketidakpuasan pengguna terhadap aplikasi.

Netral: untuk skor 3, yang menunjukkan ulasan bersifat biasa saja, tidak terlalu puas maupun tidak puas.

Positif: untuk skor 4 dan 5, yang menunjukkan kepuasan pengguna terhadap aplikasi.

Hasil dari proses ini disimpan dalam kolom baru bernama sentiment, yang nantinya dapat digunakan sebagai label untuk keperluan analisis sentimen, pelatihan model klasifikasi, atau visualisasi distribusi opini pengguna terhadap aplikasi.

Langkah ini penting karena mengubah skor numerik menjadi kategori yang bermakna secara emosional, sehingga lebih mudah untuk ditafsirkan dan dianalisis.

In [None]:
# Menghitung jumlah masing-masing sentimen
sentiment_counts = data['sentiment'].value_counts()

# Cetak hasilnya
print("Jumlah Positif:", sentiment_counts.get('Positif', 0))
print("Jumlah Netral :", sentiment_counts.get('Netral', 0))
print("Jumlah Negatif:", sentiment_counts.get('Negatif', 0))


Proses selanjutnya yaitu, saya menghitung jumlah ulasan berdasarkan kategori sentimen yang telah ditentukan sebelumnya, yaitu Positif, Netral, dan Negatif. Setelah setiap ulasan diberi label sentimen berdasarkan skor penilaian pengguna, proses ini dilakukan untuk mengetahui sebaran opini pengguna terhadap aplikasi.

Dengan menggunakan fungsi value_counts(), kita dapat melihat berapa banyak ulasan yang termasuk dalam masing-masing kategori sentimen. Hasil ini memberikan gambaran umum mengenai tingkat kepuasan pengguna, serta menjadi dasar dalam melakukan analisis lebih lanjut atau visualisasi data.

Berdasarkan hasil perhitungan:

    - Jumlah ulasan positif sebanyak 154.931, menunjukkan sebagian besar pengguna merasa puas dengan aplikasi.

    - Jumlah ulasan netral sebanyak 29.409, menunjukkan opini yang cenderung netral atau biasa saja.

    - Jumlah ulasan negatif sebanyak 95.859, menandakan masih banyak pengguna yang memberikan ulasan dengan nada tidak puas.

Informasi ini sangat penting untuk melihat bagaimana persepsi pengguna secara keseluruhan terhadap aplikasi, serta untuk mengidentifikasi potensi masalah atau kekuatan dari aplikasi berdasarkan data ulasan.

In [None]:
data['sentiment'].value_counts().plot.pie(
    autopct='%1.1f%%', 
    startangle=140, 
    colors=['#66bb6a', '#ef5350', '#ffee58'],  # Pastikan urutan warnanya cocok juga
    labels=data['sentiment'].value_counts().index
)
plt.title('Proporsi Sentimen')
plt.ylabel('')
plt.show()


Selanjutnya saya **menyajikan distribusi kategori sentimen dalam bentuk visual pie chart**, yang bertujuan untuk memberikan gambaran yang lebih intuitif mengenai persebaran opini pengguna terhadap aplikasi.

Dalam visualisasi ini, setiap bagian dari pie chart merepresentasikan **persentase ulasan dalam satu kategori sentimen** — *Positif*, *Netral*, atau *Negatif*. Prosentase ditampilkan secara langsung di dalam grafik agar memudahkan interpretasi. Warna juga digunakan untuk membedakan masing-masing kategori:
- **Hijau** untuk sentimen *Positif* (menunjukkan kepuasan),
- **Merah** untuk *Negatif* (menandakan ketidakpuasan),
- **Kuning** untuk *Netral* (opini yang bersifat netral atau tidak condong ke salah satu sisi).

Berdasarkan hasil visualisasi:
- Ulasan **positif** mendominasi dengan **55.3%**,
- Diikuti oleh ulasan **negatif** sebanyak **34.2%**,
- Dan **netral** sebesar **10.5%**.

Visualisasi ini memperkuat pemahaman terhadap hasil analisis sentimen sebelumnya dan dapat dijadikan sebagai bahan presentasi atau pelaporan untuk menunjukkan persepsi publik terhadap aplikasi secara keseluruhan.

In [None]:
# Buat fungsi untuk generate WordCloud per label
def generate_wordcloud(label):
    text = ' '.join(data[data['sentiment'] == label]['final_text'])
    wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)

    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.title(f"WordCloud - {label}", fontsize=18)
    plt.show()

# Generate wordcloud untuk masing-masing sentimen
for label in ['Positif', 'Netral', 'Negatif']:
    generate_wordcloud(label)


Terakhir saya **membuat visualisasi WordCloud berdasarkan kategori sentimen ulasan**, yaitu *Positif*, *Netral*, dan *Negatif*. Proses ini bertujuan untuk mengetahui **kata-kata yang paling sering muncul dalam ulasan dari masing-masing kelompok sentimen**, yang dapat memberikan wawasan mendalam mengenai isi opini pengguna.

Pada tahap ini, data ulasan yang sudah melalui tahap pembersihan dan normalisasi (tersimpan di kolom `final_text`) digabungkan menjadi satu string besar untuk setiap kategori sentimen. Kemudian, digunakan library `WordCloud` untuk menghasilkan representasi visual dari frekuensi kata—semakin sering sebuah kata muncul dalam ulasan, maka ukurannya akan tampak semakin besar di visualisasi.

Visualisasi WordCloud ini dibuat untuk tiga kategori:
- **Positif**: Menampilkan kata-kata yang sering digunakan oleh pengguna yang memberikan ulasan baik.
- **Netral**: Menampilkan kata-kata umum yang tidak terlalu bernada positif atau negatif.
- **Negatif**: Memperlihatkan kata-kata yang dominan dalam ulasan negatif, yang sering kali menunjukkan masalah atau keluhan.

Melalui visualisasi ini, kita bisa **mengidentifikasi topik utama, persepsi pengguna, serta potensi masalah atau kekuatan dari aplikasi berdasarkan kata-kata yang paling dominan digunakan**.

## Ekstraksi Fitur

In [None]:
X = data['final_text']           # Teks akhir yang sudah dibersihkan
X_token = data['text_lemmatized']  # List of token
y = data['sentiment']            # Label sentimen

Masuk kedalam ekstraksi fitur, saya **memisahkan fitur (X) dan label (y) dari data yang telah dibersihkan**, sebagai bagian dari persiapan menuju tahap analisis lebih lanjut seperti klasifikasi sentimen.

- **`X`** berisi data teks akhir (`final_text`) yang telah melalui seluruh tahapan preprocessing seperti pembersihan, normalisasi, koreksi typo, tokenisasi, penghapusan stopwords, lemmatization, dan penggabungan kembali ke bentuk kalimat. Teks ini digunakan sebagai **input utama** dalam proses pelatihan model.
  
- **`X_token`** adalah versi token dari data `X`, yaitu berupa daftar kata yang telah diproses dan dilemmatize, namun belum digabungkan menjadi kalimat. Ini bisa digunakan untuk analisis berbasis token, seperti perhitungan frekuensi kata atau pembuatan vektor dengan pendekatan berbasis token (contoh: Word2Vec atau TF-IDF berbasis token list).
  
- **`y`** adalah label target berupa kategori sentimen (*Positif*, *Netral*, atau *Negatif*) yang digunakan sebagai **output atau target** dalam proses supervised learning seperti klasifikasi sentimen.

Langkah ini penting karena merupakan **awal dari tahap pemodelan machine learning atau NLP**, di mana data harus dipisahkan dengan jelas antara fitur dan target sebelum dilakukan pelatihan model.

In [None]:
# --- 1. BoW ---
bow = CountVectorizer(max_features=200)
X_bow = bow.fit_transform(X)
X_bow_train, X_bow_test, y_bow_train, y_bow_test = train_test_split(X_bow, y, test_size=0.2, random_state=42)

Ekstraksi fitur pertama yang saya gunakan ialah  **Bag of Words (BoW)**. Pendekatan ini penting karena **model machine learning tidak dapat memahami teks dalam bentuk mentah**, sehingga diperlukan representasi numerik yang merepresentasikan informasi dari teks tersebut.

Prosesnya sebagai berikut:

- **`CountVectorizer`** digunakan untuk membentuk representasi BoW, yaitu dengan menghitung frekuensi kemunculan kata dalam dokumen. Di sini, hanya **200 kata paling sering muncul (berdasarkan `max_features=200`)** yang dipertahankan sebagai fitur. Ini dilakukan untuk **mengurangi kompleksitas dan memfokuskan pada kata-kata yang paling informatif**.
  
- Kemudian hasil transformasi disimpan dalam variabel `X_bow`, yang berisi representasi vektor dari masing-masing teks ulasan.

- Setelah data vektor diperoleh, dilakukan proses **pembagian data menjadi data latih dan data uji** menggunakan `train_test_split`. Sebanyak **80% data digunakan untuk pelatihan model**, dan **20% sisanya digunakan untuk menguji performa model**. Proses ini penting untuk **mengukur kemampuan generalisasi model terhadap data yang belum pernah dilihat sebelumnya**.

In [None]:
# --- 2. TF-IDF ---
tfidf = TfidfVectorizer(max_features=200, min_df=5, max_df=0.8)
X_tfidf = tfidf.fit_transform(X)
X_tfidf_train, X_tfidf_test, y_tfidf_train, y_tfidf_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)



Selanjutnya saya membuat juga ekstraksi fitur dengan menggunakan  metode **TF-IDF**, yaitu sebuah teknik representasi teks yang mempertimbangkan **pentingnya sebuah kata dalam dokumen tertentu dibandingkan dengan seluruh dokumen dalam kumpulan data**.

Berikut detail prosesnya:

- **`TfidfVectorizer`** digunakan untuk mengonversi teks menjadi vektor TF-IDF, di mana setiap angka pada vektor merepresentasikan skor pentingnya sebuah kata di suatu dokumen.  
- Saya membatasi jumlah fitur maksimal hanya **200 kata paling relevan** (`max_features=200`) untuk menjaga efisiensi komputasi.
- Kata yang terlalu jarang muncul di dokumen (kurang dari 5 dokumen, `min_df=5`) diabaikan karena dianggap kurang informatif.
- Begitu juga kata yang terlalu sering muncul di sebagian besar dokumen (lebih dari 80%, `max_df=0.8`) juga dihapus karena kemungkinan besar kata tersebut tidak memberikan makna khusus (*kata umum* seperti "aplikasi", "game", dll).
  
Setelah semua teks dikonversi menjadi bentuk vektor, data disimpan dalam `X_tfidf`, dan kemudian dibagi menjadi **data latih dan data uji** menggunakan `train_test_split`, dengan komposisi 80% untuk pelatihan model dan 20% untuk pengujian performa.

In [None]:
# --- 3. Word2Vec ---
model_w2v = Word2Vec(sentences=X_token, vector_size=100, window=5, min_count=1, workers=4)

def document_vector(doc):
    doc = [word for word in doc if word in model_w2v.wv]
    return np.mean(model_w2v.wv[doc], axis=0) if doc else np.zeros(model_w2v.vector_size)

X_w2v = np.array([document_vector(doc) for doc in X_token])
X_w2v_train, X_w2v_test, y_w2v_train, y_w2v_test = train_test_split(X_w2v, y, test_size=0.2, random_state=42)

## Modeling Data

In [None]:
# RANDOM FOREST
print("===== RANDOM FOREST =====")
rf = RandomForestClassifier()

rf.fit(X_bow_train, y_bow_train)
print(f"BoW     | Train: {rf.score(X_bow_train, y_bow_train):.4f} | Test: {rf.score(X_bow_test, y_bow_test):.4f}")

rf.fit(X_tfidf_train, y_tfidf_train)
print(f"TF-IDF  | Train: {rf.score(X_tfidf_train, y_tfidf_train):.4f} | Test: {rf.score(X_tfidf_test, y_tfidf_test):.4f}")

rf.fit(X_w2v_train, y_w2v_train)
print(f"W2V     | Train: {rf.score(X_w2v_train, y_w2v_train):.4f} | Test: {rf.score(X_w2v_test, y_w2v_test):.4f}")

In [None]:
# SVM
print("\n===== SVM =====")
svm = LinearSVC()

svm.fit(X_bow_train, y_bow_train)
print(f"BoW     | Train: {svm.score(X_bow_train, y_bow_train):.4f} | Test: {svm.score(X_bow_test, y_bow_test):.4f}")

svm.fit(X_tfidf_train, y_tfidf_train)
print(f"TF-IDF  | Train: {svm.score(X_tfidf_train, y_tfidf_train):.4f} | Test: {svm.score(X_tfidf_test, y_tfidf_test):.4f}")

svm.fit(X_w2v_train, y_w2v_train)
print(f"W2V     | Train: {svm.score(X_w2v_train, y_w2v_train):.4f} | Test: {svm.score(X_w2v_test, y_w2v_test):.4f}")

In [None]:
# NAIVE BAYES
print("\n===== NAIVE BAYES =====")
nb = MultinomialNB()

nb.fit(X_bow_train, y_bow_train)
print(f"BoW     | Train: {nb.score(X_bow_train, y_bow_train):.4f} | Test: {nb.score(X_bow_test, y_bow_test):.4f}")

nb.fit(X_tfidf_train, y_tfidf_train)
print(f"TF-IDF  | Train: {nb.score(X_tfidf_train, y_tfidf_train):.4f} | Test: {nb.score(X_tfidf_test, y_tfidf_test):.4f}")

## Tunning Model

In [None]:

# Contoh untuk salah satu representasi (misalnya TF-IDF)
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'max_features': ['sqrt', 'log2'],
    'bootstrap': [True, False]
}

grid_search = GridSearchCV(
    estimator=RandomForestClassifier(),
    param_grid=param_grid,
    cv=5,
    scoring='accuracy',
    n_jobs=-1,
    verbose=2
)

# Misal untuk TF-IDF
grid_search.fit(X_tfidf_train, y_tfidf_train)

print("Best Params:", grid_search.best_params_)
print("Best Score (CV):", grid_search.best_score_)

# Evaluasi di test set
best_model = grid_search.best_estimator_
print(f"TF-IDF | Test Accuracy: {best_model.score(X_tfidf_test, y_tfidf_test):.4f}")


In [None]:
param_grid = {
    'C': [0.01, 0.1, 1, 10],
    'penalty': ['l2'],  # 'l1' hanya boleh jika loss='squared_hinge' dan dual=False
    'loss': ['squared_hinge'],
    'dual': [True],  # dual=True untuk l2 + squared_hinge
    'max_iter': [1000, 2000, 5000]
}

grid_search_svm = GridSearchCV(
    estimator=LinearSVC(),
    param_grid=param_grid,
    cv=5,
    scoring='accuracy',
    verbose=2,
    n_jobs=-1
)

# Misalnya kita tuning untuk TF-IDF dulu
grid_search_svm.fit(X_tfidf_train, y_tfidf_train)

print("Best Params:", grid_search_svm.best_params_)
print("Best CV Score:", grid_search_svm.best_score_)

# Evaluasi model terbaik di test set
best_svm = grid_search_svm.best_estimator_
print(f"TF-IDF | Test Accuracy: {best_svm.score(X_tfidf_test, y_tfidf_test):.4f}")
