## PREPROCESSING

In [1]:
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords

# --- Download NLTK stopwords jika belum ada ---
try:
    stopwords.words('indonesian')
    stopwords.words('english')
except LookupError:
    nltk.download('stopwords')

# --- 1. Memuat Data ---
df = pd.read_csv('scrapped_data_honkai_star_rail.csv')

# --- 2. Case Folding ---
df['content_cleaned'] = df['content'].str.lower()

# --- 3. Menghilangkan Noise ---
def remove_noise(text):
    text = re.sub(r'\\n', ' ', text)
    text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
    text = re.sub(r'\@\w+|\#', '', text)
    text = re.sub(r'[^a-z\s]', '', text)
    return text
df['content_cleaned'] = df['content_cleaned'].apply(remove_noise)

# --- 4. BARU: Menggabungkan 'nya' yang Terpisah ---
def rejoin_nya(text):
    # Menggunakan regex untuk menemukan pola "kata spasi nya"
    # \b memastikan kita hanya mencocokkan kata 'nya' yang berdiri sendiri
    return re.sub(r'(\w+)\s+nya\b', r'\1nya', text)
df['content_cleaned'] = df['content_cleaned'].apply(rejoin_nya)


# --- 5. Normalisasi Kata (Singkatan) ---
slang_dict = {
    'yg': 'yang', 'tpi': 'tapi', 'bg': 'bang', 'sy': 'saya', 'ga': 'tidak', 'gak': 'tidak',
    'gk': 'tidak', 'gaada': 'tidak ada', 'dpt': 'dapat', 'bgt': 'banget', 'bngt': 'banget',
    'lg': 'lagi', 'gw': 'saya', 'gue': 'saya', 'lu': 'kamu', 'udh': 'sudah', 'udah': 'sudah',
    'kalo': 'kalau', 'aja': 'saja', 'kyk': 'seperti', 'jg': 'juga', 'blm': 'belum',
    'gmn': 'bagaimana', 'knp': 'kenapa', 'trs': 'terus', 'sm': 'sama', 'cmn': 'cuma','blum': 'belum', 
    'nyah': 'nya', 'lagih': 'lagi', 'dapet': 'dapat', 'gem': 'game'
}
def normalize_slang(text):
    words = text.split()
    normalized_words = [slang_dict[word] if word in slang_dict else word for word in words]
    return ' '.join(normalized_words)
df['content_cleaned'] = df['content_cleaned'].apply(normalize_slang)

# --- 6. Stopword Removal (Gabungan & Penanganan 'nya' yang sudah digabung) ---
stop_words_id = set(stopwords.words('indonesian'))
stop_words_en = set(stopwords.words('english'))
combined_stopwords = stop_words_id.union(stop_words_en)

def enhanced_stopword_removal(text):
    words = text.split()
    cleaned_words = [word[:-3] if word.endswith('nya') else word for word in words]
    filtered_words = [word for word in cleaned_words if word not in combined_stopwords]
    return ' '.join(filtered_words)
df['content_cleaned'] = df['content_cleaned'].apply(enhanced_stopword_removal)

# --- 7. Filtrasi Kalimat Tidak Bermakna ---
df_filtered = df[df['content_cleaned'].apply(lambda x: len(x.split()) > 3)]

# Tampilkan perbandingan hasilnya
print("Contoh hasil pra-pemrosesan (setelah penanganan 'nya' terpisah):")
# Contoh manual untuk menunjukkan cara kerja rejoin_nya
contoh_teks = "game nya bagus tapi gacha nya ampas"
print(f"Teks Asli: {contoh_teks}")
print(f"Setelah Digabung: {rejoin_nya(contoh_teks)}")
print(f"Hasil Akhir Clean: {enhanced_stopword_removal(normalize_slang(rejoin_nya(contoh_teks)))}")

print("\n--- Hasil pada DataFrame ---")
print(df_filtered[['content', 'content_cleaned']].head())
print(f"\nJumlah data setelah difilter: {len(df_filtered)}")

# --- Data SIAP untuk BERTopic ---
docs = df_filtered['content_cleaned'].tolist()

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Asus\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


Contoh hasil pra-pemrosesan (setelah penanganan 'nya' terpisah):
Teks Asli: game nya bagus tapi gacha nya ampas
Setelah Digabung: gamenya bagus tapi gachanya ampas
Hasil Akhir Clean: game bagus gacha ampas

--- Hasil pada DataFrame ---
                                             content  \
0  udah warp 140 kali masih blum dapat B5 yg ada ...   
1  Bagus game hoyo versi turn base, banyak bansos...   
2      bagus, tapi semenjak update besar bngt GB nya   
3        global passive? HP inflation? pfft* hell no   
4  game nyah sudah saya hapus susah gacha nyah ap...   

                                     content_cleaned  
0  warp kali b baner clara warp sisa b mulu susah...  
1  bagus game hoyo versi turn base bansos kekuran...  
2                    bagus semenjak update banget gb  
3              global passive hp inflation pfft hell  
4  game  hapus susah gacha  free play nyari  ngum...  

Jumlah data setelah difilter: 14502


## INDOBERT DAN BERTOPIC

In [2]:
from bertopic import BERTopic
from sentence_transformers import SentenceTransformer

# --- 1. Siapkan Data untuk Model ---
# Mengambil daftar ulasan yang sudah bersih
docs = df_filtered['content_cleaned'].tolist()

# --- 2. Muat Model IndoBERT ---
# Kita menggunakan model pre-trained yang sudah dilatih untuk Bahasa Indonesia
embedding_model = SentenceTransformer('indobenchmark/indobert-base-p1')


# --- 3. Inisialisasi dan Latih Model BERTopic ---
# nr_topics="auto" akan secara otomatis menentukan jumlah topik yang optimal
topic_model = BERTopic(
    embedding_model=embedding_model,
    verbose=True,
    nr_topics="auto",
    min_topic_size=50 # Topik minimal harus memiliki 50 anggota/ulasan
)

# Latih model (ini mungkin akan memakan waktu)
topics, probs = topic_model.fit_transform(docs)

print(topic_model.get_topic_info())

ModuleNotFoundError: No module named 'bertopic'

## Evaluasi Topik

In [3]:
# Import library tambahan untuk evaluasi
from sklearn.feature_extraction.text import CountVectorizer
from gensim.models.coherencemodel import CoherenceModel
from gensim.corpora.dictionary import Dictionary
import numpy as np

# --- BAGIAN BARU: EVALUASI KOHERENSI TOPIK ---

# 1. Ekstraksi Topik dan Dokumen
# Dapatkan representasi topik dari BERTopic
topics_representation = topic_model.get_topics()

# Filter out outlier topic (Topic -1)
topics_to_eval = {k: v for k, v in topics_representation.items() if k != -1}
# Urutkan berdasarkan ID topik
sorted_topics = [topics_to_eval[key] for key in sorted(topics_to_eval.keys())]
# Ekstrak hanya kata-kata kunci dari setiap topik
topic_words = [[word for word, _ in topic] for topic in sorted_topics]


# 2. Tokenisasi Dokumen
# Proses ini penting karena CoherenceModel bekerja dengan token (kata-kata)
vectorizer = CountVectorizer()
vectorizer.fit(docs) # Pelajari vocabulary dari seluruh dokumen
tokenizer = vectorizer.build_tokenizer()
tokenized_docs = [tokenizer(doc) for doc in docs]


# 3. Buat Dictionary dan Corpus untuk Gensim
dictionary = Dictionary(tokenized_docs)
corpus = [dictionary.doc2bow(doc) for doc in tokenized_docs]


# 4. Hitung Skor Koherensi C_v
coherence_model = CoherenceModel(
    topics=topic_words,
    texts=tokenized_docs,
    corpus=corpus,
    dictionary=dictionary,
    coherence='c_v'
)

coherence_score = coherence_model.get_coherence()

print(f"\nSkor Koherensi Topik (C_v): {coherence_score}")


Skor Koherensi Topik (C_v): 0.5607861132342764


## Visualisasi

In [1]:

# a. Visualisasi Jarak Antar Topik
fig1 = topic_model.visualize_topics()
fig1.show()

# b. Visualisasi Kata Kunci per Topik
fig2 = topic_model.visualize_barchart(top_n_topics=10) # 10 topik teratas
fig2.show()

NameError: name 'topic_model' is not defined

## Parameter Tuning

In [6]:
# Import library tambahan yang dibutuhkan
from hdbscan import HDBSCAN
from umap import UMAP

# =============================================================================
# SOLUSI FINE-TUNING
# =============================================================================

# 1. Buat model HDBSCAN kustom dengan setelan yang lebih ketat
# Coba naikkan `min_samples`. Semakin tinggi nilainya, semakin banyak data yang akan dianggap outlier.
# Nilai `min_cluster_size` harus sama dengan `min_topic_size` yang ingin Anda uji.
hdbscan_model_tuned = HDBSCAN(
    min_cluster_size=15,  # Sesuaikan dengan min_topic_size yang ingin Anda uji
    min_samples=25,       # NAIKKAN NILAI INI. Coba dengan 15, 25, atau 35.
    metric='euclidean',
    cluster_selection_method='eom',
    prediction_data=True
)

# (Opsional) Anda juga bisa mengontrol UMAP jika perlu
umap_model = UMAP(n_neighbors=15, n_components=5, min_dist=0.0, metric='cosine')

# 2. Latih kembali BERTopic, tapi kali ini berikan model HDBSCAN kustom kita
# Model akan menggunakan setelan HDBSCAN kita, bukan setelan default-nya lagi.
topic_model_tuned = BERTopic(
    embedding_model='indobenchmark/indobert-base-p2', # Gunakan p2 untuk hasil yang lebih baik
    min_topic_size=15,                                # Sesuaikan dengan min_cluster_size di atas
    hdbscan_model=hdbscan_model_tuned,                # INI BAGIAN PENTINGNYA
    umap_model=umap_model,                            # Opsional
    verbose=True
)

# Latih model yang sudah di-tuning dengan data Anda ('docs')
topics, probs = topic_model_tuned.fit_transform(docs)

# 3. Lihat hasilnya
print("\n--- Hasil Setelah Fine-Tuning HDBSCAN ---")
print(topic_model_tuned.get_topic_info())

--- Memulai Parameter Tuning (dengan nilai lebih rendah) ---

Menguji dengan min_topic_size = 20...


No sentence-transformers model found with name indobenchmark/indobert-base-p1. Creating a new one with mean pooling.


Jumlah Topik Ditemukan: 2
Skor Koherensi (C_v): 0.6091
>>> Skor terbaik baru ditemukan!

Menguji dengan min_topic_size = 25...


No sentence-transformers model found with name indobenchmark/indobert-base-p1. Creating a new one with mean pooling.


Jumlah Topik Ditemukan: 4
Skor Koherensi (C_v): 0.5547

Menguji dengan min_topic_size = 30...


No sentence-transformers model found with name indobenchmark/indobert-base-p1. Creating a new one with mean pooling.


Jumlah Topik Ditemukan: 5
Skor Koherensi (C_v): 0.6006

Menguji dengan min_topic_size = 40...


No sentence-transformers model found with name indobenchmark/indobert-base-p1. Creating a new one with mean pooling.


Jumlah Topik Ditemukan: 4
Skor Koherensi (C_v): 0.5547

--- Tuning Selesai ---
Parameter terbaik: min_topic_size = 20
Skor Koherensi (C_v) tertinggi: 0.6091

Membuat visualisasi dari model terbaik...


ValueError: zero-size array to reduction operation maximum which has no identity

## Visualisasi setelah Fine Tuning Parameter

In [1]:
if best_model:
    print(f"\nParameter terbaik ditemukan: min_topic_size = {best_min_topic_size}")
    print(f"Skor Koherensi (C_v) tertinggi: {best_score:.4f}")
    
    print("\n>>> Menampilkan Tabel Informasi Topik dari Model Terbaik:")
    print(best_model.get_topic_info())
    
    print("\n>>> Membuat Visualisasi dari Model Terbaik...")
    # Visualisasi Jarak Antar Topik
    fig1 = best_model.visualize_topics()
    fig1.show()
    
    # Visualisasi Kata Kunci per Topik
    fig2 = best_model.visualize_barchart(top_n_topics=10)
    fig2.show()
else:
    print("\nTidak ada kombinasi parameter yang menghasilkan cukup topik.")
    print("Saran: Coba turunkan lagi nilai dalam 'min_topic_sizes_to_test' (misal: [10, 15, 20]).")


NameError: name 'best_model' is not defined