# CBOW Berita

In [1]:
import sys
!{sys.executable} -m pip install gensim



In [2]:
!{sys.executable} -m pip install pandas



In [3]:
import pandas as pd
import numpy as np
import ast # Library untuk mengubah string menjadi list
from gensim.models import Word2Vec
import logging

# --- 1. Persiapan Corpus ---
print("--- TAHAP 1: MEMPERSIAPKAN CORPUS ---")
# Load kembali data Anda (atau lanjutkan dari DataFrame yang sudah ada)
df = pd.read_csv('hasil_preprocessing_berita.csv')

# --- Konversi kolom 'hasil_preprocessing' dari string ke list ---
# Ini adalah langkah penting!
# ast.literal_eval akan membaca string "['a', 'b']" dan mengubahnya menjadi list ['a', 'b']
df['tokens'] = df['hasil_preprocessing'].apply(ast.literal_eval)

# Buat corpus yang siap untuk dilatih
corpus = df['tokens'].tolist()


print("Proses persiapan corpus selesai.")
print("Berikut adalah contoh 1 dokumen (berita) yang sudah diubah menjadi daftar token:")
print(corpus[0])

--- TAHAP 1: MEMPERSIAPKAN CORPUS ---


Proses persiapan corpus selesai.
Berikut adalah contoh 1 dokumen (berita) yang sudah diubah menjadi daftar token:
['kejar', 'tanjung', 'perak', 'surabaya', 'geledah', 'kantor', 'pt', 'pelindo', 'regional', 'surabaya', 'duga', 'kait', 'korupsi', 'kolam', 'labuh', 'kepala', 'kejar', 'tanjung', 'perak', 'ricky', 'setiawan', 'anas', 'geledah', 'kamis', 'wib', 'tim', 'sidik', 'kejar', 'tanjung', 'perak', 'damping', 'tim', 'amc', 'asintel', 'kejat', 'jatim', 'dasar', 'tetap', 'pn', 'tipikor', 'surabaya', 'nomor', 'nomor', 'penpidsustpkgldpn', 'sby', 'tanggal', 'oktober', 'damping', 'tim', 'amc', 'asintel', 'kejat', 'jatim', 'geledah', 'kantor', 'pt', 'pelindo', 'sub', 'regional', 'surabaya', 'ricky', 'terang', 'kamis', 'geledah', 'kantor', 'pt', 'pelindo', 'sub', 'regional', 'surabaya', 'ricky', 'sidik', 'pidsus', 'kejar', 'tanjung', 'perak', 'geledah', 'lokasi', 'tepat', 'kantor', 'pt', 'alur', 'layar', 'barat', 'surabaya', 'apbs', 'dasar', 'tetap', 'geledah', 'pn', 'tipikor', 'surabaya', '

In [4]:
# --- 2. Melatih Model Word2Vec (dengan Proses Terlihat) ---

print("--- TAHAP 2: MELATIH MODEL WORD2VEC (CBOW) ---")

# Mengaktifkan logging untuk melihat proses training dari Gensim
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

embedding_dim = 150
print(f"Parameter: Dimensi vektor = {embedding_dim}, Arsitektur = CBOW")
print("Gensim akan menampilkan log proses training di bawah ini:")

model_cbow = Word2Vec(
    sentences=corpus,
    vector_size=embedding_dim,
    window=5,
    min_count=2,
    sg=0,
    workers=4
)

print("\nPelatihan model selesai!")
print("\n--- Melihat Hasil Pelatihan Model ---")
# Mengetahui ukuran kosakata yang berhasil dipelajari model
vocab_size = len(model_cbow.wv.index_to_key)
print(f"Model berhasil mempelajari {vocab_size} kata unik.")

# Melihat kata-kata yang paling mirip secara semantik dengan kata tertentu
# Ini membuktikan model sudah belajar konteks
try:
    print("\nContoh kata yang paling mirip dengan 'polisi':")
    print(model_cbow.wv.most_similar('polisi', topn=5))

    print("\nContoh kata yang paling mirip dengan 'surabaya':")
    print(model_cbow.wv.most_similar('surabaya', topn=5))
except KeyError as e:
    print(f"\nKata {e} tidak ditemukan di vocabulary (mungkin karena jarang muncul).")

print("\n" + "="*50 + "\n")

2025-10-15 00:01:43,975 : INFO : collecting all words and their counts


2025-10-15 00:01:43,976 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types


2025-10-15 00:01:44,090 : INFO : collected 41180 word types from a corpus of 763911 raw words and 3653 sentences


2025-10-15 00:01:44,091 : INFO : Creating a fresh vocabulary


--- TAHAP 2: MELATIH MODEL WORD2VEC (CBOW) ---
Parameter: Dimensi vektor = 150, Arsitektur = CBOW
Gensim akan menampilkan log proses training di bawah ini:


2025-10-15 00:01:44,162 : INFO : Word2Vec lifecycle event {'msg': 'effective_min_count=2 retains 21810 unique words (52.96% of original 41180, drops 19370)', 'datetime': '2025-10-15T00:01:44.162487', 'gensim': '4.3.3', 'python': '3.10.6 (tags/v3.10.6:9c7b4bd, Aug  1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.26100-SP0', 'event': 'prepare_vocab'}


2025-10-15 00:01:44,163 : INFO : Word2Vec lifecycle event {'msg': 'effective_min_count=2 leaves 744541 word corpus (97.46% of original 763911, drops 19370)', 'datetime': '2025-10-15T00:01:44.163487', 'gensim': '4.3.3', 'python': '3.10.6 (tags/v3.10.6:9c7b4bd, Aug  1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.26100-SP0', 'event': 'prepare_vocab'}


2025-10-15 00:01:44,244 : INFO : deleting the raw counts dictionary of 41180 items


2025-10-15 00:01:44,245 : INFO : sample=0.001 downsamples 16 most-common words


2025-10-15 00:01:44,246 : INFO : Word2Vec lifecycle event {'msg': 'downsampling leaves estimated 736320.3421055112 word corpus (98.9%% of prior 744541)', 'datetime': '2025-10-15T00:01:44.246697', 'gensim': '4.3.3', 'python': '3.10.6 (tags/v3.10.6:9c7b4bd, Aug  1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.26100-SP0', 'event': 'prepare_vocab'}


2025-10-15 00:01:44,361 : INFO : estimated required memory for 21810 words and 150 dimensions: 37077000 bytes


2025-10-15 00:01:44,362 : INFO : resetting layer weights


2025-10-15 00:01:44,373 : INFO : Word2Vec lifecycle event {'update': False, 'trim_rule': 'None', 'datetime': '2025-10-15T00:01:44.373651', 'gensim': '4.3.3', 'python': '3.10.6 (tags/v3.10.6:9c7b4bd, Aug  1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.26100-SP0', 'event': 'build_vocab'}


2025-10-15 00:01:44,374 : INFO : Word2Vec lifecycle event {'msg': 'training model with 4 workers on 21810 vocabulary and 150 features, using sg=0 hs=0 sample=0.001 negative=5 window=5 shrink_windows=True', 'datetime': '2025-10-15T00:01:44.374672', 'gensim': '4.3.3', 'python': '3.10.6 (tags/v3.10.6:9c7b4bd, Aug  1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.26100-SP0', 'event': 'train'}


2025-10-15 00:01:44,830 : INFO : EPOCH 0: training on 763911 raw words (736267 effective words) took 0.5s, 1624967 effective words/s


2025-10-15 00:01:45,247 : INFO : EPOCH 1: training on 763911 raw words (736383 effective words) took 0.4s, 1778798 effective words/s


2025-10-15 00:01:45,642 : INFO : EPOCH 2: training on 763911 raw words (736334 effective words) took 0.4s, 1877469 effective words/s


2025-10-15 00:01:46,031 : INFO : EPOCH 3: training on 763911 raw words (736222 effective words) took 0.4s, 1907065 effective words/s


2025-10-15 00:01:46,417 : INFO : EPOCH 4: training on 763911 raw words (736324 effective words) took 0.4s, 1915321 effective words/s


2025-10-15 00:01:46,418 : INFO : Word2Vec lifecycle event {'msg': 'training on 3819555 raw words (3681530 effective words) took 2.0s, 1801938 effective words/s', 'datetime': '2025-10-15T00:01:46.418514', 'gensim': '4.3.3', 'python': '3.10.6 (tags/v3.10.6:9c7b4bd, Aug  1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.26100-SP0', 'event': 'train'}


2025-10-15 00:01:46,419 : INFO : Word2Vec lifecycle event {'params': 'Word2Vec<vocab=21810, vector_size=150, alpha=0.025>', 'datetime': '2025-10-15T00:01:46.419540', 'gensim': '4.3.3', 'python': '3.10.6 (tags/v3.10.6:9c7b4bd, Aug  1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.26100-SP0', 'event': 'created'}



Pelatihan model selesai!

--- Melihat Hasil Pelatihan Model ---
Model berhasil mempelajari 21810 kata unik.

Contoh kata yang paling mirip dengan 'polisi':
[('lidi', 0.9040094017982483), ('polsek', 0.9031964540481567), ('kriminalitas', 0.8940128684043884), ('teror', 0.8730384111404419), ('massa', 0.8675649762153625)]

Contoh kata yang paling mirip dengan 'surabaya':
[('jabodetabek', 0.8062219619750977), ('lokatantra', 0.7965030074119568), ('darmo', 0.7894113063812256), ('bandung', 0.7862809896469116), ('armuji', 0.7820705771446228)]




In [5]:
# --- 3. Membedah Proses Agregasi Vektor Dokumen ---
print("--- TAHAP 3: MEMBEDAH PROSES AGREGRASI MENJADI VEKTOR DOKUMEN ---")

def create_document_vector(doc, model, num_features):
    word_vectors = [model.wv[word] for word in doc if word in model.wv]
    if not word_vectors:
        return np.zeros(num_features)
    return np.mean(word_vectors, axis=0)

contoh_berita = corpus[0]
print("Kita akan menganalisis berita pertama:")
print(f"Isi berita (token): {contoh_berita}")

print("\nVektor untuk 3 kata pertama dalam berita:")
for i, word in enumerate(contoh_berita[:3]):
    if word in model_cbow.wv:
        print(f"  - Vektor kata '{word}': {model_cbow.wv[word][:5]}... (ditampilkan 5 dimensi pertama)")
    else:
        print(f"  - Kata '{word}' tidak ada di vocabulary model.")

vektor_berita_contoh = create_document_vector(contoh_berita, model_cbow, embedding_dim)
print("\nHasil vektor dokumen (setelah dirata-ratakan):")
print(f"{vektor_berita_contoh[:10]}... (ditampilkan 10 dimensi pertama)")
print(f"Panjang vektor: {len(vektor_berita_contoh)} dimensi (sesuai yang kita tentukan).")

--- TAHAP 3: MEMBEDAH PROSES AGREGRASI MENJADI VEKTOR DOKUMEN ---
Kita akan menganalisis berita pertama:
Isi berita (token): ['kejar', 'tanjung', 'perak', 'surabaya', 'geledah', 'kantor', 'pt', 'pelindo', 'regional', 'surabaya', 'duga', 'kait', 'korupsi', 'kolam', 'labuh', 'kepala', 'kejar', 'tanjung', 'perak', 'ricky', 'setiawan', 'anas', 'geledah', 'kamis', 'wib', 'tim', 'sidik', 'kejar', 'tanjung', 'perak', 'damping', 'tim', 'amc', 'asintel', 'kejat', 'jatim', 'dasar', 'tetap', 'pn', 'tipikor', 'surabaya', 'nomor', 'nomor', 'penpidsustpkgldpn', 'sby', 'tanggal', 'oktober', 'damping', 'tim', 'amc', 'asintel', 'kejat', 'jatim', 'geledah', 'kantor', 'pt', 'pelindo', 'sub', 'regional', 'surabaya', 'ricky', 'terang', 'kamis', 'geledah', 'kantor', 'pt', 'pelindo', 'sub', 'regional', 'surabaya', 'ricky', 'sidik', 'pidsus', 'kejar', 'tanjung', 'perak', 'geledah', 'lokasi', 'tepat', 'kantor', 'pt', 'alur', 'layar', 'barat', 'surabaya', 'apbs', 'dasar', 'tetap', 'geledah', 'pn', 'tipikor', 's

In [6]:
# --- 4. Membuat DataFrame Akhir ---
print("--- TAHAP 4: MEMBUAT DATAFRAME AKHIR ---")
doc_vectors = [create_document_vector(doc, model_cbow, embedding_dim) for doc in corpus]
cbow_df = pd.DataFrame(doc_vectors, columns=[f'dim_{i+1}' for i in range(embedding_dim)])
cbow_df['kategori'] = df['kategori'].values

print("Proses pembuatan DataFrame selesai.")
print("Berikut adalah contoh hasil akhirnya:")
print(cbow_df.head())

# Simpan ke file CSV
output_file_cbow = "hasil_cbow_berita.csv"
cbow_df.to_csv(output_file_cbow, index=False)

print(f"\nHasil CBOW berhasil disimpan ke file: {output_file_cbow} 🚀")

--- TAHAP 4: MEMBUAT DATAFRAME AKHIR ---


Proses pembuatan DataFrame selesai.
Berikut adalah contoh hasil akhirnya:
      dim_1     dim_2     dim_3     dim_4     dim_5     dim_6     dim_7  \
0  0.403547 -0.208221 -0.185737  0.077202  0.147115 -0.360041 -0.158327   
1 -0.018997  0.210361  0.143095 -0.108400  0.250243  0.082247 -0.260284   
2  0.211022  0.047539 -0.049166  0.045255  0.198704  0.031257 -0.072597   
3  0.606416  0.176815 -0.067102  0.292311  0.445187 -0.367382 -0.209395   
4  0.588632  0.258093 -0.295207  0.404603  0.309455 -0.475955 -0.056870   

      dim_8     dim_9    dim_10  ...   dim_142   dim_143   dim_144   dim_145  \
0  0.146108 -0.226791 -0.178583  ...  0.115105  0.436662 -0.001523  0.079207   
1  0.134297  0.160619 -0.176950  ... -0.191703  0.438775  0.161478  0.274480   
2  0.120596  0.018175 -0.287623  ... -0.036783  0.521009  0.065834  0.166813   
3  0.321794 -0.177884  0.135616  ...  0.318046  0.608954  0.268765  0.163802   
4  0.372528 -0.385297  0.209718  ...  0.327645  0.520377  0.254118  0.25484


Hasil CBOW berhasil disimpan ke file: hasil_cbow_berita.csv 🚀
