# CBOW PTA Manajemen

In [1]:
# --- Import semua library yang dibutuhkan ---
import pandas as pd
import numpy as np
import ast
from gensim.models import Word2Vec
import logging # Untuk menampilkan log proses training

# --- 1. Persiapan Corpus ---
print("--- TAHAP 1: MEMPERSIAPKAN CORPUS ---")
# Load data dari file CSV hasil preprocessing Anda
df = pd.read_csv('hasil_preprocessing_manajemen.csv')

# Mengubah kolom 'hasil_preprocessing' dari string menjadi list python sungguhan
df['tokens'] = df['hasil_preprocessing'].apply(ast.literal_eval)
corpus = df['tokens'].tolist()

print("Proses persiapan corpus selesai.")
print("Berikut adalah contoh 1 abstrak yang sudah diubah menjadi daftar token:")
print(corpus[0])



--- TAHAP 1: MEMPERSIAPKAN CORPUS ---


Proses persiapan corpus selesai.
Berikut adalah contoh 1 abstrak yang sudah diubah menjadi daftar token:
['satiyah', 'pengaruh', 'faktorfaktor', 'latih', 'kembang', 'produktivitas', 'kerja', 'dinas', 'laut', 'ikan', 'bangkal', 'bawah', 'bimbing', 'drahjsanugrahini', 'irawatimm', 'helm', 'buyung', 'auliasstsemmt', 'upaya', 'tingkat', 'produktivitas', 'kerja', 'mudah', 'salah', 'usaha', 'produktivitas', 'tingkat', 'terap', 'program', 'latih', 'kembang', 'sumber', 'daya', 'manusia', 'sdm', 'laksana', 'instansi', 'produktivitas', 'capai', 'tingkat', 'mampu', 'pegawai', 'efektif', 'efisien', 'latih', 'pengembnagan', 'harap', 'pegawai', 'sesuai', 'kebutuhankebutuhan', 'sikap', 'tingkah', 'laku', 'terampil', 'tahu', 'sesuai', 'tuntut', 'ubah', 'latih', 'kembang', 'pegawai', 'dukung', 'cipta', 'suasana', 'kerja', 'kondusif', 'instansi', 'produktivitas', 'kerja', 'tingkat', 'tuju', 'teliti', 'pengaruh', 'faktorfaktor', 'latih', 'kembang', 'produktivitas', 'kerja', 'dinas', 'laut', 'ikan', 'bang

In [2]:

# --- 2. Melatih Model Word2Vec (dengan Proses Terlihat) ---
print("--- TAHAP 2: MELATIH MODEL WORD2VEC (CBOW) ---")

# Mengaktifkan logging untuk melihat proses training dari Gensim
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

# Tentukan parameter model. Anda bisa mengubah nilai embedding_dim.
embedding_dim = 150 
print(f"Parameter: Dimensi vektor = {embedding_dim}, Arsitektur = CBOW")
print("Gensim akan menampilkan log proses training di bawah ini:")

model_cbow = Word2Vec(
    sentences=corpus,
    vector_size=embedding_dim,
    window=5,
    min_count=2, # Mengabaikan kata yang muncul kurang dari 2 kali
    sg=0,        # sg=0 untuk arsitektur CBOW
    workers=4    # Memanfaatkan beberapa core CPU
)

print("\nPelatihan model selesai!")
print("\n--- Melihat Hasil Pelatihan Model ---")
# Mengetahui ukuran kosakata yang berhasil dipelajari model
vocab_size = len(model_cbow.wv.index_to_key)
print(f"Model berhasil mempelajari {vocab_size} kata unik.")

# Melihat kata-kata yang paling mirip secara semantik
# Ini membuktikan model sudah belajar konteks dari data abstrak manajemen
try:
    print("\nContoh kata yang paling mirip dengan 'pengaruh':")
    print(model_cbow.wv.most_similar('pengaruh', topn=5))

    print("\nContoh kata yang paling mirip dengan 'kinerja':")
    print(model_cbow.wv.most_similar('kinerja', topn=5))
except KeyError as e:
    print(f"\nKata {e} tidak ditemukan di vocabulary (mungkin karena jarang muncul).")




2025-12-18 11:33:33,299 : INFO : collecting all words and their counts


2025-12-18 11:33:33,300 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types


2025-12-18 11:33:33,338 : INFO : collected 6497 word types from a corpus of 147875 raw words and 1026 sentences


2025-12-18 11:33:33,340 : INFO : Creating a fresh vocabulary


2025-12-18 11:33:33,362 : INFO : Word2Vec lifecycle event {'msg': 'effective_min_count=2 retains 3543 unique words (54.53% of original 6497, drops 2954)', 'datetime': '2025-12-18T11:33:33.362798', 'gensim': '4.3.3', 'python': '3.10.6 (tags/v3.10.6:9c7b4bd, Aug  1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.26100-SP0', 'event': 'prepare_vocab'}


2025-12-18 11:33:33,364 : INFO : Word2Vec lifecycle event {'msg': 'effective_min_count=2 leaves 144921 word corpus (98.00% of original 147875, drops 2954)', 'datetime': '2025-12-18T11:33:33.364811', 'gensim': '4.3.3', 'python': '3.10.6 (tags/v3.10.6:9c7b4bd, Aug  1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.26100-SP0', 'event': 'prepare_vocab'}


2025-12-18 11:33:33,395 : INFO : deleting the raw counts dictionary of 6497 items


2025-12-18 11:33:33,397 : INFO : sample=0.001 downsamples 67 most-common words


2025-12-18 11:33:33,399 : INFO : Word2Vec lifecycle event {'msg': 'downsampling leaves estimated 108540.54174002048 word corpus (74.9%% of prior 144921)', 'datetime': '2025-12-18T11:33:33.399253', 'gensim': '4.3.3', 'python': '3.10.6 (tags/v3.10.6:9c7b4bd, Aug  1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.26100-SP0', 'event': 'prepare_vocab'}


2025-12-18 11:33:33,455 : INFO : estimated required memory for 3543 words and 150 dimensions: 6023100 bytes


2025-12-18 11:33:33,456 : INFO : resetting layer weights


--- TAHAP 2: MELATIH MODEL WORD2VEC (CBOW) ---
Parameter: Dimensi vektor = 150, Arsitektur = CBOW
Gensim akan menampilkan log proses training di bawah ini:


2025-12-18 11:33:33,464 : INFO : Word2Vec lifecycle event {'update': False, 'trim_rule': 'None', 'datetime': '2025-12-18T11:33:33.464119', 'gensim': '4.3.3', 'python': '3.10.6 (tags/v3.10.6:9c7b4bd, Aug  1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.26100-SP0', 'event': 'build_vocab'}


2025-12-18 11:33:33,466 : INFO : Word2Vec lifecycle event {'msg': 'training model with 4 workers on 3543 vocabulary and 150 features, using sg=0 hs=0 sample=0.001 negative=5 window=5 shrink_windows=True', 'datetime': '2025-12-18T11:33:33.466133', 'gensim': '4.3.3', 'python': '3.10.6 (tags/v3.10.6:9c7b4bd, Aug  1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.26100-SP0', 'event': 'train'}


2025-12-18 11:33:33,635 : INFO : EPOCH 0: training on 147875 raw words (108526 effective words) took 0.2s, 674569 effective words/s


2025-12-18 11:33:33,797 : INFO : EPOCH 1: training on 147875 raw words (108495 effective words) took 0.2s, 696936 effective words/s


2025-12-18 11:33:33,962 : INFO : EPOCH 2: training on 147875 raw words (108623 effective words) took 0.2s, 687959 effective words/s


2025-12-18 11:33:34,116 : INFO : EPOCH 3: training on 147875 raw words (108666 effective words) took 0.1s, 733204 effective words/s


2025-12-18 11:33:34,266 : INFO : EPOCH 4: training on 147875 raw words (108698 effective words) took 0.1s, 758563 effective words/s


2025-12-18 11:33:34,268 : INFO : Word2Vec lifecycle event {'msg': 'training on 739375 raw words (543008 effective words) took 0.8s, 678116 effective words/s', 'datetime': '2025-12-18T11:33:34.268147', 'gensim': '4.3.3', 'python': '3.10.6 (tags/v3.10.6:9c7b4bd, Aug  1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.26100-SP0', 'event': 'train'}


2025-12-18 11:33:34,269 : INFO : Word2Vec lifecycle event {'params': 'Word2Vec<vocab=3543, vector_size=150, alpha=0.025>', 'datetime': '2025-12-18T11:33:34.269145', 'gensim': '4.3.3', 'python': '3.10.6 (tags/v3.10.6:9c7b4bd, Aug  1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.26100-SP0', 'event': 'created'}



Pelatihan model selesai!

--- Melihat Hasil Pelatihan Model ---
Model berhasil mempelajari 3543 kata unik.

Contoh kata yang paling mirip dengan 'pengaruh':
[('bersamasama', 0.9173421859741211), ('biologis', 0.9092780351638794), ('positif', 0.906253457069397), ('signifikan', 0.8991132378578186), ('kunci', 0.897147536277771)]

Contoh kata yang paling mirip dengan 'kinerja':

Kata "Key 'kinerja' not present in vocabulary" tidak ditemukan di vocabulary (mungkin karena jarang muncul).


In [3]:

# --- 3. Membedah Proses Agregasi Vektor Dokumen ---
print("--- TAHAP 3: MEMBEDAH PROSES AGREGRASI MENJADI VEKTOR DOKUMEN ---")

def create_document_vector(doc, model, num_features):
    word_vectors = [model.wv[word] for word in doc if word in model.wv]
    if not word_vectors:
        return np.zeros(num_features)
    return np.mean(word_vectors, axis=0)

# Mari kita ambil satu abstrak sebagai contoh
contoh_abstrak = corpus[0]
print("Kita akan menganalisis abstrak pertama:")
print(f"Isi abstrak (token): {contoh_abstrak[:20]}...") # Tampilkan 20 token pertama

# Melihat vektor dari beberapa kata pertama di abstrak tersebut
print("\nVektor untuk 3 kata pertama dalam abstrak:")
for word in contoh_abstrak[:3]:
    if word in model_cbow.wv:
        print(f"  - Vektor kata '{word}': {model_cbow.wv[word][:5]}...")
    else:
        print(f"  - Kata '{word}' tidak ada di vocabulary model.")

# Menghitung dan menampilkan vektor akhir untuk abstrak tersebut
vektor_abstrak_contoh = create_document_vector(contoh_abstrak, model_cbow, embedding_dim)
print("\nHasil vektor dokumen (setelah dirata-ratakan):")
print(f"{vektor_abstrak_contoh[:10]}...")
print(f"Panjang vektor: {len(vektor_abstrak_contoh)} dimensi.")





--- TAHAP 3: MEMBEDAH PROSES AGREGRASI MENJADI VEKTOR DOKUMEN ---
Kita akan menganalisis abstrak pertama:
Isi abstrak (token): ['satiyah', 'pengaruh', 'faktorfaktor', 'latih', 'kembang', 'produktivitas', 'kerja', 'dinas', 'laut', 'ikan', 'bangkal', 'bawah', 'bimbing', 'drahjsanugrahini', 'irawatimm', 'helm', 'buyung', 'auliasstsemmt', 'upaya', 'tingkat']...

Vektor untuk 3 kata pertama dalam abstrak:
  - Kata 'satiyah' tidak ada di vocabulary model.
  - Vektor kata 'pengaruh': [-0.03073812  0.47295645  0.28545937  0.30194837 -0.48956868]...
  - Vektor kata 'faktorfaktor': [ 0.07301343 -0.11238042  0.08056612  0.1413475  -0.02826594]...

Hasil vektor dokumen (setelah dirata-ratakan):
[-0.02521696 -0.16373968  0.08418395  0.05740701 -0.05443274 -0.5422083
 -0.05565486  0.24000612 -0.30244526  0.19282998]...
Panjang vektor: 150 dimensi.


In [4]:
# --- 4. Membuat DataFrame Akhir ---
print("--- TAHAP 4: MEMBUAT DATAFRAME AKHIR ---")
doc_vectors = [create_document_vector(doc, model_cbow, embedding_dim) for doc in corpus]
cbow_df = pd.DataFrame(doc_vectors, columns=[f'dim_{i+1}' for i in range(embedding_dim)])
# Menambahkan kembali kolom abstrak_id agar sesuai dengan file TF-IDF
cbow_df['abstrak_id'] = df['abstrak_id'].values 

print("Proses pembuatan DataFrame selesai.")
print("Berikut adalah contoh hasil akhirnya:")
print(cbow_df.head())

# Menyimpan hasil ke file CSV
output_file_cbow = "hasil_cbow_pta_manajemen.csv"
cbow_df.to_csv(output_file_cbow, index=False)
print(f"\nðŸŽ‰ Hasil CBOW berhasil disimpan ke file: {output_file_cbow}")

--- TAHAP 4: MEMBUAT DATAFRAME AKHIR ---


Proses pembuatan DataFrame selesai.
Berikut adalah contoh hasil akhirnya:
      dim_1     dim_2     dim_3     dim_4     dim_5     dim_6     dim_7  \
0 -0.025217 -0.163740  0.084184  0.057407 -0.054433 -0.542208 -0.055655   
1  0.053854 -0.089919 -0.380450 -0.154408  0.054049 -0.372846 -0.179004   
2  0.091045 -0.137682 -0.201420 -0.016853 -0.040870 -0.300110 -0.036041   
3 -0.184914  0.069726  0.095578  0.159246 -0.242660 -0.735966 -0.283926   
4 -0.080283 -0.080483 -0.052840  0.098156 -0.114070 -0.510547 -0.226557   

      dim_8     dim_9    dim_10  ...   dim_142   dim_143   dim_144   dim_145  \
0  0.240006 -0.302445  0.192830  ... -0.114343 -0.076806  0.205828  0.258994   
1  0.529144 -0.258182  0.102088  ... -0.187946 -0.146485  0.583392  0.236247   
2  0.408665 -0.120578  0.231316  ... -0.139336 -0.076122  0.300061  0.162790   
3  0.165553 -0.644462  0.030489  ... -0.097313 -0.257990  0.125905  0.260574   
4  0.348324 -0.372346  0.178746  ... -0.161690 -0.228454  0.281582  0.20047


ðŸŽ‰ Hasil CBOW berhasil disimpan ke file: hasil_cbow_pta_manajemen.csv
