# (Example) Reduksi Dimensi

[Perhitungan Manual Spreadsheet](https://docs.google.com/spreadsheets/d/1M3gfGesTUuCrBbXI4e08W91YK04Fbzyf7ffdyNxsilc/edit?usp=sharing)

1. **Persiapan Data Teks**: Langkah pertama adalah mempersiapkan data teks yang terdiri dari dua dokumen. Dokumen-dokumen ini akan digunakan dalam analisis.

2. **Vektorisasi Teks Menggunakan CountVectorizer**: Dalam langkah ini, kita menggunakan CountVectorizer, alat dari Scikit-Learn, untuk mengubah teks menjadi representasi vektor. CountVectorizer menghitung berapa kali setiap kata muncul dalam dokumen. Kita juga menghilangkan kata-kata umum dalam bahasa Inggris (stop words) dan kata-kata yang muncul terlalu sering (lebih dari 85% dari seluruh dokumen).

3. **Penerapan Latent Dirichlet Allocation (LDA)**: LDA adalah algoritma yang digunakan untuk mengidentifikasi topik-topik utama dalam dokumen. Dalam contoh ini, kita ingin mengidentifikasi dua topik. LDA memodelkan dokumen sebagai campuran dari topik-topik ini dan menghasilkan distribusi topik untuk setiap dokumen.

4. **Menampilkan Topik dan Term**: Langkah terakhir adalah menampilkan hasil LDA. Kita melihat semua topik yang telah diidentifikasi dalam setiap dokumen bersama dengan term-term yang paling relevan dalam tiap topik. Ini memberi kita wawasan tentang bagaimana dokumen-dokumen tersebut terkait dengan topik-topik yang telah diidentifikasi.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
import numpy as np

# Langkah 1: Persiapkan data teks
documents = [
    "saya makan nasi pecel",
    "saya pergi ke pasar mencari nasi",
]

# Langkah 2: Vektorisasi teks menggunakan CountVectorizer
vectorizer = CountVectorizer(max_df=0.85, stop_words='english')
X = vectorizer.fit_transform(documents)

# Langkah 3: Menerapkan LDA
num_topics = 2  # Jumlah topik yang ingin diidentifikasi
lda = LatentDirichletAllocation(n_components=num_topics, random_state=42)
document_topics = lda.fit_transform(X)

# Langkah 4: Menampilkan semua topik untuk setiap dokumen dan term dalam tiap topik
feature_names = np.array(vectorizer.get_feature_names_out())
for i, doc in enumerate(documents):
    print(f"Dokumen #{i + 1}: {doc}")
    for j, topic_weight in enumerate(document_topics[i]):
        topik_terms = lda.components_[j].argsort()  # Mengambil 4 term teratas untuk tiap topik
        topik_term_names = feature_names[topik_terms]
        print(f"  Topik #{j + 1}: Skor Topik - {topic_weight:.2f}")
        print(f"    Term dalam Topik: {', '.join(topik_term_names)}")

Dokumen #1: saya makan nasi pecel
  Topik #1: Skor Topik - 0.17
    Term dalam Topik: makan, pecel, mencari, pergi, ke, pasar
  Topik #2: Skor Topik - 0.83
    Term dalam Topik: pasar, ke, pergi, mencari, pecel, makan
Dokumen #2: saya pergi ke pasar mencari nasi
  Topik #1: Skor Topik - 0.89
    Term dalam Topik: makan, pecel, mencari, pergi, ke, pasar
  Topik #2: Skor Topik - 0.11
    Term dalam Topik: pasar, ke, pergi, mencari, pecel, makan
