<a href="https://colab.research.google.com/github/odeandialamsyah/nlp_zero_to_hero/blob/main/NLP_Zero_to_Hero_Representasi_Teks_Sederhana.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Kode CountVectorizer

In [1]:
# Import library yang dibutuhkan
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
# Contoh dokumen (setelah pra-pemrosesan awal, kita anggap sudah bersih)
# Dalam praktik nyata, Anda akan menggunakan output dari langkah pra-pemrosesan sebelumnya
dokumen = [
    "saya suka makan apel",
    "saya suka pisang dan apel",
    "kucing suka ikan",
    "anjing suka bermain"
]

print(f"Dokumen Asli (setelah pra-pemrosesan): {dokumen}\n")

Dokumen Asli (setelah pra-pemrosesan): ['saya suka makan apel', 'saya suka pisang dan apel', 'kucing suka ikan', 'anjing suka bermain']



In [3]:
# --- Membuat Model Bag-of-Words ---
# Inisialisasi CountVectorizer
# stop_words='english' bisa digunakan jika teksnya B.Inggris dan kita ingin menghapus stopwords otomatis.
# analyzer='word' adalah default, berarti token adalah kata.
# Contoh ini mengasumsikan dokumen sudah bersih dari stopwords
vectorizer_bow = CountVectorizer()

In [4]:
# Fitur learning dan transformasi data
# fit_transform() akan:
# 1. Membangun kamus dari semua kata unik di 'dokumen'.
# 2. Menghitung frekuensi setiap kata untuk setiap dokumen.
bow_matrix = vectorizer_bow.fit_transform(dokumen)

# Mendapatkan nama fitur (yaitu, kata-kata dalam kamus)
feature_names_bow = vectorizer_bow.get_feature_names_out()

print("1. Representasi Bag-of-Words (BoW):")
print("   Kamus (Vocabulary):", feature_names_bow)
print("   Matriks BoW (Frekuensi Kata):")
print(bow_matrix.toarray()) # .toarray() untuk melihat representasi dense
print("\n")

# Mari kita coba memahami output untuk dokumen pertama: "saya suka makan apel"
# Berdasarkan kamus: ['anjing' 'apel' 'bermain' 'dan' 'ikan' 'kucing' 'makan' 'pisang' 'saya' 'suka']
# Dokumen pertama: "saya suka makan apel"
# Frekuensi: anjing:0, apel:1, bermain:0, dan:0, ikan:0, kucing:0, makan:1, pisang:0, saya:1, suka:1
# Hasilnya: [0 1 0 0 0 0 1 0 1 1] (sesuai urutan kamus)

1. Representasi Bag-of-Words (BoW):
   Kamus (Vocabulary): ['anjing' 'apel' 'bermain' 'dan' 'ikan' 'kucing' 'makan' 'pisang' 'saya'
 'suka']
   Matriks BoW (Frekuensi Kata):
[[0 1 0 0 0 0 1 0 1 1]
 [0 1 0 1 0 0 0 1 1 1]
 [0 0 0 0 1 1 0 0 0 1]
 [1 0 1 0 0 0 0 0 0 1]]




Penjelasan Kode CountVectorizer:

1. from sklearn.feature_extraction.text import CountVectorizer: Mengimpor kelas CountVectorizer dari modul feature_extraction.text di scikit-learn.

2. dokumen = [...]: Ini adalah kumpulan teks kita. Untuk kesederhanaan, kita langsung menggunakan teks yang sudah diasumsikan bersih (tanpa tanda baca, lowercase, dll.). Dalam proyek nyata, output dari langkah pra-pemrosesan sebelumnya akan menjadi input di sini.

3. vectorizer_bow = CountVectorizer(): Membuat sebuah objek CountVectorizer. Objek ini akan belajar kamus dari data dan kemudian mengubah teks menjadi vektor frekuensi kata.

4. bow_matrix = vectorizer_bow.fit_transform(dokumen): Ini adalah langkah kunci.

5. fit(): Membangun kamus unik dari semua kata yang ada dalam daftar dokumen. Setiap kata unik akan diberi indeks.

6. transform(): Mengubah setiap dokumen menjadi vektor numerik berdasarkan kamus yang sudah dibuat. Setiap posisi dalam vektor merepresentasikan sebuah kata dari kamus, dan nilainya adalah frekuensi kemunculan kata tersebut di dokumen.

7. Hasilnya, bow_matrix adalah matriks (seringkali sparse matrix untuk efisiensi) di mana barisnya adalah dokumen dan kolomnya adalah kata-kata dari kamus.

8. feature_names_bow = vectorizer_bow.get_feature_names_out(): Mengambil daftar kata-kata yang ada di kamus (vocabulary) yang dibangun oleh CountVectorizer. Ini penting untuk memahami kolom-kolom di bow_matrix.

10. print(bow_matrix.toarray()): CountVectorizer secara default menghasilkan sparse matrix (matriks yang sebagian besar nilainya nol) untuk menghemat memori. .toarray() mengubahnya menjadi dense array (array biasa) agar lebih mudah dilihat dan dipahami di konsol.

#Kode TfidfVectorizer

In [5]:
# Import library yang dibutuhkan
from sklearn.feature_extraction.text import TfidfVectorizer

print(f"Dokumen Asli (setelah pra-pemrosesan): {dokumen}\n")

# --- Membuat Model TF-IDF ---
# Inisialisasi TfidfVectorizer
# Sama seperti CountVectorizer, ini bisa mengurus tokenisasi dan stopwords jika diperlukan.
# Namun, kita asumsikan teks sudah bersih di sini.
vectorizer_tfidf = TfidfVectorizer()

# Fitur learning dan transformasi data
tfidf_matrix = vectorizer_tfidf.fit_transform(dokumen)

# Mendapatkan nama fitur (kata-kata dalam kamus)
feature_names_tfidf = vectorizer_tfidf.get_feature_names_out()

print("2. Representasi TF-IDF:")
print("   Kamus (Vocabulary):", feature_names_tfidf)
print("   Matriks TF-IDF:")
print(tfidf_matrix.toarray()) # .toarray() untuk melihat representasi dense
print("\n")

# Mari kita analisis sebentar:
# Perhatikan bahwa kata-kata umum seperti 'saya' dan 'suka' memiliki nilai TF-IDF yang sangat rendah atau bahkan nol (tergantung pembulatan).
# Sedangkan kata-kata spesifik seperti 'makan', 'pisang', 'kucing', 'anjing', 'ikan', 'bermain' memiliki nilai yang lebih tinggi.
# Ini adalah bukti bahwa TF-IDF memberikan bobot lebih pada kata-kata yang lebih informatif/spesifik!

Dokumen Asli (setelah pra-pemrosesan): ['saya suka makan apel', 'saya suka pisang dan apel', 'kucing suka ikan', 'anjing suka bermain']

2. Representasi TF-IDF:
   Kamus (Vocabulary): ['anjing' 'apel' 'bermain' 'dan' 'ikan' 'kucing' 'makan' 'pisang' 'saya'
 'suka']
   Matriks TF-IDF:
[[0.         0.4970962  0.         0.         0.         0.
  0.6305035  0.         0.4970962  0.32902288]
 [0.         0.42049337 0.         0.53334252 0.         0.
  0.         0.53334252 0.42049337 0.27832025]
 [0.         0.         0.         0.         0.66338461 0.66338461
  0.         0.         0.         0.34618161]
 [0.66338461 0.         0.66338461 0.         0.         0.
  0.         0.         0.         0.34618161]]




Penjelasan Kode TfidfVectorizer:
1. from sklearn.feature_extraction.text import TfidfVectorizer: Mengimpor kelas TfidfVectorizer.

2. vectorizer_tfidf = TfidfVectorizer(): Membuat objek TfidfVectorizer. Objek ini akan menghitung TF dan IDF untuk setiap kata di setiap dokumen.

3. tfidf_matrix = vectorizer_tfidf.fit_transform(dokumen): Mirip dengan CountVectorizer, langkah ini membangun kamus dan kemudian mengubah setiap dokumen menjadi vektor nilai TF-IDF.

4. feature_names_tfidf = vectorizer_tfidf.get_feature_names_out(): Mengambil daftar kata-kata yang ada di kamus TF-IDF.

5. print(tfidf_matrix.toarray()): Menampilkan matriks TF-IDF dalam bentuk dense array.



Eksplorasi & Latihan Anda:
1. Jalankan kedua bagian kode (BoW dan TF-IDF) secara berurutan. Bandingkan output matriksnya.

2. Tambahkan dokumen baru ke daftar dokumen Anda. Perhatikan bagaimana kamus (feature_names) bertambah dan bagaimana matriks bow_matrix dan tfidf_matrix berubah.

3. Coba analisis nilai-nilai TF-IDF untuk kata-kata umum (seperti "saya", "suka") dan kata-kata yang lebih spesifik (seperti "kucing", "ikan"). Apakah Anda melihat tren seperti yang kita diskusikan? (Kata umum bobotnya rendah, kata spesifik bobotnya tinggi).