<a href="https://colab.research.google.com/github/odeandialamsyah/nlp_zero_to_hero/blob/main/NLP_Zero_to_Hero_Pra_pemrosesan.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Pre-Processing

In [26]:
import nltk
nltk.download('punkt')      # Untuk tokenisasi
nltk.download('punkt_tab')
nltk.download('stopwords')  # Untuk daftar stop words
nltk.download('wordnet')    # Untuk lemmatization (akan digunakan nanti)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [27]:
# Import library yang dibutuhkan
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer
import string
from nltk.tokenize.punkt import PunktSentenceTokenizer

# Contoh teks mentah
teks_mentah = "NLP adalah bidang yang sangat menarik dan transformatif! Saya suka belajar hal baru di Bandung."

print(f"Teks Asli: {teks_mentah}\n")

Teks Asli: NLP adalah bidang yang sangat menarik dan transformatif! Saya suka belajar hal baru di Bandung.



In [28]:
# --- 1. Case Folding (Mengubah Huruf Kecil) ---
teks_lowercase = teks_mentah.lower()
print(f"1. Case Folding: {teks_lowercase}")

1. Case Folding: nlp adalah bidang yang sangat menarik dan transformatif! saya suka belajar hal baru di bandung.


In [29]:
# --- 2. Menghilangkan Tanda Baca ---
# Membuat tabel translasi untuk menghilangkan tanda baca
# string.punctuation berisi semua tanda baca standar
translator = str.maketrans('', '', string.punctuation)
teks_tanpa_tanda_baca = teks_lowercase.translate(translator)
print(f"2. Tanpa Tanda Baca: {teks_tanpa_tanda_baca}")

2. Tanpa Tanda Baca: nlp adalah bidang yang sangat menarik dan transformatif saya suka belajar hal baru di bandung


In [30]:

# Menggunakan word_tokenize dari NLTK
tokens = word_tokenize(teks_tanpa_tanda_baca)
print(f"3. Tokenisasi: {tokens}")

3. Tokenisasi: ['nlp', 'adalah', 'bidang', 'yang', 'sangat', 'menarik', 'dan', 'transformatif', 'saya', 'suka', 'belajar', 'hal', 'baru', 'di', 'bandung']


In [31]:
# --- 4. Stop Word Removal (Menghilangkan Kata Pengisi) ---
# Mengambil daftar stop words bahasa Indonesia dari NLTK
# Jika Anda bekerja dengan bahasa Inggris, ganti 'indonesian' dengan 'english'
list_stopwords = set(stopwords.words('indonesian'))

In [32]:
tokens_tanpa_stopwords = [kata for kata in tokens if kata not in list_stopwords]
print(f"4. Tanpa Stop Words: {tokens_tanpa_stopwords}")

4. Tanpa Stop Words: ['nlp', 'bidang', 'menarik', 'transformatif', 'suka', 'belajar', 'bandung']


In [36]:
# --- 5. Stemming (Opsional, lebih cepat) ---
# Menggunakan PorterStemmer (umumnya untuk bahasa Inggris,
# untuk Bahasa Indonesia ada Sastrawi atau InStem)
# Untuk demo, kita pakai PorterStemmer saja untuk melihat konsepnya
# atau kita bisa skip dulu untuk bahasa Indonesia jika tidak ada stemmer yang relevan
# For Indonesian, you'd typically use libraries like Sastrawi for proper stemming.
# Let's use a placeholder and explain:
# from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
# factory = StemmerFactory()
# stemmer_id = factory.create_stemmer()
# tokens_stemmed = [stemmer_id.stem(kata) for kata in tokens_tanpa_stopwords]

# Karena NLTK PorterStemmer tidak cocok untuk B.Indonesia,
# kita akan lewati stemming untuk demonstrasi B.Indonesia dan langsung ke Lemmatization
# atau hanya menunjukkan konsepnya jika pakai PorterStemmer.
# Kita tunjukkan contoh PorterStemmer dengan kata berbahasa Inggris untuk ilustrasi:
porter = PorterStemmer()
example_words_en = ["running", "runs", "runner", "fairly"]
stemmed_examples = [porter.stem(w) for w in example_words_en]
print(f"\n5. Contoh Stemming (English): {stemmed_examples}") # output: ['run', 'run', 'runner', 'fairli']


5. Contoh Stemming (English): ['run', 'run', 'runner', 'fairli']


In [34]:
# --- 6. Lemmatization (Lebih Akurat) ---
# Untuk Lemmatization, kita perlu tag Part-of-Speech (POS Tagging)
# untuk hasil yang lebih baik. Namun, untuk demo dasar, kita bisa abaikan dulu.
# NLTK WordNetLemmatizer cocok untuk bahasa Inggris.
lemmatizer = WordNetLemmatizer()
# Untuk bahasa Indonesia, lemmatization lebih kompleks dan sering
# membutuhkan model POS tagging spesifik bahasa Indonesia.
# Untuk demo ini, kita akan lewati lemmatization untuk B.Indonesia
# dan tunjukkan contoh Inggris untuk konsepnya.
example_words_en_lem = ["running", "runs", "ran", "better", "geese"]
lemmatized_examples = [lemmatizer.lemmatize(w, pos='v') for w in example_words_en_lem] # pos='v' for verb
lemmatized_examples_noun = [lemmatizer.lemmatize(w, pos='n') for w in example_words_en_lem] # pos='n' for noun
print(f"6. Contoh Lemmatization (English - Verbs): {lemmatized_examples}") # output: ['run', 'run', 'run', 'better', 'goose'] (geese as noun)
print(f"6. Contoh Lemmatization (English - Nouns): {lemmatized_examples_noun}") # output: ['running', 'run', 'ran', 'better', 'goose']

5. Contoh Lemmatization (English - Verbs): ['run', 'run', 'run', 'better', 'geese']
5. Contoh Lemmatization (English - Nouns): ['running', 'run', 'ran', 'better', 'goose']


In [35]:
# Output akhir setelah pra-pemrosesan (untuk teks B.Indonesia kita)
teks_bersih_akhir = " ".join(tokens_tanpa_stopwords)
print(f"\nFinal Teks Bersih (Bahasa Indonesia): {teks_bersih_akhir}")


Final Teks Bersih (Bahasa Indonesia): nlp bidang menarik transformatif suka belajar bandung
