# Pertemuan 23
---
## NLP (Natural Language Processing) For Machine Learning
---

### Natural Language Processing (NLP)

### Apa itu NLP?

Natural Language Processing (NLP) adalah cabang dari **Artificial Intelligence (AI)** dan **Machine Learning** yang berfokus pada interaksi antara **komputer** dan **bahasa manusia**.  
Dengan NLP, komputer dapat:
- Membaca

- Memahami

- Menafsirkan

- Menganalisis

- Membuat teks dalam bahasa manusia

Tujuan utama NLP adalah membuat mesin **"mengerti" bahasa manusia** sehingga bisa digunakan untuk berbagai aplikasi.

### Mengapa NLP Penting?
Bahasa adalah cara utama manusia berkomunikasi. Data berbentuk teks sangat banyak jumlahnya, misalnya:
- Artikel, berita, blog

- Postingan media sosial

- Chat atau email

- Ulasan produk

- Dokumen perusahaan

> Dengan NLP, data teks yang tidak terstruktur dapat diubah menjadi **informasi berharga** untuk analisis maupun otomatisasi.


### Manfaat NLP
Beberapa manfaat utama dari NLP:

1. **Otomatisasi Tugas** → Membaca ribuan dokumen atau ulasan secara cepat tanpa perlu tenaga manusia.

2. **Meningkatkan Customer Experience** → Chatbot & asisten virtual untuk melayani pelanggan 24/7.

3. **Analisis Sentimen** → Mengetahui opini pelanggan tentang suatu produk atau layanan.

4. **Pencarian Informasi Lebih Cerdas** → Mesin pencari, rekomendasi konten, dan sistem ta


---

**Cara Kerja Sentiment Analysis**

Prosesnya bisa dibagi jadi beberapa tahap:

1. Data Collection (Mengumpulkan Data)

Data bisa berasal dari Twitter, review produk (Amazon, Tokopedia), survey pelanggan, komentar YouTube, dsb.

Contoh dataset populer: IMDb Movie Reviews, Twitter US Airline Sentiment, Amazon Reviews.

2. Text Preprocessing (Praproses Teks)

- Agar model lebih mudah belajar, teks biasanya dibersihkan dulu:

- Lowercasing (ubah semua huruf jadi kecil)

- Hapus HTML tags

- Hapus URL

- Hapus angka & karakter spesial

- Tokenization (pecah teks jadi kata/kalimat)

- Stopwords removal (hapus kata umum seperti is, the, and)

- Lemmatization/Stemming (ubah kata ke bentuk dasar: “loved” → “love”)

3. Feature Extraction (Ekstraksi Fitur)

- Karena komputer tidak paham teks langsung, kata-kata perlu diubah jadi angka.
Beberapa metode:

- Bag of Words (BoW) → hitung frekuensi kata.

- TF-IDF → beri bobot lebih pada kata yang jarang tapi penting.

- Word Embeddings (Word2Vec, GloVe, FastText).

- Contextual Embeddings (BERT, GPT).

4. Modeling (Pemodelan)

- Machine Learning klasik: Logistic Regression, Naive Bayes, SVM.

- Deep Learning: RNN, LSTM, GRU, Transformer (BERT).

5. Prediction (Klasifikasi Sentimen)

Model memprediksi label sentimen dari teks.
Contoh:

- Input: “The food was delicious and the service was great.”

- Output: Positif (0.92 confidence)

6. Evaluation (Evaluasi)

Gunakan metrik seperti accuracy, precision, recall, F1-score untuk mengukur performa model.

---

### 1. Intro to Sentiment Analysis

- Sentiment Analysis (analisis sentimen) adalah teknik dalam Natural Language Processing (NLP) dan Machine Learning yang digunakan untuk mengidentifikasi dan mengklasifikasikan opini, emosi, atau sikap dari teks.

- Sentiment Analysis = mengklasifikasikan teks (positif, negatif, netral).

- Contoh aplikasi: review produk, analisis opini publik, feedback pelanggan.

- Tujuan utamanya adalah mengetahui apakah suatu teks memiliki sentimen:

    - Positif → contoh: “I love this product, it’s amazing!”

    - Negatif → contoh: “This is the worst service I’ve ever had.”

    - Netral → contoh: “The product arrived yesterday.”

- Dataset: IMDb Reviews (film review positif/negatif).

- Bisnis → mengetahui kepuasan pelanggan dari review, survei, atau media sosial.

- Politik → menganalisis opini publik tentang kandidat/isu politik.

- Media Sosial → memantau tren, reputasi brand, atau reaksi terhadap event tertentu.

- Layanan Pelanggan → memfilter keluhan negatif untuk ditangani cepat.

In [1]:
# Contoh data sederhana
reviews = [
    ("I loved this movie, it was amazing!", "positive"),
    ("This movie was terrible and boring", "negative")
]

for review, label in reviews:
    print(f"Review: {review} -> Sentiment: {label}")


Review: I loved this movie, it was amazing! -> Sentiment: positive
Review: This movie was terrible and boring -> Sentiment: negative


### 2. Preprocessing Text

Untuk membersihkan text, karena tidak semua text dalam suatu dataset itu sama.

#### Langkah :

- Lowercase

- Hapus HTML

- Hapus URL

- Hapus karakter aneh

- Hapus spasi berlebih

bs4 = beautiful soup

```bash
pip install bs4

pip install lxml
```

In [2]:
pip install bs4

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
pip install lxml

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [4]:
import re
from bs4 import BeautifulSoup

text = "I LOVED this movie!!! <br> Visit: https://imdb.com"

# lowercase
text = text.lower()
# hapus html
text = BeautifulSoup(text, "lxml").get_text()
# hapus url
text = re.sub(r'http\S+|www\S+', '', text)
# hapus karakter spesial (hanya huruf dan spasi yang tersisa)
text = re.sub(r'[^a-zA-Z\s]', '', text)
# hapus spasi berlebih
text = " ".join(text.split())

print(text)  # "i loved this movie visit"

i loved this movie visit


### 3. Tokenization

- Dengan ini kita dapat memecah teks menjadi suatu kata atau sentence.

- Tokenization adalah proses memecah teks menjadi unit-unit kecil yang disebut token.
Token bisa berupa:

- Kata (word-level tokenization)

- Kalimat (sentence-level tokenization)

- Sub-kata/karakter (character-level tokenization, sering dipakai di deep learning)

- Contoh sederhana:
```python
Teks: "I love this movie!"
Token: ["I", "love", "this", "movie"]
```

**Mengapa Tokenization Penting dalam Sentiment Analysis?**

Dalam Sentiment Analysis, kita ingin mengetahui apakah sebuah teks bernada positif, negatif, atau netral.
Supaya komputer bisa menganalisis, teks harus diubah dulu menjadi bentuk yang mudah dipahami oleh algoritma, dan itu dimulai dengan tokenization.

Manfaat Tokenization:

- Memudahkan Analisis → Dengan token, kita bisa menghitung frekuensi kata, mengidentifikasi kata penting, dll.

- Dasar untuk Preprocessing → Stopword removal, stemming, dan lemmatization semuanya membutuhkan token.

- Fitur untuk Model ML → Representasi teks (seperti Bag of Words atau TF-IDF) dibangun dari token.

- Konteks Sentimen → Kata tertentu (misalnya "great", "terrible") menjadi indikator utama sentimen.

In [5]:
!pip install nltk




[notice] A new release of pip is available: 24.2 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')      # for tokenization
nltk.download('stopwords')
nltk.download('wordnet') 

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Vanya\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Vanya\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Vanya\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Vanya\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [7]:
from nltk.tokenize import word_tokenize, sent_tokenize

text = "I loved this movie. It was amazing!"

print("Word Tokenization:", word_tokenize(text))
print("Sentence Tokenization:", sent_tokenize(text))


Word Tokenization: ['I', 'loved', 'this', 'movie', '.', 'It', 'was', 'amazing', '!']
Sentence Tokenization: ['I loved this movie.', 'It was amazing!']


### 4. Stop Words

Untuk memberhentikan beberapa text yg mengandung stopwords

In [8]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

stop_words = set(stopwords.words('english'))

text = "This is a really good movie"
words = word_tokenize(text)
filtered = [w for w in words if w.lower() not in stop_words]

print("Before:", words)
print("After removing stopwords:", filtered)

Before: ['This', 'is', 'a', 'really', 'good', 'movie']
After removing stopwords: ['really', 'good', 'movie']


In [12]:
print(stopwords.words('arabic'))

['إذ', 'إذا', 'إذما', 'إذن', 'أف', 'أقل', 'أكثر', 'ألا', 'إلا', 'التي', 'الذي', 'الذين', 'اللاتي', 'اللائي', 'اللتان', 'اللتيا', 'اللتين', 'اللذان', 'اللذين', 'اللواتي', 'إلى', 'إليك', 'إليكم', 'إليكما', 'إليكن', 'أم', 'أما', 'أما', 'إما', 'أن', 'إن', 'إنا', 'أنا', 'أنت', 'أنتم', 'أنتما', 'أنتن', 'إنما', 'إنه', 'أنى', 'أنى', 'آه', 'آها', 'أو', 'أولاء', 'أولئك', 'أوه', 'آي', 'أي', 'أيها', 'إي', 'أين', 'أين', 'أينما', 'إيه', 'بخ', 'بس', 'بعد', 'بعض', 'بك', 'بكم', 'بكم', 'بكما', 'بكن', 'بل', 'بلى', 'بما', 'بماذا', 'بمن', 'بنا', 'به', 'بها', 'بهم', 'بهما', 'بهن', 'بي', 'بين', 'بيد', 'تلك', 'تلكم', 'تلكما', 'ته', 'تي', 'تين', 'تينك', 'ثم', 'ثمة', 'حاشا', 'حبذا', 'حتى', 'حيث', 'حيثما', 'حين', 'خلا', 'دون', 'ذا', 'ذات', 'ذاك', 'ذان', 'ذانك', 'ذلك', 'ذلكم', 'ذلكما', 'ذلكن', 'ذه', 'ذو', 'ذوا', 'ذواتا', 'ذواتي', 'ذي', 'ذين', 'ذينك', 'ريث', 'سوف', 'سوى', 'شتان', 'عدا', 'عسى', 'عل', 'على', 'عليك', 'عليه', 'عما', 'عن', 'عند', 'غير', 'فإذا', 'فإن', 'فلا', 'فمن', 'في', 'فيم', 'فيما', 'فيه', 'فيها', '

### 5. Stemming & Lemmatization

**Stemming**

Stemming adalah proses memotong kata menjadi bentuk dasarnya (stem) tanpa memperhatikan aturan tata bahasa.

Algoritma stemming biasanya bekerja dengan memotong akhiran (suffix) atau awalan (prefix) secara kasar.

Hasilnya kadang bukan kata yang valid dalam kamus, tapi cukup untuk tujuan analisis.

Contoh:

```python
"playing", "played", "plays" → "play"

"studies", "studying" → "studi" (bukan kata baku, tapi stem-nya dipakai komputer)
```

- Kelebihan:

    - Cepat dan sederhana.

    - Cocok kalau kita hanya butuh representasi kata dasar secara kasar.

- Kekurangan:

    - Bisa menghasilkan kata yang aneh (tidak ada di kamus).

    - Kurang akurat untuk bahasa yang kompleks.

**Lemmatization**

Lemmatization adalah proses mengubah kata menjadi lemma atau bentuk dasarnya, berdasarkan kamus dan aturan tata bahasa.

Memerlukan informasi part-of-speech (POS), misalnya kata kerja, kata benda, dll.

Hasilnya adalah kata yang valid dalam kamus.

Contoh:

```pyhton
"playing", "played", "plays" → "play"

"better" → "good"

"studies" → "study"
```

Kelebihan:

- Lebih akurat karena mempertimbangkan konteks bahasa.

- Hasilnya kata baku sesuai kamus.

Kekurangan:

- Lebih lambat daripada stemming.

- Membutuhkan resource tambahan (kamus linguistik).

| Aspek     | Stemming                             | Lemmatization               |
| --------- | ------------------------------------ | --------------------------- |
| Metode    | Memotong awalan/akhiran (rule-based) | Berdasarkan kamus + grammar |
| Hasil     | Bisa berupa kata yang tidak valid    | Kata valid dalam kamus      |
| Kecepatan | Cepat                                | Lebih lambat                |
| Akurasi   | Lebih rendah                         | Lebih tinggi                |


In [15]:
from nltk.stem import PorterStemmer, WordNetLemmatizer

stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

words = ["running", "better", "studies"]

print("Stemming:", [stemmer.stem(w) for w in words])
print("Lemmatization:", [lemmatizer.lemmatize(w) for w in words])

Stemming: ['run', 'better', 'studi']
Lemmatization: ['running', 'better', 'study']


### 6. Bag of Words Model

Bagaimana teks diubah jadi angka.

In [16]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    "I love this movie",
    "This movie is amazing",
    "I hate this film"
]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

print("Feature names:", vectorizer.get_feature_names_out())
print("Bag of Words matrix:\n", X.toarray())

Feature names: ['amazing' 'film' 'hate' 'is' 'love' 'movie' 'this']
Bag of Words matrix:
 [[0 0 0 0 1 1 1]
 [1 0 0 1 0 1 1]
 [0 1 1 0 0 0 1]]


---

### Latihan

In [32]:
import pandas as pd

data = {
    "review": [
        "I love this phone, the battery lasts long!",
        "The screen is too dark and not clear.",
        "Amazing camera quality, really happy with it!",
        "Worst purchase ever, waste of money.",
        "The design is nice but the performance is slow.",
        "Super fast delivery, very satisfied!",
        "Not worth the price at all.",
        "Good phone for the price."
    ],
    "sentiment": [
        "positive",   # 1
        "negative",   # 2
        "positive",   # 3
        "negative",   # 4
        "neutral",    # 5
        "positive",   # 6
        "negative",   # 7
        "neutral"     # 8
    ]
}

df = pd.DataFrame(data)
print(df)

                                            review sentiment
0       I love this phone, the battery lasts long!  positive
1            The screen is too dark and not clear.  negative
2    Amazing camera quality, really happy with it!  positive
3             Worst purchase ever, waste of money.  negative
4  The design is nice but the performance is slow.   neutral
5             Super fast delivery, very satisfied!  positive
6                      Not worth the price at all.  negative
7                        Good phone for the price.   neutral


📝 Soal Latihan
1. Intro Sentiment Analysis (15 menit)

Pertanyaan: Dari dataset di atas, berapa banyak review positif, negatif, dan netral?
(Hint: gunakan value_counts() di kolom sentiment)

2. Preprocessing Text (20 menit)

Lakukan preprocessing sederhana:

- ubah teks jadi lowercase

- hapus tanda baca dan angka

- hapus spasi berlebih

3. Tokenization (15 menit)

Tokenisasi setiap review menjadi kata-kata menggunakan nltk.word_tokenize.
Tuliskan hasil tokenisasi untuk 2 review pertama.

4. Stop Words (15 menit)

Hapus stopwords bahasa Inggris dari review ke-1 dan review ke-2.
(Hint: gunakan stopwords.words("english"))

5. Stemming & Lemmatization (20 menit)

Lakukan stemming dan lemmatization pada review ke-3:
"Amazing camera quality, really happy with it!"
Gunakan:

- PorterStemmer untuk stemming

- WordNetLemmatizer untuk lemmatization

6. Bag of Words Model (30 menit)

- Buat representasi Bag of Words dari semua review dengan CountVectorizer (scikit-learn).

- Tampilkan hasil matrix (fitur kata → jumlah kemunculan).

- Berapa banyak fitur (kata unik) yang terbentuk?

---

### Code here

In [None]:
# Code here

---

### Jawaban

In [33]:
# 1. Intro Sentiment Analysis
print(df["sentiment"].value_counts())

sentiment
positive    3
negative    3
neutral     2
Name: count, dtype: int64


In [36]:
# 2. Preprocessing Text
import re

df["cleaned"] = df["review"].apply(lambda x: re.sub(r"[^a-zA-Z\s]", "", x.lower()).strip())
print(df[["review","cleaned"]])

                                            review  \
0       I love this phone, the battery lasts long!   
1            The screen is too dark and not clear.   
2    Amazing camera quality, really happy with it!   
3             Worst purchase ever, waste of money.   
4  The design is nice but the performance is slow.   
5             Super fast delivery, very satisfied!   
6                      Not worth the price at all.   
7                        Good phone for the price.   

                                          cleaned  
0        i love this phone the battery lasts long  
1            the screen is too dark and not clear  
2     amazing camera quality really happy with it  
3              worst purchase ever waste of money  
4  the design is nice but the performance is slow  
5              super fast delivery very satisfied  
6                      not worth the price at all  
7                        good phone for the price  


In [37]:
# 3. Tokenization
from nltk.tokenize import word_tokenize

print(word_tokenize(df["cleaned"][0]))  # review 1
print(word_tokenize(df["cleaned"][1]))  # review 2

['i', 'love', 'this', 'phone', 'the', 'battery', 'lasts', 'long']
['the', 'screen', 'is', 'too', 'dark', 'and', 'not', 'clear']


In [38]:
# 4. Stopword Removal
from nltk.corpus import stopwords

stop_words = set(stopwords.words("english"))
remove_sw = lambda x: [w for w in word_tokenize(x) if w not in stop_words]

print(remove_sw(df["cleaned"][0]))  # review 1
print(remove_sw(df["cleaned"][1]))  # review 2


['love', 'phone', 'battery', 'lasts', 'long']
['screen', 'dark', 'clear']


In [40]:
# 5. Stemming & Lemmatization
from nltk.stem import PorterStemmer, WordNetLemmatizer

stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

text = df["cleaned"][2]  # review 3
tokens = word_tokenize(text)

print("Original:", tokens)
print("Stemming:", [stemmer.stem(w) for w in tokens])
print("Lemmatization:", [lemmatizer.lemmatize(w) for w in tokens])

Original: ['amazing', 'camera', 'quality', 'really', 'happy', 'with', 'it']
Stemming: ['amaz', 'camera', 'qualiti', 'realli', 'happi', 'with', 'it']
Lemmatization: ['amazing', 'camera', 'quality', 'really', 'happy', 'with', 'it']


In [28]:
# 6. Bag of Words Model
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df["cleaned"])

print(vectorizer.get_feature_names_out())  # daftar fitur
print(X.toarray())  # matrix
print("Jumlah fitur unik:", len(vectorizer.get_feature_names_out()))

['all' 'amazing' 'and' 'at' 'battery' 'but' 'camera' 'clear' 'dark'
 'delivery' 'design' 'ever' 'fast' 'for' 'good' 'happy' 'is' 'it' 'lasts'
 'long' 'love' 'money' 'nice' 'not' 'of' 'performance' 'phone' 'price'
 'purchase' 'quality' 'really' 'satisfied' 'screen' 'slow' 'super' 'the'
 'this' 'too' 'very' 'waste' 'with' 'worst' 'worth']
[[0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1
  1 0 0 0 0 0 0]
 [0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1
  0 1 0 0 0 0 0]
 [0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0
  0 0 0 0 1 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 0
  0 0 0 1 0 1 0]
 [0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 2 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 1 0 2
  0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0
  0 0 1 0 0 0 0]
 [1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1
  0 0 0 0 0 0 1]
 [0 0 0 0 0 0 0 0 0 0 0 