# Sentiment Analysis dengan DistilBERT

Notebook ini mendemonstrasikan analisis sentimen menggunakan model DistilBERT dari Hugging Face Transformers. Kita akan menganalisis sentimen dari teks dalam bahasa Indonesia.

In [None]:
%pip install transformers torch

In [3]:
from transformers import pipeline

sentiment = pipeline(
    "sentiment-analysis", # type: ignore
    model="distilbert/distilbert-base-uncased-finetuned-sst-2-english"
) # pyright: ignore[reportArgumentType, reportCallIssue]

Device set to use mps:0


In [16]:
print(sentiment("This movie so good enough!"))
print(sentiment("This movie so terrible!"))
print(sentiment("This movie is okay? not sure, story seems average. but acting not so weird. nice try."))

[{'label': 'POSITIVE', 'score': 0.9998571872711182}]
[{'label': 'NEGATIVE', 'score': 0.9997599720954895}]
[{'label': 'POSITIVE', 'score': 0.688407838344574}]


# Penjelasan Hasil Analisis
- **"This movie so good enough!"**: Diprediksi sebagai POSITIVE dengan score tinggi (~0.9999), yang benar karena kata "good" menunjukkan positif.
- **"This movie so terrible!"**: Diprediksi sebagai NEGATIVE dengan score tinggi (~0.9998), yang benar karena kata "terrible" menunjukkan negatif.
- **"This movie is okay? not sure, story seems average. but acting not so weird. nice try."**: Diprediksi sebagai POSITIVE dengan score sedang (~0.6884). Model menebak positif karena kata seperti "nice try" dan "acting not so weird" dianggap positif, meskipun teks ambigu dan netral secara keseluruhan. Score <0.7 menunjukkan ketidakyakinan model.

Model ini akurat untuk teks Inggris sederhana, tapi kurang untuk bahasa lain seperti Indonesia.

### QnA: Pertanyaan dan Jawaban
**Pertanyaan 1: Bagaimana cara kerjanya, gimana bisa mengetahui sentiment dari text?**

Jawaban: Model sentiment analysis seperti DistilBERT bekerja dengan langkah-langkah berikut:
1. **Tokenisasi**: Teks dipecah menjadi token (kata atau sub-kata) menggunakan tokenizer model.
2. **Embedding**: Setiap token diubah menjadi vektor numerik (embedding) yang mewakili makna kata dalam konteks.
3. **Proses Transformer**: Model menggunakan arsitektur Transformer untuk memahami hubungan antar token, fokus pada konteks keseluruhan teks.
4. **Klasifikasi**: Output dari Transformer diproses oleh layer klasifikasi (biasanya softmax) untuk memprediksi label seperti POSITIVE atau NEGATIVE, dengan score probabilitas.
5. **Pelatihan**: Model dilatih pada dataset berlabel (positif/negatif) untuk belajar pola sentiment dari jutaan contoh teks.

Dengan cara ini, model "belajar" mengenali pola kata dan konteks yang menunjukkan sentimen positif atau negatif, tanpa aturan manual.

**Pertanyaan 2: Bagaimana model bisa paham, sertakan paper dan penjelasan singkatnya?**

Jawaban: Model DistilBERT adalah versi ringkas dari BERT (Bidirectional Encoder Representations from Transformers), yang belajar memahami bahasa melalui pre-training pada teks besar tanpa label, lalu fine-tuned untuk tugas spesifik seperti sentiment analysis.

- **Pre-training**: Model dilatih untuk memprediksi kata yang hilang dalam kalimat (Masked Language Modeling) dan apakah dua kalimat berurutan (Next Sentence Prediction). Ini membuat model paham konteks kata dalam teks.
- **Fine-tuning**: Untuk sentiment, model dilatih lagi pada dataset berlabel (seperti SST-2) untuk mengklasifikasikan teks sebagai positif/negatif.
- **Arsitektur**: Menggunakan self-attention untuk fokus pada kata penting, memahami nuansa seperti sarkasme atau konteks.

Referensi Paper:
- **BERT**: "[BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" oleh Jacob Devlin et al. (2018)](https://arxiv.org/abs/1810.04805). Paper ini memperkenalkan BERT, yang revolusioner karena memahami konteks dua arah (kiri-kanan dan kanan-kiri).
- **DistilBERT**: "[DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter" oleh Victor Sanh et al. (2019)](https://arxiv.org/abs/1910.01108). Paper ini menjelaskan cara membuat BERT lebih efisien dengan distillation, mempertahankan akurasi sambil mengurangi ukuran.

Model "paham" karena belajar pola statistik dari data besar, bukan aturan grammar manual. Untuk detail lebih lanjut, baca paper di arXiv atau Hugging Face docs.

**Pertanyaan 3: Kalau hasil ambigu atau score tidak tinggi, gimana?**

Jawaban: Jika score rendah (misalnya <0.7), model tidak yakin dengan prediksi. Ini bisa terjadi pada teks ambigu, netral, atau sarkastik. Contoh:
- Teks "This movie is okay" mungkin score POSITIVE ~0.6, NEGATIVE ~0.4â€”model menebak positif tapi tidak yakin.
- Solusi: Gunakan model dengan label netral (seperti `nlptown/bert-base-multilingual-uncased-sentiment` yang punya POSITIVE, NEGATIVE, NEUTRAL), atau analisis konteks manual. Score rendah menunjukkan teks tidak jelas sentimennya.

### List Model untuk Eksperimen
Coba ganti model di pipeline dengan salah satu dari list berikut untuk eksperimen sentiment analysis. Ganti `model="..."` di cell pipeline:

1. `distilbert-base-uncased-finetuned-sst-2-english` (default, untuk Inggris)
2. `nlptown/bert-base-multilingual-uncased-sentiment` (multilingual, mendukung banyak bahasa termasuk Indonesia)
3. `cardiffnlp/twitter-roberta-base-sentiment` (untuk teks sosial media seperti Twitter)
4. `j-hartmann/emotion-english-distilroberta-base` (deteksi emosi: joy, sadness, dll.)
5. `roberta-base` (RoBERTa base, perlu fine-tune manual)
6. `bert-base-multilingual-uncased-sentiment` (multilingual BERT untuk sentiment)
7. `xlnet-base-cased` (XLNet, alternatif Transformer)
8. `albert-base-v2` (ALBERT, lebih efisien)
9. `distilroberta-base` (DistilRoBERTa, ringkas)
10. `facebook/bart-large-mnli` (BART untuk zero-shot classification, bisa adaptasi untuk sentiment)

Coba ganti model atau teks untuk eksperimen!