# Daftar 3 Proyek NLP

Berikut adalah tiga proyek Natural Language Processing (NLP) yang dirancang untuk membangun keterampilan Anda secara bertahap, dari dasar hingga tingkat lanjut.

---

### Proyek 1: Klasifikasi Topik Berita (Level: Pemula - Menengah)

**Deskripsi:**
Membangun sebuah model yang dapat secara otomatis mengklasifikasikan artikel berita ke dalam kategori yang telah ditentukan (misalnya, 'Olahraga', 'Teknologi', 'Bisnis'). Ini adalah masalah **klasifikasi multikelas** yang fundamental dan merupakan titik awal yang bagus di NLP.

**Dataset yang Direkomendasikan:**
*   **AG News:** Berisi judul dan deskripsi berita dari 4 kategori (World, Sports, Business, Sci/Tech).
*   **20 Newsgroups:** Dataset klasik berisi ~20.000 dokumen dari 20 kategori. Tersedia di `sklearn.datasets`.

**Keterampilan dan Teknik yang Dipelajari:**
1.  **Preprocessing Teks:**
    *   Tokenisasi, lowercasing, penghapusan stopwords dan tanda baca.
2.  **Vectorization Klasik:**
    *   Mengimplementasikan dan membandingkan **Bag-of-Words (BoW)** dengan `CountVectorizer`.
    *   Mengimplementasikan dan membandingkan **TF-IDF** dengan `TfidfVectorizer`.
3.  **Model Machine Learning Klasik:**
    *   Melatih dan mengevaluasi **Naive Bayes**, **Logistic Regression**, dan **Support Vector Machines (SVM)**.
4.  **Evaluasi Klasifikasi Multikelas:**
    *   Menganalisis *confusion matrix* untuk melihat kesalahan klasifikasi antar kategori.
    *   Menggunakan metrik *precision*, *recall*, dan *F1-score* per kelas.

**Mengapa Ini Proyek yang Bagus untuk Portofolio:**
*   **Fondasi Kuat:** Mengajarkan seluruh pipeline NLP klasik dari A-Z.
*   **Praktis dan Mudah Dijelaskan:** Banyak aplikasi bisnis yang relevan (misal: routing email otomatis) dan hasilnya mudah diinterpretasikan.
*   **Menunjukkan Pemahaman Dasar:** Membuktikan bahwa Anda menguasai konsep inti seperti BoW vs TF-IDF sebelum melompat ke teknik yang lebih kompleks.

---

### Proyek 2: Deteksi Ujaran Kebencian atau Teks Toksik (Level: Menengah)

**Deskripsi:**
Membangun sebuah model untuk mengidentifikasi konten berbahaya (seperti ujaran kebencian, hinaan, atau toksisitas umum) dalam teks dari media sosial. Ini adalah masalah **klasifikasi biner** atau **multilabel** yang relevan secara sosial.

**Dataset yang Direkomendasikan:**
*   **Toxic Comment Classification Challenge (Kaggle):** Dataset populer dari komentar Wikipedia dengan label seperti `toxic`, `insult`, dll.
*   **Hate Speech and Offensive Language Dataset (Kaggle):** Dataset berbasis tweet.

**Keterampilan dan Teknik yang Dipelajari:**
1.  **Preprocessing Teks Informal:**
    *   Menangani slang, singkatan, emoji, typo, dan "noise" lain dari data media sosial.
2.  **Penanganan Data Tidak Seimbang (Imbalanced Data):**
    *   Menerapkan teknik seperti *class weighting* pada model atau *resampling* data (misal: SMOTE).
3.  **Word Embeddings & Deep Learning:**
    *   Menggunakan **Word Embeddings** pre-trained (misal: GloVe, FastText) untuk representasi kata yang lebih bermakna.
    *   Membangun model sekuensial seperti **LSTM (Long Short-Term Memory)** atau **GRU** yang dapat menangkap konteks kalimat.
4.  **Evaluasi Lanjutan:**
    *   Fokus pada metrik yang andal untuk data tidak seimbang seperti **AUC-ROC** atau **Average Precision Score**.

**Mengapa Ini Proyek yang Bagus untuk Portofolio:**
*   **Relevansi Dunia Nyata:** Menunjukkan kemampuan Anda untuk mengatasi masalah moderasi konten yang dihadapi oleh semua platform online.
*   **Peningkatan Skill Deep Learning:** Mendorong Anda untuk beralih dari model klasik ke arsitektur Neural Network yang lebih canggih (RNN/LSTM).
*   **Menangani Data "Liar":** Membuktikan bahwa Anda bisa bekerja dengan data yang tidak sempurna dan tidak seimbang, sebuah skenario yang sangat umum di industri.

---

### Proyek 3: Question Answering (QA) dengan Transfer Learning (Level: Lanjutan)

**Deskripsi:**
Membangun sistem yang dapat menemukan dan mengekstrak jawaban dari sebuah paragraf teks (konteks) berdasarkan pertanyaan yang diberikan. Proyek ini berfokus pada penggunaan **Transfer Learning** dengan model Transformer pre-trained.

**Dataset yang Direkomendasikan:**
*   **SQuAD (Stanford Question Answering Dataset):** Dataset standar emas untuk *Extractive Question Answering*. Terdiri dari pasangan (konteks, pertanyaan, jawaban).

**Keterampilan dan Teknik yang Dipelajari:**
1.  **Transfer Learning:**
    *   Memahami konsep inti di balik penggunaan model pre-trained seperti **BERT** atau variannya (**DistilBERT**, **RoBERTa**).
2.  **Fine-Tuning:**
    *   Mengambil model pre-trained dan melatihnya kembali secara spesifik pada dataset SQuAD.
3.  **Hugging Face Transformers Library:**
    *   Menggunakan library standar industri ini untuk memuat model, tokenizer, dan pipeline fine-tuning.
4.  **Pemrosesan Input/Output Kompleks:**
    *   Menangani input berupa pasangan `(konteks, pertanyaan)`.
    *   Memproses output model (probabilitas token awal dan akhir) untuk merekonstruksi jawaban teks.

**Mengapa Ini Proyek yang Bagus untuk Portofolio:**
*   **State-of-the-Art:** Anda akan bekerja dengan teknologi terdepan di NLP, yang sangat mengesankan di CV.
*   **Efisiensi dan Kecerdasan Rekayasa:** Menunjukkan bahwa Anda tahu kapan harus memanfaatkan model yang sudah ada (berdiri di atas bahu raksasa) daripada membangun semuanya dari nol.
*   **Keterampilan Serbaguna:** Menguasai library Transformers membuka pintu untuk menerapkan teknik serupa ke berbagai tugas NLP lainnya (klasifikasi, NER) dengan hasil yang unggul.