# Repository Structure
***
1. Project Folder
- **./dataset** : menyimpan dataset .csv hasil web-scraping (episode 1 dan episode 2) serta file .csv hasil merging kedua file tersebut
- **./resources** : menyimpan semua sumber daya untuk project ini (lexicon, slangwords, stopwords, dan lainnya) untuk bahasa Indonesia

2. Notebook Filename
- Setiap file notebook pada repository ini diberi nama dengan konvensi sebagai berikut:
    - "**\<nomor_file>-\<nama_file>**"
    - ***nomor_file*** menunjukkan urutan notebook tersebut harus dibuka oleh pembaca
    - ***nama_file*** menyatakan deskripsi singkat dari isi file tersebut

3. Other files
- File-file lainnya disimpan dalam format .txt 
    - Kriteria project
    - File ***requirements.txt*** yang berisi package requirements (python) yang diperlukan untuk menjalankan project ini pada virtual environtment

# Project Title
***
**Analisis Sentimen pada Video Youtube berjudul "Clash of Champions (Ruang Guru)" dengan Bi-directional Long short-term memory dan Ekstrasi Fitur Ensemble**
***
Sentiment Analysis on YouTube Video entitled "Clash of Champions (Ruang Guru)" with Bi-directional Long short-term memory and Ensemble Feature Extraction

# Background and Problems
***
1. Banyak tayangan yang tampil di TV Indonesia sudah tidak mendidik (sinetron, pembunuhan, korupsi, kejahatan, pertengkaran politik, dll)
2. Konten edukasi yang ditayangkan oleh **Ruang Guru** berjudul **Clash of Champions** sedang trending dan hype di platform Youtube, X, Tiktok, dan Instagram per awal bulan Juli 2024. Video ini serupa dengan acara *University War* yang diadakan di Korea
3. Dengan menganalisis penerimaan masyarakat terhadap konten tersebut harapannya dapat membantu Ruang Guru dalam menyajikan konten serupa (apabila sentimen positif lebih besar)

***
**Problems** <br>
1. Bagaimana sebenarnya pandangan dan sentimen masyarakat terhadap konten yang sedang hyper tersebut? Apakah diterima (positif) atau tidak diterima (negatif)
2. Bagaimana pendekatan deep learning dapat dimanfaatkan untuk bisa mengamati fenomena tersebut menggunakan data teks (komentar) yang diunggah pengguna pada platform youtube video tersebut?

# Objectives
***
- Mengetahui sentimen masyarakat terhadap konten youtube video tersebut
- Melihat atensi masyarakat terhadap konten edukasi entertainment

***
**Harapan** <br>
1. Ruang Guru dapat mendapatkan insight terhadap program acara yang dibuatnya terkait pandangan masyarakat terhadap konten tersebut dan bisa menjadi sarana promosi ke vendor-vendor untuk menjual lisensinya agar bisa diakses lebih luas lagi
2. Bisa diatensi pemerintah (**TVRI, KPI, Kemdikbud, dll**) untuk bisa ditayangkan di platform tv nasional ataupun lisensinya dibeli oleh TV swasta untuk menampilkan tayangan yang mengedukasi masyarakat di Indonesia


# Methodologies

## Data Collection 
***
- Data diperoleh dari proses web-scraping pada platform Youtube untuk mendapatkan komentar dari pengguna terhadap video "Clash of Champion" yang diselenggarakan oleh Ruang Guru
- Package **googleapiclient** dengan Python dimanfaatkan untuk proses web-scraping
- Data komentar yang di-scraping adalah dari **Episode 1** dan **Episode 2** untuk melihat antuasisme dan sentimen masyarakat terhadap acara (konten) yang dibuat oleh Ruang Guru (*apakah diterima masyarakat dengan baik atau tidak*)

## Data Preprocessing
***
**Tahapan Preprocessing** <br>
1. Case folding
2. Remove multiple whitespace
3. Change each punctiation with specific symbol (e.g \<PUNC> for feature extraction purpose)
4. Slang word normalization

***
- Data hasil preprocessing disimpan untuk digunakan pada tahap berikutnya

## Data Labelling
***
- Raw data (data komentar pengguna) dilabeli dengan menggunakan **Lexicon-based Approach** dan **Supervised-based Approach** ke dalam kelas *Positif*, *Negatif*, dan *Neutral*
1. **Lexicon-based Approach**
    - Beberapa sumber lexicon berbahasa Indonesia (file ada di folder **./resources**) digunakan untuk mendapatkan skor polaritas baik dari kata-kata dan emotikon yang ada pada setiap komentar
    - Label yang diberikan pada setiap data menggunakan aturan sederhana dan memperhatikan threshold tertentu berdasarkan pengamatan pada hasil scoring dengan lexicon nantinya, semisal:
        - kurang dari -0,2 diberi **Negatif**
        - -0,2 sampai 0,2 diberi **Netral**
        - Lebih dari 0,2 diberi **Positif**
    - Angka 0,2 (Threshold) tersebut nantinya ditentukan berdasarkan hasil scoring pada dataset sehingga belum tentu bernilai 0,2
2. **Supervised-based Approach**
    - Hand-crafted features akan diekstraksi dari setiap komentar lalu dilabeli secara otomatis dengan model SVM pada scikit-learn sebagai ground truth labels
    - Hand-crafted features yang diekstraksi:
        - Total skor kata-kata dengan polaritas positif
        - Total skor kata-kata dengan polaritas negatif
        - Total skor kata-kata dengan polaritas neutral
        - Total skor emoticon dengan polaritas positif 
        - Total skor emoticon dengan polaritas negatif
        - Total skor emoticon dengan polaritas neutral
        - Total punctuation yang digunakan
***
- Dua pendekatan pelabelan pada dataset menjadi **BAGIAN DARI EKSPERIMEN** pada project ini. 
- Performa dari model yang diusulkan pada project ini akan dibandingkan dengan dua pendekatan tersebut

## Feature Extraction
***
- Tiga tipe fitur digunakan untuk mengklasifikasikan komentar ke dalam suatu label:
    1. Lexicon-based Features
        - Total skor kata-kata dengan polaritas positif
        - Total skor kata-kata dengan polaritas negatif
        - Total skor kata-kata dengan polaritas neutral
        - Total skor emoticon dengan polaritas positif 
        - Total skor emoticon dengan polaritas negatif
        - Total skor emoticon dengan polaritas neutral
    2. TF-IDF
        - Menghitung bobot kepentingan suatu kata pada korpus
        - Dihitung dari data training untuk mengestimasi data testing
    3. Word Embedding 
        - Menggunakan rata-rata vektor dari setiap kata penyusun pada suatu data 
        - Pretrained word embedding (**FastText** dan **Glove**) berbahasa Indonesia akan diunduh dan digunakan pada tahap ini
***
- Tipe fitur yang diekstraksi dan kombinasinya menjadi **BAGIAN DARI EKSPERIMEN** pada project ini

## Data Splitting
***
- Dataset hasil ekstraksi fitur akan displit ke dalam tiga subset:
    1. Data Training
    2. Data Testing 
    3. Data Cross-validation (Stratified K-Fold)
        - Displit dari data training yang sudah displit
***
- Proporsi jumlah data training, testing, dan cv menjadi **BAGIAN DARI EKSPERIMEN** pada project ini

## Modelling
***
**Proposed Model** <br>
- Model yang diusulkan adalah menggunakan arsitektur deep learning
- Model yang diusulkan dilatih dengan satu atau lebih jenis kombinasi fitur
    - Lexicon-based features
    - TF-IDF
    - Word Embedding
    - TF-IDF + Word Embedding
    - All features
    - All features + Feature reduction with t-SNE
    - All features + Feature reduction with PCA
***
**Baseline Model** <br>
- Model pengklasifikasi berbasis machine learning classic (Gaussian Naive Bayes, Random Forest, Multilayer Perceptron) dengan pengaturan hyperparameter default digunakan untuk membandingkan kinerja dari model usulan dengan fitur TF-IDF saja
***

## Evaluation
***
- Performa dari model usulan dan model baseline dievaluasi pada **Data Testing** dengan metriks recall, precision, dan F1-score dengan pembobotan *macro* dan *weighted*
- Performa rata-rata dari model usulan dan model baseline dievaluasi pada **Data Cross-validation** dengan metriks recall, precision, dan F1-score dengan pembobotan *macro* dan *weighted*

***
**Overfitting check** <br>
- Performa model juga diukur pada data training untuk mengukur selisih performa antara fase training dan testing

## Inferencing new data
***
- Pretrained model terbaik hasil eksperimen akan disimpan (dalam format \*.pkl) untuk tahap **inferensi** dari data baru yang 