## Bag Of Words
---
## Sentiment Analysis


**Sentiment Analysis** adalah proses otomatis untuk mengidentifikasi dan mengklasifikasikan opini atau sentimen yang terkandung dalam sebuah teks, biasanya menjadi kategori positif, negatif, atau netral. Teknik ini banyak digunakan dalam bidang Natural Language Processing (NLP).

Sentiment Analysis bertujuan untuk memahami sikap, emosi, atau opini seseorang terhadap suatu topik, produk, layanan, atau peristiwa berdasarkan data teks seperti ulasan, komentar media sosial, atau artikel berita.

#### Manfaat
- **Memahami opini pelanggan**: Membantu perusahaan mengetahui kepuasan dan keluhan pelanggan.

- **Monitoring brand reputation**: Memantau persepsi publik terhadap merek atau produk.

- **Pengambilan keputusan bisnis**: Memberikan insight untuk strategi pemasaran dan pengembangan produk.

- **Analisis tren**: Mengidentifikasi perubahan sentimen publik terhadap isu tertentu.

#### Pros
- **Otomatisasi analisis data besar**: Dapat menganalisis ribuan hingga jutaan data teks secara cepat.

- **Real-time monitoring**: Memungkinkan pemantauan sentimen secara langsung.

- **Insight mendalam**: Memberikan pemahaman lebih dalam tentang opini publik.

#### Cons
- **Ambiguitas bahasa**: Sulit mendeteksi sarkasme, ironi, atau konteks tertentu.

- **Ketergantungan pada data**: Hasil analisis sangat bergantung pada kualitas dan representasi data.

- **Keterbatasan bahasa**: Model mungkin kurang akurat untuk bahasa atau dialek tertentu.

#### Kapan Digunakan?
- Analisis ulasan produk atau layanan.

- Monitoring media sosial dan opini publik.

- Evaluasi kampanye pemasaran.

- Analisis feedback pelanggan.

- Penelitian akademik tentang opini masyarakat.

Sentiment Analysis sangat bermanfaat untuk memahami persepsi dan emosi yang tersembunyi dalam data teks, sehingga dapat mendukung pengambilan keputusan yang lebih baik.

#### Disaat kita ingin menyelesaikan kasus Sentiment Analysis kita perlu melakukan :

1. Menyiapkan Dataset.

2. Melakukan Text Preprocessing (Cleaning Process):

    - Tokenization.

    - Lowercase text or word (setelah melakukan tokenization, penting untuk lower semua word).

    - Regular Expression (removing special character).

3. Text Preprocessing 2 :

    - Stemming and lemmatization

    - Stopwords

4. Text to Vectors (vectors = numerical format atau data), (Penting untuk Deep Learning), tujuannya untuk memberikan informasi yang semantik (bermakna) dalam bentuk text. Gensim Library membantu dalam text to vectors. (Ada Gambar dibawah)

    - One Hot Encoded (convert fitur kategorial menjadi numerik) ---> biasa digunakan dalam machine learning.

    - Bag of Words (BOW)

    - TFIDF (convert text to vectors)

    - Word2Vec (Word Embedding, Deep Learning)

    - AvgWord2Vec

5. Model Training (Machine Learning atau DL Algorithm)

6. Hasil Output Prediksi dan Evaluasi Model

```pgsql
Text                        O/P
--------------------------------
D1   The food is good        1
D2   The food is bad         0
D3   Pizza is Amazing        1
D4   Burger is bad           0
```

---

## One Hot Encoding

Mengubah beberapa kata atau words menjadi vectors. Vocabulary atau Unique Words itu penting banget disaat kita membuat vector.




```pgsql
Text                        O/P
--------------------------------
D1   The food is good        1
D2   The food is bad         0
D3   Pizza is Amazing        1
D4   Burger is bad           0
```

Kita cari tau berapa jumlah unique word nya : (v = 7)
```bash
"The food is good bad pizza amazing" -----> Unique words (Vocabulary)
  1    0  0    0   0    0      0
  0    1  0    0   0    0      0
  0    0  1    0   0    0      0
  0    0  0    1   0    0      0
  0    0  0    0   1    0      0
  0    0  0    0   0    1      0
  0    0  0    0   0    0      1
```


```bash
D1 ---> The food is good

One Hot Encode :

 "The food is good"

4x7
[
  [1 0 0 0 0 0 0],
  [0 1 0 0 0 0 0],
  [0 0 1 0 0 0 0],
  [0 0 0 1 0 0 0]
]

D3 ---> Pizza is Amazing

One Hot Encode :

 "Pizza is Amazing"

3x7
[
  [0 0 0 0 0 1 0],
  [0 0 1 0 0 0 0],
  [0 0 0 0 0 0 1]
]
```


#### Kelebihan
- Mudah untuk implementasi dengan python {sklearn OneHotEncoder, pd.get_dummies()---> membantu onehotencode}.


#### Kekurangan
- Membuat Sparse Matriks (Linear Algebra) jadi bisa overfitting. apa itu overfitting ? kita dapat hasil dan akurasi yang bagus dengan training data, tapi kalau semisal dengan data baru dia enggak bakal kasih akurasi yang bagus atau hasil yang bagus.

- Tidak menemukan text sized yang fix atau fixed text sized karena ukurannya beda2.

- untuk algoritma ML kita butuh fix sized input.

- Enggak ada makna semantik yang didapatkan. tidak bisa menemukan jarak dan kesamaan dari vector (text to vector).

- tidak bisa membedakan perbedaan makna dari masing2 kata atau word pada saat text ----> vector :
    1. Mana kata yang penting ?

    2. Bagaimana kata ini bisa berhubungan dengan kata lainnya ?

    3. Bagaimana kata ini bisa mirip dengan kata lainnya ?

- Out of Vocabulary (OOV), semisal kita ada banyak jumlah vocabulary, kita mau test model kita dengan data baru :

```bash
Data lama ---> The food is good bad pizza amazing

Text data baru ----> Burger is bad
```

OOV itu tidak bisa menentukan.

![image.png](attachment:image.png)



![image.png](attachment:image.png)

---

## Bag Of Words (BOW)

**Bag of Words (BoW)** adalah teknik representasi teks dalam bentuk numerik dengan cara menghitung frekuensi kemunculan setiap kata unik (vocabulary) dalam dokumen tanpa memperhatikan urutan atau struktur kata. Setiap dokumen diubah menjadi vektor berdasarkan jumlah kata-kata yang muncul.

#### Manfaat
- **Menyederhanakan teks** menjadi format numerik yang mudah diproses oleh algoritma machine learning.

- **Memudahkan analisis** dokumen seperti klasifikasi, clustering, dan pencarian informasi.

- **Dasar untuk teknik lanjutan** seperti TF-IDF dan Word Embedding.

#### Kapan Digunakan?
- Analisis sentimen.

- Klasifikasi dokumen (spam detection, topic classification).

- Pencarian dokumen (information retrieval).

- Clustering teks.

#### Kelebihan
- **Mudah diimplementasikan** dan dipahami.

- **Efisien** untuk dataset kecil dan aplikasi sederhana.

- **Tidak membutuhkan pengetahuan linguistik** yang mendalam.

#### Kekurangan
- **Mengabaikan urutan kata** sehingga kehilangan konteks dan makna semantik.

- **Membuat matriks yang sangat besar dan sparse** jika vocabulary banyak.

- **Tidak membedakan kata penting dan tidak penting** (semua kata diperlakukan sama).

- **Tidak menangani Out of Vocabulary (OOV)** untuk kata baru di data uji.

#### Bagaimana BOW bekerja ?

##### 1.  Siapkan Dataset

```pgsql
Text                          O/P
--------------------------------
He is a good boy               1
She is a good girl             1
Boy and girl are good          1
```

##### 2. Lower semua word atau text dan gunakan Stopwords

Sebelum di stopwords :

```bash
S1 ---> He is a good boy : he, is, a nanti dihapus
S2 ---> She is a good girl : she, is, a dihapus
S3 ----> Boy and girl are good : and, are dihapus
```

Sesudah Stopwords :

```bash
S1 ---> good boy
S2 ---> good girl
S3 ----> Boy girl good
```

Tentukan jumlah Vocabulary nya : 

```bash
1. Vocabulary --> good, Frequency --> 3
2. Vocabulary --> boy, Frequency --> 2
3. Vocabulary --> girl, Frequency --> 2
```

Diurutkan dalam descending order atau dari besar ke kecil karena yang besar akan menjadi yang pertama. max to min order.

Fitur yang akan diambil nanti tergantung berapa banyak text yang disebut atau frekuensi mana yang paling banyak.

```bash

disini kita cuman jadi 1 kalau ada huruf yg muncul aja

S1 --> good     boy     (girl) --> O/P : 1

       [ 1        1       0 ] --> vector

S2 --> good     (boy)   girl --> O/P : 1

       [ 1        0       1 ] --> vector

S3 --> boy     girl    good --> O/P : 1

       [ 1        1      1 ] --> vector
```






Misal kata ada data baru :

```bash
new text --> good girl good

S1 --> good     boy     (girl) --> O/P : 1

       [ 2        1       0 ] --> vector

S2 --> good     (boy)   girl --> O/P : 1

       [ 2        0       1 ] --> vector

S3 --> boy     girl    good --> O/P : 1

       [ 1        1      2 ] --> vector
```



##### Ada 2 macem BOW :
1. Binary Bag of words. Walaupun misal dia dihitung jumlah frekuensi nya itu 2 dia bakalan tetep jadi 1 dan 0 aja.

2. BOW aja. Bisa Tambahin jumlah (Bisa update) semau kita tergantung berapa kali kata itu muncul atau sering digunakan.

### Implementasi BOW with NLTK

In [1]:
import pandas as pd

# baca file txt dengan delimiter tab
messages = pd.read_csv("SMSSpamCollection.txt", sep="\t", names=["label", "message"])

messages.head()

Unnamed: 0,label,message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [2]:
# Data Cleaning and Preprocessing
import re
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Vanya\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer

# inisiliasi stemmer
ps = PorterStemmer()

In [4]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

lemma = WordNetLemmatizer()

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Vanya\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [5]:
# stemmer
corpus = []

for i in range(0, len(messages)):
    review = re.sub('[^a-zA-Z]', ' ', messages['message'][i])
    review = review.lower()
    review = review.split()
    review = [ps.stem(word) for word in review if not word in set(stopwords.words('english'))]
    review = ' '.join(review)
    corpus.append(review)

In [7]:
# lemma
corpus = []

for i in range(0, len(messages)):
    review = re.sub('[^a-zA-Z]', ' ', messages['message'][i])
    review = review.lower()
    review = review.split()
    review = [lemma.lemmatize(word) for word in review if not word in set(stopwords.words('english'))]
    review = ' '.join(review)
    corpus.append(review)

In [8]:
corpus

['go jurong point crazy available bugis n great world la e buffet cine got amore wat',
 'ok lar joking wif u oni',
 'free entry wkly comp win fa cup final tkts st may text fa receive entry question std txt rate c apply',
 'u dun say early hor u c already say',
 'nah think go usf life around though',
 'freemsg hey darling week word back like fun still tb ok xxx std chgs send rcv',
 'even brother like speak treat like aid patent',
 'per request melle melle oru minnaminunginte nurungu vettam set callertune caller press copy friend callertune',
 'winner valued network customer selected receivea prize reward claim call claim code kl valid hour',
 'mobile month u r entitled update latest colour mobile camera free call mobile update co free',
 'gonna home soon want talk stuff anymore tonight k cried enough today',
 'six chance win cash pound txt csh send cost p day day tsandcs apply reply hl info',
 'urgent week free membership prize jackpot txt word claim c www dbuk net lccltd pobox ldnw rw'

In [13]:
# Create BOW Model
from sklearn.feature_extraction.text import CountVectorizer

# BOW biasa
# cv = CountVectorizer(max_features=100)
# 2 3 4 5 6 

# untuk binary BOW
cv = CountVectorizer(max_features=100, binary=True)
# 1 dan 0
# frekuensi kamu itu 5 6 7 = di force menjadi 1 dan 0 aja


In [14]:
X = cv.fit_transform(corpus).toarray()

In [15]:
X

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], shape=(5572, 100))

In [16]:
X.shape

(5572, 100)