## Load Dataset

In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Machine Learning Homework 3/sentiment.csv', on_bad_lines='skip', delimiter='\t')

In [None]:
df.head()

Unnamed: 0.1,Unnamed: 0,comment,label,label_id
0,,واقعا حیف وقت که بنویسم سرویس دهیتون شده افتضاح,SAD,1.0
1,,قرار بود ۱ ساعته برسه ولی نیم ساعت زودتر از مو...,HAPPY,0.0
2,,قیمت این مدل اصلا با کیفیتش سازگاری نداره، فقط...,SAD,1.0
3,,عالللی بود همه چه درست و به اندازه و کیفیت خوب...,HAPPY,0.0
4,,شیرینی وانیلی فقط یک مدل بود.,HAPPY,0.0


In [None]:
df = df.drop(columns=['Unnamed: 0', 'label_id'])

In [None]:
df.head()

Unnamed: 0,comment,label
0,واقعا حیف وقت که بنویسم سرویس دهیتون شده افتضاح,SAD
1,قرار بود ۱ ساعته برسه ولی نیم ساعت زودتر از مو...,HAPPY
2,قیمت این مدل اصلا با کیفیتش سازگاری نداره، فقط...,SAD
3,عالللی بود همه چه درست و به اندازه و کیفیت خوب...,HAPPY
4,شیرینی وانیلی فقط یک مدل بود.,HAPPY


In [None]:
df.isnull().sum()

comment    0
label      0
dtype: int64

In [None]:
df['label'] = df['label'].apply(lambda i: np.nan if i=='0' or i == '1' else i)

In [None]:
df['label'].value_counts()

HAPPY    34916
SAD      34564
Name: label, dtype: int64

In [None]:
df = df.dropna(axis=0)

In [None]:
df.head()

Unnamed: 0,comment,label
0,واقعا حیف وقت که بنویسم سرویس دهیتون شده افتضاح,SAD
1,قرار بود ۱ ساعته برسه ولی نیم ساعت زودتر از مو...,HAPPY
2,قیمت این مدل اصلا با کیفیتش سازگاری نداره، فقط...,SAD
3,عالللی بود همه چه درست و به اندازه و کیفیت خوب...,HAPPY
4,شیرینی وانیلی فقط یک مدل بود.,HAPPY


## Preprocessing

###Remove Html Tag, urls, Non-alphanumeric

In [None]:
import re

In [None]:
def remove_tags(string):
    removelist = ""
    result = re.sub('','',string)    
    result = re.sub('https://.*','',result)  
    result = re.sub(r'\W', ' ', result, flags=re.UNICODE)
    result = result.lower()
    return result

In [None]:
df['comment']=df['comment'].apply(lambda cw : remove_tags(cw)) 

In [None]:
df

Unnamed: 0,comment,label
0,واقعا حیف وقت که بنویسم سرویس دهیتون شده افتضاح,SAD
1,قرار بود ۱ ساعته برسه ولی نیم ساعت زودتر از مو...,HAPPY
2,قیمت این مدل اصلا با کیفیتش سازگاری نداره فقط...,SAD
3,عالللی بود همه چه درست و به اندازه و کیفیت خوب...,HAPPY
4,شیرینی وانیلی فقط یک مدل بود,HAPPY
...,...,...
69995,سلام من به فاکتور غذاهایی که سفارش میدم احتیاج...,SAD
69996,سایز پیتزا نسبت به سفارشاتی که قبلا گذشتم کم ش...,SAD
69997,من قارچ اضافه رو اضافه کرده بودم بودم اما اگر ...,HAPPY
69998,همرو بعد ۲ساعت تاخیر اشتباه آوردن پولشم رفت رو...,SAD


###remove stop word 

In [None]:
!pip install hazm

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
from hazm.utils import stopwords_list

In [None]:
stop_words = stopwords_list()

In [None]:
df['comment'] = df['comment'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop_words)]))

In [None]:
df.head()

Unnamed: 0,comment,label
0,واقعا حیف وقت بنویسم سرویس دهیتون افتضاح,SAD
1,قرار ۱ ساعته برسه نیم ساعت زودتر موقع ببین چقد...,HAPPY
2,قیمت مدل اصلا کیفیتش سازگاری نداره ظاهر فریبند...,SAD
3,عالللی درست اندازه کیفیت امیداورم کیفیتتون باش...,HAPPY
4,شیرینی وانیلی مدل,HAPPY


###lemmatization | ریشه یابی

In [None]:
import hazm

In [None]:
w_tokenizer = hazm.WordTokenizer()
lemmatizer = hazm.Lemmatizer()
def lemmatize_text(text):
  st = ""
  for item in w_tokenizer.tokenize(text):
    st += lemmatizer.lemmatize(item) + " "
  st = st.strip()
  return st

In [None]:
df['comment'] = df['comment'].apply(lemmatize_text)

In [None]:
df.head()

Unnamed: 0,comment,label
0,واقعا حیف وقت نوشت#نویس سرویس دهیتون افتضاح,SAD
1,قرار ۱ ساعته برسه نیم ساعت زود موقع دید#بین چق...,HAPPY
2,قیمت مدل اصلا کیفیت سازگار نداره ظاهر فریبنده ...,SAD
3,عالللی درست اندازه کیفیت امیداورم کیفیتتون باش...,HAPPY
4,شیرینی وانیل مدل,HAPPY


## Train Test Split | Label Encoding

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 69480 entries, 0 to 69999
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   comment  69480 non-null  object
 1   label    69480 non-null  object
dtypes: object(2)
memory usage: 1.6+ MB


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

In [None]:
X = df['comment'].values
y = df['label'].values
encoder = LabelEncoder()
y = encoder.fit_transform(y)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

## Train & Test

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from collections import defaultdict
import math 
from sklearn.metrics import accuracy_score

In [None]:
X_train.shape

(48636,)

In [None]:
y_train.shape

(48636,)

In [None]:
vec = CountVectorizer(max_features = 3000)
X_train = vec.fit_transform(X_train)

vocab = vec.get_feature_names_out()
X_train = X_train.toarray()

In [None]:
X_test = vec.transform(X_test)

In [None]:
X_test = X_test.toarray()

In [None]:
class NaiveBayes:
  def fit(self, X, y):
    self.classes = np.unique(y)
    self.num_classes = len(self.classes)
    self.num_features = X.shape[1]
    self.feature_pb = np.zeros((self.num_classes, self.num_features))
    self.target_pb = np.zeros(self.num_classes)

    for i, c in enumerate(self.classes):
      X_c = X[y == c]
      self.target_pb[i] = len(X_c) / len(X)
      self.feature_pb[i] = X_c.mean(axis=0)

  def predict(self, X):
    result = np.zeros(len(X))
    for idx, row in enumerate(X):
      prob_class = np.zeros(self.num_classes)
      for i, c in enumerate(self.classes):
        pred = self.target_pb[i] 
        for i_f, col in enumerate(row):
          if col == 1 :
            pred *= self.feature_pb[i][i_f]
        prob_class[i] = pred
      result[idx] = np.argmax(prob_class) 
    return result

In [None]:
model = NaiveBayes()
model.fit(X_train, y_train)

In [None]:
y_pred = model.predict(X_test)

In [None]:
accuracy_score(y_test, y_pred)

0.7448666282863174