![University of Tehran](./img/UT.png)
#   <font color='red'><center>AI CA 3<center></font> 
## <center>Dr. Fadaei<center>
### <center>Daniyal Maroufi<center>
### <center>810098039<center>


## Aim

This assignment aims to use Naive Bayes networks to build a classifier model to predict the category of an article from Digikala using its excerpt.


In [90]:
from collections import defaultdict
import pandas as pd
import matplotlib.pyplot as plt
import re
from __future__ import unicode_literals
from hazm import *


# Load Data

First, we read the training and test data from csv files.

In [83]:
train_df=pd.read_csv('./Data/train.csv')
test_df=pd.read_csv('./Data/test.csv')
train_df

Unnamed: 0,content,label
0,فیلم‌های در حال اکران؛ موزیکال شاد خاله قورباغ...,هنر و سینما
1,پنج فیلمسازی که کوئنتین تارانتینو را عاشق سینم...,هنر و سینما
2,جانی آیو از اپل رفت جانی آیو دیگر نیازی به معر...,علم و تکنولوژی
3,احتمال عدم پشتیبانی iOS ۱۳ از آیفون ۵ اس، SE و...,علم و تکنولوژی
4,دزدان مغازه نماینده ژاپن در اسکار ۲۰۱۹ شد فیلم...,هنر و سینما
...,...,...
5195,امپراطوری اپ (فصل اول/بخش دوم) فصل اول – بخش د...,سلامت و زیبایی
5196,عدم ارتباطات اثربخش و تعارض در محیط کار وجود س...,سلامت و زیبایی
5197,اپل در سال ۲۰۲۰ چهار آیفون معرفی خواهد کرد! طب...,علم و تکنولوژی
5198,مارتینز: بلژیک باید مقابل فرانسه بدون ترس بازی...,سلامت و زیبایی


In [84]:
train_df.isnull().sum()

content    1
label      0
dtype: int64

In [85]:
test_df.isnull().sum()

content    0
label      0
dtype: int64

Because only one sample is null, we simply remove it from the training data.

In [86]:
train_df=train_df.dropna(how='any',axis=0) 

# Phase 1 - Data Preprocessing



In Natural Language Processing, it is agreed that using the root of the words is better for classification accuracy. The prefixes and postfixes of the words are not that necessary to be in sequence, and sometimes they may even inversely affect the accuracy because all forms of a word have the same meaning. For this purpose, there are two methods, Stemming and Lemmatization. Stemming removes the most common prefixes and postfixes of a word to find the root, while, Lemmatization uses an entire dictionary and finds the actual root of the words.

In [87]:
def clean_data(df):
    normalizer = Normalizer()
    lemmatizer = Lemmatizer()
    df['content']=df['content'].apply(lambda x: normalizer.normalize(x))
    df['content']=df['content'].apply(lambda x: word_tokenize(re.sub(r'[^\w\s]', '', x)))
    stp_words=set(stopwords_list())
    df['content']=df['content'].apply(lambda x: [lemmatizer.lemmatize(a) for a in x if a not in stp_words])
    return df

In [None]:
train_df=clean_data(train_df)
test_df=clean_data(test_df)


In [89]:
train_df

Unnamed: 0,content,label
0,"[فیلم, اکران, موزیکال, شاد, خاله, قورباغه, بزر...",هنر و سینما
1,"[فیلمسازی, کوئنتین, تارانتینو, عاشق, سینما, کم...",هنر و سینما
2,"[جان, آیو, اپل, جان, آیو, نیاز, معرف, تقریبا, ...",علم و تکنولوژی
3,"[احتمال, پشتیبان, iOS, ۱۳, آیفون, ۵, اس, SE, آ...",علم و تکنولوژی
4,"[دزد, مغازه, نماینده, ژاپن, اسکار, ۲۰۱۹, فیلم,...",هنر و سینما
...,...,...
5195,"[امپراطوری, اپ, فصل, اولبخش, فصل, دوماپ, گنجین...",سلامت و زیبایی
5196,"[ارتباطات, اثربخش, تعارض, محیط, کار, سازمان, و...",سلامت و زیبایی
5197,"[اپل, سال, ۲۰۲۰, آیفون, معرف, گزارش, JPMorgan,...",علم و تکنولوژی
5198,"[مارتینز, بلژیک, مقابل, فرانسه, ترس, بازی, سرم...",سلامت و زیبایی


# Phase 2 - Problem Procedure

In this assignment, we use the Bag of Words strategy. In this strategy, the position of the words in the sentence is not considered, and only the existence of the words is important. This assumption is not the best one as the order of the words in the sentence is essential too, but on our data, it is good enough to get good accuracy.



The basic formula of the Naive Bayes is shown as bellow:

![Naive Bayes](./img/NaiveBayes.jpg)

where *evidence, likelihood, prior, posterior probabilities, and predictor prior probability* in our problem are:

- The **evidence**(x) is the text input to the model, and the query is the category of the text
- The **posterior probability** is the probability of category(c) concerning given evidence(x). 
- The **likelihood** is the reverse of Posterior probability, the probability of the evidence(x) in category(c).
- The **prior probability** is category(c) probability among all categories.
- The **predictor prior probability** is the probability of the evidence(x) in a general text.

## Mapping Categories to Numbers

To convert categorical columns to numerical, we simply use map() pandas method.

In [93]:
cats=defaultdict(None)
for i, cat in enumerate(train_df['label'].unique()):
    cats[cat]=i
    print(i,' --> ',cat)


0  -->  هنر و سینما
1  -->  علم و تکنولوژی
2  -->  سلامت و زیبایی
3  -->  بازی ویدیویی


In [None]:
train_df['label']=train_df['label'].map(cats)
test_df['label']=test_df['label'].map(cats)


## Dividing Train Data to Classes

In [98]:
train_df_classes=[]
for i in range(len(cats)):
    train_df_classes.append(train_df.loc[train_df['label'].isin([0])])


## Calculating the Likelihood of the Words

In [106]:
def calc_liklihood(class_df):
    words_prob=defaultdict(lambda: 1)
    for _,row in class_df.iterrows():
        for j in range(len(row['content'])):
            word=row['content'][j]
            words_prob[word]+=1
    num_all_words_class=sum(words_prob.values())
    for word in words_prob:
        words_prob[word]/=num_all_words_class
    return words_prob


In [107]:
class_words=[]
for i in range(len(cats)):
    class_words.append(calc_liklihood(train_df_classes[i]))
