## Naive Bayes

In [1]:
from pprint import pprint
from math import log
import numpy as np
import pandas as pd
import operator

|  class  |  docs  |
| -------------- |-----------|
|spam| সে ভাল না|
|spam|সে খুব খারাপ মানুষ|
|spam|আমি খারাপ আছি|
|spam|রোবট খারাপ|
|ham|আমি ভাল আছি|
|ham|সুন্দর সুন্দর রোবট|
|ham|আমি রোবট ভালবাসি|
|ham|সে সুন্দর|
|ham|সে ভাল মানুষ|

<b>
Word Counts: {'সে': 4, 'ভাল': 3, 'খারাপ': 3, 'আমি': 3, 'রোবট': 3, 'সুন্দর': 3, 'মানুষ': 2, 'আছি': 2, 'না': 1, 'খুব': 1, 'ভালবাসি': 1}

Word counts in Spam: {'খারাপ': 3, 'সে': 2, 'ভাল': 1, 'না': 1, 'খুব': 1, 'মানুষ': 1, 'আমি': 1, 'আছি': 1, 'রোবট': 1} <br>
Word Counts in Ham: {'সুন্দর': 3, 'আমি': 2, 'ভাল': 2, 'রোবট': 2, 'সে': 2, 'আছি': 1, 'ভালবাসি': 1, 'মানুষ': 1} <br>
<br>
#Words:  26<br>
#Words in Spam:  12<br>
#Words in Ham:  14

### Marginal Probability

P(ভাল) = 3 / 26

P(Spam) = 4/9             [4 out of 9 documents are spam] <br>
P(Ham) = 5/9              [5 out of 9 documents are Ham]

### Conditional Probability
P(ভাল | Spam ) = 1/12 <br>
P(ভাল | Ham ) = 2/14

P(ভাল | Spam ) Means given evidence is Spam, what is the probability of ভাল? [Spam এ ভাল এর Probability ]<br>
P(ভাল | Ham ) Means given evidence is Ham, what is the probability of ভাল? [Ham এ ভাল এর Probability ]

### Goal
P(Spam | ভাল) = ?   [ ভাল এ Spam হওয়ার Probabilit]

### Conditional Probability Again [The Bayes Theorem]

From rules,
P(Spam | ভাল) = P( Spam এবং ভাল) / P(ভাল)  <br>
$$P(Spam | ভাল) = \frac{ P( Spam \cap ভাল) }{ P(ভাল)}$$

P(ভাল |Spam) = P( Spam এবং ভাল) / P(Spam)
$$P(ভাল |Spam) = \frac{ P( Spam \cap ভাল) }{P(Spam)}$$

So,
P(Spam | ভাল) = ( P(ভাল |Spam) * P(Spam)) / P(ভাল)
$$P(Spam | ভাল) = \frac{ P(ভাল | Spam)  P(Spam) }{ P(ভাল)}$$


P(Spam | ভাল) = ( 1/12 * 4/9 ) / 3/26 = 0.0004748338 <br>
P(Ham | ভাল ) = ( P(ভাল | Ham ) * P(Ham) ) / P(ভাল) = ( 2/14 * 5/9) / 3/26 = 0.00101750101

So, P(Ham | ভাল ) > P(Spam | ভাল)

### Bayes Theorem for Multiple Featuer.

Let, X=[x1, x2, x3]
$$P(Class | X) = \frac{ P(x1 | Class)   P(x2 | Class)   P(x3 | Class)  P(Class)  }{P(x1)   P(X2)   P(x3)}$$


P(Spam | ভাল রোবট ) =( P(ভাল | Spam) \* P(রোবট | Spam) \* P(Spam) ) / ( P(ভাল) \* P(রোবট) ) = 0.23 <br>


P(Ham | ভাল রোবট ) =( P(ভাল | Ham) \* P(রোবট | Ham) \* P(Ham) ) / ( P(ভাল) \* P(রোবট) ) = 0.85

So, P(Ham | ভাল রোবট ) > P(Spam | ভাল রোবট )

#### Terms
P(y|X)= ( P(X|y) *  P(y) ) / P(X) 

P(y) is called the prior probability, while P(y|X) is called the posterior probability. 

The factor that relates the two, P(X|y)/P(X), is called the likelihood ratio. 

Using these terms, Bayes' theorem can be rephrased as:

"The posterior probability equals the prior probability times the likelihood ratio."


#### Why Naive

It treat every feature independently regardless which order they appear.

example.
"today is a great day" and "great today is a day" gives same probability.

### Conditional Probability and Bayes theorem is equivalant but represents differently.

Conditional, P(A|B) = P(A and B) / P(B)

Bayes, P(A|B) = P(B|A)*P(A) / P(B) 

<b>The beauty of Bayes theorem is P(A and B) = P(B|A)*P(A)

## Coding Spam Filter Using Naive Bayes

In [57]:
spam=[
        'সে ভাল না',
        'পড়তে ভাল লাগে না',
        'সে খারাপ ছাত্র',
        'আমি খারাপ আছি',
        'সে পরিশ্রমী না',
        'আমার ভাল ভাল লাগে না',
        'জীবন খারাপ',
        'সে সুন্দর না',
        'সে দেখতে চৎকার না'
    ]
ham=[
        'আমি ভাল আছি',
        'আমি জীবন ভালবাসি',
        'আমি অনেক শক্তিশালী',
        'আমি আকর্ষণীয়',
        'আমি রোবট ভালবাসি',
        'সুন্দর সুন্দর রোবট',
        'খুব সুন্দর ফুল',
        'ফুল খুব চমৎকার',
        'আমার পড়তে ভাল লাগে'
    ]

In [58]:
# #Section B class data
# spam=[
#     'সে ভাল না',
#     'সে খুব খারাপ মানুষ',
#     'আমি খারাপ আছি',
#     'রোবট খারাপ'
# ]

# ham=[
#     'আমি ভাল আছ',
#     'সুন্দর সুন্দর রোবট',
#     'আমি রোবট ভালবাসি',
#     'সে সুন্দর',
#     'সে ভাল মানুষ'
# ]

In [59]:
corpus=spam.copy()
corpus.extend(ham)

In [60]:
print(corpus)

['সে ভাল না', 'পড়তে ভাল লাগে না', 'সে খারাপ ছাত্র', 'আমি খারাপ আছি', 'সে পরিশ্রমী না', 'আমার ভাল ভাল লাগে না', 'জীবন খারাপ', 'সে সুন্দর না', 'সে দেখতে চৎকার না', 'আমি ভাল আছি', 'আমি জীবন ভালবাসি', 'আমি অনেক শক্তিশালী', 'আমি আকর্ষণীয়', 'আমি রোবট ভালবাসি', 'সুন্দর সুন্দর রোবট', 'খুব সুন্দর ফুল', 'ফুল খুব চমৎকার', 'আমার পড়তে ভাল লাগে']


In [61]:
y=np.zeros(len(corpus))
for i in range( len(spam)):
    y[i]=1  #1 ->spam
print(y)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [62]:
print('Total Corpus:')
print(corpus)
ndoc=len(corpus)
nspam=len(spam)
nham=len(ham)
print('total doc=',ndoc, ' nspam=',nspam,' nham=',nham)

Total Corpus:
['সে ভাল না', 'পড়তে ভাল লাগে না', 'সে খারাপ ছাত্র', 'আমি খারাপ আছি', 'সে পরিশ্রমী না', 'আমার ভাল ভাল লাগে না', 'জীবন খারাপ', 'সে সুন্দর না', 'সে দেখতে চৎকার না', 'আমি ভাল আছি', 'আমি জীবন ভালবাসি', 'আমি অনেক শক্তিশালী', 'আমি আকর্ষণীয়', 'আমি রোবট ভালবাসি', 'সুন্দর সুন্দর রোবট', 'খুব সুন্দর ফুল', 'ফুল খুব চমৎকার', 'আমার পড়তে ভাল লাগে']
total doc= 18  nspam= 9  nham= 9


In [63]:
def get_tokens(doc):
    return doc.split(' ')

In [64]:
def build_vocabulary(corpus):
    wd={}
    for doc in corpus:
        for w in get_tokens(doc):
            if w in wd:
                wd[w]+=1
            else:
                wd[w]=1
    wd=sorted(wd.items(), key=lambda x: x[1], reverse=True)
    return dict(wd) 

In [65]:
wd=build_vocabulary(corpus)
print('Total: ')
print('unique words: ', len(wd))
print(wd)

Total: 
unique words:  23
{'ভাল': 6, 'না': 6, 'আমি': 6, 'সে': 5, 'সুন্দর': 4, 'লাগে': 3, 'খারাপ': 3, 'পড়তে': 2, 'আছি': 2, 'আমার': 2, 'জীবন': 2, 'ভালবাসি': 2, 'রোবট': 2, 'খুব': 2, 'ফুল': 2, 'ছাত্র': 1, 'পরিশ্রমী': 1, 'দেখতে': 1, 'চৎকার': 1, 'অনেক': 1, 'শক্তিশালী': 1, 'আকর্ষণীয়': 1, 'চমৎকার': 1}


In [66]:
swd=build_vocabulary(spam)
print('Spam:')
print('unique words: ', len(swd),' ,', swd)
# print(swd)

Spam:
unique words:  15  , {'না': 6, 'সে': 5, 'ভাল': 4, 'খারাপ': 3, 'লাগে': 2, 'পড়তে': 1, 'ছাত্র': 1, 'আমি': 1, 'আছি': 1, 'পরিশ্রমী': 1, 'আমার': 1, 'জীবন': 1, 'সুন্দর': 1, 'দেখতে': 1, 'চৎকার': 1}


In [67]:
hwd=build_vocabulary(ham)
print('Ham: ')
print(len(hwd), hwd)
# print(hwd)

Ham: 
16 {'আমি': 5, 'সুন্দর': 3, 'ভাল': 2, 'ভালবাসি': 2, 'রোবট': 2, 'খুব': 2, 'ফুল': 2, 'আছি': 1, 'জীবন': 1, 'অনেক': 1, 'শক্তিশালী': 1, 'আকর্ষণীয়': 1, 'চমৎকার': 1, 'আমার': 1, 'পড়তে': 1, 'লাগে': 1}


In [68]:
tw=sum(wd.values())
sw=sum(swd.values())
hw=sum(hwd.values())
print('total: ',tw,' ,sw: ',sw,' ,hw: ',hw)
# wd.values()

total:  57  ,sw:  30  ,hw:  27


In [69]:
# spam_words=

In [70]:
vocab=build_vocabulary(corpus)
features=list( vocab.keys() )
nfeature=len(features)
print('nfeature=',nfeature)
print(features)

nfeature= 23
['ভাল', 'না', 'আমি', 'সে', 'সুন্দর', 'লাগে', 'খারাপ', 'পড়তে', 'আছি', 'আমার', 'জীবন', 'ভালবাসি', 'রোবট', 'খুব', 'ফুল', 'ছাত্র', 'পরিশ্রমী', 'দেখতে', 'চৎকার', 'অনেক', 'শক্তিশালী', 'আকর্ষণীয়', 'চমৎকার']


In [71]:
prob_spam=nspam/ndoc
prob_ham=nham/ndoc
print('P(spam)=',prob_spam, 'P(ham)=',prob_ham)

P(spam)= 0.5 P(ham)= 0.5


In [72]:
print('marginal probability of words: ')
probs={}
for word,nw in wd.items():
    pw=nw/tw
    probs[word]=pw
print(probs)

marginal probability of words: 
{'ভাল': 0.10526315789473684, 'না': 0.10526315789473684, 'আমি': 0.10526315789473684, 'সে': 0.08771929824561403, 'সুন্দর': 0.07017543859649122, 'লাগে': 0.05263157894736842, 'খারাপ': 0.05263157894736842, 'পড়তে': 0.03508771929824561, 'আছি': 0.03508771929824561, 'আমার': 0.03508771929824561, 'জীবন': 0.03508771929824561, 'ভালবাসি': 0.03508771929824561, 'রোবট': 0.03508771929824561, 'খুব': 0.03508771929824561, 'ফুল': 0.03508771929824561, 'ছাত্র': 0.017543859649122806, 'পরিশ্রমী': 0.017543859649122806, 'দেখতে': 0.017543859649122806, 'চৎকার': 0.017543859649122806, 'অনেক': 0.017543859649122806, 'শক্তিশালী': 0.017543859649122806, 'আকর্ষণীয়': 0.017543859649122806, 'চমৎকার': 0.017543859649122806}


In [73]:
print('conditional probability of words given spam')
sprobs={}
for word,nw in wd.items():
#     print(word)
    nw=1  #to solve zero frequency problem. 
    if word in swd:
        nw+=swd[word]
    
    d=len(set(nb.y))
    cpw=nw/(sw+d)
    sprobs[word]=cpw
print(sprobs)

conditional probability of words given spam
{'ভাল': 0.15625, 'না': 0.21875, 'আমি': 0.0625, 'সে': 0.1875, 'সুন্দর': 0.0625, 'লাগে': 0.09375, 'খারাপ': 0.125, 'পড়তে': 0.0625, 'আছি': 0.0625, 'আমার': 0.0625, 'জীবন': 0.0625, 'ভালবাসি': 0.03125, 'রোবট': 0.03125, 'খুব': 0.03125, 'ফুল': 0.03125, 'ছাত্র': 0.0625, 'পরিশ্রমী': 0.0625, 'দেখতে': 0.0625, 'চৎকার': 0.0625, 'অনেক': 0.03125, 'শক্তিশালী': 0.03125, 'আকর্ষণীয়': 0.03125, 'চমৎকার': 0.03125}


In [74]:
print('conditional probability of words given ham')
hprobs={}
for word,nw in wd.items():
#     print(word)
    nw=1  #to solve zero frequency problem. 
    if word in hwd:
        nw+=hwd[word]
    
    d=len(set(nb.y))
    cpw=nw/(hw+d)
    hprobs[word]=cpw
print(hprobs)

conditional probability of words given ham
{'ভাল': 0.10344827586206896, 'না': 0.034482758620689655, 'আমি': 0.20689655172413793, 'সে': 0.034482758620689655, 'সুন্দর': 0.13793103448275862, 'লাগে': 0.06896551724137931, 'খারাপ': 0.034482758620689655, 'পড়তে': 0.06896551724137931, 'আছি': 0.06896551724137931, 'আমার': 0.06896551724137931, 'জীবন': 0.06896551724137931, 'ভালবাসি': 0.10344827586206896, 'রোবট': 0.10344827586206896, 'খুব': 0.10344827586206896, 'ফুল': 0.10344827586206896, 'ছাত্র': 0.034482758620689655, 'পরিশ্রমী': 0.034482758620689655, 'দেখতে': 0.034482758620689655, 'চৎকার': 0.034482758620689655, 'অনেক': 0.06896551724137931, 'শক্তিশালী': 0.06896551724137931, 'আকর্ষণীয়': 0.06896551724137931, 'চমৎকার': 0.06896551724137931}


In [75]:
tdoc=corpus[0]
tdoc=corpus[6]
# tdoc=corpus[3]
tdoc='ভাল রোবট'
# tdoc='ভাল রোবট না'
# tdoc='সুন্দর রোবট না'
# tdoc='রোবট না'
# tdoc='পড়তে ভাল লাগে'
# tdoc='আমার পড়তে ভাল লাগে'
print(tdoc)
psw=1
for word in get_tokens(tdoc):
#     print(word)
    prob_spam_w=sprobs[word]/  probs[word]
    print(word,' cnd=',sprobs[word], prob_spam_w)
    psw*=prob_spam_w
psw*=prob_spam
print('prob_spam_w', psw)

ভাল রোবট
ভাল  cnd= 0.15625 1.484375
রোবট  cnd= 0.03125 0.890625
prob_spam_w 0.6610107421875


In [76]:
# doc=corpus[0]
print(tdoc)
phw=1
for word in get_tokens(tdoc):
#     print(word)
    prob_ham_w=hprobs[word]/ probs[word]   
    print(word,' cnd=',hprobs[word], prob_ham_w)
    phw*=prob_ham_w
phw*=prob_ham
print('prob_ham_w', phw)

ভাল রোবট
ভাল  cnd= 0.10344827586206896 0.9827586206896552
রোবট  cnd= 0.10344827586206896 2.9482758620689657
prob_ham_w 1.4487217598097506


In [77]:
print(tdoc)
percent_spam= (psw/(psw+phw) )*100
percent_ham= (phw/(psw+phw) )*100
print('percent_spam: ', percent_spam)
print('percent_ham: ', percent_ham)

ভাল রোবট
percent_spam:  31.331495417629085
percent_ham:  68.66850458237091


### Solving Zero frequency problem using Laplace Smoothing

Known conditional probability. For example we got a new word KZOSKY which exist only in the ham class or not even exist in the training set, then, <br>

P(KZOSKY|spam) = 0 / total_word_in_spam_class = 0 ,

So, The Laplace Smoothing version will be,

P(KZOSKY|spam) = (count KZOSKY in spam +K )/ (total_word_in_spam_class + K*total_classes)

####  If K=1 then,

P(KZOSKY|spam) = (count KZOSKY in spam +1 )/ (total_word_in_spam_class + 1*total_classes)

## Using BOW Model

In [78]:
#create the bag of word model.

In [79]:
class MyBOW():
    def __init__(self):
        print('my bag of word model')
        self.features={}
        
    def get_tokens(self, doc):
        return doc.split(' ')

    def build_vocabulary(self, corpus):
        wd={}
        for doc in corpus:
            for w in self.get_tokens(doc):
                if w in wd:
                    wd[w]+=1
                else:
                    wd[w]=1
        wd=sorted(wd.items(), key=lambda x: x[1], reverse=True)
        return dict(wd) 

    def convert_to_vector(self, doc):
        vector=np.zeros( len( self.features) )
        tokens=self.get_tokens(doc)
        for token in tokens:
            ifc=features.index(token)
            vector[ifc]+=1
        return vector
    def corpus_to_matrix(self, corpus):
        vocab=self.build_vocabulary(corpus)
        self.features=list( vocab.keys() )
        nfeature=len(features)
        vectors=[] 
        for doc in corpus: 
            vector=self.convert_to_vector(doc)
            vectors.append(vector)
            
        self.vectors=np.array(vectors)
        return self.features, self.vectors


In [80]:
bow=MyBOW()
features, vectors=bow.corpus_to_matrix(corpus)
print(features)
print(vectors)

my bag of word model
['ভাল', 'না', 'আমি', 'সে', 'সুন্দর', 'লাগে', 'খারাপ', 'পড়তে', 'আছি', 'আমার', 'জীবন', 'ভালবাসি', 'রোবট', 'খুব', 'ফুল', 'ছাত্র', 'পরিশ্রমী', 'দেখতে', 'চৎকার', 'অনেক', 'শক্তিশালী', 'আকর্ষণীয়', 'চমৎকার']
[[1. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [1. 1. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [2. 1. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0.]
 [1. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0.

In [81]:
class MyNB():
    def __init__(self):
        print('my naive bayes')
        self.vectors=[[]]
        self.y=[]
        self.p_spam=0
        self.p_ham=0
        self.n_w=0
        self.n_w_s=0
        self.n_w_h=0
        self.spam_class=1
        self.ham_class=0
        
    def train(self, vectors, y):
        self.vectors=vectors
        self.y=y
        spam_vectors=vectors[np.where(y==self.spam_class),:]
        ham_vectors=vectors[np.where(y==self.ham_class),:]
        self.n_w=vectors.sum() #count words in whole corpus
        self.n_w_s=spam_vectors.sum() #count total words in spam
        self.n_w_h=ham_vectors.sum()  #count total words in ham
        
        self.p_spam=len(np.where(y==self.spam_class)[0])/len(y)
        self.p_ham=len(np.where(y==self.ham_class)[0])/len(y)
        return self.p_spam, self.p_ham
    
    def predict(self, vector): 
        locs=np.where(vector>0)[0] #find index of features.
        doc_p_spam=self.p_spam
        doc_p_ham=self.p_ham
        k=1                    #laplace smoothing parameter.
        d=len(set(nb.y))       #laplace smoothing parameter.
        for loc in locs:  #for this column.
            cw=sum(np.array(vectors[:,loc]))                            #count this word in whole corpus.
            scw=sum(np.array(vectors[:])[np.where(y==1),:][0][:,loc])   #count this word in spam
            hcw=sum(np.array(vectors[:])[np.where(y==0),:][0][:,loc])   #count this word in ham
            scw+=k  #adding k to prevent zero frequency
            hcw+=k  #adding k to prevent zero frequency
            marginal_prob=cw/self.n_w
            p_w_spam=scw/(self.n_w_s+k*d) #Laplace smoothing, to prevent zero frequency
            p_w_ham=hcw/(self.n_w_h+k*d)  #Laplace smoothing, to prevent zero frequency
            p_spam_w= p_w_spam  /marginal_prob 
            p_ham_w= p_w_ham /marginal_prob 
#             print('loc=',loc, 'scw=',scw,' hcw=',hcw,' cw=',cw)
            doc_p_spam*=p_spam_w
            doc_p_ham*=p_ham_w
        
#         print('ps, ph: ',doc_p_spam, doc_p_ham)
        doc_p_spam=doc_p_spam/(doc_p_spam+doc_p_ham)
        return doc_p_spam


In [82]:
bow=MyBOW()
features, vectors=bow.corpus_to_matrix(corpus)

my bag of word model


In [83]:
nb=MyNB()
_,_=nb.train(vectors, y)

my naive bayes


In [85]:
# tdoc='সে ভাল আছে'
tdoc=corpus[6]
tdoc='ভাল রোবট'
# tdoc='ভাল রোবট না'
print('test doc=',tdoc)
vector=bow.convert_to_vector(tdoc)
sp=nb.predict(vector)
print('spam_probability: ',sp)

test doc= ভাল রোবট
spam_probability:  0.31331495417629085


Refs.
1. [Conditional and Bayes] https://brilliant.org/wiki/bayes-theorem/
2. [Good on Bays and Conditional] https://www.quora.com/What-is-the-difference-between-Bayes-Theorem-and-conditional-probability-and-how-do-I-know-when-to-apply-them
3. [Laplace Smoothing] https://www.quora.com/What-is-Laplacian-smoothing-and-why-do-we-need-it-in-a-Naive-Bayes-classifier

