In [1]:
from pprint import pprint
from math import log
import numpy as np
import pandas as pd
import operator

In [2]:
spam=[
     'সে ভাল না',
     'সে খারাপ ছাত্র',
     'আমি খারাপ আছি',
     'রোবট খারাপ'
 ]

ham=[
     'আমি ভাল আছ',
     'সুন্দর সুন্দর রোবট',
     'আমি রোবট ভালবাসি',
     'সে সুন্দর',
 ]

In [3]:
corpus=spam.copy()
corpus.extend(ham)

In [4]:
print(corpus)

['সে ভাল না', 'সে খারাপ ছাত্র', 'আমি খারাপ আছি', 'রোবট খারাপ', 'আমি ভাল আছ', 'সুন্দর সুন্দর রোবট', 'আমি রোবট ভালবাসি', 'সে সুন্দর']


In [5]:
y=np.zeros(len(corpus))
for i in range( len(spam)):
    y[i]=1 
print(y)

[1. 1. 1. 1. 0. 0. 0. 0.]


In [6]:
print('Total Corpus:')
print(corpus)
ndoc=len(corpus)
nspam=len(spam)
nham=len(ham)
print('total doc=',ndoc, ' nspam=',nspam,' nham=',nham)

Total Corpus:
['সে ভাল না', 'সে খারাপ ছাত্র', 'আমি খারাপ আছি', 'রোবট খারাপ', 'আমি ভাল আছ', 'সুন্দর সুন্দর রোবট', 'আমি রোবট ভালবাসি', 'সে সুন্দর']
total doc= 8  nspam= 4  nham= 4


In [7]:
def get_tokens(doc):
    return doc.split(' ')

In [8]:
def build_vocabulary(corpus):
    wd={}
    for doc in corpus:
        for w in get_tokens(doc):
            if w in wd:
                wd[w]+=1
            else:
                wd[w]=1
    wd=sorted(wd.items(), key=lambda x: x[1], reverse=True)
    return dict(wd)

In [9]:
wd=build_vocabulary(corpus)
print('Total: ')
print('unique words: ', len(wd))
print(wd)

Total: 
unique words:  11
{'সে': 3, 'খারাপ': 3, 'আমি': 3, 'রোবট': 3, 'সুন্দর': 3, 'ভাল': 2, 'না': 1, 'ছাত্র': 1, 'আছি': 1, 'আছ': 1, 'ভালবাসি': 1}


In [10]:
swd=build_vocabulary(spam)
print('Spam:')
print('unique words: ', len(swd),' ,', swd)

Spam:
unique words:  8  , {'খারাপ': 3, 'সে': 2, 'ভাল': 1, 'না': 1, 'ছাত্র': 1, 'আমি': 1, 'আছি': 1, 'রোবট': 1}


In [11]:
hwd=build_vocabulary(ham)
print('Ham: ')
print('unique words: ', len(hwd), ' ,', hwd)


Ham: 
unique words:  7  , {'সুন্দর': 3, 'আমি': 2, 'রোবট': 2, 'ভাল': 1, 'আছ': 1, 'ভালবাসি': 1, 'সে': 1}


In [12]:
tw=sum(wd.values())
sw=sum(swd.values())
hw=sum(hwd.values())
print('total: ',tw,' ,sw: ',sw,' ,hw: ',hw)

total:  22  ,sw:  11  ,hw:  11


In [13]:
vocab=build_vocabulary(corpus)
features=list( vocab.keys() )
nfeature=len(features)
print('nfeature=',nfeature)
print(features)

nfeature= 11
['সে', 'খারাপ', 'আমি', 'রোবট', 'সুন্দর', 'ভাল', 'না', 'ছাত্র', 'আছি', 'আছ', 'ভালবাসি']


In [14]:
prob_spam=nspam/ndoc
prob_ham=nham/ndoc
print('P(spam)=',prob_spam, 'P(ham)=',prob_ham)

P(spam)= 0.5 P(ham)= 0.5


In [15]:
print('marginal probability of words: ')
probs={}
for word,nw in wd.items():
    pw=nw/tw
    probs[word]=pw
print(probs)

marginal probability of words: 
{'সে': 0.13636363636363635, 'খারাপ': 0.13636363636363635, 'আমি': 0.13636363636363635, 'রোবট': 0.13636363636363635, 'সুন্দর': 0.13636363636363635, 'ভাল': 0.09090909090909091, 'না': 0.045454545454545456, 'ছাত্র': 0.045454545454545456, 'আছি': 0.045454545454545456, 'আছ': 0.045454545454545456, 'ভালবাসি': 0.045454545454545456}


In [16]:
print('marginal probability of Spam: ')
mpspam={}
for word,nw in swd.items():
    pw=nw/sw
    mpspam[word]=pw
print(mpspam)

marginal probability of Spam: 
{'খারাপ': 0.2727272727272727, 'সে': 0.18181818181818182, 'ভাল': 0.09090909090909091, 'না': 0.09090909090909091, 'ছাত্র': 0.09090909090909091, 'আমি': 0.09090909090909091, 'আছি': 0.09090909090909091, 'রোবট': 0.09090909090909091}


In [17]:
print('conditional probability of words given spam')
sprobs={}
for word,nw in swd.items():
    sprobs[word]=(mpspam[word]*prob_spam)/probs[word]
print(sprobs)

conditional probability of words given spam
{'খারাপ': 1.0, 'সে': 0.6666666666666667, 'ভাল': 0.5, 'না': 1.0, 'ছাত্র': 1.0, 'আমি': 0.33333333333333337, 'আছি': 1.0, 'রোবট': 0.33333333333333337}


In [18]:
print('marginal probability of Ham: ')
mpham={}
for word,nw in hwd.items():
    pw=nw/hw
    mpham[word]=pw
print(mpham)

marginal probability of Ham: 
{'সুন্দর': 0.2727272727272727, 'আমি': 0.18181818181818182, 'রোবট': 0.18181818181818182, 'ভাল': 0.09090909090909091, 'আছ': 0.09090909090909091, 'ভালবাসি': 0.09090909090909091, 'সে': 0.09090909090909091}


In [19]:
print('conditional probability of words given Ham')
hprobs={}
for word,nw in hwd.items():
    hprobs[word]=(mpham[word]*prob_ham)/probs[word]
print(hprobs)

conditional probability of words given Ham
{'সুন্দর': 1.0, 'আমি': 0.6666666666666667, 'রোবট': 0.6666666666666667, 'ভাল': 0.5, 'আছ': 1.0, 'ভালবাসি': 1.0, 'সে': 0.33333333333333337}


In [20]:
tdoc='ভাল রোবট'
print(tdoc)
psw=1
for word in get_tokens(tdoc):
#     print(word)
    prob_spam_w=sprobs[word]/  probs[word]
    print(word,' cnd=',sprobs[word], prob_spam_w)
    psw*=prob_spam_w
psw*=prob_spam
print('prob_spam_w', psw)

ভাল রোবট
ভাল  cnd= 0.5 5.5
রোবট  cnd= 0.33333333333333337 2.444444444444445
prob_spam_w 6.722222222222224


In [21]:
print(tdoc)
phw=1
for word in get_tokens(tdoc):
#     print(word)
    prob_ham_w=hprobs[word]/ probs[word]   
    print(word,' cnd=',hprobs[word], prob_ham_w)
    phw*=prob_ham_w
phw*=prob_ham
print('prob_ham_w', phw)

ভাল রোবট
ভাল  cnd= 0.5 5.5
রোবট  cnd= 0.6666666666666667 4.88888888888889
prob_ham_w 13.444444444444448


In [22]:
print(tdoc)
percent_spam= (psw/(psw+phw) )*100
percent_ham= (phw/(psw+phw) )*100
print('percent_spam: ', percent_spam)
print('percent_ham: ', percent_ham)

ভাল রোবট
percent_spam:  33.333333333333336
percent_ham:  66.66666666666667
