In [9]:
import pandas as pd
from sklearn import datasets
import numpy as np

In [3]:
iris = datasets.load_iris()

In [19]:
df = pd.DataFrame({'species':iris.target})

In [21]:
map_species = {
    0: iris.target_names[0],
    1: iris.target_names[1],
    2: iris.target_names[2]
}

df['species'] = df['species'].map(map_species)
df['letter'] = df['species'].apply(lambda x : np.random.choice(['a','b','c']))

In [29]:
cross = pd.crosstab(df.species,df.letter, margins=True)
cross

letter,a,b,c,All
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,11,19,20,50
versicolor,13,20,17,50
virginica,14,19,17,50
All,38,58,54,150


In [94]:
# Probabilidade de ser 'a'
print("Probabilidade de ser A = " + str(np.round(38/150, decimals=2)))

# Probabilidade de ser 'c'
print("Probabilidade de ser C = " + str(np.round(54/150, decimals=2)))

# Probabilidade de ser 'a'
print("Probabilidade de ser A | setosa = " + str(np.round(11/50, decimals=2)))



print("\nTeorema de Bayes \n")
print("Evento A = Ser letra C")
print("Evento B = Ser versicolor")
print("Teorema de Bayes -> P(B|A) = P(A|B) * P(B) / P(A)")

# Probabilidade do evento A
print("Probabilidade do evento A = " + str(np.round(54/150, decimals=2)))
print("Probabilidade do evento B = " + str(np.round(50/150, decimals=2)))
print("Probabilidade de ser C dado que é versicolor = " + str(np.round(17/50, decimals=2)))
print("Probabilidade de ser versicolor sabendo que é C = " + str(np.round((0.34 * 0.33) / 0.36, decimals=2)))

Probabilidade de ser A = 0.25
Probabilidade de ser C = 0.36
Probabilidade de ser A | setosa = 0.22

Teorema de Bayes 

Evento A = Ser letra C
Evento B = Ser versicolor
Teorema de Bayes -> P(B|A) = P(A|B) * P(B) / P(A)
Probabilidade do evento A = 0.36
Probabilidade do evento B = 0.33
Probabilidade de ser C dado que é versicolor = 0.34
Probabilidade de ser versicolor sabendo que é C = 0.31


# Minha implementação

In [154]:
class NaiveBayesClassifier:
    
    def __init__(self):
        self.fit_obj = {}
        
    def fit(self,data,target):
        columns = data.columns
        self.target = np.unique(target)
        data['target'] = target
        
        for c in columns:
            cross = pd.crosstab(data['target'],data[c], margins=True)
            self.fit_obj[c] = cross
    
    def predict(self,data):
        columns = data.columns
        predict_ = []
        
        for c in columns:
            fitted = self.fit_obj[c]
            values = data[c]
            series = pd.Series()
            
            for v in values:
                for t in self.target:
                    x = fitted[v].loc[t]
                    y = fitted[v].loc['All']
                    prob = x / y
                    series[t] = prob
                result = series.argmax()
                predict_.append(result)
        return(predict_)

In [155]:
classifier = NaiveBayesClassifier()
classifier.fit(df[['letter']],target=df['species'].values)

In [157]:
pred = classifier.predict(df[['letter']])

# Scikit Learn Implementação

In [167]:
from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()

In [169]:
map_letter = {
    'a':1,
    'b':2,
    'c':3
}
input_ = df['letter'].map(map_letter)
clf.fit(X=input_.values.reshape(-1,1),y=df['species'])
pred2 = clf.predict(input_.values.reshape(-1,1))

GaussianNB(priors=None)

In [171]:
df['pred2'] = pred2

In [175]:
df.head()

Unnamed: 0,species,letter,pred,pred2
0,setosa,b,versicolor,versicolor
1,setosa,c,setosa,setosa
2,setosa,b,versicolor,versicolor
3,setosa,b,versicolor,versicolor
4,setosa,c,setosa,setosa


In [176]:
cross

letter,a,b,c,All
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,11,19,20,50
versicolor,13,20,17,50
virginica,14,19,17,50
All,38,58,54,150


In [177]:
print(19/58)
print(20/58)
print(19/58)

0.3275862068965517
0.3448275862068966
0.3275862068965517
