# Naive Bayes - Implementação

In [1]:
import pandas as pd

df = pd.read_csv('golf.csv',sep='\t')
print(df.shape)

(14, 5)


In [2]:
df.describe()

Unnamed: 0,Clima,Temperatura,Umidade,Vento,Jogar Golf?
count,14,14,14,14,14
unique,3,3,2,2,2
top,Ensolarado,Moderado,Normal,FALSO,Sim
freq,5,6,7,8,9


## Qual a probabilidade de jogar golf?

In [4]:
df_sim = df[df['Jogar Golf?'] == 'Sim']
df_nao = df[df['Jogar Golf?'] == 'Não']

total_sim = len(df_sim)
total_nao = len(df_nao)
print("Total de sim na coluna:", total_sim)
print("Total de não na coluna:", total_nao)

Total de sim na coluna: 9
Total de não na coluna: 5


## Encontrando a probabilidade dos valores para o atributo Clima

In [5]:
# vamos armazenar as probabilidades para cada valor do clima referente à Jogar Golf = Sim
clima = dict()

# quais valores esse atributo pode assumir?
df['Clima'].unique()

array(['Chuvoso', 'Nublado', 'Ensolarado'], dtype=object)

In [7]:
valores = df['Clima'].unique()

# pra cada valor, vamos ver quantas linhas tem com a classe sim

for v in valores:
    linhas = df[ (df['Clima'] == v) & (df['Jogar Golf?'] == 'Sim') ]
    print(v, len(linhas))

Chuvoso 2
Nublado 4
Ensolarado 3


In [8]:
# para calcular a probabilidade, precisamos dividir essas quantidades pelo total de Jogar Golf? = Sim da base

for v in valores:
    linhas = df[ (df['Clima'] == v) & (df['Jogar Golf?'] == 'Sim') ]
    print(v, len(linhas)/total_sim)


Chuvoso 0.2222222222222222
Nublado 0.4444444444444444
Ensolarado 0.3333333333333333


In [10]:
# vamos fazer isso para a classe Jogar Golf = Não agora

for v in valores:
    linhas = df[ (df['Clima'] == v) & (df['Jogar Golf?'] == 'Não') ]
    print(v, len(linhas)/total_nao)

Chuvoso 0.6
Nublado 0.0
Ensolarado 0.4


In [12]:
# sempre que uma probabilidade estiver zerada, precisamos corrigir ela com uma pequena adição pra não dar erro de cálculo

for v in valores:
    linhas = df[ (df['Clima'] == v) & (df['Jogar Golf?'] == 'Não') ]
    p = len(linhas)/total_nao
    if p == 0.0:
        p += 0.001
    print(v, p)

Chuvoso 0.601
Nublado 0.001
Ensolarado 0.401


## Calculando a probabilidade de cada atributo para cada classe

In [14]:
prob_sim = dict()
prob_nao = dict()

colunas = list(df.columns)
colunas.remove('Jogar Golf?')
print(colunas)

['Clima', 'Temperatura', 'Umidade', 'Vento']


In [15]:
for c in colunas:
    prob_sim[c] = dict()
    prob_nao[c] = dict()
    
    valores_possiveis = df[c]
    
    valores = list(df_sim[c])
    total = len(valores)
    for v in set(valores_possiveis):
        prob_sim[c][v] = valores.count(v) / total
        if prob_sim[c][v] == 0:
            prob_sim[c][v] = 0.0001
            
    valores = list(df_nao[c])
    total = len(valores)
    for v in set(valores_possiveis):
        prob_nao[c][v] = valores.count(v) / total
        if prob_nao[c][v] == 0:
            prob_nao[c][v] = 0.0001

In [18]:
prob_nao['Clima'] # P(clima=chuvoso|JogarGolf=Sim)

{'Ensolarado': 0.4, 'Nublado': 0.0001, 'Chuvoso': 0.6}

## Classificar a amostra Clima = Chuvoso, Temperatura = Frio, Umidade = Alta e Vento = Verdadeiro

In [22]:
nao = (total_nao/total) * prob_nao['Clima']['Chuvoso'] * prob_nao['Temperatura']['Frio'] * prob_nao['Umidade']['Alta'] * prob_nao['Vento']['VERDADEIRO']
sim = (total_sim/total) * prob_sim['Clima']['Chuvoso'] * prob_sim['Temperatura']['Frio'] * prob_sim['Umidade']['Alta'] * prob_sim['Vento']['VERDADEIRO']

In [23]:
if sim > nao:
    print("Probabilidade de que as pessoas vão jogar golf.")
else:
    print("Probabilidade de que as pessoas não vão jogar golf.")

Probabilidade de que as pessoas não vão jogar golf.


In [24]:
print(sim)
print(nao)

0.01481481481481481
0.0576


In [25]:
## E se eu levar em consideração apenas o clima?

print(prob_sim['Clima'])
print(prob_nao['Clima'])

{'Ensolarado': 0.3333333333333333, 'Nublado': 0.4444444444444444, 'Chuvoso': 0.2222222222222222}
{'Ensolarado': 0.4, 'Nublado': 0.0001, 'Chuvoso': 0.6}


In [26]:
## E se eu levar em consideração apenas a temperatura?

print(prob_sim['Temperatura'])
print(prob_nao['Temperatura'])

{'Quente': 0.2222222222222222, 'Moderado': 0.4444444444444444, 'Frio': 0.3333333333333333}
{'Quente': 0.4, 'Moderado': 0.4, 'Frio': 0.2}


In [27]:
## E se eu levar em consideração apenas o vento?

print(prob_sim['Vento'])
print(prob_nao['Vento'])

{'VERDADEIRO': 0.3333333333333333, 'FALSO': 0.6666666666666666}
{'VERDADEIRO': 0.6, 'FALSO': 0.4}
