#Classificador supervisionado: Naive Bayes

##Teorema Bayes

<figure>
<center>
<img src="https://estatsite.com.br/wp-content/uploads/2016/09/1.jpg"              
     align="center"
     width="900px" />
</figure>



Vamos começar com um exemplo prático e estamos em uma fábrica de produção de caixas de papelão. Temos duas máquinas diferentes que são responsáveis pela produção e pelo direcionamento para o estoque.

Foi observado no estoque que algumas caixas estão com defeito e queremos saber a probabilidade da máquina 1 ou 2 gerar defeitos. A proposta é substituir a máquina que produz mais defeitos. Algumas informações serão utilizadas para se calcular a probalidade de Bayes das máquinas produzirem caixas com defeito, a partir da equação abaixo:

    P(A∣B)= P(A)*P(B∣A)/ P(B)

Algumas informações:   

*   a máquina 1 produz 30 caixas/hora `P(maq1)`=30/50=0.6;
*   a máquina 2 produz 20 caixas/hora `P(maq2)`=20/50=0.4;
*   a probabilidade de defeito geral `P(defeito)` é de 4%;
*   de todas as caixas com defeito, sabemos que são oriundos de 50% de cada máquina `P(maq1|defeito)` or `P(maq2|defeito)`;

De uma forma mais formal, queremos saber qual a probabilidade do defeito ser originado da  máquina 2:

    P(defeito| maq2) = P(defeito) * P(maq2|defeito) / P(maq2)



    




In [None]:
probmaq2=(0.04 * 0.5)/0.4 #P(defeito|maq2)
print(f"Probabilidade de defeito maq2 é de {probmaq2*100}%")

Probabilidade de defeito maq2 é de 5.0%


In [None]:
probmaq1=(0.04 * 0.5)/0.6 #P(defeito|maq1)
probmaq1
print(f"Probabilidade de defeito maq1 é de {probmaq1*100}%")

Probabilidade de defeito maq1 é de 3.3333333333333335%


#Classificador Naive Bayes


<figure>
<center>
<img src="https://miro.medium.com/max/977/1*VGAoUgY28wygHsD-FXH4mg.jpeg" width="600px" />
</figure>

Método de classificação supervisionado simples mas poderoso. Naive Bayes opera sobre o teorama de Bayes, com a probabilidade de predição de uma classe a partir de exemplos históricos.  

O Teorema de Bayes relaciona as
probabilidades de A e B com suas respectivas
probabilidades condicionadas



Sabendo:

    P(A): probabilidade do evento A ocorrer sozinho

    P(B): probabilidade do evento B ocorrer sozinho

    P(A|B): que frequência A ocorre sabendo que B já ocorreu

    P(B|A): que frequência B ocorre sabendo que A já ocorreu



**Probabilidade a priori**: é a probabilidade dada sem conhecimento de
qualquer outro evento

- Probabilidade de tirar o número 6 num dado: 1/6

- Probalidade, no exemplo das caixas, do defeito ser oriundo de uma das máquinas é de 50%

**Probabilidade a posteriori**: é a probabilidade condicional que é atribuída
quando um evento relevante é considerado

- Sabendo que choveu 10% dos dias no último mês, qual a probalidade de chuva para amanhã, se já choveu 2 dias nesse mês.







#Vamos a um exemplo







Vamos sair para tomar um mate na praça, mas o dia está nublado:


*   Sabe-se que 50% dos dias de chuva iniciam nublado neste mês;
*   Dias nublados ocorrem frequentemente (33%) no inverno ;
*   Este mês é seco, chove somente cerca de 3 dias do mês (3/30);

Qual a chance de chover (evento `A`) quando eu estiver na praça sabendo que o tempo estava nublado de manhã (evento `B`)?

    P(Chuva)=3/30

    P(Nublado|Chuva)=50%

    P(Nublado)= 1/3

`P(A|B)= (P(B|A)*P(A))/P(B)`

$P(Chuva|Nublado)= \frac{P(Nublado|Chuva)*P(Chuva)}{P(Nublado)} $

$P(Chuva|Nublado)= \frac{1/2*3/30}{1/3}=0.15 $


Ou seja, a chance de chuva é de 15%, ou seja,  segundo o teorama Bayes a probabilidade é baixa.

# Exemplo com código

In [None]:
#@title Load Dataset
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import math

import pandas as pd
url = 'https://raw.githubusercontent.com/dbguilherme/machinelearning/main/tempo.csv'
df= pd.read_csv(url,encoding = "ISO-8859-1",sep=',')

df

Unnamed: 0,Tempo,Saio de casa?
0,Sol,No
1,Nublado,Yes
2,Chuvoso,No
3,Sol,Yes
4,Sol,Yes
5,Nublado,Yes
6,Chuvoso,No
7,Chuvoso,No
8,Sol,Yes
9,Chuvoso,Yes



A pergunta é:
`Qual a probabilidade de eu sair de casa (A) se o tempo estiver ensolarado (B)?`


Fato que conheço:  

A=`sair de casa==yes`

B=`tempo==sol`

O que devemos calcular é:
$$ P(Sair\_de\_casa \mid Sol) = \frac{P(Sol \mid Sair\_de\_casa) * P(Sair\_de\_casa)}{P(Sol)} $$








Descobrindo as frequências dos valores da feature `Sair de casa`

In [None]:
df[df['Saio de casa?']=='Yes'] #8/14

Unnamed: 0,Tempo,Saio de casa?
1,Nublado,Yes
3,Sol,Yes
4,Sol,Yes
5,Nublado,Yes
8,Sol,Yes
9,Chuvoso,Yes
11,Nublado,Yes
12,Nublado,Yes


In [None]:
P_A = df.groupby('Saio de casa?').count()/len(df)
P_A["Tempo"]



Unnamed: 0_level_0,Tempo
Saio de casa?,Unnamed: 1_level_1
No,0.428571
Yes,0.571429


Também é importante descobrir a probabiliade de `Tempo`==`Sol`

In [None]:
P_B = df.groupby('Tempo').count()/len(df)
P_B["Saio de casa?"]['Sol'] #
#P_B["Saio de casa?"]

np.float64(0.35714285714285715)

In [None]:
P_sairDeCasa=P_A['Tempo']['Yes']#8/14

print(f"Probabilidade geral de sair de casa {P_sairDeCasa}")


P_SolYes=P_B['Saio de casa?']['Sol']#5/14
print(f"Probabilidade de ter sol {P_SolYes}")


Probabilidade geral de sair de casa 8
Probabilidade de ter sol 0.35714285714285715


Calculando probabilidade de P(B|A) ->  P(Sol|Sair de casa)


In [None]:

saioDeCasa=df[df['Saio de casa?']=='Yes']
print(f"Saio de casa == yes: {saioDeCasa['Tempo'].count()}")

P_B_A= saioDeCasa[saioDeCasa['Tempo']=='Sol'].count()/saioDeCasa.count() # 3/8

print(f"Probabilidade de P(B|A)= {P_B_A}")

Saio de casa == yes: 8
Probabilidade de P(B|A)= Tempo            0.375
Saio de casa?    0.375
dtype: float64


Calculando a probabilidade de eu sair de casa (A) se o tempo estiver ensolarado (B) ->  (P(A|B))


In [None]:

P_A_B=((P_B_A*P_sairDeCasa)/P_SolYes)

print(f"Probabilidade de sair de casa com sol é {P_A_B['Saio de casa?']}")

Probabilidade de sair de casa com sol é 8.4


### Vamos calcular a probabilidade de ter sol (B) e eu não sair de casa (A)


In [None]:
P_No=P_A['Tempo']['No']#6/14

P_Sol=P_B['Saio de casa?']['Sol']#5/14

print("Probabilidade de ter sol: ", P_Sol)
print("Probabilidade de não sair de casa: ", P_No)

Probabilidade de ter sol:  0.35714285714285715
Probabilidade de não sair de casa:  6


In [None]:
#calculando probabilidade de (P(B|A))

ficoEmCasa=df[df['Saio de casa?']=='No']
print(f"Saio de casa == no: {ficoEmCasa['Tempo'].count()}")

#probalidade de sol (B) sabendo que vou ficar em casa (A)

P_B_A= ficoEmCasa[ficoEmCasa['Tempo']=='Sol'].count()/ficoEmCasa.count()

print("xxx" ,P_B_A)


Saio de casa == no: 6
xxx Tempo            0.333333
Saio de casa?    0.333333
dtype: float64


In [None]:
# #probalidade de eu  ficar em casa (A) com sol(B)
P_A_B=(P_B_A*P_No)/P_Sol

print(f"probabilidade de ficar em casa com sol é: {P_A_B} ")

probabilidade de ficar em casa com sol é: Tempo            5.6
Saio de casa?    5.6
dtype: float64 


Para a classificação podemos assumir que a probabiliade de sair de casa com sol é maior ou menor  que a probabilidade de ficar em casa?

<figure>
<center>
<img src="https://news.mit.edu/sites/default/files/images/202012/MIT-Coding-Brain-01-press.jpg" width='200px' />
</figure>

From: https://news.mit.edu

#Vamos a um exemplo com código

Objetivo: Prever a possibilidade de um candidato estar procurando um novo trabalho (sair da empresa atual)


<img src="https://www.nicepng.com/png/full/269-2694746_looking-for-a-job-looking-for-a-job.png"
 width="100px" align="right">

Dataset: Esta base do Kaggle tem como objetivo entender os fatores de um empregado que deseja sair do trabalho atual. Dessa forma, o desafio é criar um modelo capaz prever se um candidato vai sair ou não da empresa.





Features from: https://www.kaggle.com/arashnic/hr-analytics-job-change-of-data-scientists



Antes de tudo devemos entender os dados!

1- Quais são os atributos da base?

2- Qual é o label da classe?

3- Como é a distribuição da classe '0' e  '1'?

In [None]:
#@title Load data
import pandas as pd
url = 'https://raw.githubusercontent.com/dbguilherme/machinelearning/main/aug_train.csv'
df_train= pd.read_csv(url,encoding = "ISO-8859-1")
df_train[df_train['target']==1]

Unnamed: 0,enrollee_id,city,city_development_index,gender,relevent_experience,enrolled_university,education_level,major_discipline,experience,company_size,company_type,last_new_job,training_hours,target
0,8949,city_103,0.920,Male,Has relevent experience,no_enrollment,Graduate,STEM,>20,,,1,36,1.0
3,33241,city_115,0.789,,No relevent experience,,Graduate,Business Degree,<1,,Pvt Ltd,never,52,1.0
5,21651,city_176,0.764,,Has relevent experience,Part time course,Graduate,STEM,11,,,1,24,1.0
7,402,city_46,0.762,Male,Has relevent experience,no_enrollment,Graduate,STEM,13,<10,Pvt Ltd,>4,18,1.0
8,27107,city_103,0.920,Male,Has relevent experience,no_enrollment,Graduate,STEM,7,50-99,Pvt Ltd,1,46,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19147,21319,city_21,0.624,Male,No relevent experience,Full time course,Graduate,STEM,1,100-500,Pvt Ltd,1,52,1.0
19148,9212,city_21,0.624,,Has relevent experience,no_enrollment,Masters,STEM,3,100-500,Pvt Ltd,3,40,1.0
19149,251,city_103,0.920,Male,Has relevent experience,no_enrollment,Masters,STEM,9,50-99,Pvt Ltd,1,36,1.0
19153,7386,city_173,0.878,Male,No relevent experience,no_enrollment,Graduate,Humanities,14,,,1,42,1.0


In [None]:
#@title Preprocessing

from sklearn.preprocessing import LabelEncoder
def preprocessing(df):
    df=df.drop(columns=["enrollee_id"])

    df.dropna(inplace=True)

    le = LabelEncoder()
    cols_to_le = ["gender","city","relevent_experience","enrolled_university","education_level","major_discipline","experience",
                  "company_size","company_type","last_new_job"]
    for col in cols_to_le:
        df[col] = le.fit_transform(df[col])
    return df
df_train_proc=preprocessing(df_train)
df_train_proc

Unnamed: 0,city,city_development_index,gender,relevent_experience,enrolled_university,education_level,major_discipline,experience,company_size,company_type,last_new_job,training_hours,target
1,72,0.776,1,1,2,0,5,6,4,5,4,47,0.0
4,48,0.767,1,0,2,1,5,21,4,1,3,8,0.0
7,78,0.762,1,0,2,0,5,4,7,5,4,18,1.0
8,5,0.920,1,0,2,0,5,17,4,5,0,46,1.0
11,5,0.920,1,0,2,0,5,15,6,5,0,108,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
19147,60,0.624,1,1,0,0,5,0,1,5,0,52,1.0
19149,5,0.920,1,0,2,1,5,19,4,5,0,36,1.0
19150,47,0.920,0,0,2,0,5,1,1,4,2,23,0.0
19152,5,0.920,0,0,2,0,2,17,0,1,0,25,0.0


#Atividade A
Todos esses atributos são importantes? Remova o que julgar irrelevante.

##Aplicando o GaussianNB

In [None]:
from sklearn.model_selection import train_test_split
#apagar o rotulo
X = df_train_proc.drop(columns=["target","city",  "relevent_experience", "enrolled_university", "education_level", "major_discipline", "company_size", "company_type", "last_new_job" ])
#Criar um dataframe para o rotulo
y = df_train_proc["target"]

#Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X,y,  test_size=0.3)


In [None]:
from sklearn.naive_bayes import GaussianNB
gb = GaussianNB()
#criando o modelo de classificação
gb.fit(X_train,y_train)
X_train.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6268 entries, 7276 to 7549
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   city_development_index  6268 non-null   float64
 1   gender                  6268 non-null   int64  
 2   experience              6268 non-null   int64  
 3   training_hours          6268 non-null   int64  
dtypes: float64(1), int64(3)
memory usage: 244.8 KB


In [None]:
from sklearn.metrics import classification_report
#reportando as métricas
print(classification_report(y_test, gb.predict(X_test)))

              precision    recall  f1-score   support

         0.0       0.91      0.92      0.91      2249
         1.0       0.56      0.54      0.55       438

    accuracy                           0.85      2687
   macro avg       0.73      0.73      0.73      2687
weighted avg       0.85      0.85      0.85      2687



##Atividade para entrega

1- Remova 2 atributos a sua escolha e aplique o naive bayes. Houve uma alteração na acurácia e o f1 do método?

2- Agora remova 5 atributos a sua escolha e aplique o naive bayes. Qual é a nova acurácia e do F1?



#Naive bayes vantagens:

- Simples e rápido
- Independencia entre features (variáveis)

#Naive bayes desvantagens:

- Probabilidades com valores igual à zero (Suavizar)
- Independência entre features pode não ser aplicável em bases reais
