# Naive Bayes

***

Exemplo adaptado de [Rafael Sakurai](https://www.sakurai.dev.br/classificacao-naive-bayes/)

### Importando bibliotecas

In [1]:
import numpy as np
import pandas as pd

### Carregando os dados

In [2]:
dataset = pd.read_csv('https://raw.githubusercontent.com/johnattandouglas/monitoria-ml/main/Datasets/jogar.csv')
dataset

Unnamed: 0,tempo,temperatura,humidade,vento,jogar
0,sol,quente,alta,não,não
1,sol,quente,alta,sim,não
2,nublado,quente,alta,não,sim
3,chuva,suave,alta,não,sim
4,chuva,frio,normal,não,sim
5,chuva,frio,normal,sim,não
6,nublado,frio,normal,sim,sim
7,sol,suave,alta,não,não
8,sol,frio,normal,não,sim
9,chuva,suave,normal,não,sim


### Pergunta:
sol - quente - normal - vento - ???

### Preparando os dados

Todas as características que temos neste dataset são categóricas. Vamos converter os dados para valores numéricos usando o [LabelEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html).

O LabelEncoder codifica os rótulos com valores entre 0 e n_classes-1.

In [3]:
from sklearn import preprocessing

tempo_le = preprocessing.LabelEncoder()
tempo = tempo_le.fit_transform(dataset['tempo'].values)

print("Categorias encontradas para tempo: {}".format(tempo_le.classes_))
print("Exemplo de encode de tempo: {} e seu valor real: {}".format(tempo[0], tempo_le.inverse_transform([tempo[0]])))

temperatura_le = preprocessing.LabelEncoder()
temperatura = temperatura_le.fit_transform(dataset['temperatura'].values)

print("\nCategorias encontradas para temperatura: {}".format(temperatura_le.classes_))
print("Exemplo de encode de temperatura: {} e seu valor real: {}".format(temperatura[0], temperatura_le.inverse_transform([temperatura[0]])))

humidade_le = preprocessing.LabelEncoder()
humidade = humidade_le.fit_transform(dataset['humidade'].values)

print("\nCategorias encontradas para humidade: {}".format(humidade_le.classes_))
print("Exemplo de encode de humidade: {} e seu valor real: {}".format(humidade[0], humidade_le.inverse_transform([humidade[0]])))

vento_le = preprocessing.LabelEncoder()
vento = vento_le.fit_transform(dataset['vento'].values)

print("\nCategorias encontradas para vento: {}".format(vento_le.classes_))
print("Exemplo de encode de vento: {} e seu valor real: {}".format(vento[0], vento_le.inverse_transform([vento[0]])))

Categorias encontradas para tempo: ['chuva' 'nublado' 'sol']
Exemplo de encode de tempo: 2 e seu valor real: ['sol']

Categorias encontradas para temperatura: ['frio' 'quente' 'suave']
Exemplo de encode de temperatura: 1 e seu valor real: ['quente']

Categorias encontradas para humidade: ['alta' 'normal']
Exemplo de encode de humidade: 0 e seu valor real: ['alta']

Categorias encontradas para vento: ['não' 'sim']
Exemplo de encode de vento: 0 e seu valor real: ['não']


### Separando o conjunto de dados

Vamos criar um novo dataset com esses valores convertidos.

In [4]:
dataset2 = pd.DataFrame()
dataset2['tempo'] = tempo
dataset2['temperatura'] = temperatura
dataset2['humidade'] = humidade
dataset2['vento'] = vento

In [5]:
X = dataset2.values
dataset2

Unnamed: 0,tempo,temperatura,humidade,vento
0,2,1,0,0
1,2,1,0,1
2,1,1,0,0
3,0,2,0,0
4,0,0,1,0
5,0,0,1,1
6,1,0,1,1
7,2,2,0,0
8,2,0,1,0
9,0,2,1,0


X é a entrada dos dados. Vamos fazer o mesmo para a coluna da variável-alvo (y).

In [6]:
jogar_le = preprocessing.LabelEncoder()
y = jogar_le.fit_transform(dataset['jogar'].values)

In [7]:
print(y)

[0 0 1 1 1 0 1 0 1 1 1 1 1 0]


In [8]:
print("Categorias encontradas para jogar: {}".format(jogar_le.classes_))

Categorias encontradas para jogar: ['não' 'sim']


Agora y é o vetor com os valores representando as classes.

### Treinamento do modelo

[CategoricalNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.CategoricalNB.html#sklearn.naive_bayes.CategoricalNB) - Implementa o algoritmo de Naive Bayes categórico para dados distribuídos categoricamente.

[GaussianNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html#sklearn.naive_bayes.GaussianNB) - Implementa o algoritmo Gaussian Naive Bayes para classificação. A probabilidade das features é assumida como gaussiana.

[MultinomialNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html#sklearn.naive_bayes.MultinomialNB) - Implementa o algoritmo Naive Bayes para dados multinomialmente distribuídos e é uma das duas variantes clássicas Naive Bayes usadas na classificação de texto.

[BernoulliNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.BernoulliNB.html#sklearn.naive_bayes.BernoulliNB) - Implementa o algoritmo Naive Bayes para dados que são distribuídos de acordo com distribuições multivariadas de Bernoulli; ou seja, pode haver várias features, mas cada um é assumido como uma variável de valor binário.

Mais detalhes [link](https://scikit-learn.org/stable/modules/naive_bayes.html#).

Como selecionar:

- Features categóricas: CategoricalNB
- Features contínuas: GuassianNB
- Distribuições com features discretas, ou uma contagem (0, 1, 2, 3, ...): MultinomialNB ou ComplementNB
- Para features como distribuições de Bernoulli: BernoulliNB

In [9]:
from sklearn.naive_bayes import CategoricalNB

model = CategoricalNB() #inicializada como uma instância da classe CategoricalNB
model.fit(X, y) #objeto model é treinado com os dados definidos acima

### Pergunta:
sol - quente - normal - vento - ???

In [10]:
nova_amostra = [
      tempo_le.transform(['sol'])[0], 
      temperatura_le.transform(['quente'])[0],
      humidade_le.transform(['normal'])[0],
      vento_le.transform(['sim'])[0]
  ]

print(nova_amostra)

[2, 1, 1, 1]


In [14]:
probabilidade = model.predict_proba([nova_amostra])
saida = model.predict([nova_amostra])

In [15]:
probabilidade

array([[0.54041983, 0.45958017]])

In [16]:
saida

array([0])

In [17]:
print(jogar_le.inverse_transform(saida))

['não']
