# Exemplo 1: Naive Bayes binário

- Neste exemplo, vamos usar somente variáveis categóricas para prever a probabilidade de haver jogo ou não, a partir das variáveis tempo (weather) e temperatura (Temp).

In [2]:
# Criando as variáveis

Weather = ['Sunny','Sunny','Overcast','Rainy','Rainy','Rainy','Overcast','Sunny','Sunny',
'Rainy','Sunny','Overcast','Overcast','Rainy']

Temp = ['Hot','Hot','Hot','Mild','Cool','Cool','Cool','Mild','Cool','Mild','Mild','Mild','Hot','Mild']

Play =['No','No','Yes','Yes','Yes','No','Yes','No','Yes','Yes','Yes','Yes','Yes','No']

- Fazendo o encoding das variáveis, ou seja, transformando as strings em valores numéricos:

In [3]:
# Imports
from sklearn import preprocessing

# criando o labelEncoder
le = preprocessing.LabelEncoder()

# Convertendo strings em números
weather_encoded = le.fit_transform(Weather)
print(weather_encoded)

[2 2 0 1 1 1 0 2 2 1 2 0 0 1]


- Convertendo temperatura e play:

In [4]:
# Convertendo as outras variáveis
temp_encoded = le.fit_transform(Temp)
label = le.fit_transform(Play)

print("Temp:", temp_encoded)
print("Play :", label)

Temp: [1 1 1 2 0 0 0 2 0 2 2 2 1 2]
Play : [0 0 1 1 1 0 1 0 1 1 1 1 1 0]


In [5]:
# Combinando variáveis em tuplas

features = [tup for tup in zip(weather_encoded, temp_encoded)]
print(features)

[(2, 1), (2, 1), (0, 1), (1, 2), (1, 0), (1, 0), (0, 0), (2, 2), (2, 0), (1, 2), (2, 2), (0, 2), (0, 1), (1, 2)]


#### Gerando o Modelo

Agora vamos gerar o modelo de Naive Bayes a partir dos seguintes passos:

   - Criar um classificador naive bayes
   - Ajustar os dados ao classificador
   - Fazer a predição

In [6]:
#Import Gaussian Naive Bayes model
from sklearn.naive_bayes import GaussianNB

#Create a Gaussian Classifier
model = GaussianNB()

# Train the model using the training sets
model.fit(features,label)

#Predict Output
predicted= model.predict([[0,2]]) # 0:Overcast, 2:Mild
print("Predicted Value:", predicted)

Predicted Value: [1]


- Valor predito 1, isto é, vai haver jogo dadas as condições climáticas: tempo nublado com temperatura amena. 

# Exemplo 2: Naive Bayes com múltiplas classes

Neste exemplo vamos treinar um modelo de naive bayes multinomial. Temos um problema deste tipo quando queremos classificar notícias, por exemplo, em esportes, política, entretenimento, etc. 

Para este exemplo vamos usar a base de dados de vinho, disponível em  ([UC Irvine](https://archive.ics.uci.edu/ml/datasets/wine)). Este dataset é o resultado de análises químicas de vinhos de uma mesma região da Itália, mas com 3 tipos diferentes de cultivo. 


O dataset tem 13 features (alcohol, malic_acid, ash, alcalinity_of_ash, magnesium, total_phenols, flavanoids, nonflavanoid_phenols, proanthocyanins, color_intensity, hue, od280/od315_of_diluted_wines, proline) e o tipo de cultivo. Há três tipos de vinho: Class_0, Class_1, and Class_3. 

Os dados estão disponíveis na biblioteca do scikit-learn.

## Dados

In [19]:
from sklearn import datasets

#Load dataset
wine = datasets.load_wine()

## Explorando os dados

In [20]:
# print the names of the 13 features
print("Features: ", wine.feature_names)

# print the label type of wine(class_0, class_1, class_2)
print("\nLabels: ", wine.target_names)

Features:  ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']

Labels:  ['class_0' 'class_1' 'class_2']


In [21]:
# print data(feature)shape
wine.data.shape

(178, 13)

In [22]:
# print the wine data features (top 5 records)
print(wine.data[0:5])

[[1.423e+01 1.710e+00 2.430e+00 1.560e+01 1.270e+02 2.800e+00 3.060e+00
  2.800e-01 2.290e+00 5.640e+00 1.040e+00 3.920e+00 1.065e+03]
 [1.320e+01 1.780e+00 2.140e+00 1.120e+01 1.000e+02 2.650e+00 2.760e+00
  2.600e-01 1.280e+00 4.380e+00 1.050e+00 3.400e+00 1.050e+03]
 [1.316e+01 2.360e+00 2.670e+00 1.860e+01 1.010e+02 2.800e+00 3.240e+00
  3.000e-01 2.810e+00 5.680e+00 1.030e+00 3.170e+00 1.185e+03]
 [1.437e+01 1.950e+00 2.500e+00 1.680e+01 1.130e+02 3.850e+00 3.490e+00
  2.400e-01 2.180e+00 7.800e+00 8.600e-01 3.450e+00 1.480e+03]
 [1.324e+01 2.590e+00 2.870e+00 2.100e+01 1.180e+02 2.800e+00 2.690e+00
  3.900e-01 1.820e+00 4.320e+00 1.040e+00 2.930e+00 7.350e+02]]


In [23]:
# print the wine labels (0:Class_0, 1:class_2, 2:class_2)
print(wine.target)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]


## Dividindo os dados em treino e teste

In [24]:
# Import train_test_split function
from sklearn.model_selection import train_test_split

# Split dataset into training set and test set
X_train, X_test, y_train, y_test = train_test_split(wine.data, 
                                                    wine.target, 
                                                    test_size=0.3,   # 70% training and 30% test
                                                    random_state=109) 

## Geração do modelo

In [25]:
#Import Gaussian Naive Bayes model
from sklearn.naive_bayes import GaussianNB

#Create a Gaussian Classifier
gnb = GaussianNB()

#Train the model using the training sets
gnb.fit(X_train, y_train)

#Predict the response for test dataset
y_pred = gnb.predict(X_test)

In [26]:
y_pred

array([0, 0, 1, 2, 0, 1, 0, 0, 1, 0, 2, 2, 2, 2, 0, 1, 1, 0, 0, 1, 2, 1,
       0, 2, 0, 0, 1, 2, 0, 1, 2, 1, 1, 0, 1, 1, 0, 2, 2, 0, 2, 1, 0, 0,
       0, 2, 2, 0, 1, 1, 2, 0, 0, 2])

## Avaliação do modelo

In [27]:
#Import scikit-learn metrics module for accuracy calculation
from sklearn import metrics

# Model Accuracy, how often is the classifier correct?
print("Accuracy:", metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.9074074074074074


In [30]:
# print("Recall:", metrics.recall_score(y_test, y_pred))
# print("Precision", metrics.precision_score(y_test, y_pred))

OBS.: Fazer outro exemplo com classificação binária para calcular Recall e Precision. 