# Capitulo 5 - Scikit-learn
## Construção de um modelo Naive Bayes para classificação

Naïve Bayes é um modelo que utiliza o método probabilístico ou bayesiano (baseados na aplicação do teorema de Bayes). Esse método assume que a probabilidade de um evento A (instância pertencer a uma classe), dado a ocorrência de um evento B (características da instância), não depende apenas da relação entre A e B, mas também da probabilidade de observar A independentemente de B. Naïve Bayes possuí alta eficacia e velocidade em grandes conjuntos de dados e lidam bem com dados que possuem ruídos (outliers, dados faltantes).

Durante o treinamento do Naïve Bayes, os dados de treino são usados para calcular um conjunto de probabilidades a priori que são utilizadas para calcular probabilidades a posteriori, durante a fase de teste/previsões dos modelo. Dessa forma, Cada exemplo de treinamento pode decrementar ou incrementar a probabilidade de uma instância pertencer a uma classe específica. 

Para treinar o nosso modelo vamos utilizar a base de dados "Iris plants dataset"
https://en.wikipedia.org/wiki/Iris_flower_data_set

1. Carregamento do conjunto de dados
2. Defininição dos atributos preditores e o atributo target 

In [3]:
from sklearn import datasets
iris = datasets.load_iris()

X = iris.data
y = iris.target

3. Divisão dos conjuntos de dados para treino e teste

In [4]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

4. Criação e treinamento do modelo

In [5]:
from sklearn.naive_bayes import GaussianNB
modelo = GaussianNB()
modelo.fit(X_train,y_train)

GaussianNB(priors=None)

5. Avaliação do modelo <br/>
 Quando modelo tiver alcançando uma boa acurácia no treinamento, podemos testá-lo na classificação de instâncias não utilizadas no treinamento. Esse teste deve fornecer métricas que são importantes para avaliar a qualidade do modelo de classificação<br/><br/>Scikit-learn fornece métodos que calculam essas métricas como o método classification_report e confusion_matrix
 

In [6]:
modelo.score(X_test, y_test)

previsoes = modelo.predict(X_test)

from sklearn import metrics
print(metrics.classification_report(y_test, previsoes))
print(metrics.confusion_matrix(y_test, previsoes))

             precision    recall  f1-score   support

          0       1.00      1.00      1.00        19
          1       0.93      0.93      0.93        15
          2       0.94      0.94      0.94        16

avg / total       0.96      0.96      0.96        50

[[19  0  0]
 [ 0 14  1]
 [ 0  1 15]]


6. Realização de previsões com o modelo

In [19]:
previsoes = modelo.predict(X_test)

import pandas as pd
dataFrame = pd.DataFrame(X_test[:50], columns=iris.feature_names)
dataFrame['esperado'] = y_test[:50]
dataFrame['previsão'] = previsoes[:50]

from sklearn import metrics
print("Acurácia :",metrics.accuracy_score(y_test, previsoes))

dataFrame.head(10)



Acurácia : 0.96


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),esperado,previsão
0,6.1,2.8,4.7,1.2,1,1
1,5.7,3.8,1.7,0.3,0,0
2,7.7,2.6,6.9,2.3,2,2
3,6.0,2.9,4.5,1.5,1,1
4,6.8,2.8,4.8,1.4,1,1
5,5.4,3.4,1.5,0.4,0,0
6,5.6,2.9,3.6,1.3,1,1
7,6.9,3.1,5.1,2.3,2,2
8,6.2,2.2,4.5,1.5,1,1
9,5.8,2.7,3.9,1.2,1,1
