## Aula 5 | Validação dos Modelos

### 5.1 | Matriz de Confusão

Para validar os modelos vamos utilizar a **matriz de confusão**. A matriz de confusão é uma tabela que mostra as **frequências de classificação** para cada classe do modelo. A ideia é verificar se o modelo está classificando corretamente as classes.

A matriz de confusão é dividia em quatro partes:

* **Verdadeiro Positivo (VP)**: quando o modelo classifica corretamente uma classe.

* **Verdadeiro Negativo (VN)**: quando o modelo classifica corretamente uma classe.

* **Falso Positivo (FP)**: quando o modelo classifica incorretamente uma classe.

* **Falso Negativo (FN)**: quando o modelo classifica incorretamente uma classe.



In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split


dados = pd.read_csv('Customer-Churn.csv')
dados.head()

#modificação de forma manual 
traducao_dic = {'Sim': 1, 
                'Nao': 0}

dadosmodificados = dados[['Conjuge', 'Dependentes', 'TelefoneFixo', 'PagamentoOnline', 'Churn']].replace(traducao_dic)
dadosmodificados.head()

#transformação pelo get_dummies
dummie_dados = pd.get_dummies(dados.drop(['Conjuge', 'Dependentes', 'TelefoneFixo', 'PagamentoOnline', 'Churn'],
                axis=1))

#junção dos dados trasformados com os que já tinhamos
dados_final = pd.concat([dadosmodificados, dummie_dados], axis=1)

#Divisão em inputs e outputs
x = dados_final.drop('Churn', axis = 1)
y = dados_final['Churn']

norm = StandardScaler()

X_normalizado = norm.fit_transform(x)
X_normalizado

X_treino, X_teste, y_treino, y_teste = train_test_split(X_normalizado, y, test_size=0.3, random_state=123)


In [5]:
# KNN
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(metric='euclidean')
knn.fit(X_treino, y_treino)
predito_knn = knn.predict(X_teste)
#predito_knn

In [7]:
# BNB
from sklearn.naive_bayes import BernoulliNB
bnb = BernoulliNB(binarize=0.52)
bnb.fit(X_treino, y_treino)
predito_bnb = bnb.predict(X_teste)
#predito_bnb

In [8]:
# Decision Tree
from sklearn.tree import DecisionTreeClassifier
dtc = DecisionTreeClassifier(criterion='entropy', random_state=42)
dtc.fit(X_treino, y_treino)
predito_ArvoreDecisao = dtc.predict(X_teste)
#predito_ArvoreDecisao

array([1, 0, 0, ..., 1, 0, 0], dtype=int64)

In [10]:
from sklearn.metrics import confusion_matrix

In [12]:
print(confusion_matrix(y_teste, predito_knn))


[[1305  218]
 [ 317  273]]


In [13]:
print(confusion_matrix(y_teste, predito_bnb))

[[1058  465]
 [ 120  470]]


In [14]:
print(confusion_matrix(y_teste, predito_ArvoreDecisao))

[[1249  274]
 [ 290  300]]


### 5.2 | Acurácia

A partir do cálculo da **matriz de confusão** conseguimos inferir outras métricas, como por exemplo a **acurácia**:

$$ACC = \frac{VP + VN}{VP + VN + FP + FN}$$


In [15]:
from sklearn.metrics import accuracy_score

In [17]:
# KNN
print(accuracy_score(y_teste, predito_knn))

0.7468054898248935


In [18]:
# Bnb
print(accuracy_score(y_teste, predito_bnb))

0.7231424514907714


In [20]:
print(accuracy_score(y_teste, predito_ArvoreDecisao))

0.7330809275911027
