#### Avaliação da Matriz de Confusão
<br />

* Verdadeiro Positivo e Falso Positivo
* Precision & Recall
* Overfitting & Underfitting
* Validação Cruzada (_avaliação científica_)
* Tuning dos Parâmetros
* Como testar e avaliar os algoritmos (+ _Estatística_)
* Algoritmos ANOVA & TUKEY
* Salvando os classificadores já treinados

In [1]:
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

import pickle
with open('credit_base.pkl', 'rb') as f:
    X_credit_treinamento, y_credit_treinamento, X_credit_teste, y_credit_teste = pickle.load(f)

In [2]:
acertos = 85
erro = 31

total = acertos + erro
total

116

In [3]:
# percentual de acerto
(acertos/total)*100

73.27586206896551

In [4]:
# percentual de erro
(erro/total)*100

26.72413793103448

Obs¹ : A matriz de confusão é gerada baseada nos dados de **Teste**

1. Precisamos saber sempre o cenário/contexto que estamos inseridos, para avaliar sobre o percentual de acerto/não acerto. Isso deve ser avaliado para que o percentual de acerto, seja aceitável ou não.
2. Precisamos saber também o número de classes que estamos trabalhando.
3. Zero R. Baseado em Regras

In [5]:
exemplo = {"Doente Positivo":[200, 50],
          "Doente Negativo":[50, 700]}

# convertendo o dicionário em um DataFrame do Pandas

import pandas as pd
df = pd.DataFrame(exemplo, index=["Doente Positivo", "Doente Negativo"])
df

Unnamed: 0,Doente Positivo,Doente Negativo
Doente Positivo,200,50
Doente Negativo,50,700


#### Métricas de Availação (_matriz de confusão_)

In [6]:
total_registros = df['Doente Positivo'].sum() + df['Doente Negativo'].sum()
total_registros

1000

In [7]:
# Total de doentes positivos
total_doentes_positivos = df['Doente Positivo'].iloc[:].sum()
total_positivos_porcentagem = (total_doentes_positivos / total_registros)*100

# Total de doentes negativos
total_doentes_negativos = df['Doente Negativo'].iloc[:].sum()
total_negativos_porcentagem = ( total_doentes_negativos/ total_registros)*100

total_doentes_positivos, total_doentes_negativos

(250, 750)

In [8]:
# porcentagem 
total_positivos_porcentagem, total_negativos_porcentagem

(25.0, 75.0)

In [9]:
# Porcentagem de acerto
# esse valor tbm pode ser entendido como o valor da diagonal principal da matriz (DataFrame)

             #    200                          700
acuracia = df['Doente Positivo'][0] + df['Doente Negativo'][1]

acuracia_porcentagem = (acuracia / total_registros) *  100
acuracia, acuracia_porcentagem

(900, 90.0)

In [14]:
df['Doente Negativo'][0]

50

#### Precision and Recall
<br />

##### Precision
* O _precision_ visa responder: Quando o modelo previu SIM, o quanto ele estava certo?


$$precision = \frac{TP}{TP + FP}$$

<br />

onde TP = "True Positives" e FP "False Positives"

<br />

Podemos reescrever essa fórmula utilizando outra notação 

<br />

$$precision = \frac{TP}{Total Doentes Positivos}$$

In [12]:
precision = (df['Doente Positivo'][0] / total_doentes_positivos) * 100

# portanto o modelo está correto em 80% das previsões
precision

80.0

#### Recall

<br />

* O _recall_ visa responder: Quando o modelo previu SIM, o quanto o modelo classificou corretamente?

$$recall = \frac{TP}{TP + FN}$$


In [16]:
recall = (df['Doente Positivo'][0] / (df['Doente Positivo'][0] + df['Doente Negativo'][0])) * 100

# portanto o modelo identifica corretamente 80% dos registros
recall

80.0