# Métricas

## Introdução

Este notebook versará sobre métricas que avaliam a acurácia de um algoritmo para um determinado problema. No nosso caso vamos usar os dados de crédito como no notebook de Naive Bayes, Particionamento e Label Encoder. Contudo, vale ressaltar que essas métricas são válidas para qualquer algoritmo em geral.

## Dados Iniciais

In [1]:
from pandas import read_csv
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB


df = read_csv('Credit.csv')

#-----------------------------------------------------------------------------

previsores = df.iloc[:,0:20].values
classe = df.iloc[:,20].values

#-----------------------------------------------------------------------------
# Transformando as colunas de strings em colunas numéricas (CODIFICAÇÃO DE CATEGORIAS)

labelencoder1 = LabelEncoder()
previsores[:,0] = labelencoder1.fit_transform(previsores[:,0])

labelencoder2 = LabelEncoder()
previsores[:,2] = labelencoder2.fit_transform(previsores[:,2])

labelencoder3 = LabelEncoder()
previsores[:, 3] = labelencoder3.fit_transform(previsores[:, 3])

labelencoder4 = LabelEncoder()
previsores[:, 5] = labelencoder4.fit_transform(previsores[:, 5])

labelencoder5 = LabelEncoder()
previsores[:, 6] = labelencoder5.fit_transform(previsores[:, 6])

labelencoder6 = LabelEncoder()
previsores[:, 8] = labelencoder6.fit_transform(previsores[:, 8])

labelencoder7 = LabelEncoder()
previsores[:, 9] = labelencoder7.fit_transform(previsores[:, 9])

labelencoder8 = LabelEncoder()
previsores[:, 11] = labelencoder8.fit_transform(previsores[:, 11])

labelencoder9 = LabelEncoder()
previsores[:, 13] = labelencoder9.fit_transform(previsores[:, 13])

labelencoder10 = LabelEncoder()
previsores[:, 14] = labelencoder10.fit_transform(previsores[:, 14])

labelencoder11 = LabelEncoder()
previsores[:, 16] = labelencoder11.fit_transform(previsores[:, 16])

labelencoder12 = LabelEncoder()
previsores[:, 18] = labelencoder12.fit_transform(previsores[:, 18])

labelencoder13 = LabelEncoder()
previsores[:, 19] = labelencoder13.fit_transform(previsores[:, 19])

#--------------------------------------------------------------------------------------------------------------------------
# PARTICIONAMENTO

X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores, classe, test_size = 0.3, random_state = 0)

#-------------------------------------------------------------------------------------------------------------------------
# APLICAÇÃO DO ALGORITMO DE NAIVE BAYES

naive_bayes = GaussianNB()

naive_bayes.fit(X_treinamento, y_treinamento)

previsoes = naive_bayes.predict(X_teste)


## Matriz de Confusão

A grosso modo, a matriz de confusão mede quantos acertos a máquina teve ao comparar dados fornecidos pela previsão de um modelo com as "respostas". As colunas são as classificações das respostas, enquanto que as linhas representam os resultados dados pela previsão. Deste modo, os termos diagonais dessa matriz representam quantos acertos o modelo teve, enquanto que os demais termos são "falsos diagnósticos". 

No nosso exemplo, como só existem os resultados "bom pagador" (good) e "mau pagador" (bad), então a matriz é do tipo 2x2.

Para chamar essa função, basta digitar

In [2]:
from sklearn.metrics import confusion_matrix

Essa função precisa de dois parâmetros:

* ```y_true```: dados "corretos" que servem para serem comparados;
* ```y_pred```: dados fornecidos pelo modelo em qustão;

e retorna a matriz de confusão.

In [3]:
confusao = confusion_matrix(y_teste, previsoes)

confusao

array([[ 41,  45],
       [ 42, 172]])

Obs: A matriz que essa função retorna usa a convenção onde as linhas são os resultados "corretos" e as colunas são os resultados gerados pelo modelo.

## ```accuracy_score```

A função ```accuracy_score``` fornece a porcentagem de acertos do modelo. Os parâmetros que precisamos são os mesmos que os da função ```confusion_matrix```:

* ```y_true```: dados "corretos" que servem para serem comparados;
* ```y_pred```: dados fornecidos pelo modelo em qustão.

Para chamá-la, basta digitar

In [4]:
from sklearn.metrics import accuracy_score

Daí,

In [5]:
taxa_acerto = accuracy_score(y_teste, previsoes)

taxa_acerto

0.71