## Métricas de Desempenho


### Exemplo Classificação Binária


Este exemplo consiste na Avaliação dos resultados de um problema de **Classificação Binária**. Utilizando
as métricas referentes a problemas de classificação binária:

 * Matriz de Confusão
 * Acurácia
 * Precisão
 * Recall
 * F1-Score
 
-----------------------
 
 **Problema** : 
 
  Investigaremos possíveis casos de doenças coronárias em pacientes, com base em diferentes variávies como, uso de tabaco, nível de colesterol Ldl, Uso de Álcool, Obesidade e outros. 
  
 > Dados forncedidos por um estudo feito na África do Sul, uma descrição mais completa sobre o problema pode ser encontrada [aqui](https://web.stanford.edu/~hastie/ElemStatLearn/).

-----------------------


In [34]:
# Carregar Pacotes

import sklearn
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

# Ignorar warnings
import warnings
warnings.filterwarnings('ignore')

-----------------------
### Carregando os Dados

In [19]:
df = pd.read_csv("../dataset/dados_exe1.csv", header=0)
df.head()

Unnamed: 0,row.names,sbp,tobacco,ldl,adiposity,famhist,typea,obesity,alcohol,age,chd
0,1,160,12.0,5.73,23.11,Present,49,25.3,97.2,52,1
1,2,144,0.01,4.41,28.61,Absent,55,28.87,2.06,63,1
2,3,118,0.08,3.48,32.28,Present,52,29.14,3.81,46,0
3,4,170,7.5,6.41,38.03,Present,51,31.99,24.26,58,1
4,5,134,13.6,3.5,27.78,Present,60,25.99,57.34,49,1


In [20]:
# Codificar valores categóricos da coluna "famhist" para inteiros

df["famhist"] = df["famhist"].astype('category')
df["famhist"] = df["famhist"].cat.codes
df.head()

Unnamed: 0,row.names,sbp,tobacco,ldl,adiposity,famhist,typea,obesity,alcohol,age,chd
0,1,160,12.0,5.73,23.11,1,49,25.3,97.2,52,1
1,2,144,0.01,4.41,28.61,0,55,28.87,2.06,63,1
2,3,118,0.08,3.48,32.28,1,52,29.14,3.81,46,0
3,4,170,7.5,6.41,38.03,1,51,31.99,24.26,58,1
4,5,134,13.6,3.5,27.78,1,60,25.99,57.34,49,1


-----------------------
## Separar dados em Treino/Teste (70/30)

Os dados apresentam um desbalanceamento de classes de proporção aproximada de 65:35 para classe 0.


-----
## Treinar o Classificador SVM

## Predição com dados de teste

-----------
## Avaliar Desempenho do Classificador

### Matriz de Confusão

Como pode ser visto ao utilizar 50 iterações para o classificador, na matriz de confusão vemos que **x** das **139** observações foram classificadas erradas. 


O modelo não parece performar muito bem dentro destas condições. 


Vamos analisar as próximas métricas para vermos quais outras informações podemos extrair desta análise.  

### Acurácia    
![image.png](attachment:image.png)

Como os dados apresentam um desbalanceamento entre as classes, olhar apenas a acurácia do modelo pode não representar o real desempenho do classificador.





### Precisão    
![image-2.png](attachment:image-2.png)

### Recall    
![image-3.png](attachment:image-3.png)

Um Baixo valor de Recall se remete a um alto número de falsos negativos

O ideal são valores altos para ambos **Precisão** e **Recall**, onde o modelo performa bem para ambas as classes.

## F1-Score    
![image-4.png](attachment:image-4.png)

O **F1-Score** possui uma representação mais fiel do desemepenho do modelo, pois leva em consideração o número de Falsos Positivos e Falsos Negativos. 


Se tivéssemos avaliado apenas o valor de Ácuracia, poderíamos ter a impressão que o modelo apresenta um desempenho melhor do que o real. Quando na verdade estaríamos validando um modelo que funciona muito bem apenas para a classe "0"


Um valor Baixo de **F1-Score** mostra que o modelo é inadequado para este problema. 


Saber avaliar o modelo em mais de uma métrica pode trazer insights interessantes e ajudar na tomada de decisão.


Desbalanceamento de Dados é um problema bem reccorente em aprendizado de máquina. Porém existem formas de lidar que involvem:

* Testar outros modelos Random Forests (RF), K-Nearest Neighbors (KNN), Artificial Neural Networks (ANN), etc...
* Usar comitês de máquinas
* Usar outras formas de reamostragem dos dados
* Usar Validação Cruzada