# AULA 13 - CLASSIFICATION EVALUATION
---

#### Perguntas a responder hoje

- Como avaliar o desempenho de um modelo
- Como obter estimativas confiáveis
- Como comparar o desempenho relativo entre os modelos concorrentes


# Metricas para Avaliação de Performance
---

Vamos focar-nos na capacidade de estimação de um modelo (e não tanto no seu tempo de processamento, escalabilidade, etc.)


<img src="images/Log_regr.png" style="width:50%" />

Vamos considerar duas Classes: **{POSITIVO, NEGATIVO}**
> estes nomes para as classes de classificação são genericamente adoptados quando falamos de avaliação de modelos de classificação, sem perda de generalidade.

O que acontece quando traçamos uma fronteira entre duas classes (Exemplo Binário)? Existem 4 possibilidades para cada exemplar classificado:

- **Verdadeiros Positivos** - true positive (TP), equivalent with **hit**

- **Verdadeiros Negativos** - true negative (TN), equivalent with correct rejection

- **Falsos Positivos** - false positive (FP), equivalent with **false alarm**, Type I error

- **Falsos Negativos** - false negative (FN), equivalent with **miss**, Type II error


## Confusion Matrix

Apesar de poder ser aplicada a modelos com qualquer número de classes, o seu funcinamento é mais claro para problemas binários:

<img src="images/confusion_matrix.png" style="width:60%"/>

Vamos imaginar duas gausseanas, uma para cada classe de classificação (Positive e Negative - que vem do campo da medicina), mediante o valor de uma feature, x. Vamos também traçar um threshold ```t```, ,abaixo do qual o nosso modelo assigna a classe Negative e acima do qual Positive, tal como mostra a figura:

<img src="images/confusion_gaussian.png" style="width:60%"/>

(ambas as gausseanas somam 1)

### Métricas

##### Accuracy (precisão) (mais usada): 
$$\frac{TP+TN}{TP+TN+FP+FN}$$

##### Sensitivity, recall, hit rate, or true positive rate (TPR):
$$\frac{TP}{TP+FN}$$

##### False positive rate (FPR):
$$\frac{FP}{TN+FP}$$

##### Specificity or true negative rate (TNR)
$$\frac{TN}{TN+FP}$$

##### False negative rate (FNR):
$$\frac{FN}{TP+FN}$$

## ROC Curve

A curva de característica operacional do receptor (ROC) é uma abordagem gráfica para exibir o tradeoff entre o True Positive Rate (TPR) e a False Positive Rate (FPR) de um classificador. Numa curva ROC o TPR é plotado ao longo do eixo y e o FPR é mostrada no eixo x. 

Cada ponto ao longo da curva corresponde a um dos possiveis modelos criados pelo classificador, consoante o valor de Threshold.

<img src="images/ROC_1.png" style="width:60%"/>
> ROC curve plots TP (on the y-axis) against FP (on the x-axis)

Vamos analisar como funciona:

#### TPR (TRUE POSITIVE RATE ) = 0.5

$$0.5/(0.5+0.5) = 0.5$$

<img src="images/TPR.png" style="width:20%"/>

#### FPR (FALSE POSITIVE RATE) = 0.12

$$0.12/(0.12+0.88) = 0.12$$

<img src="images/FPR.png" style="width:20%"/>

Ou seja, 

<img src="images/ROC_2.png" style="width:40%"/>


#### Posições limite na ROC Curve:

- (x = 0, y = 0): declara tudo como classe negativa
- (x = 1, y = 1): declara tudo como classe positiva
- (x = 0, y = 1): ideal
- (x = 1, y = 0): oposto do ideal - (tb ideal para classes binárias)


- Um bom classificador deve ter a capacidade de ter um valor de threshold que maximiza o TPR (~1) e minimiza o FPR (~0). 
- Um mau classificador deve ter ambos os valores praticamente iguais...


#### Comparando modelos usando ROC Curve

Genericamente, o melhor modelo será aquele que se apróxima da posição (x=0,y=1). 

<img src="images/ROC_3.png" style="width:40%"/>

##### E neste caso?

- Nenhum modelo supera de forma consistente o outro
    - M1 é melhor para FPR pequeno
    - M2 é melhor para FPR grande

O FPR pode ser mais ou menos relevante para um problema. Como medir a importância dos erros que nos nosso modelos geram?


## Cost Matrix

Vejamos o exemplo de classificação de uma transação de um cartão de crédito ser VÁLIDA ou NÃO VÁLIDA (fraudulenta). O que é mais custoso para a empresa de transacções, que paga indeminizações quando acontece uma fraude? 

- Proibir uma transação que era VÁLIDA (Classificado como Negativo, apesar de ser Positivo - FN) 
- Deixar passar uma transação fraudulenta (Classificado como Positivo, apesar de ser Negativo - FP)

Imaginemos que alguém na empresa consegue medir o custo relativo para a empresa de ambas as situações:

e se apercebe que a primeira é 100 vezes menos grave que a segunda. 

#### Como podemos medir o impacto desta gravidade nos nossos modelos? 

#### R: Matriz de Custo, da função custo ou das métricas "pesadas" (e.g. Weigthed Accuracy) 


<img src="images/cost_matrix.png" style="width:40%"/>

$C (i \space|\space j)$: Custo de classificação incorreta do exemplo da classe $j$ como classe $i$


<img src="images/cost_application_1.png" style="width:40%"/>
> Aplicando a função de Custo podemos ver que apesar do modelo M1 ser menos preciso (Accuracy menor) tem menos "Custo" 



Outra forma é calcularmos as métricas com pesos dados pela matriz de custos:

$$Weigthed \space Accuracy = \frac{C(Y|Y)\space TP + C(N|N)\space TN}{C(Y|Y)\space TP + C(N|Y)\space FN + C(Y|N)\space FP +  C(N|N)\space TN}$$

## Overfitting and Underfitting

**Conceito de overfitting:** Por vezes o resultado do treino é um modelo demasiado à semelhança dos dados que foram usados para treinar e perdemos capacidade de generalização para novos dados. Nesse caso dizemos que o problema tem overfitting;

**Conceito de underfitting:** Por vezes o resultado do treino é um modelo mal treinado, onde os resultados representam um erro muito para além do esperado; Nesse caso estamos em underfitting;

O resultado prático de overfitting (variance) e underfitting (bias):

<img src="images/overfitting_underfitting.jpg"   style="width:60%"/>


> **Mas como saber qual a performance do nosso modelo?**

### Hold Out vs Cross Validation

<img src="images/From+Holdout+Evaluation+to+Cross-Validation.jpg" style="width:60%"/>