# Extras

## Métricas de avaliação para classificação

Sempre que precisamos entender como um modelo está performando, devemos compreender as métricas, principalmente se for um modelo de classificação. Uma forma de analisar o desempenho de forma visual é a matriz de confusão.

A matriz de confusão é importante para:
- identificar se os dados estão desbalanceados
- entender a confiabilidade do modelo
- tirar insights do comportamento do modelo

![image.png](attachment:image.png)

### Entendendo a acurácia
- Entender se a classificação está correta
- **Razão** dos acertos sobre o total

![image-2.png](attachment:image-2.png)

### Entendendo a precisão
- Entender quantos objetos classificados em uma classe são realmente daquela classe
- **Razão** do VP sobre todos os positivos
- A precisão mede o quanto podemos confiar num modelo quando ele prevê que um exemplo pertence a uma determinada classe.
  

![image-3.png](attachment:image-3.png)

### Entendendo a recall
- Conhecida também como sensibilidade
- **Razão** do VP sobre todos os realmente positivos
- É o número de objetos que o modelo identificou corretamente como uma classe dividido pelo número total de objetos que realmente são daquela classe.
- Também é conhecida como taxa de detecção
  - De todos os exemplos que o modelo poderia detectar, quantos ele realmente conseguiu.

![image-4.png](attachment:image-4.png)


### Entendendo a f1-score
- Indica se está falhando ou não em classificar como uma determinada classe
- Entender o equilíbrio da precisão e recall
  - Faz uma média harmônica das duas métricas
- Utilizada quando queremos dar importância igual às duas métricas.
  
![image-5.png](attachment:image-5.png)

## Curva ROC

Para avaliarmos o desempenho de classificação binária podemos utilizar a curva **ROC**, que é uma sigla em inglês para *Receiver Operating Characteristic Curve* (Curva Característica de Operação do Receptor).

A partir dessa curva podemos extrair uma métrica conhecida como **AUC** (Area Under the Curve), que é a área abaixo da curva. Essa métrica possui um valor máximo de 1 e quanto mais próximo desse valor, melhor o desempenho desse modelo de classificação.

No eixo X desse gráfico nós temos a **1 - a especificidade** ou **taxa de falsos positiovs**. No eixo Y, nós temos a **sensibilidade** ou **taxa de verdadeiros positivos**. Essa taxa de sensibilidade também é conhecida como ***recall***.

Essas duas taxas são métricas extraídas a partir de uma matriz de confusão gerada a partir dos resultados de um modelo de classificação.

![image-17.png](attachment:image-17.png)

![image-18.png](attachment:image-18.png)

Porém, essa matriz de confusão gera apenas uma taxa de falsos positivos e uma taxa de veraddeiros positivos. Se representarmos isso graficamente, nós obtemos um único ponto. 

Como podemos encontrar outros pontos para formar uma curva? Para isso, é necessário utilizar diversos pontos de corte, também conhecidos como ***thresholds*** no momento de avaliação do modelo de classificação. A partir disso, podemos extraiar uma taxa de falsos positivos e uma taxa de veraddeiros positivos para cada ponto de corte.

Em um modelo de classificação nós podemos estimar a probabilidade de um registro pertencer a uma determinada classe. E o ponto de corte vai ser um valor limite para que o modelo considere se o registro vai ser classificado como "sim" ou como "não".

Vamos entender isso através de um exemplo:

![image-3.png](attachment:image-3.png)

Aqui temos uma tabela com 8 dias, com as características meteorológicas para cada um desses dias na segunda coluna. Na terceira colunas nós temos a informação real, se choveu ou não choveu para cada um desses dias.

Podemos construir um modelo de classificação que vai nos retornar a probabilidade de chuva com base nessas características meteorológicas e na informação real se choveu ou não choveu.

![image-4.png](attachment:image-4.png)

O modelo foi representado em uma quarta coluna.

Vamos agora coletar apenas a informação real se choveu ou não choveu e colocarmos em uma tabela também a informação da probabilidad gerada pelo modelo em ordem crescente. E vamos estudar os pontos de corte.

![image-5.png](attachment:image-5.png)

O modelo irá classificar os registros com base nos pontos de corte. Utilizando um **ponto de corte** de **50%**, nós temos que o modelo irá classificar os registros como "sim" caso a probabilidade gerada por ele seja maior que 50%, e classificar como "não" caso a probabilidade seja menor que 50%. Dessa forma, os 4 primeiros registros são classificados como "não" e os 4 últimos são classificados como "sim". Repare que se alterassemos o ponto de corte de 24% a 69% nós teríamos o mesmo resultado, portanto o ponto de corte pode ser um intervalo de 24% a 69%.

Esse resultado obtido pelo modelo pode nos gerar a seguinte matriz de confusão:

![image-6.png](attachment:image-6.png)

Agora, vamos considerar um ponto de corte diferente, um ponto de corte de 0%, o modelo nesse caso, classificaria todos os registros como "sim. Um ponto de corte com intervalo de 0% a 4% teria o mesmo resultado.

![image-7.png](attachment:image-7.png)

Isso nos gera uma nova matriz de confusão

![image-8.png](attachment:image-8.png)

Nós podemos utilizar diversos pontos de corte para cada intervalo de probabilidade gerada pelo modelo, obtendo uma nova matriz de confusão e novas taxas de falso positivo e taxas de verdadeiro positivo.

![image-9.png](attachment:image-9.png)

![image-10.png](attachment:image-10.png)

![image-11.png](attachment:image-11.png)

![image-12.png](attachment:image-12.png)

![image-13.png](attachment:image-13.png)

![image-14.png](attachment:image-14.png)

Até chegar em ponto de corte de 100%, onde o modelo classificaria todos os registros como "não", obtendo uma taxa de falso positivo de zero e uma taxa de verdadeiro positivo também de zero.

Esses resultados gerados podem ser sumarizados em uma tabela e construir um gráfico utilizando os pontos gerados por cada linha dessa tabela

![image-15.png](attachment:image-15.png)

Se interligarmos cada um desses pontos nós obteremos a Curva ROC. Além disso, nós temos no gráfico uma linha diagonal que representa um modelo que classificaria os registros de forma aleatória. Portanto, pontos acima dessa reta diagonal representa que o modelo está se saindo melhor do que um modelo totalmente aleatório.

![image-16.png](attachment:image-16.png)

Além disso, podemos avaliar o modelo pela métrica **AUC**. É possível também, comparar mais de um modelo utilizando o mesmo gráfico