### Resumo livro - Approaching (almost) any Machine Learning Problem


# Métricas de Avaliação

Quando vamos desenvolver algoritmos de machine learning, podemos utilizar diversas métricas de avaliação. Algumas vezes, criamos métricas novas para atender uma necessidade de compreensão para o negócio. Nesse notebook, vamos avaliar as métricas mais comums que podem ser usadas nos mais variados tipos de problemas.

Importante notar que trataremos apensa de métricas de avaliaçao para algotirmos supervisionados devido a grande abundancia desse tipo de problema na indústria e o fato das métricas de avaliação de problemas não supervisionados são um pouco subjetivas.

### As métricas mais usadas para problemas de Classificação são:
* Accuracy 
* Precision (P)
* Recall (R)
* F1 score (F1)
* Area under the ROC (Roceiver Operating Characteristic) curve ou AUC 
* Log Loss
* Precision at k (P@k)
* Average Precision at k (AP@k)
* Mean Average Precision at k (MAP@k)

### As métricas mais usadas para problemas de Regressão são:
* Mean Absolute Error (MAE) 
* Mean Squared Error (MSE)
* Root Mean Squared Error (RMSE)
* Root Mean Squared Logarithmic error (RMSLE)
* Mean Percentage Error (MPE) 
* Mean Absolute Percentage Error (MAPE)
* R²


Saber trabalhar com as métricas mensionadas acima não a única coisa que nós devemos saber. Além disso, devemos saber quando usar quando usar cada uma delas, e isso depende do tipo de dados que temos e do target em questão. 

*Nota: O autor mensiona que se "preocupa" mais com os targets e menos com os tipos de data para saber qual métrica escolher*

Para entender um pouco sobre as métricas, vamos começar com um problema simples de classificação. Vamos supoer que temos um problema de classificação binária ( apenas dois targets) e tal problema consiste em classificar imagens de raio-X toráxica. Temos imagens de raio-x sem problema algum e outras com pneumatorax. Nossa tarefa é montar um algoritmo de classificação que dada uma imagem de raio-x, consiga detectar a presença de pneumatorax. 

.

<img src = 'imagens/pneumotorax.jpg'/>

...

Vamos assumir que temos dados balanceados, ou seja, o número de casos com pneumatorax é igual ao número de casos sem o problema. Se tivermos 100 casos positivos, então teremos 100 casos negativos também.
 

Primeira coisa a se fazer é separar os dados em dois sets iguais de 100 imagens ( set de treino e de validação). Em cada um dos sets, teremos 50 casos positivos e 50 casos negativos para garantir o balanceamento das classes.

> ### Quando temos o mesmo número de classes positivas e negativas num problema de classificação binário,nós usamos as seguintes métricas:
> * Accuracy
> * Precision
> * Recall
> * F1


**Accuracy** ou acurácia é a métrica mais simples usada em machine learning. É definido como o quão preciso o modelo é em geral. Para o problema anterior, se a gente constroi um modelo que classifica **90 imagens corretamente**, nossa **accuracy (ou acurácia) é de 90% ou 0.9**. Se somente 83 imagens são classificadas corretamente, a accuracy é de 83% ou 0.83.

### Vamos calcular accuracy com Python:

In [12]:
def accuracy(y_true, y_pred):
    # Inicializa o contador para previsões corretas
    correct = 0
    
    # loop sobre todos elementos de y_true e y_pred 
    for yt, yp in zip(y_true, y_pred):
        if yt == yp:
            correct += 1
    
    # retorna o avalor da accuracy que é a quantidade de previsões corretas sobre o total
    return (correct/ len(y_true))


y_true = [0,1,1,1,0,0,0,1]
y_pred = [0,1,0,1,0,1,0,0]

accuracy = accuracy(y_true, y_pred)
print(f"Accuracy : {accuracy}")

Accuracy : 0.625


* Povemos também realizar o cálculo da acurácia com o scikit-learn:

In [13]:
from sklearn import metrics
y_true = [0,1,1,1,0,0,0,1]
y_pred = [0,1,0,1,0,1,0,0]

accuracy_sklearn = metrics.accuracy_score(y_true,y_pred)

print(f"Accuracy : {accuracy_sklearn}")

Accuracy : 0.625


---

### Dataset Desbalanceado

Agora vamos considerar que temos um dataset desbalanceado com 180 imagens de pacientes que não possuem pneumatórax e apenas 20 que possuem.Mesmo para esse caso, nós iremos criar os datasets de treinamento e validação com as mesmas proporções de targets positivos e negativos. Em cada set, teremos 90 imagems sem pneumatórax e 10 imagens com pneumatórax. *Para a situação em questão, se você disser que todas as imagens do set de validação são de pacientes que não possuem pneumatórax, a acurácia seria de 90%!*

É notório que temos classes desbalanceadas com uma delas significativamente maior que a outra.**Nesse caso, não é recomendado usar a acurácia como métrica de avaliação pois ela não é representativa para os dados em questão**. Mesmo que tenhamos uma acurácia grande, o modelo provavelmente terá uma performance pobre quando for aplicado para dados de produção e você terá sérios problemas para explicar para o seu gerente o motivo.

**Em casos como esse, é melhor olhar para outras métricas como por exemplo a precision.**

Antes de falar em precision, vamos entender outros termos importantes. Vamos assumir que imagem com pneumatórax são da classe positiva (1) e imagens sem são da classe negativa (0).

**True Positive (TP) ou Verdadeiro Positivo (VP)**: Dada uma imagem, se o modelo prever que tal imagem possui pneumatórax e o valor de target da imagem mostra que o paciente realmente possui pneumatórax, é considerado true positive ou verdadeiro positivo.

**True Negative (TN) ou Verdadeiro Negativo (VN)**: Dada uma imagem, se o modelo prever que essa imagem não possui pneumatórax e a imagem é de um paciente que realmente não possui pneumatórax, é considerado True Negative.

Resumindo:
* *Se o modelo prever corretamente classe positiva, é* **True Positive**
* *Se o modelo prever corretamente classe negativa, é* **True Negative**

**False Positive (FP) ou Falso Positivo**: Dada uma imagem, se o modelo prever pneumatórax porém a imagem é de um paciente sem pneumatórax, é um False Positive.

**False Negative (FN) ou Falso Negativo**: Dada uma imagem, se o modelo prever que a imagem não é de paciente com pneumatórax, porém o paciente possui pneumatórax, é um False Negative.

Resumindo:
* *Se o modelo prever incorretamente classe positiva, é* **False Positive**
* *Se o modelo prever incorretamente classe negativa, é* **False Negative**


### Vamos olhar a implementação em python dos conceitos apresentados acima

In [6]:
def true_positive(y_true, y_pred):
    true_pos = 0
    for yt,yp in zip(y_true, y_pred):
        if yt == 1 and yp == 1:
            true_pos += 1
    
    return true_pos

In [7]:
def true_negative(y_true,y_pred):
    true_neg = 0
    for yt,yp in zip(y_true,y_pred):
        if yt == 0 and yp ==0:
            true_neg += 1
            
    return true_neg

In [8]:
def false_positive(y_true, y_pred):
    false_pos = 0
    for yt,yp in zip(y_true, y_pred):
        if yt == 0 and yp ==1:
            false_pos += 1
            
    return false_pos

In [9]:
def false_negative(y_true, y_pred):
    false_neg = 0
    for yt, yp in zip(y_true, y_pred):
        if yt == 1 and yp == 0:
            false_neg += 1
            
    return false_neg

*Nota: As funções aplicadas acima funcionam apenas para classificação binária.*

In [11]:
true_Y = [0,1,1,1,0,0,0,1]
y_Pred = [0,1,0,1,0,1,0,0]

In [15]:
true_positive(true_Y, y_Pred)

2

In [16]:
false_positive(true_Y, y_Pred)

1

In [18]:
false_negative(true_Y, y_Pred)

2

In [19]:
true_negative(true_Y, y_Pred)

3

Se formos definir **Accuracy** com os termos apresentados acima, nós teríamos:

Accuracy Score:$$ Accuracy_Score = (TP + TN) / (TP + TN+FP + FN) $$
\frac{ (TP + TN)}{(TP + TN+FP + FN)}\\

\begin{equation*}
Accuracy Score = \frac{ (TP + TN)}{(TP + TN+FP + FN)}\\
\end{equation*}