## Métricas de Avaliação

# AVALIAÇÃO DE PERFORMANCE DE MODELOS




## Matriz de Confusão
Matriz de Confusão: Uma forma bastante simples de visualizar a performance de um modelo de classificação é através de uma matriz de confusão. Esta matriz indica quantos exemplos existem em cada grupo: falso positivo (FP), falso negativo (FN), verdadeiro positivo (TP) e verdadeiro negativo (TN). 

# ![image.png](attachment:image.png)


<b>Sensibilidade VP/(VP+FN)</b>: corresponde proporção ou probabilidade de resultado positivo para pacientes doentes [S = P(T + |D)] e pode ser estimada pors = n11/n1+;ii)

<b>Especificidade VN/(VN+FP)</b>: corresponde `a probabilidade de resultado negativo para pacientes não doentes [E = P(T − |ND)] e pode ser estimada por e = n22/n2+;iii) 

<b>FP - Falso positivo (erro do tipo I)</b>: erro em que o modelo previu a classe Positivo quando valor real era a classe  Negativo. corresponde `a probabilidade de resultado positivo para pacientes não doentes [F P = P(T + |ND)] e pode ser estimada por f p = n21/n2+;iv) 

<b>FN - Falso negativo (erro do tipo II)</b>: erro em que o modelo previu a classe Negativo quando na verdade era a classe positivo; corresponde `a probabilidade de resultado negativo para pacientes doentes [F N = P(T − |D)] e pode ser estimada por fn = n12/n1+;v) 

<b>VP - Valor preditivo positivo</b>: classificação correta da classe Positivo. corresponde `a probabilidade de que o paciente seja doente dado que o resultado do teste ´e positivo [V P P =P(D|T+)] e pode ser estimada por vpp = n11/n+1;vi) 

<b>VN - Valor preditivo negativo</b>: classificação correta da classe Negativo. corresponde `a probabilidade de que o paciente não seja doente dado que o resultado do teste ´e negativo[V P N = P(ND|T−)] e pode ser estimada por vpn = n22/n+2;vii)

In [6]:
from sklearn.metrics import confusion_matrix
y_true = [2, 0, 2, 2, 0, 1]
y_pred = [0, 0, 2, 2, 0, 2]
confusion_matrix(y_true, y_pred)

array([[2, 0, 0],
       [0, 0, 1],
       [1, 0, 2]], dtype=int64)

# Métricas de Classificação em Machine Learning

### Classification report
Em resumo, o classification report nos ajuda a entender o desempenho do nosso modelo em cada classe e a tomar decisões informadas sobre ajustes ou escolhas de modelos

In [7]:
from sklearn.metrics import classification_report
y_true = [0, 1, 2, 2, 0]
y_pred = [0, 0, 2, 1, 0]
target_names = ['class 0', 'class 1', 'class 2']
print(classification_report(y_true, y_pred, target_names=target_names))


              precision    recall  f1-score   support

     class 0       0.67      1.00      0.80         2
     class 1       0.00      0.00      0.00         1
     class 2       1.00      0.50      0.67         2

    accuracy                           0.60         5
   macro avg       0.56      0.50      0.49         5
weighted avg       0.67      0.60      0.59         5



### Acurácia (VP + VN) / N

Ela mede de forma simples e direta a proporção de instancias classificadas corretamente pelo modelo em relação ao total.
É excelente para problemas de classificação binaria ou em que as classes são balanceadas. Porém há uma desvantagem como métrica de avaliação em problemas de classificação com classes desbalanceadas pois não considera a proporção das classes.

	• A acurácia é a proporção de amostras corretamente classificadas em relação ao total de amostras.
	• É uma métrica geral, mas pode ser enganosa em conjuntos de dados desbalanceados.
	• Definição: Proporção de previsões corretas em relação ao total de amostras.
	• Adequada para: Dados com a mesma proporção de exemplos para cada classe e penalidades de acerto/erro iguais.
	• Exemplo: Classificar e-mails como spam ou não spam.
	• Sensibilidade a Outliers: Não é muito sensível a outliers, pois considera todas as previsões igualmente.
	• Sensibilidade a Dados Desbalanceados: Pode ser enganosa em conjuntos de dados com classes desbalanceadas.


In [8]:
from sklearn.metrics import accuracy_score
y_pred = [0, 2, 1, 3]
y_true = [0, 1, 2, 3]
accuracy_score(y_true, y_pred)
accuracy_score(y_true, y_pred, normalize=False)

2

### Precisão VP / (VP + FP)

Já a precisão tem o papel de medir a proporção de instancias classificadas como positivas, sendo útil quando o objetivo é minimizar os falsos positivos.

	• A precisão mede a proporção de verdadeiros positivos (amostras corretamente classificadas como positivas) em relação ao total de positivos previstos.
	• É útil quando o foco está em evitar falsos positivos (classificar algo como positivo quando é negativo).
	• Definição: Proporção de verdadeiros positivos em relação ao total de positivos previstos.
	• Adequada para: Quando o foco é evitar falsos positivos.
	• Exemplo: Detecção de fraudes em transações financeiras.
	• Sensibilidade a Outliers: Não é muito sensível a outliers.
	• Sensibilidade a Dados Desbalanceados: Pode ser enganosa quando as classes estão desbalanceadas.
    
A precisão pode ser usada em uma situação em que os Falsos Positivos são considerados mais prejudiciais que os Falsos Negativos. Por exemplo, ao classificar uma ação como um bom investimento, é necessário que o modelo esteja correto, mesmo que acabe classificando bons investimentos como maus investimentos (situação de Falso Negativo) no processo. Ou seja, o modelo deve ser preciso em suas classificações, pois a partir do momento que consideramos um investimento bom quando na verdade ele não é, uma grande perda de dinheiro pode acontecer.

In [12]:
import numpy as np
from sklearn.metrics import precision_score
y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
precision_score(y_true, y_pred, average='macro')

0.2222222222222222

### Recall ou Sensibilidade VP / (VP+FN)

Tem a função de medir a proporção de instancias positivas que são corretamente identificadas pelo modelo. Ou seja, mede a capacidade de detectar todas as instancias positivas, sendo ela útil quando o objetivo é inimizar os falsos negativos.
Em problemas de classificação nas classes desbalanceadas, a recall é a métrica mais indicada para avaliar a capacidade do modelo em identificar a classe minoritária.

    • A revocação (ou sensibilidade) mede a proporção de verdadeiros positivos em relação ao total de verdadeiros positivos e falsos negativos.
    • É importante quando o foco está em evitar falsos negativos (classificar algo como negativo quando é positivo).
    • Definição: Proporção de verdadeiros positivos em relação ao total de verdadeiros positivos e falsos negativos.
    • Adequada para: Quando o foco é evitar falsos negativos.
    • Exemplo: Diagnóstico médico (detectar doenças).
    • Sensibilidade a Outliers: Não é muito sensível a outliers.
    •Sensibilidade a Dados Desbalanceados: Útil para avaliar o desempenho em classes minoritárias.

O recall pode ser usada em uma situação em que os Falsos Negativos são considerados mais prejudiciais que os Falsos Positivos. Por exemplo, o modelo deve de qualquer maneira encontrar todos os pacientes doentes, mesmo que classifique alguns saudáveis como doentes (situação de Falso Positivo) no processo. Ou seja, o modelo deve ter alto recall, pois classificar pacientes doentes como saudáveis pode ser uma tragédia.

In [13]:
import numpy as np
from sklearn.metrics import recall_score
y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
recall_score(y_true, y_pred, average='macro')

0.3333333333333333

### F1-Score 2x(PxR) / (P+R)

Combinado coma precisão e o recall, ela realiza uma média harmônica dessas duas métricas com o objetivo de balanceadas

    • O F1-score é a média harmônica entre precisão e revocação.
    • É útil quando queremos um equilíbrio entre precisão e revocação.
    • Definição: Média harmônica entre precisão e recall.
    • Adequada para: Equilibrar precisão e recall.
    • Exemplo: Avaliação de modelos de classificação em geral.
    • Sensibilidade a Outliers: Não é muito sensível a outliers.
    • Sensibilidade a Dados Desbalanceados: Equilibra precisão e recall, considerando todas as classes.

In [14]:
import numpy as np
from sklearn.metrics import f1_score
y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
f1_score(y_true, y_pred, average='macro')

0.26666666666666666

### Suporte (Support):
		• O suporte é o número de amostras verdadeiras para cada classe.
		• Ajuda a entender a distribuição das classes.


### Macro Avg e Weighted Avg:
		• A média macro é a média não ponderada das métricas por classe.
		• A média ponderada leva em consideração o suporte de cada classe.

Classificação de Doenças:
	• Imagine que estamos construindo um modelo para classificar doenças com base em sintomas.
	• As classes são: Gripe (A), Resfriado (B) e Pneumonia ©.
	• O modelo prevê corretamente a gripe em 90% dos casos (precisão), mas apenas 50% dos casos de pneumonia (revocação).
	• Nesse cenário, a média ponderada (Weighted Avg) levará em consideração o suporte (número de amostras) de cada classe, fornecendo uma visão geral do desempenho do modelo.

<p>Detecção de Fraudes em Transações Financeiras:
	• Suponha que estamos construindo um modelo para detectar fraudes em transações de cartão de crédito.
	• As classes são: Transações Normais (A) e Fraudes (B).
	• O modelo tem alta precisão (99%) para transações normais, mas baixa revocação (70%) para fraudes.
	• A média macro (Macro Avg) considera igualmente todas as classes, permitindo avaliar o desempenho geral do modelo.
<p>Classificação de Sentimentos em Análise de Texto:
	• Digamos que estamos classificando sentimentos em análises de texto: Positivo (A), Negativo (B) e Neutro ©.
	• O modelo tem alta precisão para sentimentos positivos e negativos, mas baixa revocação para sentimentos neutros.
	• A média ponderada (Weighted Avg) leva em conta o suporte de cada classe, ajudando a entender o impacto geral nas previsões.
<p>Em resumo, a Macro Avg e a Weighted Avg fornecem insights valiosos sobre o desempenho do modelo em diferentes classes e ajudam a tomar decisões informadas sobre ajustes ou escolhas de modelos.

### Curva ROC
É uma ferramenta de visualização que mostra a relação entre a taxa de verdadeiros positivos (recall) e a taxa de falsos positivos para diferentes pontos de corte do modelo, ele é útil para comparar o desempenho de diferentes modelos de classificação.


### Area sob a curva ROC (AUC)
A métrica possui a AUC que mede a capacidade do modelo de distinguir entre as classes , mas para isso é necessária o seguinte cálculo: a variação de 0 a 1, onde 1 representa o modelo perfeito e 0,5 representa um modelo aleatório.

    • Definição: Representa graficamente o desempenho do modelo em relação à taxa de verdadeiros positivos e falsos positivos.
    • Adequada para: Comparar modelos e entender o trade-off entre sensibilidade e especificidade.
    • Exemplo: Avaliação de modelos de detecção de câncer.
    • Sensibilidade a Outliers: Não é muito sensível a outliers.
    • Sensibilidade a Dados Desbalanceados: Útil para avaliar o desempenho geral do modelo.


In [15]:
from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score

In [17]:
# Binary case:
X, y = load_breast_cancer(return_X_y=True)
clf = LogisticRegression(solver="liblinear", random_state=0).fit(X, y)
roc_auc_score(y, clf.predict_proba(X)[:, 1])
roc_auc_score(y, clf.decision_function(X))

0.9946223772527879

In [18]:
# Multiclass case:
from sklearn.datasets import load_iris
X, y = load_iris(return_X_y=True)
clf = LogisticRegression(solver="liblinear").fit(X, y)
roc_auc_score(y, clf.predict_proba(X), multi_class='ovr')

0.9913333333333334

In [19]:
# Multilabel case:
import numpy as np
from sklearn.datasets import make_multilabel_classification
from sklearn.multioutput import MultiOutputClassifier
X, y = make_multilabel_classification(random_state=0)
clf = MultiOutputClassifier(clf).fit(X, y)
# get a list of n_output containing probability arrays of shape
# (n_samples, n_classes)
y_pred = clf.predict_proba(X)
# extract the positive columns for each output
y_pred = np.transpose([pred[:, 1] for pred in y_pred])
roc_auc_score(y, y_pred, average=None)
from sklearn.linear_model import RidgeClassifierCV
clf = RidgeClassifierCV().fit(X, y)
roc_auc_score(y, clf.decision_function(X), average=None)

array([0.81996435, 0.8467387 , 0.93090909, 0.87229702, 0.94422994])

### Entropia 
Através da entropia o algoritmo verifica como os dados estão distribuídos nas variáveis preditoras de acordo com a variação da variável target. Quanto maior a entropia, maior a desordem dos dados; e quanto menor, maior será a ordem destes dados, quando analisados pela ótica da variável target.

Partindo da entropia, o algoritmo confere o ganho de informação de cada variável. Aquela que apresentar maior ganho de informação será a variável do primeiro nó da árvores.

Podemos entender o ganho de informação como a medida de quão bem relacionados os dados da variável preditora estão com os dados da variável target (ou o quanto a variável target pode ser explicada a partir da variável preditora), sendo que a variável com melhor desempenho será a escolhida para iniciar a árvore.

### Gini
Gini é uma medida de impureza utilizada em arvores de decisão e modelos de classificação. 
Ela representa a probabilidade de classificar incorretamente uma amostra aleatória de elementos de duas classes diferentes.

Cálculo: O pi é a proporção de elementos da classe i em relação ao total de elementos do conjunto de dados e k é o numero de classes. A Gini varia de 0 a 1, sendo 0 indica que o conjunto de dados está perfeitamente classificado e 1, que o conjunto de dados está completamente impuro.
É importante lembrar que os elementos pertencem a uma única classe e estão distribuídos igualmente entre as classes.

Funcionalidade: ela é utilizada para escolher a melhor divisão dos dados em cada arvore. Ou seja a divisão com a menor gini é considerara a mais pura, consequentemente a mais adequada para a construção da arvore. E mais, ela também pode ser utilizada para avaliar a qualidade do modelo com um todo, é calculada a partir da média ponderada das Gini em cada nó da arvore.

Com o cálculo do índice GINI, assim como na Entropia, será verificada a distribuição dos dados nas variáveis preditoras de acordo com a variação da variável target, porém com um método diferente.

A variável preditora com o menor índice Gini será a escolhida para o nó principal da árvore, pois um baixo valor do índice indica maior ordem na distribuição dos dados.

### KS (Kolmogorov-Smirnov)
Ela é utilizada ara analisar uma performance de classificação binaria e tem um papel importante na verificação de problemas de crédito, marketing e falsificação. Ou seja ela consegue avaliar o poder discriminatório de modelos de scoring de crédito , de segmentação de mercado e de detecção e fraude.
É valido destacar que o KS é baseado na cuva ROC e mede a diferença máxima entre as proporções acumuladas de verdadeiros positivos e falsos positivos em diferentes pontos de corte do modelo. Em outras palavras o KS verifica a capacidade do modelo de separar os verdadeiros positivos dos falsos positivos


![image.png](attachment:image.png)

# As Métricas para Dados Desbalanceados de um Problema Multi-Classes

Quando lidamos com problemas de multiclasses onde há um grande volume de registros de uma classe e poucos ou raros eventos de outras classes a acurácia pode não trazer nenhuma informação util como resposta.

<p><b>Possiveis Causas</b>:
<p>		• Falta de Features Representativas do fenômeno;
<p>		• Dados com ruído (sujeira)
<p>		• Escassez de exemplos de treino para as outras classes (desbalanceamento de classes)
<p>		• Divergencia entre o viés dos dados e o viés do modelo (é o modelo mais adequado?)

<p>Temos que verificar as features e limpar os ruídos antes de tentar resolver diretamente o balanceamento. Pois podemos piorar duplicando dados incorretos.

<p><b>Possiveis Soluções</b>:
<p>		• Criação de Features Relevantes
<p>		• Remover Ruidos
<p>		• Balanceamento de Classes
<p>		• Escolha de outros Algoritmos de ML

### Balanced Accuracy
((Acuracia da Classe A) + (Acuracia da Classe B))/Total de Classes
Balanced Accuracy = 62,5%


In [3]:
from sklearn.metrics import balanced_accuracy_score
y_true = [0, 1, 0, 0, 1, 0]
y_pred = [0, 1, 0, 0, 0, 1]
balanced_accuracy_score(y_true, y_pred)



0.625

### Kappa Score
O quanto esse acordo entre dois estimadores é melhor do que jogar uma moeda, ou seja um modelo aleatório. Quanto mais próximo de 1 for o seu valor melhor.  Quanto mais proximo de zero pior, pois demonstra uma ausencia de concordancia entre os estimadores, ou seja a concordancia é puramente aleatória.

Medir o Nível de Acordo entre 2 Avaliadores

Kappa Score = (Nivel de Acordo - (Nivel de Acordo ao Acaso)) / 1-(Nivel de Acordo ao Acaso)


In [5]:
from sklearn.metrics import confusion_matrix, cohen_kappa_score

confusion_matrix(y_true, y_pred)
cohen_kappa_score(y_true, y_pred)

0.25

# Métricas de Regressão em Machine Learning

### R2
    • O R-quadrado é uma medida estatística de quão próximos os dados estão da linha de regressão ajustada. Ele também é conhecido como o coeficiente de determinação ou o coeficiente de determinação múltipla para a regressão múltipla.
    • QUANTO MAIS PROXIMO DE 1 MELHOR. 
	• É sensível ao número de features.



In [21]:
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
r2_score(y_true, y_pred)

0.9486081370449679

In [23]:
y_true = [[0.5, 1], [-1, 1], [7, -6]]
y_pred = [[0, 2], [-1, 2], [8, -5]]
r2_score(y_true, y_pred,
         multioutput='variance_weighted')

0.9382566585956417

### Mean Squared Error (MSE):
	• Definição: Média dos erros quadráticos entre as previsões e os valores reais.
	• Adequada para: Avaliar o erro médio em problemas de regressão.
	• Exemplo: Previsão de preços de imóveis.
	• Sensibilidade a Outliers: Sensível a outliers, pois os erros são quadráticos.
	• Sensibilidade a Dados Desbalanceados: Não é afetada pelo desbalanceamento.
	• Em outras palavras, pega-se a diferença entre o valor predito pelo modelo e o valor real, eleva-se o resultado ao quadrado, faz-se a mesma coisa com todos os outros pontos, soma-os, e dividi-se pelo número de elementos preditos. Quanto maior esse número, pior o modelo.

In [26]:
from sklearn.metrics import mean_squared_error
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
mean_squared_error(y_true, y_pred)
y_true = [[0.5, 1],[-1, 1],[7, -6]]
y_pred = [[0, 2],[-1, 2],[8, -5]]
mean_squared_error(y_true, y_pred)
mean_squared_error(y_true, y_pred, multioutput='raw_values')
mean_squared_error(y_true, y_pred, multioutput=[0.3, 0.7])

0.825

### Root mean squared error (RMSE)

    • Raiz do erro quadrático médio (RMSE): o RMSE baseia-se na média das diferenças entre as predições e observações reais ao quadrado.
    • Interpretação facilitada


### Mean Absolute Error (MAE):
	• Definição: Média dos erros absolutos entre as previsões e os valores reais.
	• Adequada para: Avaliar o erro médio sem considerar a magnitude.
	• Exemplo: Previsão de demanda de produtos.
	• Sensibilidade a Outliers: Menos sensível a outliers do que o MSE.
	• Sensibilidade a Dados Desbalanceados: Não é afetada pelo desbalanceamento.
	• Diferentemente do MSE e do RMSE, essa métrica não “pune” tão severamente os outliers do modelo. Essa medida apresenta valor mínimo 0 e não apresenta valor máximo.

In [28]:
from sklearn.metrics import mean_absolute_error
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
mean_absolute_error(y_true, y_pred)

0.5

In [29]:
y_true = [[0.5, 1], [-1, 1], [7, -6]]
y_pred = [[0, 2], [-1, 2], [8, -5]]
mean_absolute_error(y_true, y_pred)

0.75

In [30]:
mean_absolute_error(y_true, y_pred, multioutput='raw_values')

array([0.5, 1. ])

In [31]:
mean_absolute_error(y_true, y_pred, multioutput=[0.3, 0.7])

0.85

# Métricas de Ranking em Machine Learning

### NDCG (Normalized Discounted Cumulative Gain):
	• Definição: Mede a qualidade do ranking de itens.
	• Adequada para: Recomendação de produtos.

### MRR (Mean Reciprocal Rank):
	• Definição: Média do recíproco da posição do primeiro item relevante.
	• Adequada para: Avaliar a eficácia de sistemas de recomendação.

# Métricas de Distância

A <b>Distância Euclidiana</b> é uma boa escolha quando seus dados são exclusivamente discretos ou contínuos. Ela é a medida de distância mais comum e intuitiva, pois é a distância "em linha reta" entre dois pontos;

A <b>Distância de Manhattan</b> é mais útil em situações onde você deseja calcular a distância entre dois pontos enquanto se move em um grid, como um tabuleiro de xadrez ou as ruas de uma cidade;

A <b>distância de Minkowski</b> Se os seus dados têm escalas diferentes, você pode usar a distância de Minkowski, que é uma generalização da distância euclidiana e da distância de Manhattan!

A <b>Distância de Chebyshev</b>, por fim, pode ser útil ao lidar com dados de alta dimensão ou em problemas de otimização, pois ela captura o "pior caso" de diferença entre dois pontos.

<b>Outras distâncias</b>
 • Coeficiente de Pearson
 • Índice de Tanimoto
 • City Block
