# 01. Dicionário de métricas de avaliação

## 01.1. Métricas para modelos de classificação

### 01.1.1. Accuracy (Acurácia)

<img src="../images/illustrations/evaluation_metrics/accuracy.png" alt="Accuracy" width="800"/>

- **Definição:** Proporção de previsões corretas sobre o total de previsões
- **Aplicação:** Útil quando as classes estão balanceadas
- **Exemplo:** Se um modelo classifica 90 e-mails corretamente em um conjunto de 100, a acurácia será 90%
- **Limitação:** Não funciona bem com classes desbalanceadas, pois o modelo pode ter uma alta acurácia apenas prevendo a classe majoritária

### 01.1.2. Precision (Precisão)

<img src="../images/illustrations/evaluation_metrics/precision.png" alt="Precision" width="800"/>

- **Definição:** Proporção de previsões corretas entre todas as previsões positivas
- **Aplicação:** Importante quando os custos de um falso positivo são altos (por exemplo, diagnósticos médicos)
- **Exemplo:** Em um modelo de detecção de fraudes, a precisão alta garante que as fraudes identificadas realmente sejam fraudes
- **Limitação:** Pode ignorar o número de falsos negativos

### 01.1.3. Recall

<img src="../images/illustrations/evaluation_metrics/recall.png" alt="Recall" width="800"/>

- **Definição:** Proporção de previsões positivas corretas entre todos os casos que são verdadeiramente positivos
- **Aplicação:** Crucial quando a penalidade de um falso negativo é alta (como em diagnósticos de câncer)
- **Exemplo:** Em um modelo de câncer, um recall alto significa que a maioria dos casos de câncer foi detectada
- **Limitação:** Pode aumentar o número de falsos positivos

### 01.1.4. F1-Score

<img src="../images/illustrations/evaluation_metrics/f1_score.png" alt="F1_Score" width="800"/>

- **Definição:** A média harmônica ponderada entre a precisão e a revocação, usada para balancear os dois
- **Aplicação:** Útil em situações onde há um trade-off entre precisão e revocação
- **Exemplo:** Avaliar o desempenho de um modelo de detecção de spam onde tanto a precisão quanto a revocação são importantes
- **Limitação:** Difícil de interpretar isoladamente, melhor usado em conjunto com outras métricas

### 01.1.5. ROC-AUC

<img src="../images/illustrations/evaluation_metrics/roc_auc.png" alt="ROC_AUC" width="800"/>

- **Definição:** Mede a capacidade do modelo em distinguir entre classes, plotando a taxa de verdadeiros positivos (TPR) contra a taxa de falsos positivos (FPR). AUC significa área sob a curva ROC. Um valor de AUC de 0,5 indica que o modelo não tem capacidade de discriminar entre classes, enquanto 1,0 indica discriminação perfeita
- **Aplicação:** Muito útil para problemas com classes desbalanceadas
- **Exemplo:** Avaliar modelos de classificação binária como em detecção de doenças
- **Limitação:** Menos intuitivo, requer um entendimento profundo de como o modelo se comporta com diferentes limiares de classificação

### 01.1.6. AUPRC

<img src="../images/illustrations/evaluation_metrics/auprc.png" alt="AUPRC" width="400"/>

- **Definição:** Mede a capacidade do modelo em distinguir entre classes, plotando a precisão (Precision) contra o recall (Recall). AUPRC significa área sob a curva de Precisão-Recall. Um valor maior de AUPRC indica melhor desempenho, especialmente na detecção de classes positivas raras
- **Aplicação:** Muito útil para problemas com classes desbalanceadas, onde a classe positiva é de interesse e pode ser pouco representada
- **Exemplo:** Avaliar modelos de classificação binária em tarefas como detecção de fraudes ou doenças raras
- **Limitação:** A métrica pode ser sensível a datasets extremamente desbalanceados e, ao contrário da AUC-ROC, não reflete bem o desempenho em relação à classe negativa

### 01.1.7. AP (Average Precision)

<img src="../images/illustrations/evaluation_metrics/ap.png" alt="AP" width="400"/>

- **Definição:** Mede a precisão média em diferentes níveis de recall. A Average Precision é calculada ao longo da curva de Precisão-Recall, representando uma média ponderada das precisões em diferentes limiares de classificação. Um valor mais alto de AP indica melhor desempenho do modelo na identificação de classes positivas
- **Aplicação:** Muito útil em problemas com classes desbalanceadas, especialmente quando a classe positiva é de interesse e representa uma fração menor do total
- **Exemplo:** Avaliar modelos de classificação binária em tarefas como recuperação de informações ou detecção de fraudes, onde a precisão é crucial
- **Limitação:** A AP pode ser sensível a flutuações nas classes positivas e, dependendo do contexto, pode não refletir adequadamente a performance em relação à classe negativa

### 01.1.8. Confusion Matrix (Matriz de Confusão)

<img src="../images/illustrations/evaluation_metrics/confusion_matrix.png" alt="confusion_matrix" width="400"/>

- **Definição:** Mostra a contagem de verdadeiros positivos (TP), verdadeiros negativos (TN), falsos positivos (FP) e falsos negativos (FN)
- **Aplicação:** Permite visualizar onde o modelo está errando
- **Exemplo:** Avaliar erros cometidos em uma classificação de múltiplas classes
- **Limitação:** Não dá uma métrica única, precisa ser combinada com outras avaliações

### 01.1.9. Time (Tempo)

<img src="../images/illustrations/evaluation_metrics/time.png" alt="Time" width="300"/>

- **Definição:** Tempo necessário para processamento do modelo
- **Aplicação:** Avaliar a eficiência de um modelo em relação à velocidade de processamento
- **Exemplo:** Comparar modelos em cenários que exigem respostas rápidas, com a necessidade de retorno instantâneo
- **Limitação:** Pode variar de acordo com o hardware e nem sempre reflete a qualidade do modelo

## 01.2. Métricas para modelos de regressão

### 01.2.1. MAE - Mean Absolute Error (Erro Médio Absoluto)

<img src="../images/illustrations/evaluation_metrics/mae.png" alt="MAE" width="250"/>

- **Definição:** Média dos valores absolutos dos erros (diferença entre os valores preditos e os valores reais)
- **Aplicação:** Fácil de interpretar, pois dá o erro médio em termos das unidades dos dados
- **Exemplo:** Avaliar erros médios em um modelo de previsão de preços de imóveis
- **Limitação:** Ignora a direção dos erros, apenas a magnitude

### 01.2.2. MSE - Mean Squared Error (Erro Quadrático Médio)

<img src="../images/illustrations/evaluation_metrics/mse.png" alt="MSE" width="250"/>

- **Definição:** Média dos quadrados dos erros
- **Aplicação:** Penaliza erros maiores mais fortemente, ideal para quando erros grandes são indesejáveis
- **Exemplo:** Avaliar a precisão de previsões de temperatura
- **Limitação:** A penalização quadrática faz com que erros maiores tenham mais impacto no resultado final

### 01.2.3. RMSE - Root Mean Squared Error (Raiz do Erro Quadrático Médio)

<img src="../images/illustrations/evaluation_metrics/rmse.png" alt="RMSE" width="250"/>

- **Definição:** A raiz quadrada do erro quadrático médio
- **Aplicação:** Fornece uma métrica no mesmo espaço de unidade que a variável-alvo, sendo mais fácil de interpretar
- **Exemplo:** Avaliar a precisão em previsões de séries temporais
- **Limitação:** A penalização dos erros ainda é quadrática, o que pode desconsiderar erros menores

### 01.2.4. R² (Coeficiente de Determinação)

<img src="../images/illustrations/evaluation_metrics/r2.png" alt="R2" width="250"/>

- **Definição:** Mede a proporção da variância dos dados que é explicada pelo modelo
- **Aplicação:** Indica quão bem o modelo se ajusta aos dados
- **Exemplo:** Avaliar a qualidade de um modelo de regressão linear
- **Limitação:** Não pode ser usado para modelos não lineares de maneira direta

### 01.2.5. Time (Tempo)

<img src="../images/illustrations/evaluation_metrics/time.png" alt="Time" width="250"/>

- **Definição:** Tempo necessário para processamento do modelo
- **Aplicação:** Avaliar a eficiência de um modelo em relação à velocidade de processamento
- **Exemplo:** Comparar modelos em cenários que exigem respostas rápidas, com a necessidade de retorno instantâneo
- **Limitação:** Pode variar de acordo com o hardware e nem sempre reflete a qualidade do modelo

## 01.3. Métricas para modelos de clusterização

### 01.3.1. Elbow Method (Método do Cotovelo)

<img src="../images/illustrations/evaluation_metrics/elbow_method.png" alt="Elbor_Method" width="500"/>

- **Definição:** O método do cotovelo é uma técnica utilizada na análise de agrupamento (clustering) para determinar o número ideal de clusters em um conjunto de dados. O princípio básico é calcular a soma dos erros quadráticos (SSE) para diferentes números de clusters e identificar um ponto em que a redução do SSE começa a desacelerar, formando um "cotovelo"
- **Aplicação:** Agrupamento de dados em diversas áreas, como marketing (segmentação de clientes), biologia (agrupamento de espécies), e análise de imagem
- **Exemplo:** Ao agrupar consumidores com base em seu comportamento de compra, o método do cotovelo pode ajudar a identificar o número ideal de segmentos de clientes
- **Limitação:** Pode ser subjetivo, pois a escolha do "cotovelo" pode variar entre diferentes analistas e não é aplicável a todos os conjuntos de dados, especialmente se os clusters não forem bem definidos

### 01.3.2. Silhouette Method (Método da Silhueta)

<img src="../images/illustrations/evaluation_metrics/silhouette_method.png" alt="Silhouette_Method" width="500"/>

- **Definição:** O método da silhueta é uma métrica de avaliação de clustering que mede a qualidade de um agrupamento. Ele calcula quão semelhante um objeto é ao seu próprio cluster em comparação com objetos de outros clusters. O valor da silhueta varia de -1 a 1
- **Aplicação:** Avaliação da qualidade de agrupamentos em problemas de clustering, como agrupamento de documentos, análise de imagem e segmentação de mercado
- **Exemplo:** Ao aplicar o método da silhueta em um agrupamento de imagens, um valor médio de silhueta de 0,75 pode indicar que os grupos são bem definidos e distintos
- **Limitação:** Sensível ao ruído e à presença de outliers e requer que os dados sejam escalados adequadamente