<a href="https://colab.research.google.com/github/biancasantt/metricas_machine_learning-/blob/main/Machine_Learning_M%C3%A9tricas_Bianca_Santana.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Relatório de Métricas - Aprendizado de Máquina**


Autor: Bianca Santana da Silva


**Métricas de Avaliação em Machine Learning - Importância:**

As métricas de aprendizado de máquina desempenham uma função fundamental na avaliação de modelos, permitindo-nos mensurar e compreender o desempenho do modelo. Isso simplifica a comparação entre diversas abordagens e auxilia na escolha da melhor opção para resolver um problema específico.

**O QUE DEVERÁ SER ELABORADO?**

Um módulo com métricas para avaliar algoritmos.


***Classificação:***

1. matriz_confusão
2. acurácia
3. macro f1
4. f1, precisão e recall por classe
5. mcc

***Regressão:***

1. mae
2. mse
3. rmse
4. mape

# ***Classificação***

***Breve explicação:***

Um modelo de classificação binária tem a finalidade de determinar a qual das duas classes possíveis uma nova observação pertence. Geralmente, essas duas classes são conhecidas como classe positiva (P) e classe negativa (N), e representam a presença ou ausência de um evento específico. Por exemplo, um caso típico seria a classificação de um paciente como portador (positivo) ou não portador (negativo) de uma determinada doença.

***Desenvolvendo o trabalho:***

 Neste trabalho, abordaremos métricas destinadas à classificação binária, mas é importante destacar que essas métricas também podem ser estendidas para a classificação multiclasse.

A avaliação de um modelo de classificação implica na comparação entre as classes previstas pelo modelo e as classes verdadeiras de cada exemplo. Todas as métricas de classificação compartilham o objetivo comum de quantificar o quão distante o modelo está da classificação perfeita, embora realizem essa avaliação de maneiras distintas.

**Importação de Bibliotecas:**
   ```python
   import numpy as np
   ```
   Esta linha importa a biblioteca NumPy para realizar cálculos numéricos eficientes.

In [None]:
#importando a biblioteca numpy
import numpy as np

### **Função - matriz_confusao**

A matriz de confusão permite identificar facilmente os acertos e erros de classificação em cada classe, ajudando a determinar se o modelo favorece uma classe em detrimento da outra. Isso é crítico em situações onde erros têm consequências diferentes, como em diagnósticos médicos, onde um falso negativo pode ser mais grave do que um falso positivo.

Rotular erroneamente um paciente como doente quando está saudável pode ser indesejado, pois pode resultar em tratamentos adicionais não necessários. Entretanto, o erro de falso negativo (rotular erroneamente um paciente como saudável quando está doente) é muito mais grave, já que pode levar à falta de tratamento necessário e potencialmente prejudicar a saúde do paciente.


**Função `matriz_confusao(gabarito, estimado)`:**
   Esta função calcula a matriz de confusão, que é uma tabela que mostra o desempenho do modelo em termos de verdadeiros positivos (TP), falsos positivos (FP), verdadeiros negativos (TN) e falsos negativos (FN). A matriz é uma matriz 2x2, onde a primeira dimensão representa a classe real e a segunda dimensão representa a classe prevista.

In [None]:
def matriz_confusao(gabarito, estimado):
    # Inicialize a matriz de confusão
    matriz = np.zeros((2, 2), dtype=int)

    for i in range(len(gabarito)):
        verdadeiro = gabarito[i]
        predito = estimado[i]
        matriz[verdadeiro][predito] += 1

    return matriz

### **Função - acuracia**

Nos diz quantos de nossos exemplos foram de fato classificados corretamente, independente da classe. Por exemplo, se temos 100 observações e 90 delas foram classificados corretamente, nosso modelo possui uma acurácia de 90%.


   **Função `acuracia(gabarito, estimado)`:**
   Esta função calcula a acurácia do modelo, que é a proporção de predições corretas em relação ao total de predições. A acurácia é calculada como:

$$\text{Acurácia} = \frac{TP + TN}{TP + TN + FP + FN}$$

***observação relevante:***

As variáveis TP, TN FP e FN, expressas na fórmula matemática, não existe no código implementado abaixo. Isso deve-se ao fato de que, aqui, estamos trabalhando diretamente sobre os valores da matriz confusão.

In [None]:
def acuracia(gabarito, estimado):
    matriz = matriz_confusao(gabarito, estimado)
    return (matriz[0][0] + matriz[1][1]) / np.sum(matriz)

### **Função - precision_recall_f1**

**precisão:** É a razão entre a quantidade de exemplos classificados corretamente como positivos e o total de exemplos classificados como positivos

**Revocação (recall):** Ao contrário da precisão, dá maior ênfase para os erros por falso negativo. É a razão entre a quantidade de exemplos classificados corretamente como positivos e a quantidade de exemplos que são de fato positivos

**Score F1:** Leva em consideração tanto a precisão quanto a revocação. Ela é definida pela média harmônica entre as duas


   **Função `precision_recall_f1(gabarito, estimado, classe)`:**
   Esta função calcula a precisão, recall e F1-score para uma classe específica. A precisão é a proporção de verdadeiros positivos em relação a todos os positivos previstos:
  
  $$\text{Precisão (Precision)} = \frac{TP}{TP + FP}$$
  
  O recall é a proporção de verdadeiros positivos em relação a todos os verdadeiros positivos
  
 $$\text{Recall} = \frac{TP}{TP + FN}$$
  
  O F1-score é uma média harmônica da precisão e do recall, ou seja:


  $$\text{Recall} = \frac{TP}{TP + FN}$$



In [None]:
def precision_recall_f1(gabarito, estimado, classe):
    tp = 0  # Verdadeiros positivos
    fp = 0  # Falsos positivos
    fn = 0  # Falsos negativos

    for i in range(len(gabarito)):
        if gabarito[i] == classe:
            if estimado[i] == classe:
                tp += 1
            else:
                fn += 1
        elif estimado[i] == classe:
            fp += 1

    precision = tp / (tp + fp)
    recall = tp / (tp + fn)
    f1 = 2 * (precision * recall) / (precision + recall)

    return precision, recall, f1

### **Função - macro_f1**


**Função `macro_f1(gabarito, estimado)`:**
   Esta função calcula o F1-score macro, que é a média dos F1-scores para todas as classes. Isso é útil quando você tem várias classes e deseja uma métrica única para avaliar o desempenho do modelo.

   $$F1 = \frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$$


In [None]:
def macro_f1(gabarito, estimado):
    f1s = []
    for classe in [0, 1]:
        precision, recall, f1 = precision_recall_f1(gabarito, estimado, classe)
        f1s.append(f1)

    return sum(f1s) / len(f1s)

### **Função - mcc**

 **Função `mcc(gabarito, estimado)`:**
   Esta função calcula o coeficiente de correlação de Matthews (MCC), que é uma métrica que leva em consideração todos os elementos da matriz de confusão. É uma métrica que varia de -1 a 1, onde 1 indica uma predição perfeita, 0 indica uma predição aleatória e -1 indica uma inversão completa.

   $$\text{MCC} = \frac{TP \cdot TN - FP \cdot FN}{\sqrt{(TP + FP)(TP + FN)(TN + FP)(TN + FN)}}$$


In [None]:
def mcc(gabarito, estimado):
    matriz = matriz_confusao(gabarito, estimado)
    tp = matriz[1][1]
    tn = matriz[0][0]
    fp = matriz[0][1]
    fn = matriz[1][0]

    denom = np.sqrt((tp + fp) * (tp + fn) * (tn + fp) * (tn + fn))

    if denom == 0:
        return 0

    return (tp * tn - fp * fn) / denom

### **Exemplo de Uso**

**Exemplo de Uso:**
   O exemplo de uso no final do código mostra como chamar essas funções com um conjunto de dados de exemplo representado pelos vetores `gabarito` e `estimado`. Podemos substituir esses vetores, futuramente, pelos dados reais de um domínio.

In [None]:
# Exemplo de uso:
gabarito = [0, 1, 1, 0, 0, 1, 0, 1, 1, 0]
estimado = [0, 1, 1, 0, 1, 1, 0, 0, 1, 0]

print("========================================")
print("Matriz de Confusão:")
print(matriz_confusao(gabarito, estimado))
print("========================================")

print("Acurácia:", acuracia(gabarito, estimado))
print("Macro F1:", macro_f1(gabarito, estimado))

for classe in [0, 1]:
    precision, recall, f1 = precision_recall_f1(gabarito, estimado, classe)
    print("")
    print(f"CLASSE {classe}:")
    print("Precisão:", precision)
    print("Recall:", recall)
    print("F1:", f1)

print("\nMCC:", mcc(gabarito, estimado))

Matriz de Confusão:
[[4 1]
 [1 4]]
Acurácia: 0.8
Macro F1: 0.8000000000000002

CLASSE 0:
Precisão: 0.8
Recall: 0.8
F1: 0.8000000000000002

CLASSE 1:
Precisão: 0.8
Recall: 0.8
F1: 0.8000000000000002

MCC: 0.6


Análise da saída produzida pelo código em relação às métricas de avaliação:

1. **Matriz de Confusão:**
   - A matriz de confusão mostra como o modelo classificou os exemplos. Os elementos da diagonal representam as previsões corretas, enquanto os elementos fora da diagonal representam os erros. No exemplo, temos:
     - Verdadeiros Positivos (TP): 4
     - Falsos Positivos (FP): 1
     - Verdadeiros Negativos (TN): 4
     - Falsos Negativos (FN): 1

2. **Acurácia (Accuracy):**
   - A acurácia é uma medida geral do desempenho do modelo. No exemplo, a acurácia é de 80%, o que significa que o modelo acertou 80% das previsões.

3. **F1-Score Macro:**
   - O F1-Score macro é a média dos F1-scores para cada classe. Ele fornece uma visão geral do desempenho do modelo para todas as classes. No exemplo, o F1-Score macro é de aproximadamente 0,8.

4. **Precisão, Recall e F1-Score por Classe:**
   - As métricas de precisão, recall e F1-score são calculadas para cada classe (classe 0 e classe 1).
   - Ambas as classes têm precisão, recall e F1-scores iguais a 0,8, o que indica um bom equilíbrio entre precisão e recall para ambas as classes.

5. **Coeficiente de Correlação de Matthews (MCC):**
   - O MCC é uma medida de correlação entre as previsões do modelo e os valores reais, levando em consideração todos os elementos da matriz de confusão. Quanto mais próximo de 1, melhor o modelo está em suas previsões. No exemplo, o MCC é de 0,6, o que indica uma correlação razoavelmente forte.

Em resumo, com base na saída produzida, podemos concluir que o modelo tem um desempenho decente, com uma acurácia de 80% e um F1-Score macro de 0,8. As métricas de precisão, recall e F1-score por classe também são boas para ambas as classes. No entanto, uma análise mais aprofundada depende do contexto do problema e dos requisitos específicos de desempenho do modelo.

#***Regressão***

As métricas discutidas anteriormente são usadas para avaliar problemas de classificação, nos quais o objetivo é prever a categoria de um ponto de dados desconhecido.

No entanto, na área de Ciência de Dados, também é comum criar modelos de regressão, nos quais a tarefa envolve a previsão de uma variável numérica contínua. Exploraremos as principais métricas utilizadas para avaliar o desempenho de modelos de regressão.

Agora iremos calcular métricas de regressão em vez de métricas de classificação.

Abaixo estão as implementações das métricas:

1. MAE (Erro Médio Absoluto)
2. MSE (Erro Médio Quadrático)
3. RMSE (Raiz do Erro Médio Quadrático)
4. MAPE (Erro Percentual Absoluto Médio)

**Importação de Bibliotecas:**
   ```python
   import numpy as np
   ```
   Esta linha importa a biblioteca NumPy para realizar cálculos numéricos eficientes.

In [None]:
import numpy as np

### **Função - mae**

O Erro Absoluto Médio consiste na média das distâncias entre valores preditos e reais. Diferentemente do MSE e do RMSE, essa métrica não “pune” tão severamente os outliers do modelo.

Essa medida apresenta valor mínimo 0 e não apresenta valor máximo.


 **MAE (Erro Médio Absoluto):**
   - O MAE é calculado como a média das diferenças absolutas entre os valores reais e os valores previstos.

   $$ MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| $$

**legendando variáveis de acordo com a função matemática:**

$$ gabarito = y $$
$$ estimado = \hat{y} $$

In [None]:
def mae(gabarito, estimado):
    return np.mean(np.abs(gabarito - estimado))


### **Função - mse**

A métrica mais amplamente empregada é o Erro Quadrático Médio (EQM), que envolve calcular a média dos quadrados dos erros de previsão. Em termos simples, é a diferença entre os valores previstos pelo modelo e os valores reais, elevados ao quadrado. Esse processo é aplicado a todos os pontos de dados, as somas são calculadas e, por fim, o resultado é dividido pelo número de previsões. Quanto maior o valor do EQM, pior o desempenho do modelo.

É importante destacar que o valor mínimo possível para essa métrica é 0, e não há limite superior.

**MSE (Erro Médio Quadrático):**
   - O MSE é calculado como a média dos quadrados das diferenças entre os valores reais e os valores previstos.

   $$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$

**legendando variáveis de acordo com a função matemática:**

$$ gabarito = y $$
$$ estimado = \hat{y} $$

In [None]:
def mse(gabarito, estimado):
    return np.mean((gabarito - estimado) ** 2)

### **Função - rmse**

O RMSE entra como uma forma de melhorar a interpretabilidade da métrica, acertando a unidade. Entretanto, essa medida, assim como o MSE, penaliza predições muito distantes da real.


**RMSE (Raiz do Erro Médio Quadrático):**
   - O RMSE é a raiz quadrada do MSE e fornece uma medida da dispersão dos erros em relação aos valores reais.

$$ RMSE = \sqrt{MSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} $$

**legendando variáveis de acordo com a função matemática:**

$$ gabarito = y $$
$$ estimado = \hat{y} $$

In [None]:
def rmse(gabarito, estimado):
    return np.sqrt(mse(gabarito, estimado))

### **Função - mape**

Em contraste com as métricas anteriores, essa medida exprime uma porcentagem, obtida através da divisão da diferença entre predito (ŷ) e real pelo valor real (y).

Assim como o MSE e o MAE, quanto menor o valor, mais preciso seria o modelo de regressão.

 **MAPE (Erro Percentual Absoluto Médio):**
   - O MAPE é calculado como a média das diferenças percentuais absolutas entre os valores reais e os valores previstos. É multiplicado por 100 para expressar o resultado como uma porcentagem.

   $$ MAPE = \frac{1}{n} \sum_{i=1}^{n} \left|\frac{y_i - \hat{y}_i}{y_i}\right| \times 100\% $$


**legendando variáveis de acordo com a função matemática:**

$$ gabarito = y $$
$$ estimado = \hat{y} $$


In [None]:
def mape(gabarito, estimado):
    return np.mean(np.abs((gabarito - estimado) / gabarito)) * 100

### **Exemplo de uso**

O exemplo de uso no final do código demonstra como calcular essas métricas para os vetores "gabarito" e "estimado". Futuramente, podemos substituir esses vetores pelos próprios dados de regressão de um determinado domínio.

In [None]:
# Exemplo de uso:
gabarito = np.array([10, 20, 30, 40, 50])
estimado = np.array([12, 18, 28, 41, 49])

print("MAE:", mae(gabarito, estimado))
print("MSE:", mse(gabarito, estimado))
print("RMSE:", rmse(gabarito, estimado))
print("MAPE:", mape(gabarito, estimado))

MAE: 1.6
MSE: 2.8
RMSE: 1.6733200530681511
MAPE: 8.233333333333334


Análise da saída produzida pelo código em relação às métricas de avaliação:

1. **MAE (Erro Médio Absoluto):**
   - O MAE é igual a 1.6. Isso significa que, em média, a diferença absoluta entre as previsões do modelo e os valores reais é de aproximadamente 1.6 unidades. Quanto menor o MAE, melhor o modelo em fazer previsões precisas.

2. **MSE (Erro Médio Quadrático):**
   - O MSE é igual a 2.8. Ele representa a média dos quadrados das diferenças entre as previsões e os valores reais. Quanto menor o MSE, mais próximas as previsões estão dos valores reais.

3. **RMSE (Raiz do Erro Médio Quadrático):**
   - O RMSE é aproximadamente 1.6733. É a raiz quadrada do MSE e fornece uma medida da dispersão dos erros. Quanto menor o RMSE, mais preciso é o modelo.

4. **MAPE (Erro Percentual Absoluto Médio):**
   - O MAPE é aproximadamente 8.2333%. Isso significa que, em média, as previsões do modelo têm um erro absoluto médio de cerca de 8.2333% em relação aos valores reais. O MAPE é uma métrica que expressa o erro percentual médio.

Em resumo, com base nos resultados, o modelo parece ter um bom desempenho na previsão, com valores relativamente baixos de MAE, MSE e RMSE. Além disso, o MAPE indica que o erro percentual médio é moderado, mas ainda aceitável.

No entanto, a interpretação dos resultados deve ser feita considerando o contexto específico do problema e as expectativas de precisão do modelo para a aplicação em questão.