# <font color='blue'>Métricas de avaliação de modelos preditivos</font>

In [1]:
# Carregando os pacotes
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
from IPython.display import Image
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay, precision_score, recall_score, f1_score, roc_auc_score,
from sklearn.preprocessing import LabelEncoder

## Acurácia
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

A acurácia é a proximidade de um resultado com o seu valor de referência real. <br> Dessa forma, quanto maior o nível de acuracidade, mais próximo do valor de referência real é o resultado encontrado. <br> A acurácia é a métrica mais utilizada em problemas de classificação, por ser muito fácil de entender. Seu valor varia de 0 a 1. Sendo que, quanto mais próximo de um, melhor, e quanto mais próximo de zero pior é a acurácia. <br> A escala de zero a um pode ser representada em valores percentuais. Logo, uma acurácia de 0,85 pode ser representada como uma acurácia de 85%, por exemplo. Sendo assim, podemos dizer que um algoritmo com acurácia de 85% acertou 85 de cem previsões. <br> A acurácia pode ser usada em conjuntos de dados com múltiplas classes. <br> Na classificação multiclasse, a função calcula a precisão do conjunto de dados, sendo que, o conjunto de classes previsto para uma amostra deve corresponder exatamente ao conjunto de classes correspondente dos valores reais. Ou seja, vamos supor que o conjunto de dados possui 150 linhas divididas em três classes, e cada classe possui 50 observações. Para utilizar a acurácia, os valores previstos devem estar na mesma proporção do conjunto real. Neste exemplo, com 50 observações para cada uma das três classes, totalizando 150 linhas. 
    
</details>

In [None]:
# Carregando imagem da fórmula de acurácia
Image('Imagens/formula-acuracia.png')

## Matriz de confusão
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

    
</details>

In [None]:
# Carregando imagem da matriz de confusão
Image('Imagens/matriz-de-confusao.png')

## Precisão
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

    
</details>

## Recall
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

    
</details>

## F1 score
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

    
</details>

## Curva ROC
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

    
</details>

In [None]:
# Carregando imagem da curva ROC
Image('Imagens/curva-roc.png')

## Coletando os dados

In [2]:
# Carregando o dataset Iris que já vem com a biblioteca Seaborn
df = sns.load_dataset("iris")
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


## Explorando os dados

In [None]:
# Visualizando informações sobre o dataset
df.info()

In [3]:
# Convertendo a variável alvo de texto para número
# Cria o encoder
encoder = LabelEncoder()

df["especie"] = encoder.fit_transform(df['species'])
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,especie
0,5.1,3.5,1.4,0.2,setosa,0
1,4.9,3.0,1.4,0.2,setosa,0
2,4.7,3.2,1.3,0.2,setosa,0
3,4.6,3.1,1.5,0.2,setosa,0
4,5.0,3.6,1.4,0.2,setosa,0
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,2
146,6.3,2.5,5.0,1.9,virginica,2
147,6.5,3.0,5.2,2.0,virginica,2
148,6.2,3.4,5.4,2.3,virginica,2


In [None]:
# Cria um gráfico com a frequência absoluta dos valores de uma variável.
sns.set_theme(style="dark") # Define o tema utilizado.

ax = sns.countplot(x=df["species"], palette = "Greens_d");
ax.set_title("Frequência absoluta da variável species", fontsize = 16)
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.4
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

In [None]:
# Selecionando as melhores variáveis
# Separando as variáveis preditoras e a variável alvo
numeroObservacoes = len(df)
numeroColunas = 4
X = df[["sepal_length","sepal_width","petal_length","petal_width"]].values.reshape((numeroObservacoes, numeroColunas)) # X deve sempre ser uma matriz e nunca um vetor
y = df['species'].values # y pode ser um vetor

# Cria o objeto SelectKBest
selectkBest = SelectKBest(score_func = chi2, k=4)

# Executa a função em (X, y) e obtém as variáveis selecionadas
selectkBestTreinado = selectkBest.fit(X, y)

# Reduz X para as variáveis selecionadas
variaveisSelecionadas = selectkBestTreinado.transform(X)

# Cria uma lista com o nome das variáveis
variaveis = ["sepal_length","sepal_width","petal_length","petal_width"]

# Resultados
print('\nRanking:', selectkBestTreinado.scores_)
plt.bar(variaveis, selectkBestTreinado.scores_)

In [None]:
# Scatter plot com cores diferentes de acordo uma variável alvo

fig = px.scatter(df, x="petal_length", y="petal_width", color="species", height=400, width=670, title="Iris Dataset")
fig.update_traces(marker=dict(size=12,
                              line=dict(width=2,
                              color='DarkSlateGrey')),
                              selector=dict(mode='markers'))
fig.show()

## Dividindo o dataset em dados de treino e dados de teste

In [4]:
# Separando as variáveis preditoras e a variável alvo
numeroObservacoes = len(df)
numeroColunas = 4
X = df[["sepal_length","sepal_width","petal_length","petal_width"]].values.reshape((numeroObservacoes, numeroColunas)) # X deve sempre ser uma matriz e nunca um vetor
y = df['especie'].values # y pode ser um vetor

In [5]:
# Divide os dados em treino e teste
Xtreino, Xteste, Ytreino, Yteste = train_test_split(X, y, test_size = 0.2, random_state=10, stratify=y)

## Criando, treinando e avaliando modelos preditivos

#### Regressão Logística
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>
    
O parâmetro solver tem as seguintes opções: {‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’} <br>
O padrão é 'lbfgs'. <br>
Para escolher um solucionador, deve-se considerar os seguintes aspectos: <br>
- Para conjuntos de dados pequenos, ‘liblinear’ é uma boa escolha, enquanto ‘sag’ e ‘saga’ são mais rápidos para grandes; <br>
- Para problemas multiclasse, apenas 'newton-cg', 'sag', 'saga' e 'lbfgs' lidam com perda multinomial; <br>
- 'liblinear' é limitado a esquemas um-contra-resto.

</details>


In [7]:
# Criando o modelo
modelo = LogisticRegression(solver = "liblinear")

# Treinamento do modelo
modelo.fit(Xtreino, Ytreino)

LogisticRegression(solver='liblinear')

In [8]:
# Previsões com os dados de teste
previsoes = modelo.predict(Xteste)

In [12]:
# Calculando a acurácia do modelo
accuracy_score(Yteste, previsoes)

0.9666666666666667

In [None]:
# Visualizando a matriz de confusão
matrizDeConfusao = confusion_matrix(Yteste, previsoes, labels=modelo.classes_)
disp = ConfusionMatrixDisplay(confusion_matrix=matrizDeConfusao, display_labels=df["species"].unique())
disp.plot()
plt.show()

In [None]:
# Calculando a precisão do modelo
# O parâmetro average='macro' calcula as métricas para cada classe e encontra sua média não ponderada.
precision_score(Yteste, previsoes, average='macro')

In [None]:
# Calculando o recall do modelo
# O parâmetro average='macro' calcula as métricas para cada classe e encontra sua média não ponderada.
recall_score(Yteste, previsoes, average='macro')

In [None]:
# Calculando o f1 score do modelo
# O parâmetro average='macro' calcula as métricas para cada classe e encontra sua média não ponderada.
f1_score(Yteste, previsoes, average='macro')

In [None]:
# Calculando a área abaixo da curva.
# Observe que as previsões são realizadas com o método predict_proba.
# Devido ao dataset ter mais de duas classes, o parâmetro multi_class é obrigatório e deve ter um dos valores 'ovo' ou 'ovr'
roc_auc_score(Yteste, modelo.predict_proba(Xteste), multi_class="ovr")

#### K-Nearest Neighbours - KNN
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>
    

</details>

In [None]:
# Criando o modelo
modelo = KNeighborsClassifier()

# Treinamento do modelo
modelo.fit(Xtreino, Ytreino)

In [None]:
# Previsões com os dados de teste
previsoes = modelo.predict(Xteste)

In [None]:
# Calculando a acurácia do modelo
accuracy_score(Yteste, previsoes)

In [None]:
# Visualizando a matriz de confusão
matrizDeConfusao = confusion_matrix(Yteste, previsoes, labels=modelo.classes_)
disp = ConfusionMatrixDisplay(confusion_matrix=matrizDeConfusao, display_labels=df["species"].unique())
disp.plot()
plt.show()

In [None]:
# Calculando a precisão do modelo
# O parâmetro average='macro' calcula as métricas para cada classe e encontra sua média não ponderada.
precision_score(Yteste, previsoes, average='macro')

In [None]:
# Calculando o recall do modelo
# O parâmetro average='macro' calcula as métricas para cada classe e encontra sua média não ponderada.
recall_score(Yteste, previsoes, average='macro')

In [None]:
# Calculando o f1 score do modelo
# O parâmetro average='macro' calcula as métricas para cada classe e encontra sua média não ponderada.
f1_score(Yteste, previsoes, average='macro')

In [None]:
# Calculando a área abaixo da curva.
# Observe que as previsões são realizadas com o método predict_proba.
# Devido ao dataset ter mais de duas classes, o parâmetro multi_class é obrigatório e deve ter um dos valores 'ovo' ou 'ovr'
roc_auc_score(Yteste, modelo.predict_proba(Xteste), multi_class="ovr")

#### Suporte Vector Machine - SVM
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

O parâmetro probability deve receber o valor True caso deseje calcular a Área abaixo da Curva - AUC.

</details>

In [None]:
# Criando o modelo
modelo = SVC(probability=True)

# Treinamento do modelo
modelo.fit(Xtreino, Ytreino)

In [None]:
# Previsões com os dados de teste
previsoes = modelo.predict(Xteste)

In [None]:
# Calculando a acurácia do modelo
accuracy_score(Yteste, previsoes)

In [None]:
# Visualizando a matriz de confusão
matrizDeConfusao = confusion_matrix(Yteste, previsoes, labels=modelo.classes_)
disp = ConfusionMatrixDisplay(confusion_matrix=matrizDeConfusao, display_labels=df["species"].unique())
disp.plot()
plt.show()

In [None]:
# Calculando a precisão do modelo
# O parâmetro average='macro' calcula as métricas para cada classe e encontra sua média não ponderada.
precision_score(Yteste, previsoes, average='macro')

In [None]:
# Calculando o recall do modelo
# O parâmetro average='macro' calcula as métricas para cada classe e encontra sua média não ponderada.
recall_score(Yteste, previsoes, average='macro')

In [None]:
# Calculando o f1 score do modelo
# O parâmetro average='macro' calcula as métricas para cada classe e encontra sua média não ponderada.
f1_score(Yteste, previsoes, average='macro')

In [None]:
# Calculando a área abaixo da curva.
# Observe que as previsões são realizadas com o método predict_proba.
# Devido ao dataset ter mais de duas classes, o parâmetro multi_class é obrigatório e deve ter um dos valores 'ovo' ou 'ovr'
roc_auc_score(Yteste, modelo.predict_proba(Xteste), multi_class="ovr")