# <font color='blue'>Métricas de avaliação de modelos de regressão</font>

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Python Version:', python_version())

# Verificando as versões dos pacotes instalados
pandasVersion = !pip show pandas
matplotlibVersion = !pip show matplotlib
sklearnVersion = !pip show scikit-learn
print('Pandas', pandasVersion[1])
print("Matplotlib", matplotlibVersion[1])
print("Sklearn", sklearnVersion[1])

## Mean Squared Error - MSE
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>
A função mean_squared_error calcula o erro quadrático médio. O erro é a diferença entre o valor real e o valor previsto pelo modelo. Sendo assim, o Mean Squared Error calcula a média dos erros elevados ao quadrado.
    
</details>

In [None]:
# Carregando imagem da equação do Mean Squared Error
from IPython.display import Image
Image('Imagens/mean_squared_error.png')

## Root Mean Squared Error - RMSE
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

A métrica Root Mean Squared Error é a raiz quadrada do erro quadrático médio, ou seja, é a raiz quadrada do Mean Squared Error. <br>
A fórmula do Root Mean Squared Error é
$\sqrt{MSE}$ <br>
A biblioteca Scikit Learn não tem uma função implementada para calcular o RMSE, mas é possível utilizar a função mean_squared_error para calcular o MSE e depois utilizar o NumPy para calcular o RMSE. <br>
    
</details>

## Mean Absolute Error - MAE
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>
A função mean_absolute_error calcula o erro absoluto médio. É uma métrica correspondente ao valor do erro absoluto. Tem a mesma unidade dos dados originais.
    
</details>

In [None]:
# Carregando imagem da equação do Mean Absolute Error
Image('Imagens/mean_absolute_error.png')

## $R^2$ - Coeficiente de determinação
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>
$R^2$ é o coeficiente de determinação. Também é chamado de R score, ou R squared, ou R ao quadrado, ou simplesmente R2. <br>
Seu valor varia de 0 a 1. Sendo que, quanto mais próximo de um, melhor, e quanto mais próximo de zero pior. A escala de zero a um pode ser representada em valores percentuais. <br>
É uma métrica que avalia os acertos.<br>
O $R^2$ representa a proporção da variância de y que foi explicada pelas variáveis independentes no modelo. Ele fornece uma indicação da qualidade do ajuste, e portanto, uma medida de quão bem as amostras não vistas provavelmente serão previstas pelo modelo, por meio da proporção da variância explicada. <br>
Como essa variação depende do conjunto de dados, o $R^2$ não pode ser comparável em diferentes conjuntos de dados. Ou seja, o cientista de dados deve garantir que os datasets de treino e teste devem ser os mesmos utilizados em todos os algoritmos com os quais os dados serão treinados e testados. 
</details>

In [None]:
# Carregando imagem da equação do r2 score
Image('Imagens/r2-score.png')

In [None]:
# Carregando os pacotes
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

## Coletando os dados

In [None]:
# Coletando os dados
df = pd.read_csv('Dados/Auto-mpg/mtcars.csv')
df.head()

In [None]:
# Visualizando informações sobre o dataset
df.info()

## Seleção de variáveis

In [None]:
# Separando as variáveis preditoras e a variável alvo
numeroObservacoes = len(df)
numeroColunas = 10
X = df[["cyl","disp","hp","drat","wt","qsec","vs","am","gear","carb"]].values.reshape((numeroObservacoes, numeroColunas)) # X deve sempre ser uma matriz e nunca um vetor
y = df['mpg'].values # y pode ser um vetor

# Criando o modelo
modelo = RandomForestRegressor()

# Treinamento do modelo
modelo.fit(X, y)

# Extraindo a importância
print("Importância das variáveis: %s" %  modelo.feature_importances_)

# Gráfico com a importância das variáveis
variaveis = ["cyl","disp","hp","drat","wt","qsec","vs","am","gear","carb"]
plt.bar(variaveis, modelo.feature_importances_)

## Dividindo o dataset em dados de treino e dados de teste

In [None]:
# Separando as variáveis preditoras e a variável alvo
numeroObservacoes = len(df)
numeroVariaveisPreditoras = 4
X = df[["cyl","disp","hp","wt"]].values.reshape((numeroObservacoes, numeroVariaveisPreditoras)) # X deve sempre ser uma matriz e nunca um vetor
y = df['mpg'].values # y pode ser um vetor

# Divide os dados em treino e teste
Xtreino, Xteste, Ytreino, Yteste = train_test_split(X, y, test_size = 0.2, random_state=23)

## Criando, treinando e avaliando modelos preditivos

In [None]:
# Criando o modelo Regressão linear
modelo = LinearRegression()

# Treinando o modelo
modelo.fit(Xtreino, Ytreino)

# Fazendo previsões
previsoes = modelo.predict(Xteste)

# r2
r2 = r2_score(Yteste, previsoes)

# MSE
mse = mean_squared_error(Yteste, previsoes)

# RMSE
rmse = np.sqrt(mse)

# MAE
mae = mean_absolute_error(Yteste, previsoes)

print("R2 do modelo: %.2f" % (r2*100) + "%")
print("MSE do modelo: %.2f" % mse)
print("RMSE do modelo: %.2f" % rmse)
print("MAE do modelo: %.2f" % mae)

In [None]:
# Criando um dicionário
dicionario = {
    "Yteste": Yteste,
    "Valor Previsto": previsoes
}

# Criando um DataFrame
dfComparacao = pd.DataFrame(dicionario)
dfComparacao

In [None]:
# Criando o modelo Árvore de Decisão
modelo = DecisionTreeRegressor(random_state = 20)

# Treinando o modelo
modelo.fit(Xtreino, Ytreino)

# Fazendo previsões
previsoes = modelo.predict(Xteste)

# r2
r2 = r2_score(Yteste, previsoes)

# MSE
mse = mean_squared_error(Yteste, previsoes)

# RMSE
rmse = np.sqrt(mse)

# MAE
mae = mean_absolute_error(Yteste, previsoes)

print("R2 do modelo: %.2f" % (r2*100) + "%")
print("MSE do modelo: %.2f" % mse)
print("RMSE do modelo: %.2f" % rmse)
print("MAE do modelo: %.2f" % mae)

In [None]:
# Criando um dicionário
dicionario = {
    "Yteste": Yteste,
    "Valor Previsto": previsoes
}

# Criando um DataFrame
dfComparacao = pd.DataFrame(dicionario)
dfComparacao

In [None]:
# Criando o modelo KNN
modelo = KNeighborsRegressor()

# Treinando o modelo
modelo.fit(Xtreino, Ytreino)

# Fazendo previsões
previsoes = modelo.predict(Xteste)

# r2
r2 = r2_score(Yteste, previsoes)

# MSE
mse = mean_squared_error(Yteste, previsoes)

# RMSE
rmse = np.sqrt(mse)

# MAE
mae = mean_absolute_error(Yteste, previsoes)

print("R2 do modelo: %.2f" % (r2*100) + "%")
print("MSE do modelo: %.2f" % mse)
print("RMSE do modelo: %.2f" % rmse)
print("MAE do modelo: %.2f" % mae)

In [None]:
# Criando um dicionário
dicionario = {
    "Yteste": Yteste,
    "Valor Previsto": previsoes
}

# Criando um DataFrame
dfComparacao = pd.DataFrame(dicionario)
dfComparacao