## Como são calculadas as métricas de avaliação do modelo

<P> Vamos ver passo a passo como são feito os calculos do SciKit Learn para calcular as principais métricas de avaliação de um modelo de Regressão Linear

In [1]:
# Importando os pacotes a serem utilizados
import pandas as pd
import numpy as np

from sklearn import linear_model as lm

from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_absolute_percentage_error

In [2]:
# Importando um conjunto de dados para demonstração
df = pd.read_csv('kc_house_data.csv')
df.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


In [3]:
# O objetivo aqui não é criar um modelo preditivo e sim avaliar as métricas

# Variáveis Preditoras - Vamos considerar todas variáveis exceto as 3 variáveis abaixo que iremos excluir
x_treino = df.drop(['price','date','id'], axis = 1)

# Variável Target/Alvo
y_treino = df['price'].copy()

In [4]:
# Visualizando as variáveis preditoras
x_treino.head()

Unnamed: 0,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,3,1.0,1180,5650,1.0,0,0,3,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,3,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,2,1.0,770,10000,1.0,0,0,3,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,4,3.0,1960,5000,1.0,0,0,5,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,3,2.0,1680,8080,1.0,0,0,3,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


In [5]:
# Visualizando a variável target/alvo
y_treino.head()

0    221900.0
1    538000.0
2    180000.0
3    604000.0
4    510000.0
Name: price, dtype: float64

In [6]:
# Vamos criar um modelo de Regressão Linear para demonstração dos calculos das métricas
# *** Obs: Não estamos separando dados de treino e teste e nem tratando dado, pois o objetivo aqui é o entendimento da métrica!
modelo_regressao = lm.LinearRegression()

# Treinando o modelo
modelo_regressao.fit(x_treino, y_treino)

In [7]:
# Gerando as previsões
previsoes = modelo_regressao.predict(x_treino)

In [8]:
# Visualizando 10 previsões geradas...
previsoes[0:10]

array([ 208877.94625824,  734051.82489368,  380504.72486548,
        455050.86621094,  440955.62848545, 1456649.60521265,
        273819.66070436,  131936.92879643,  327100.80943572,
        249270.35863602])

In [9]:
# Vamos fazer uma copia do DataFrame original
df1 = df.copy()
df1.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


In [10]:
# Incluir as previsões no nosso DataFrame
df1['previsoes'] = previsoes
df1.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15,previsoes
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,1180,0,1955,0,98178,47.5112,-122.257,1340,5650,208877.946258
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,2170,400,1951,1991,98125,47.721,-122.319,1690,7639,734051.824894
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,770,0,1933,0,98028,47.7379,-122.233,2720,8062,380504.724865
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,1050,910,1965,0,98136,47.5208,-122.393,1360,5000,455050.866211
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,1680,0,1987,0,98074,47.6168,-122.045,1800,7503,440955.628485


In [11]:
# Para facilitar o entendimento vamos olhar somente para a coluna Price(Preço Real) e a coluna Previsoes(Preço Previsto)
df1[['price','previsoes']].head()

Unnamed: 0,price,previsoes
0,221900.0,208877.946258
1,538000.0,734051.824894
2,180000.0,380504.724865
3,604000.0,455050.866211
4,510000.0,440955.628485


In [12]:
# Calculando o erro do modelo
df1['erro'] = df1['price'] - df1['previsoes']

In [13]:
# Vamos visualizar as informações de erro gerado e entender...

# Quando a previsão é menor que o valor real então dizemos que temos um valor sub estimado
# Quando a previsão é maior que o valor real então dizemos que temos um valor super estimado

# Precisamos achar um número que resuma esse erro, porém se somar simplesmente os valores dos erros iremos ter os 
# valores positivos anulando os valores negativos

df1[['price','previsoes','erro']].head()

Unnamed: 0,price,previsoes,erro
0,221900.0,208877.946258,13022.053742
1,538000.0,734051.824894,-196051.824894
2,180000.0,380504.724865,-200504.724865
3,604000.0,455050.866211,148949.133789
4,510000.0,440955.628485,69044.371515


In [14]:
# Precisamos ter o valor absoluto do erro, ou seja, deixaremos tudo com valores positivos
# Para transformar o valor negativo em positivo, ou seja, vamos utilizar o valor absoluto da variável Erro

df1['erro_abs'] = np.abs(df1['erro'])

# Visualizando nossa nova coluna com o erro absoluto
df1[['price','previsoes','erro','erro_abs']].head()

Unnamed: 0,price,previsoes,erro,erro_abs
0,221900.0,208877.946258,13022.053742,13022.053742
1,538000.0,734051.824894,-196051.824894,196051.824894
2,180000.0,380504.724865,-200504.724865,200504.724865
3,604000.0,455050.866211,148949.133789,148949.133789
4,510000.0,440955.628485,69044.371515,69044.371515


In [15]:
## Calculando a métrica MAE - Mean Absolute Error - Erro Médio Absoluto

## Podemos fazer o calculo dessa forma...
print('MAE: ', np.sum(df1['erro_abs']) / len(df1['erro_abs']))

## Ou utilizar a função do Numpy que já calcula a média...
print('MAE: ', np.mean(df1['erro_abs']))

MAE:  125922.64612799296
MAE:  125922.64612799296


In [16]:
# Esse valor é alto ou baixo ? 
# Tudo depende dos valores do nosso conjunto de dados
## Se temos casos que possuem valores de 2 milhoes...3 milhoes... esse valor seria um erro baixo... mas ao contrário....
## Se tivermos casos que os valores estão entre 200...300 mil... então um erro desse valor seria alto...

# Por isso que precisamos relativar isso....e avaliar também o percentual desse erro...

df1['erro_percentual'] =  ((df1['price'] - df1['previsoes']) / df1['price'])

df1[['price','previsoes','erro','erro_abs', 'erro_percentual']].head()

Unnamed: 0,price,previsoes,erro,erro_abs,erro_percentual
0,221900.0,208877.946258,13022.053742,13022.053742,0.058684
1,538000.0,734051.824894,-196051.824894,196051.824894,-0.364409
2,180000.0,380504.724865,-200504.724865,200504.724865,-1.113915
3,604000.0,455050.866211,148949.133789,148949.133789,0.246605
4,510000.0,440955.628485,69044.371515,69044.371515,0.135381


In [17]:
# Porém precisamos também encontrar o valor absoluto desse percentual, assim como fizemos com o Erro
df1['erro_percentual_abs'] =  np.abs(df1['erro_percentual'])

df1[['price','previsoes','erro','erro_abs', 'erro_percentual','erro_percentual_abs']].head()

Unnamed: 0,price,previsoes,erro,erro_abs,erro_percentual,erro_percentual_abs
0,221900.0,208877.946258,13022.053742,13022.053742,0.058684,0.058684
1,538000.0,734051.824894,-196051.824894,196051.824894,-0.364409,0.364409
2,180000.0,380504.724865,-200504.724865,200504.724865,-1.113915,1.113915
3,604000.0,455050.866211,148949.133789,148949.133789,0.246605,0.246605
4,510000.0,440955.628485,69044.371515,69044.371515,0.135381,0.135381


In [18]:
## Calculando a métrica MAPE - Mean Absolute Percentage Error - Erro Percentual Médio Absoluto

## Podemos fazer o calculo dessa forma...
print('MAPE: ', np.sum(df1['erro_percentual_abs']) / len(df1['erro_percentual_abs']))

## Ou utilizar a função do Numpy que já calcula a média...
print('MAPE: ', np.mean(df1['erro_percentual_abs']))

MAPE:  0.25579543864720805
MAPE:  0.25579543864720805


In [19]:
# Podemos também encontrar outra métrica de erro...
# Ao elevar ao quadrado não teremos mais o valor negativo, porém observe que teremos um valor bem alto...
df1['erro_minimo_quadrado'] =  (df1['price'] - df1['previsoes']) ** 2

df1[['price','previsoes','erro','erro_abs', 'erro_percentual','erro_percentual_abs','erro_minimo_quadrado']].head()

Unnamed: 0,price,previsoes,erro,erro_abs,erro_percentual,erro_percentual_abs,erro_minimo_quadrado
0,221900.0,208877.946258,13022.053742,13022.053742,0.058684,0.058684,169573900.0
1,538000.0,734051.824894,-196051.824894,196051.824894,-0.364409,0.364409,38436320000.0
2,180000.0,380504.724865,-200504.724865,200504.724865,-1.113915,1.113915,40202140000.0
3,604000.0,455050.866211,148949.133789,148949.133789,0.246605,0.246605,22185840000.0
4,510000.0,440955.628485,69044.371515,69044.371515,0.135381,0.135381,4767125000.0


In [20]:
## Calculando a métrica LSE - Least Square Error - Erro Minimo Quadrado

## Podemos fazer o calculo dessa forma...
print('LSE: ', np.sum(df1['erro_minimo_quadrado']) / len(df1['erro_minimo_quadrado']))

## Ou utilizar a função do Numpy que já calcula a média...
print('LSE: ', np.mean(df1['erro_minimo_quadrado']))

LSE:  40466915557.49277
LSE:  40466915557.49277


In [21]:
## Calculando a métrica RMSE - Root Mean Squared Error - Raiz do Erro Quadratico Médio

# Já temos o erro minimo quadrado, então basta tirarmos a raiz quadrada desse erro
print('RMSE: ', np.sqrt(np.mean(df1['erro_minimo_quadrado'])))

RMSE:  201163.9022227715


## Porém não precisamos fazer todos esses calculos...

<p> Quando estamos avaliando nossos modelos preditivos não precisamos fazer todos esses calculos.
<p> Esses calculos são importantissimos para entendermos como as métricas funcionam...
<p> Temos funções prontas pra calcular tudo isso...
    

In [22]:
# MAE - Mean Absolute Error
print('MAE: ', np.mean(df1['erro_abs']))

# MAPE - Mean Absolute Percentage Error
print('MAPE: ', np.mean(df1['erro_percentual_abs']))

# LSE - Least Squared Error
print('LSE: ', np.mean(df1['erro_minimo_quadrado']))

# RMSE - Root Mean Squared Error
print('RMSE: ', np.sqrt(np.mean(df1['erro_minimo_quadrado'])))

MAE:  125922.64612799296
MAPE:  0.25579543864720805
LSE:  40466915557.49277
RMSE:  201163.9022227715


In [23]:
# MAE - Mean Absolute Error
print('MAE: ', mean_absolute_error(y_treino, previsoes))

# MAPE - Mean Absolute Percentage Error
print('MAPE: ', mean_absolute_percentage_error(y_treino, previsoes))

# LSE - Least Squared Error
print('LSE: ', mean_squared_error(y_treino, previsoes))

# RMSE - Root Mean Squared Error
print('RMSE: ', mean_squared_error(y_treino, previsoes, squared=False))

MAE:  125922.64612799296
MAPE:  0.25579543864720805
LSE:  40466915557.49277
RMSE:  201163.9022227715
