# Exercício de Regressão Linear

Especialização em Inteligência Artificial Online - PUC Minas
* Aluno: Pedro Henrique Rodrigues de Lima
* Professor: Hugo de Paula

O objetivo desta atividade é desenvolver um modelo de regressão linerar, relativamente simples, para prever a quantidade de óleo a ser comprada pelos habitantes de uma residência, de acordo com os seguinte variáveis:

  * Isolamento: nível de isolamento térmico da casa em uma taxa de 1 a 10, sendo que 10 indica a máxima espessura do isolamento.
  * Temperatura: temperatura ambiente externa média em cada casa no último ano. As medidas estão em graus Fahrenheit.
  * Num_ocupantes: número total de pessoas vivendo na casa.
  * Idade_media: idade média dos ocupantes da casa.
  * Tamanho_casa: tamanho da casa em uma taxa variando de 1 a 8. Quanto maior o valor, maior a casa.
  
 Após desenvolver o modelo, responderemos as seguintes perguntas: 
 
 
   1. Quais os atributos mais relevantes?
   2. São diretamente relacionados ou inversamente relacionados?
   3. Qual atributo não foi significativo para a construção do modelo?
   4. Qual a quantidade de óleo necessária considerando a base de testes (base de dados "PREVISÃO"?


## Importação das bibliotecas necessárias e leitura das bases de dados

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import MinMaxScaler, PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

In [2]:
caminho_dados = r'C:\Users\pedro\OneDrive\Pós\9.Machine Learning\Aula 4 - Regressão\Exercicio Regressao\Atividade - bases_regressao.xlsx'
df_treino_teste = pd.read_excel(caminho_dados, sheet_name="BASE")
df_prev = pd.read_excel(caminho_dados, sheet_name="PREVISAO")

## Análise descritiva simples dos dados

In [3]:
df_treino_teste.shape

(1218, 6)

In [4]:
df_treino_teste.isnull().sum()

Isolamento          0
Temperatura         0
Num_ocupantes       0
Idade_media         0
Tamanho_casa        0
Aquecimento_oleo    0
dtype: int64

In [5]:
df_treino_teste.describe()

Unnamed: 0,Isolamento,Temperatura,Num_ocupantes,Idade_media,Tamanho_casa,Aquecimento_oleo
count,1218.0,1218.0,1218.0,1218.0,1218.0,1218.0
mean,6.214286,65.078818,3.1133,42.706404,4.649425,197.394089
std,2.768094,16.932425,1.690605,15.051137,2.321226,56.248267
min,2.0,38.0,1.0,15.1,1.0,114.0
25%,4.0,49.0,2.0,29.7,3.0,148.25
50%,6.0,60.0,3.0,42.9,5.0,185.0
75%,9.0,81.0,4.0,55.6,7.0,253.0
max,10.0,90.0,10.0,72.2,8.0,301.0


In [6]:
df_treino_teste.sample(10)

Unnamed: 0,Isolamento,Temperatura,Num_ocupantes,Idade_media,Tamanho_casa,Aquecimento_oleo
654,10,60,1,65.9,6,288
752,10,39,1,42.3,8,183
747,4,90,2,32.5,6,153
69,2,39,5,41.1,4,181
272,2,76,3,36.6,8,163
966,3,77,2,21.3,4,132
635,10,47,4,43.0,7,190
1188,2,86,2,18.7,4,118
137,4,85,2,28.0,5,146
562,5,90,4,23.1,8,134


## Treinando modelo de regressão linear

In [7]:
X = df_treino_teste.drop('Aquecimento_oleo', axis = 1)
y = df_treino_teste['Aquecimento_oleo']

In [8]:
# Para efeito de previsão da varíavel alvo, não seria necessária a normalização, porém ela é necessária
# para conseguirmos comparar a importância de cada feature através dos seus coeficientes.
X = MinMaxScaler().fit_transform(X)

### Avaliando performance com R2 e cross validation

In [9]:
lr = LinearRegression()
lr.fit(X,y)
prediction = lr.predict(X)
r2 = r2_score(y,prediction)
print("Coeficiente R2 (maior melhor) na base de treino: {:.2f}".format(r2))


Coeficiente R2 (maior melhor) na base de treino: 0.82


In [10]:
lr_cv = LinearRegression()
r2s = cross_val_score(lr_cv,X,y,cv = 10,scoring = 'r2')
r2 = np.mean(r2s)
r2
print("Coeficiente R2 (maior melhor) com cross validation de 10 folds: {:.2f}".format(r2))

Coeficiente R2 (maior melhor) com cross validation de 10 folds: 0.81


### Avaliando performance com RMSE e cross validation

In [11]:
lr = LinearRegression()
lr.fit(X,y)
prediction = lr.predict(X)
mse = mean_squared_error(y, prediction)
rmse = np.sqrt(np.abs(mse))
print("Raiz do erro quadrático médio (RMSE, menor meelhor) na base de treino: {:.2f}".format(rmse))

Raiz do erro quadrático médio (RMSE, menor meelhor) na base de treino: 23.90


In [12]:
lr_cv = LinearRegression()
rmse = cross_val_score(lr_cv,X,y,cv =10,scoring = 'neg_root_mean_squared_error')
-np.mean(rmse)
print("Raiz do erro médio quadrático (RMSE, menor meelhor) com cross validation de 10 folds: {:.2f}".format(-np.mean(rmse)))

Raiz do erro médio quadrático (RMSE, menor meelhor) com cross validation de 10 folds: 23.96


### Comentários sobre a performace do modelo

* O modelo não está apresentando muito overfitting, tendo em vista que as métricas de avaliação de performance, das previsões feitas no modelo de treino e de testes estão muito próximas.

* A raiz do nosso erro quadrático médio (RMSE) foi de 23.96, o que não parece ser muito ruim, tendo em vista que o desvio padrão da nossa variável alvo (Aquecimento_oleo) é de 56.25 e que seus valores estão distribuídos entre 114.00 e 301.00.

### Análise dos pesos atribuídos a cada uma das features


In [13]:
lr = LinearRegression()
lr.fit(X,y)
print("Descrição do modelo: ")
s = ["{0:0.2f}".format(v) for v in lr.coef_]
print("w: {}  b: {:.2f}".format(s, lr.intercept_))

Descrição do modelo: 
w: ['26.60', '-45.24', '-2.42', '112.25', '22.20']  b: 141.66


In [14]:
features = df_treino_teste.columns[0:-1]

In [15]:
coefs_dict = {}

for i in range(len(s)):
    coefs_dict[features[i]] = s[i]
    
coefs_dict

{'Isolamento': '26.60',
 'Temperatura': '-45.24',
 'Num_ocupantes': '-2.42',
 'Idade_media': '112.25',
 'Tamanho_casa': '22.20'}

   1. Quais os atributos mais relevantes?: 
   *Os atributos mais relevantes são a idade média dos ocupantes e a temperatura dentro da casa.*
   
   
   
   
   2. São diretamente relacionados ou inversamente relacionados? 
   
   *A temperatura é inversamente proporcial, ou seja, quanto menor a temperatura, maior o consumo de aquecedores, o que faz sentido. Aparentemente o número de ocupantes também é inversamente relacionado, porém isso provavelmente se deve a algum ruído, já que não faria muito sentido essa variável ser inversamente proporcional, e o seu peso no modelo é bem baixo.*
   
   
   
   
   3. Qual atributo não foi significativo para a construção do modelo?
   
   *O número de ocupantes, pelos motivos explicados no item 2 acima* 

## Estimativa da demanda de óleo, considerando a base de previsão

In [16]:
df_prev.describe()

Unnamed: 0,Isolamento,Temperatura,Num_ocupantes,Idade_media,Tamanho_casa
count,42650.0,42650.0,42650.0,42650.0,42650.0
mean,5.989004,63.962087,5.489285,44.040131,4.495193
std,2.575511,15.313351,2.874612,16.736901,2.290911
min,2.0,38.0,1.0,15.0,1.0
25%,4.0,51.0,3.0,29.5,3.0
50%,6.0,64.0,5.0,44.1,4.0
75%,8.0,77.0,8.0,58.6,6.0
max,10.0,90.0,10.0,73.0,8.0


As distribuições das duas bases estão relativamente parecidas, então não há problema em usar o modelo treinado na base de treino, para fazer previsões na base de testes.

In [17]:
X_test = MinMaxScaler().fit_transform(df_prev)
df_prev['Prev_aquecimento_oleo'] = lr.predict(X_test)

In [18]:
total_oil = df_prev['Prev_aquecimento_oleo'].sum()
print("Total de óleo de aquecimento previsto: {:.2f}".format(total_oil))

Total de óleo de aquecimento previsto: 8462647.04
