# 5. A arte de predizer (Regressão Linear)

Regressões constituem uma ferramenta importantíssima em ciência de dados. O objetivo principal do estudo de regressões, em Estatística, é predizer o valor de uma ou mais variáveis em função de outras.

Ententa... a ideia aqui é entender a natureza do relacionamento. Quanto uma variável A impacta em uma variável B - isso para o caso da Regressão Linear Simples. No caso da Relação Linear Múltipla, como um conjunto de variáveis relacionadas entre si impactam em uma variável resposta (label).

A função linear é definida por ***y = a + bx + erro***, sendo o y o label (valor a ser predito), a o coeficiente de intercecção, b o valor de inclinação da reta e b o valor peso. 




In [1]:
# Carregando as bibliotas

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn import linear_model

In [2]:
# Variáveis 
#atributos = ["Year", "WinterRain", "AGST", "HarvestRain", "Age", "FrancePop"]
atributos = ["AGST", "WinterRain"]
label = ["Price"]

In [3]:
# Carregando dados para treino
dataset_treino = pd.read_csv('dados/wine.csv', delimiter=',')
# Visualizando dados e estrutura
dataset_treino.head()
# Slice de dados
dataset_treino_x = dataset_treino[atributos]
dataset_treino_y = dataset_treino[label]

In [4]:
dataset_treino_y.head()

Unnamed: 0,Price
0,7.495
1,8.0393
2,7.6858
3,6.9845
4,6.7772


In [5]:
# Criando uma semente para a reprodutibilidade do experimento
np.random.seed(0)

# Instanciando o modelo de Regressão Linear
modelo = linear_model.LinearRegression()

# Realizando o treinamento do modelo
modelo.fit(dataset_treino_x, dataset_treino_y)


LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [6]:
# Carregando dados para teste
dataset_teste = pd.read_csv('dados/wine_test.csv', delimiter=',')
# Slice de dados
dataset_teste_x = dataset_teste[atributos]

# Valores reais e que serão utilizados para comparação
dataset_teste_y = dataset_teste[label]

In [7]:
dataset_teste_y.head()

Unnamed: 0,Price
0,6.9541
1,6.4979


In [8]:
# Predição
valores_preditos = modelo.predict(dataset_teste_x)

In [9]:
valores_preditos

array([[7.02184458],
       [6.63046728]])

In [10]:
# Criando um dataframe de resposta
df = pd.DataFrame(data = valores_preditos,columns=["Valores_Preditos"] )
# Adicionando uma nova dimensão
df["Valores_Reais"] = dataset_teste_y
# Visualizando os dados
df

Unnamed: 0,Valores_Preditos,Valores_Reais
0,7.021845,6.9541
1,6.630467,6.4979


## 5.2 Analisando a qualidade do modelo

In [11]:
# SSE = Sum of squared errors (Soma dos quadrados dos Erros)
# O melhor modelo é o que SSE for menor.
sse = np.sum((valores_preditos - dataset_teste_y) ** 2)
print ('Soma dos quadrados dos Erros: ', sse )


Soma dos quadrados dos Erros:  Price    0.022163
dtype: float64


In [12]:
# SST = (Soma Total de Quadrados) 
sst = np.sum((dataset_teste_y - dataset_treino_y.mean())**2 )
print ('Soma Total de Quadrados: ', sst )


Soma Total de Quadrados:  Price    0.336927
dtype: float64


In [13]:
# RMSE (Root Means Square Error) 
# Trata-se de uma medida de ajuste do modelo. Quão menor for o valor de RMSE, mais o medelo está ajustado
rmse = np.sqrt(sse / dataset_treino_y.count())
print ('Erro quadrático: ', rmse )

Erro quadrático:  Price    0.029775
dtype: float64


In [14]:
# R^2. Se o valor for 1, o modelo preditivo é perfeito. Quanto mais próximo a 0 (zero), pior o nível de predição. 
# Quão mais próximo a 1, melhor o modelo.
r = 1 - (sse/sst)
print ('R^2: ', r)

# 0.788211 é considerado um ótimo modelo de predição. (regressão simples)


R^2:  Price    0.934219
dtype: float64
