In [None]:
# Regressão linear múltipla

In [None]:
# Importar bibliotecas
# Para criar o modelo de regressão: sklearn
# Para visualização de residuais: yellowbrick
# Para criar a regressão linear múltipla: statsmodels
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from yellowbrick.regressor import ResidualsPlot
import statsmodels.formula.api as sm

In [None]:
# Carregar dados
base = pd.read_csv('mt_cars.csv')
base.shape

In [None]:
# Visualizar dados, em especial:
# 'mpeg' autonomia representada em milhas por galão, 'cyl' clindros, 'disp' cilindradas, 'hp' horse-power
base.head()

In [None]:
# Excluir coluna desnecessária, sem valor semântico
base = base.drop(['Unnamed: 0'], axis = 1)

In [None]:
# Visualizar dados novamente
base.head()

In [None]:
# Visualizar medidas
base.describe()

In [None]:
# Criar X e Y: variável independente e variável dependente
# Calcular correlação entre
# X (coluna 'disp' representa as cilindradas) e 
# Y (coluna 'mpg', representa a autonomia, ou milhas percorridas por galão de combustível)
X = base.iloc[:, 2].values
y = base.iloc[:, 0].values

In [None]:
# Visualizar X
X

In [None]:
# Calcular correlação entre X e Y
correlacao = np.corrcoef(X, y)
correlacao

In [None]:
# Alterar formato de X para formato de matriz (requisito do sklearn)
X = X.reshape(-1, 1)
X

In [None]:
# Criar modelo, treinamento, visualização dos coeficientes e do score do modelo
modelo = LinearRegression()
modelo.fit(X, y)

In [None]:
# Visualizar coeficientes
modelo.intercept_

In [None]:
# Visualizar inclinação
modelo.coef_

In [None]:
# Visualizar score R^2 (coeficiente de determinação)
modelo.score(X, y)

In [None]:
# Gerar previsões
previsoes = modelo.predict(X)
previsoes

In [None]:
# Criar modelo, utilizando a biblioteca statsmodel 
# Verificar R^2 e R^2 ajustado
modelo_ajustado = sm.ols(formula = 'mpg ~ disp', data = base)
modelo_treinado = modelo_ajustado.fit()
modelo_treinado.summary()

In [None]:
# Visualizar resultados
plt.scatter(X, y)
plt.plot(X, previsoes, color = 'green')

In [None]:
# Realizar previsão para um valor único
modelo.predict([[200]])

In [None]:
# Visualizar gráfico com os residuais
visualizador = ResidualsPlot(modelo)
visualizador.fit(X, y)
visualizador.poof()

In [None]:
# Criar novas variáveis X1 e Y1 e novo modelo para comparação com a previsão anterior
# 3 variáveis dependentes para prever 'mpg': 'cyl', 'disp' e 'hp'
X1 = base.iloc[:, 1:4].values
X1

In [None]:
y1 = base.iloc[:, 0].values
modelo2 = LinearRegression()
modelo2.fit(X1, y1)

In [None]:
# Visualizar R^2
modelo2.score(X1, y1)

In [None]:
# Criar modelo ajustado com mais atributos (regressão linear múltipla)
# Utilizando stats models
modelo_ajustado2 = sm.ols(formula = 'mpg ~ cyl + disp + hp', data = base)
modelo_treinado2 = modelo_ajustado2.fit()
modelo_treinado2.summary()

In [None]:
# Realizar a previsão de um novo registro: 'cyl'=4, 'disp'=200 e 'hp'=100
novo = np.array([4, 200, 100])
novo = novo.reshape(1, -1)
modelo2.predict(novo)

In [None]:
# Visualizar gráfico com os residuais
visualizador = ResidualsPlot(modelo2)
visualizador.fit(X1, y1)
visualizador.poof()