___
# Atividade: Regressão Linear Múltipla
___

## Aula 25


**Preparo Prévio:**
1. Montogmery e Runger. Capítulo 12 - Regressão linear Múltipla
1. Magalhães e Lima, seção 9.5. Regressão Linear Simples


Referência: http://www.statsmodels.org/dev/diagnostic.html

Referência: [http://connor-johnson.com/2014/02/18/linear-regression-with-python/](http://connor-johnson.com/2014/02/18/linear-regression-with-python/)


**Hoje:**
1. Entender o conceito de regressão linear

___

A atividade a realizar está no final, mas estude todo o *notebook*

In [None]:
%matplotlib notebook
%reset -f


import pandas as pd
import numpy as np
from scipy.stats import norm, probplot
import statsmodels.api as sm
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D


Vamos fazer uma análise exploratória sobre um dataset sobre carros.

Fonte: [Auto MPG dataset](http://archive.ics.uci.edu/ml/datasets/Auto+MPG)

In [None]:
### Função utilitária para fazer a regressão com constante adicionada
def regress(X,Y):
    X_cp = sm.add_constant(X)
    model = sm.OLS(Y,X_cp)
    results = model.fit()
    return results

In [None]:
data = pd.read_csv("auto_mpg_sub.csv")

**Dicionário de dados:**


Variável | Descrição
:---:|---:
mpg | consumo em miles per gallon
cylinders | número de cilindros do motor do carro
displacement | deslocamento dos cilindros em polegadas cúbicas
horsepower | potência do veículo (HP)
weight | peso do veículo (libras)
acceleration | aceleração do veículo
model year | ano do modelo
origin | origem - veja abaixo
car name | nome do carro

A variável *origin* identifica o país de origem de um veículo

Valor | Origem
:---:|:---:
1 | Estados Unidos da América
2 | Europa
3 | Japão

In [None]:
data.columns

**Vamos trabalhar apenas com as variáveis quantitativas desse dataset**

In [None]:
df = data[['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year']]

In [None]:
df.describe()

Verificando valores nulos.

In [None]:
np.sum(df.isnull())

___
### Tarefa 1: 

Ajuste um modelo considerando Consumo como resposta (dependente) e as demais variáveis da base de dados como explicativas!

Faça a eparação das variáveis resposta e preditoras (explicativas):

Faça uso da função `regress` (que está neste *notebook* ) para fazer o ajuste:

___
### Tarefa 2:

O que os valores $P > |t|$ dizem a respeito das variáveis preditoras usadas?


**R.:**

___
### Exemplo de regressão múltipla quando há duas variáveis explicativas

Observe como plotar os resultados de uma regressão múltipla

In [None]:
X3 = df[['cylinders',
       'acceleration']]
results3 = regress(X3, Y)
results3.summary()

In [None]:
c = results3.params["const"]
w = results3.params["cylinders"]
y = results3.params["acceleration"]

In [None]:
def f(cylinders, acc):
    return c+w*cylinders + y*acc

In [None]:
npoints = 100
cylinders = np.linspace(X3["cylinders"].min(), X3["cylinders"].max(), npoints)
acc = np.linspace(X3["acceleration"].min(), X3["acceleration"].max(), npoints)


In [None]:
cylinders_xx, acc_yy = np.meshgrid(cylinders, acc)

In [None]:
z = f(cylinders_xx, acc_yy)

In [None]:
plt3d = plt.figure().gca(projection="3d")
plt3d.plot_surface(cylinders_xx, acc_yy, z)
plt3d.scatter(X3["cylinders"],X3["acceleration"], Y , color="r");

___
## Atividade

Parece que as variáveis `cylinders` e `acceleration` não são as melhores escolhas para explicar a economia de combustível.

Encontre $2$ variáveis melhores, gere o modelo via `OLS` e realize o plot 3D.

**R.:**

1) Para encontrar as duas melhores variáveis que explicam a variável `mpg`, ajuste um modelo com todas as variáveis (método Stepwise Backward):

2) Remova a variável com maior valor-p desde que não significante (>10%)! No caso, verá que será removida a variável `horsepower`. Faça novo ajuste de regressão sem essa variável! 

3) Do novo ajuste, verá que a variável `cylinders` possue maior valor-p > 10%. Faça novo ajuste sem essa variável. E assim sucessivamente até que todas as variáveis no modelo final tenham valor-p abaixo do nível de significância adotado (desde que menor do que 10%).

4) Em cada passo para remoção de uma variável, na prática, é necessário avaliar a validade das suposições do modelo!

5) Com o modelo final, faça detalhadamente a análise das suposições do modelo!

6) Realização do plot 3D com as duas variáveis relevantes para explicar a variável `mpg` já que ambas possuem valor *p* < 10%.

**OBSERVAÇÃO**

Note que se o modelo final ficasse com mais do que duas variáveis preditoras com valor *p* < 10%, então um gráfico 3D não seria adequado e nem informativo para conseguir avaliar o modelo ajustado sob os pontos!!