<h1><center>Regressão Linear Múltipla</center></h1>

Nesta aula iremos aprender a como utilizar o scikit-learn para criar uma regressão linear múltipla com base nos dados de emissão de CO2 de veículos automotores.


# Importando os pacotes necessários

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import pylab as pl
import numpy as np
%matplotlib inline

# Download dos dados
O download dos dados pode ser realizado por meio do IBM Object Storage, disponível em:

https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/FuelConsumptionCo2.csv

##### Obs.: O arquivo deve ser salvo na mesma pasta onde este arquivo estiver salvo.


<h2>Entendendo os dados</h2>

### `FuelConsumption.csv`:
Os dados presentes no arquivo, **`FuelConsumption.csv`**, referem-se ao consumo, bem como a emissão de CO2 de veículos vendidos no Canadá. [Dataset source](http://open.canada.ca/data/en/dataset/98f1a129-f628-4ce4-b24d-6f16bf24dd64)

- **MODELYEAR** e.g. 2014
- **MAKE** e.g. Acura
- **MODEL** e.g. ILX
- **VEHICLE CLASS** e.g. SUV
- **ENGINE SIZE** e.g. 4.7
- **CYLINDERS** e.g 6
- **TRANSMISSION** e.g. A6
- **FUELTYPE** e.g. z
- **FUEL CONSUMPTION in CITY(L/100 km)** e.g. 9.9
- **FUEL CONSUMPTION in HWY (L/100 km)** e.g. 8.9
- **FUEL CONSUMPTION COMB (L/100 km)** e.g. 9.2
- **CO2 EMISSIONS (g/km)** e.g. 182   --> low --> 0


<h2>Lendo os dados</h2>

In [None]:
df = pd.read_csv("FuelConsumption.csv")

# Exibir o cabeçalho do arquivo
df.head()

Vamos selecionar algumas características que iremos utilizar em nossa regressão:

In [None]:
cdf = df[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_CITY','FUELCONSUMPTION_HWY','FUELCONSUMPTION_COMB','CO2EMISSIONS']]
cdf.head(9)

Vamos plotar um gráfico da Emissão vs Tamanho do Motor:

In [None]:
plt.scatter(cdf.ENGINESIZE, cdf.CO2EMISSIONS,  color='blue')
plt.xlabel("Engine size")
plt.ylabel("Emission")
plt.show()

# Criando os daos de treinamento e de validação
Train/Test Split (Separação de dados para Treinamento/Validação) envolve separar os dados em dois conjuntos distintos. Depois disso, você treina com o conjunto de treinamento e testa com o conjunto de validação.

Isso fornecerá uma avaliação mais correta da exatidão fora da amostra, porque o conjunto de dados de validação não faz parte do conjunto de dados que foi usado para treinar o modelo. É mais realista para problemas do mundo real.

Isso significa que sabemos o resultado de cada ponto de dados neste conjunto de dados, o que é ótimo para testar! E como esses dados não foram usados para treinar o modelo, o modelo não tem conhecimento do resultado desses pontos de dados. Então, em essência, é realmente um teste fora da amostra.



In [None]:
msk = np.random.rand(len(df)) < 0.8
train = cdf[msk]
test = cdf[~msk]

# Distribuição dos dados de treinamento

In [None]:
plt.scatter(train.ENGINESIZE, train.CO2EMISSIONS,  color='blue')
plt.xlabel("Engine size")
plt.ylabel("Emission")
plt.show()

# Modelo de Regressão Múltipla

Na realidade, existem múltiplas variáveis que podem predizer a emissão de CO2. Quando mais de uma variável independente é utilizada no modelo, denominamos o processo de regressão linear múltipla. Por exemplo, prever a emissão de CO2 usando FUELCONSUMPTION_COMB, EngineSize e número de cílindros do motor. A vantagem que a regressão linear múltipla é uma extensão do modelo de regressão linear simples.

In [None]:
from sklearn import linear_model
regr = linear_model.LinearRegression()
x = np.asanyarray(train[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB']])
y = np.asanyarray(train[['CO2EMISSIONS']])
regr.fit (x, y)
# Os coeficientes
print ('Coefficients: ', regr.coef_)

Como mencionado anteriormente, __Coeficiente__ e __Intercepto__ são os parâmetros de ajuste da reta. Dado que é uma regressão linear múltipla, com 3 parâmetros, e sabendo que os parâmetros são o intercepto e os coeficientes do hiperplano, o sklearn pode estimar os mesmos a partir dos dados fornecidos, para tal o Scikit-learn utiliza o método dos __Mínimos Quadrados Ordinários__ para resolver este problema.

# Método dos Mínimos Quadrados (MMQ) ou Ordinary Least Squares (OLS)
O MMQ é um método para estimar os parâmetros desconhecidos em um modelo de regressão linear. O MMQ escolhe os parâmetros de uma função linear de um conjunto de variáveis explicativas, minimizando a soma dos quadrados das diferenças entre a variável dependente real e aquelas previstas pela função linear. Em outras palavras, ele tenta minimizar a soma de erros quadrados (SSE) ou erro quadrático médio (MSE) entre a variável de destino $y$ e nossa saída prevista $\hat{y}$ em todas as amostras no conjunto de dados.

O MMQ pode encontrar os melhores parâmetros usando os seguintes métodos:
     - Resolver os parâmetros do modelo analiticamente usando equações de forma fechada
     - Usando um algoritmo de otimização (Gradient Descent, Stochastic Gradient Descent, método de Newton etc.)

# Predição

In [None]:
y_hat= regr.predict(test[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB']])
x = np.asanyarray(test[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB']])
y = np.asanyarray(test[['CO2EMISSIONS']])
print("Residual sum of squares: %.2f"
      % np.mean((y_hat - y) ** 2))

# Variância = 1: Predição perfeita
print('Variance score: %.2f' % regr.score(x, y))

__variância da regressão:__
Se $\hat{y}$ é a saída alvo estimada, $y$ a saída alvo correspondente (real) e Var é Variância, o quadrado do desvio padrão, então a variância é estimada da seguinte forma:

$\texttt{Variância}(y,\hat{y}) = 1 - \frac {Var \{y - \hat {y} \}} {Var \{y \}} $
A melhor pontuação possível é de 1.0, valores menores são piores.

# Prática
Tente usar uma regressão linear múltipla com o mesmo conjunto de dados, mas, desta vez, use __FUEL CONSUMPTION in CITY__ e 
__FUEL CONSUMPTION in HWY__ ao invés de __FUELCONSUMPTION_COMB__. Isso resulta em uma melhor precisão?

In [None]:
# Escreva seu código abaixo


Duplo-clique __aqui__ para a solução.

<!-- Resposta abaixo:

regr = linear_model.LinearRegression()
x = np.asanyarray(train[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_CITY','FUELCONSUMPTION_HWY']])
y = np.asanyarray(train[['CO2EMISSIONS']])
regr.fit (x, y)
print ('Coefficients: ', regr.coef_)
y_= regr.predict(test[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_CITY','FUELCONSUMPTION_HWY']])
x = np.asanyarray(test[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_CITY','FUELCONSUMPTION_HWY']])
y = np.asanyarray(test[['CO2EMISSIONS']])
print("Residual sum of squares: %.2f"% np.mean((y_ - y) ** 2))
print('Variance score: %.2f' % regr.score(x, y))


-->

Esta aula foi desenvolvida com base no material disponibilizado por Saeed Aghabozorgi

<p>Copyright &copy; 2018 <a href="https://cocl.us/DX0108EN_CC">Cognitive Class</a>. This notebook and its source code are released under the terms of the <a href="https://bigdatauniversity.com/mit-license/">MIT License</a>.</p>