<h1><center>Regressão Linear Simples</center></h1>

Nesta aula iremos aprender a como utilizar o scikit-learn para criar uma regressão linear simples com base nos dados de emissão de CO2 de veículos automotores.


# Importando os pacotes necessários

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import pylab as pl
import numpy as np

# Download dos dados
O download dos dados pode ser realizado por meio do IBM Object Storage, disponível em:

https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/FuelConsumptionCo2.csv

##### Obs.: O arquivo deve ser salvo na mesma pasta onde este arquivo estiver salvo.


# Entendendo os dados

### `FuelConsumption.csv`:
Os dados presentes no arquivo, **`FuelConsumption.csv`**, referem-se ao consumo, bem como a emissão de CO2 de veículos vendidos no Canadá. [Dataset source](http://open.canada.ca/data/en/dataset/98f1a129-f628-4ce4-b24d-6f16bf24dd64)

- **MODELYEAR** e.g. 2014
- **MAKE** e.g. Acura
- **MODEL** e.g. ILX
- **VEHICLE CLASS** e.g. SUV
- **ENGINE SIZE** e.g. 4.7
- **CYLINDERS** e.g 6
- **TRANSMISSION** e.g. A6
- **FUEL CONSUMPTION in CITY(L/100 km)** e.g. 9.9
- **FUEL CONSUMPTION in HWY (L/100 km)** e.g. 8.9
- **FUEL CONSUMPTION COMB (L/100 km)** e.g. 9.2
- **CO2 EMISSIONS (g/km)** e.g. 182   --> low --> 0


# Lendo os dados

In [None]:
df = pd.read_csv("FuelConsumptionCo2.csv")

# Exibir o cabeçalho do arquivo
df.head()



# Explorando os dados
Vamos primeiro obter dados estatísticos descritivos dos nossos dados.

In [None]:
# resumir os dados
df.describe()

Vamos selecionar alguns dados para se obter maiores informações.

In [None]:
cdf = df[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB','CO2EMISSIONS']]
cdf.head(9)

podemos plotar um histograma de cada uma dessas características:

In [None]:
viz = cdf[['CYLINDERS','ENGINESIZE','CO2EMISSIONS','FUELCONSUMPTION_COMB']]
viz.hist()
plt.show()

Vamos plotar uma dispersão de cada uma dessas características vs Emissão, para verificar quão linear é essa relação:

In [None]:
plt.scatter(cdf.FUELCONSUMPTION_COMB, cdf.CO2EMISSIONS,  color='blue')
plt.xlabel("FUELCONSUMPTION_COMB")
plt.ylabel("Emission")
plt.show()

In [None]:
plt.scatter(cdf.ENGINESIZE, cdf.CO2EMISSIONS,  color='blue')
plt.xlabel("Engine size")
plt.ylabel("Emission")
plt.show()

# Prática
plote __CYLINDER__ vs a Emissão, para visualizar se existe a linearidade:

In [None]:
# Escreva seu código aqui


Duplo-clique __aqui__ para a solução.

<!-- Sua resposta abaixo:
    
plt.scatter(cdf.CYLINDERS, cdf.CO2EMISSIONS, color='blue')
plt.xlabel("Cylinders")
plt.ylabel("Emission")
plt.show()

-->

#### Criando dados de treinamento e de validação
Train/Test Split (Separação de dados para Treinamento/Validação) envolve separar os dados em dois conjuntos distintos. Depois disso, você treina com o conjunto de treinamento e testa com o conjunto de validação.

Isso fornecerá uma avaliação mais correta da exatidão fora da amostra, porque o conjunto de dados de validação não faz parte do conjunto de dados que foi usado para treinar o modelo. É mais realista para problemas do mundo real.

Isso significa que sabemos o resultado de cada ponto de dados neste conjunto de dados, o que é ótimo para testar! E como esses dados não foram usados para treinar o modelo, o modelo não tem conhecimento do resultado desses pontos de dados. Então, em essência, é realmente um teste fora da amostra.

Vamos dividir nosso conjunto de dados em conjuntos de treinamento e validação, 80% de todos os dados para treinamento e 20% para validação. Criamos uma máscara para selecionar linhas aleatórias usando a função __np.random.rand () __: 

In [None]:
msk = np.random.rand(len(df)) < 0.8
train = cdf[msk]
test = cdf[~msk]

# Modelo de Regressão Linear Simples
O modelo de regressão linear ajusta um modelo linear com coeficientes $\theta = (\theta_1, ..., \theta_n)$ para minimizar a "soma do erro quadrático" entre a variável independente x e a variável dependente y. 

#### Distribuição dos dados de Treinamento

In [None]:
plt.scatter(train.ENGINESIZE, train.CO2EMISSIONS,  color='blue')
plt.xlabel("Engine size")
plt.ylabel("Emission")
plt.show()

#### Criando o modelo
Usando o pacote sklearn para gerar o modelo.

In [None]:
from sklearn import linear_model
regr = linear_model.LinearRegression()
train_x = np.asanyarray(train[['ENGINESIZE']])
train_y = np.asanyarray(train[['CO2EMISSIONS']])
regr.fit (train_x, train_y)
# Os coeficientes
print ('Coeficiente angular: ', regr.coef_)
print ('Intercepto: ',regr.intercept_)

Como mencionado anteriormente, __Coeficiente__ e __Intercepto__ na regressão linear simples, são os parâmetros da linha de ajuste.
Dado que se trata de uma regressão linear simples, com apenas 2 parâmetros, e sabendo que os parâmetros são o intercepto e a inclinação da reta, o sklearn pode estimar diretamente a partir de nossos dados.
Observe que todos os dados devem estar disponíveis para percorrer e calcular os parâmetros.

#### Plotando as saídas

podemos plotar a reta sobre os pontos:

In [None]:
plt.scatter(train.ENGINESIZE, train.CO2EMISSIONS,  color='blue')
plt.plot(train_x, regr.coef_[0][0]*train_x + regr.intercept_[0], '-r')
print(regr.coef_[0][0]*5.5 + regr.intercept_[0])
plt.xlabel("Engine size")
plt.ylabel("Emission")

#### Validação
nós comparamos os valores reais e os valores estimados para calcular a precisão de um modelo de regressão. As métricas de avaliação fornecem um papel fundamental no desenvolvimento de um modelo, pois fornece insights para áreas que exigem melhorias.

Existem diferentes métricas de avaliação de modelo, vamos usar o MSE (Erro Quadrático Médio) aqui para calcular a precisão do nosso modelo com base no conjunto de testes:
<ul>
    <li> Erro absoluto médio: é a média do valor absoluto dos erros. Essa é a maneira mais fácil de entender as métricas, pois é apenas um erro médio.</li>
<li>Erro Quadrático Médio (MSE): Erro Quadrático Médio (MSE) é a média do erro quadrado. É mais popular do que o erro absoluto médio porque o foco é voltado mais para erros grandes. Isso se deve ao fato de o termo ao quadrado aumentar exponencialmente os erros maiores em comparação com os menores.</li>
<li>Raiz do Erro Quadrático Médio (RMSE): Esta é a raiz quadrada do Erro Quadrático Médio.</li>
    </ul>
R-quadrado não é um erro, mas é uma métrica popular para precisão do seu modelo. Representa o quão próximos os dados estão da linha de regressão ajustada. Quanto maior o R-quadrado, melhor o modelo se adapta aos seus dados. A melhor pontuação possível é 1.0 e pode ser negativa (porque o modelo pode ser arbitrariamente pior).
we compare the actual values and predicted values to calculate the accuracy of a regression model. Evaluation metrics provide a key role in the development of a model, as it provides insight to areas that require improvement.


In [None]:
from sklearn.metrics import r2_score

test_x = np.asanyarray(test[['ENGINESIZE']])
test_y = np.asanyarray(test[['CO2EMISSIONS']])
test_y_hat = regr.predict(test_x)

print("Mean absolute error: %.2f" % np.mean(np.absolute(test_y_hat - test_y)))
print("Residual sum of squares (MSE): %.2f" % np.mean((test_y_hat - test_y) ** 2))
print("R2-score: %.2f" % r2_score(test_y_hat , test_y) )

Esta aula foi desenvolvida com base no material disponibilizado por Saeed Aghabozorgi

<p>Copyright &copy; 2018 <a href="https://cocl.us/DX0108EN_CC">Cognitive Class</a>. This notebook and its source code are released under the terms of the <a href="https://bigdatauniversity.com/mit-license/">MIT License</a>.</p>