<a href="https://www.bigdatauniversity.com"><img src = "https://ibm.box.com/shared/static/cw2c7r3o20w9zn8gkecaeyjhgw3xdgbj.png" width = 400, align = "center"></a>

# <center>Regressão linear simples</center>


#### Sobre este caderno
Neste caderno, aprenderemos a usar o scikit-learn para implementar uma regressão linear simples. Baixaremos um conjunto de dados relacionado ao consumo de combustível e às emissões de dióxido de carbono de veículos. Em seguida, dividiremos nossos dados em conjuntos de treinamento e teste, criaremos um modelo utilizando o conjunto de treinamento, avaliaremos o modelo com o conjunto de teste e, por último, utilizaremos o modelo para prever um valor desconhecido

### Importação dos pacotes necessários

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import pylab as pl
import numpy as np
%matplotlib inline

### Download dos dados
Utilizaremos o !wget para baixar os dados a partir do IBM Object Storage.

In [None]:
!wget -O FuelConsumption.csv https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/FuelConsumptionCo2.csv

__Você sabia?__ Ao utilizar o aprendizado de máquina, é provável que trabalhe com conjuntos de dados de grandes dimensões. Como empresa, onde você pode hospedar seus dados? A IBM está oferecendo uma oportunidade única para empresas, com 10 TB de armazenamento no IBM Cloud Object Storage: [Inscreva-se agora gratuitamente](http://cocl.us/ML0101EN-IBM-Offer-CC)


## Entendendo os dados

### `FuelConsumption.csv`:
Baixamos um conjunto de dados sobre consumo de combustível, **`FuelConsumption.csv`**, que contém classificações de consumo de combustível e emissões de dióxido de carbono específicas por modelos de veículos leves novos para venda a varejo no Canadá. [Fonte do conjunto de dados](http://open.canada.ca/data/en/dataset/98f1a129-f628-4ce4-b24d-6f16bf24dd64).

- Ano do modelo **[MODELYEAR]** e.g. 2014
- Marca **[MAKE]** e.g. Acura
- Modelo **[MODEL]** e.g. ILX
- Classe do veículo **[VEHICLE CLASS]** e.g. SUV
- Tamanho do motor **[ENGINE SIZE]** e.g. 4.7
- Cilindros **[CYLINDERS]** e.g 6
- Transmissão **[TRANSMISSION]** e.g. A6
- Consumo de combustível na cidade em L/100 km **[FUEL CONSUMPTION in CITY(L/100 km)]** e.g. 9.9
- Consumo de combustível na estrada em L/100 km **[FUEL CONSUMPTION in HWY (L/100 km)]** e.g. 8.9
- Consumo de combustível combinado em L/100 km**[FUEL CONSUMPTION COMB (L/100 km)]** e.g. 9.2
- Emissões de dióxido de carbono em g/km **[CO2 EMISSIONS (g/km)]** e.g. 182   --> low --> 0


## Leitura dos dados em

In [None]:
df = pd.read_csv("FuelConsumption.csv")

# take a look at the dataset
df.head()



### Exploração dos dados
Primeiro, façamos uma exploração descritiva de nossos dados.

In [None]:
# summarize the data
df.describe()

Vamos selecionar algumas características para analisarmos mais a fundo.

In [None]:
cdf = df[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB','CO2EMISSIONS']]
cdf.head(9)

Podemos representar graficamente cada uma destas características:

In [None]:
viz = cdf[['CYLINDERS','ENGINESIZE','CO2EMISSIONS','FUELCONSUMPTION_COMB']]
viz.hist()
plt.show()

Agora façamos um gráfico de cada uma dessas características em comparação com as emissões, para ver qual o grau de linearidade de suas relações:

In [None]:
plt.scatter(cdf.FUELCONSUMPTION_COMB, cdf.CO2EMISSIONS,  color='blue')
plt.xlabel("FUELCONSUMPTION_COMB")
plt.ylabel("Emission")
plt.show()

In [None]:
plt.scatter(cdf.ENGINESIZE, cdf.CO2EMISSIONS,  color='blue')
plt.xlabel("Engine size")
plt.ylabel("Emission")
plt.show()

## Prática
Faça um gráfico de cilindros __[CYLINDER]__ em relação a emissões, para ver o grau de linearidade dessa relação:

In [None]:
# write your code here




Clique duas vezes __aqui__ para ver a solução.

<!-- Your answer is below:
    
plt.scatter(cdf.CYLINDERS, cdf.CO2EMISSIONS, color='blue')
plt.xlabel("Cylinders")
plt.ylabel("Emission")
plt.show()

-->

#### Criação dos conjuntos de dados de treinamento e teste
Essa abordagem implica dividir o conjunto de dados em conjuntos de treinamento e teste, respectivamente, que são mutuamente exclusivos. Após isso, treina-se com o conjunto de treinamento e fazem-se testes com o conjunto de testes. Isso proporcionará uma avaliação mais exata da precisão fora da amostra, pois o conjunto de dados de teste não faz parte do conjunto de dados que foi usado para treinar os dados. É mais realista para problemas reais.

Isso significa que sabemos o resultado de cada ponto de dados neste conjunto de dados, o que é ótimo para usá-lo como conjunto de teste! E como esses dados não foram utilizados para treinar o modelo, este não conhece o resultado desses pontos. Portanto, em essência, é um verdadeiro teste fora da amostra.


In [None]:
msk = np.random.rand(len(df)) < 0.8
train = cdf[msk]
test = cdf[~msk]

### Modelo de regressão simples
A regressão linear ajusta um modelo linear com coeficientes B = (B1, ..., Bn) para minimizar a 'soma de quadrados residual' entre a variável independente x do conjunto de dados e a variável dependente y pela aproximação linear.

#### Distribuição dos dados de treinamento

In [None]:
plt.scatter(train.ENGINESIZE, train.CO2EMISSIONS,  color='blue')
plt.xlabel("Engine size")
plt.ylabel("Emission")
plt.show()

#### Modelagem
Utilização do pacote sklearn para a modelagem dos dados.

In [None]:
from sklearn import linear_model
regr = linear_model.LinearRegression()
train_x = np.asanyarray(train[['ENGINESIZE']])
train_y = np.asanyarray(train[['CO2EMISSIONS']])
regr.fit (train_x, train_y)
# The coefficients
print ('Coefficients: ', regr.coef_)
print ('Intercept: ',regr.intercept_)

Como mencionado anteriormente, __Coefficient (coeficiente)__ e __Intercept (ordenada de origem)__, na regressão linear simples, são os parâmetros da reta de ajuste. Como se trata de uma regressão linear simples, com apenas 2 parâmetros, e sabendo que os parâmetros são a ordenada de origem e a inclinação da reta, o sklearn pode estimá-los diretamente a partir de nossos dados. Observe que todos os dados devem estar disponíveis para percorrê-los e calcular os parâmetros.


#### Representação gráfica dos dados obtidos

podemos desenhar a reta de ajuste sobre os dados:

In [None]:
plt.scatter(train.ENGINESIZE, train.CO2EMISSIONS,  color='blue')
plt.plot(train_x, regr.coef_[0][0]*train_x + regr.intercept_[0], '-r')
plt.xlabel("Engine size")
plt.ylabel("Emission")

#### Avaliação
Comparamos os valores reais e os previstos para calcular a precisão do modelo de regressão. As métricas de avaliação desempenham um papel fundamental no desenvolvimento de modelos, pois fornecem insights sobre aspectos que requerem melhorias.

Existem diferentes métricas de avaliação de modelos; utilizaremos aqui o EQM para calcular a precisão de nosso modelo com base no conjunto de teste:
- Erro absoluto médio: É a média do valor absoluto dos erros. Essa é a métrica mais fácil de entender, pois é simplesmente o erro médio.
- Erro quadrático médio (EQM): É a média dos quadrados dos erros. É mais usado que o erro absoluto médio, pois seu foco é mais voltado para erros grandes. Isso se deve ao fato de o termo quadrático aumentar exponencialmente os erros maiores em comparação aos erros menores.
- Raiz do erro quadrático médio (REQM).
- O R-quadrado não mede o erro, mas é uma métrica muito utilizada para medir a precisão de modelos. Representa o grau de proximidade dos dados em relação à linha de regressão ajustada. Quanto maior é o R-quadrado, melhor o modelo se ajusta aos dados. O melhor valor possível é 1.0, podendo ser negativo (pois o modelo pode ser arbitrariamente pior).

In [None]:
from sklearn.metrics import r2_score

test_x = np.asanyarray(test[['ENGINESIZE']])
test_y = np.asanyarray(test[['CO2EMISSIONS']])
test_y_ = regr.predict(test_x)

print("Mean absolute error: %.2f" % np.mean(np.absolute(test_y_ - test_y)))
print("Residual sum of squares (MSE): %.2f" % np.mean((test_y_ - test_y) ** 2))
print("R2-score: %.2f" % r2_score(test_y_ , test_y) )

## Deseja saber mais?

A IBM SPSS Modeler é uma plataforma analítica abrangente que possui muitos algoritmos de aprendizado de máquina. Foi projetada para levar inteligência preditiva às decisões tomadas pelas pessoas, pelos grupos, pelos sistemas e por sua empresa como um todo. Este curso lhe permite acessar uma avaliação gratuita, disponível aqui: [SPSS Modeler](http://cocl.us/ML0101EN-SPSSModeler).

Também é possível utilizar o Watson Studio para executar esses notebooks mais rapidamente com conjuntos de dados maiores. O Watson Studio é a solução de nuvem de vanguarda da IBM para cientistas de dados, construída por cientistas de dados. Com os notebooks Jupyter, RStudio, Apache Spark e outras bibliotecas populares pré-empacotadas na nuvem, o Watson Studio permite que os cientistas de dados colaborem em seus projetos sem a necessidade de instalar nada. Junte-se hoje mesmo à comunidade de usuários do Watson Studio, que cresce cada dia mais, com uma conta gratuita em [Watson Studio](https://cocl.us/ML0101EN_DSX)

### Obrigado por concluir esta lição!

Notebook criado por: <a href = "https://ca.linkedin.com/in/saeedaghabozorgi">Saeed Aghabozorgi</a>

<hr>

Copyright &copy; 2018 [Cognitive Class](https://cocl.us/DX0108EN_CC). Este notebook e seu código-fonte são divulgados de acordo com os termos da [Licença do MIT License](https://bigdatauniversity.com/mit-license/).​