 # Machine Learning - Regressão Linear

- Regressão Linear aplicada ao dados do mercado financeiro.
- O Objetivo é criar um modelo que consiga predizer o valor de fechamento de uma ação.
- Vamos treinar o algoritmo e validar o modelo.

## Scripts e Base de dados

- Os dados de **preços** bem como o **notebook com os scripts** dessa aula podem ser baixados em nosso Github, [aqui](https://github.com/minerandodados/mdrepo/blob/master/petr4_1_2010_11_2017.csv)

** Bibliotecas utilizadas **

In [None]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt
import plotly.graph_objs as go
import plotly.offline as py
import plotly
plotly.offline.init_notebook_mode()
import datetime

** Lendo o arquivo de dados e alterando o tipo data**

In [None]:
#petr4_1_2010_11_2017
dataset = pd.read_csv('petr4.csv')

In [None]:
# Transformando a coluna Date em uma coluna do tipo Datetime
dataset['Date'] = pd.to_datetime(dataset['Date'])


In [None]:
# Visualizando os dados
dataset.tail()

In [None]:
# Variação entre o preco de abertura e fechamento
dataset['Variation'] = dataset['Close'].sub(dataset['Open'])

In [None]:
dataset.head()

**Visualização de dados**

In [None]:
# Plota o valor os preços no periodo analisado 2010 a 2017.
# Utiliza a biblioteca pyplot para plotar dados financeiros temporais.
x1=dataset.Date
y1=dataset.Close
data = [go.Scatter(x=x1, y=y1)]
layout = go.Layout(
    xaxis=dict(
        range=['01-01-2010','11-04-2017'],
        title='Ano'              
    ),
    yaxis=dict(
        range=[min(x1), max(y1)],
        title='Valor da Acao'
    ))
fig = go.Figure(data = data, layout = layout)
py.iplot(fig)

**Preços de 7 dias atrás - Mostra Candlestick**

In [None]:
# Visualizando os Candlesticks
dataset2 = dataset.head(7)
dados = go.Candlestick(x=dataset2.Date,
                       open=dataset2.Open,
                       high=dataset2.High,
                       low=dataset2.Low,
                       close=dataset2.Close,
                       )

data=[dados]
py.offline.iplot(data,filename='grafico_candlestick')

**Candles dos ultimos 6 meses..**

In [None]:
# Visualizando precos em formato de candles dos últimos 6 meses.
dataset2 = dataset.head(180)
dados = go.Candlestick(x=dataset2.Date,
                       open=dataset2.Open,
                       high=dataset2.High,
                       low=dataset2.Low,
                       close=dataset2.Close,
                       )

data=[dados]
py.offline.iplot(data,filename='grafico_candlestick')

In [None]:
# Plota a variação no período
%matplotlib notebook
import matplotlib.dates as mdates
import datetime as dt
x = dataset['Date']
y = dataset['Variation']
plt.plot_date(x,y, color='r',fmt="r-")
plt.xticks(rotation=30)
plt.show()

**Correlação de Features e classe**

In [None]:
# Crian uma variável chamada treino
treino = dataset

In [None]:
# Plota a dispersao entre o preço de abertura(Open) e fechamento(Close) dos últimos 100 dias.
%matplotlib notebook
x = treino.Open[:100]
y = treino.Close[:100]
plt.scatter(x,y,color='b')
plt.xlabel('preco de abertura')
plt.ylabel('preco de fechamento')
plt.axis([min(x),max(x),min(y),max(y)])
plt.autoscale('False')
plt.show()

In [None]:
# Plota a dispersao entre o preço de máxima (high) e fechamento(Close) dos últimos 100 dias.
%matplotlib notebook
x = treino.High[:100]
y = treino.Close[:100]
plt.scatter(x,y,color='b')
plt.xlabel('preco da maxima')
plt.ylabel('preco de fechamento')
plt.axis([min(x),max(x),min(y),max(y)])
plt.autoscale('False')
plt.show()

In [None]:
# Plota a dispersao entre o preço de mínima(Low) e fechamento(Close) dos últimos 100 dias.
%matplotlib notebook
x = treino.Low[:100]
y = treino.Close[:100]
plt.scatter(x,y,color='b')
plt.xlabel('preco de Minima')
plt.ylabel('preco de fechamento')
plt.axis([min(x),max(x),min(y),max(y)])
plt.autoscale('False')
plt.show()

In [None]:
# Plota a dispersao entre o Volume e fechamento(Close) dos últimos 100 dias.
% matplotlib notebook
x = treino.Volume[:100]
y = treino.Close[:100]
plt.scatter(x,y,color='b')
plt.xlabel('Volume')
plt.ylabel('preco de fechamento')
plt.axis([min(x),max(x),min(y),max(y)])
plt.ticklabel_format(style='plain', axis='x')
plt.autoscale('False')
plt.xticks(rotation=45)
plt.show()

** Separação dos dados de treino e a classe **

In [None]:
# Variaveis do modelo
features = ['Open','High','Low','Volume']
treino = treino[features]

In [None]:
# Visualizando os dados sem as classes
treino.head()

In [None]:
# Y recebe o preço de fechamento (classes)
y = dataset['Close']

In [None]:
# Visualizando o dataframe y
y

# Treinando o algoritmo de Regressão Linear

* Use o recurso **train_test_split** para separar dados de treino e teste.
* Dessa forma o algoritmo é treinado com uma parte dos dados e testado com outra (dados não vistos).
* Divisão dos dados de forma aleatória (75% para treino e 25% para teste).

In [None]:
# Separando os dados.
X_treino, X_teste, y_treino, y_teste = train_test_split(
treino, y, random_state=42)

In [None]:
# Visualizando o dataframe X_treino
X_treino.head()

In [None]:
# Visualizando dados de teste
X_teste.head()

In [None]:
# Visualizando as classes de treino
y_treino.head()

In [None]:
# Visualizando as classes do teste
y_teste.head()

In [None]:
# Cria um objeto do tipo LinearRegression.
lr_model = LinearRegression()

In [None]:
# Treinando o algoritmo.
lr_model.fit(X_treino,y_treino)

In [None]:
# Visualizando os coeficientes (pesos!)
# Interessante observar o valor negativo do peso associado a feature Open (Abertura).
lr_model.coef_

In [None]:
# Predizendo 10 preços
lr_model.predict(X_teste)[:10]

In [None]:
# Visualizando preços reais.
y_teste[:10]

In [None]:
%matplotlib notebook
# Armazena dados preditos em dataframe.
predicoes = pd.DataFrame(lr_model.predict(X_teste)[:10])

# Armazena dados reais em dataframe.
y_teste2= pd.DataFrame(y_teste[:10].values)

# Define o estilo do gráfico.
plt.style.use("ggplot")

# Definição de título de eixos do gráfico.
plt.xlabel('Preços')
plt.ylabel('Indice')
plt.title('Precos Reais vs Predições')

# Ordena os valores e plota as linhas
plt.plot(predicoes.sort_values(by=0),predicoes.index)
plt.plot(y_teste2.sort_values(by=0)+15,y_teste2.index)

# Define legenda do gráfico
plt.legend(['Predições','Preços Reais'])


# Validando o modelo de Regressão

* Métrica de **RMSE**.
* Métrica utiliza medidas dependentes.

In [None]:
y_teste.isnull().sum()

In [None]:
y_pred = lr_model.predict(X_teste)

In [None]:
y_pred.shape

In [None]:
y_teste.shape

In [None]:
# mean_squared_error significa o erro médio.
# Quanto mais próximo de 0 melhor.
mean_squared_error(y_teste, lr_model.predict(X_teste))

In [None]:
# RMSE - Root Mean Square Error
# Utiliza unidades dependentes
RMSE = mean_squared_error(y_teste, lr_model.predict(X_teste))**0.5
RMSE

# Da pra melhorar o modelo?

- Teste com Open e High apenas.
- Normalização dos dados.

In [None]:
lr_model2 = LinearRegression(normalize=True)

In [None]:
features = ['Open','High']
treino2 = treino[features]

In [None]:
treino2.head()

In [None]:
# Separa os dados 75% treino e 25% teste
X_treino, X_teste, y_treino, y_teste = train_test_split(
treino2, y, random_state=42)

In [None]:
# Treina o algoritmo
lr_model2.fit(X_treino,y_treino)

In [None]:
# Imprimi os pesos
lr_model2.coef_

In [None]:
# Valida o modelo com o RMSE.
RMSE = mean_squared_error(y_teste, lr_model2.predict(X_teste))**0.5
RMSE

In [None]:
RMSE = mean_squared_error(y_teste, lr_model2.predict(X_teste))**0.5
RMSE