# 1. Configurando o ambiente

In [None]:
import pandas as pd
import numpy as np

from sklearn.neural_network import MLPRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.neural_network import MLPClassifier

from sklearn.metrics import mean_absolute_error
from sklearn.metrics import accuracy_score

from sklearn.preprocessing import MinMaxScaler

import matplotlib.pyplot as plt

%matplotlib inline

# 2. Pré-processamento dos dados
## 2.1. Carregando os dados

In [None]:
df = pd.read_csv('google.csv')
df.head()

In [None]:
df.index

In [None]:
#Definindo o index do dataset convertendo o formato dos dados para 'datetime'
df.index = pd.to_datetime(df['Date'])

In [None]:
df.index

In [None]:
df = df.drop(columns=['Date'])

In [None]:
df.head()

## 2.3. Transformação dos dados

Gerando novos atributos a partir dos dados já existentes

In [None]:
#Percentual de variação entre alta e baixa
df['HL_PCT'] = (df['Adj. High']-df['Adj. Close']) / df['Adj. Close'] * 100.0

In [None]:
#Percentual de mudança entre abertura e fechamento
df['PCT_change'] = (df['Adj. Close']-df['Adj. Open']) / df['Adj. Open'] * 100.0

### Rolling
Permite realizar cálculos com janela deslizante.

In [None]:
#Média móvel
df['Adj. Close Mean'] = df['Adj. Close'].rolling(6).mean()

In [None]:
#Opção binária
df['Adj. Close_b'] = df['Adj. Close'] > df['Adj. Open']

In [None]:
df['2004-08-19':'2004-08-29']

In [None]:
#Seleção de atributos
df_forecast = pd.DataFrame(df['Adj. Close'])

In [None]:
df_forecast.head()

In [None]:
df_forecast.isna().sum()

In [None]:
#Convertendo a série temporal em uma frequência específica
df_forecast = df_forecast.asfreq(freq='B')

Time rule strings:

B:  business day

D:  calendar day;

W:  weekly;

M:  month;

A:  year end;

AS: year start.

In [None]:
df_forecast.isna().sum()

Técnicas para tratamento de dados ausentes:

## 2.4. Imputação

1. Eliminar
2. Prenchimento manual
3. Algoritmos de AM
4. Métodos heurísticos
    1. Novo valor
    2. Média / Moda

Ferramentas disponíveis em python:
1. fillna
2. Interpolate

### 2.4.1. Fillna
[Ir](5-2-fillna.ipynb)

### 2.4.2. interpolate
É um método com o qual é possível construir um conjunto de dados a partir de outro conjunto de dados pontuais

##### linear

Ignora o index e trata os valores como estivessem igualmente separados

In [None]:
df_forecast['adj_close_i'] = df_forecast['Adj. Close'].interpolate(method='linear')

In [None]:
df_forecast.isna().sum()

In [None]:
#Estudo de caso
df_forecast['2005-09-01':'2005-09-08']

In [None]:
fig, ax = plt.subplots()

ax.plot(df_forecast['2005-09-01':'2005-09-08'].index.values,
        df_forecast['2005-09-01':'2005-09-08'].adj_close_i.values,
        alpha=0.5)
ax.scatter(df_forecast['2005-09-01':'2005-09-08'].index.values,
        df_forecast['2005-09-01':'2005-09-08']['Adj. Close'].values,
        c='r',
        alpha=0.5)

fig.autofmt_xdate()

In [None]:
df_forecast = df_forecast.drop(columns=['Adj. Close'])
df_forecast.head()

# Lag com Shift

Lag é uma operação estatística que produz os elementos anteriores de uma série temporal.

In [None]:
#Gerando lag para os últimos 4 dias
for lag in range(1,5):
    df_forecast['adj_close' + ' t-' + str(lag)] = df_forecast['adj_close_i'].shift(lag)

In [None]:
df_forecast.head()

In [None]:
#removendo dados faltantes
df_forecast = df_forecast.dropna()
df_forecast.head()

# 3. Predição

In [None]:
#separando atributo alvo
x = df_forecast.drop(columns=['adj_close_i']).values
y = df_forecast['adj_close_i'].values

In [None]:
x.shape

In [None]:
#Separando dados entre treino e teste
xtrain = x[:-100]
xtest = x[-100:]
ytrain = y[:-100]
ytest = y[-100:]

In [None]:
xtrain.shape

In [None]:
xtest.shape

### Multi-layer Perceptron


In [None]:
#instanciando e treinando o modelo de regressão com redes neurais
model = MLPRegressor(hidden_layer_sizes=(100, 60, 20), activation='relu', max_iter=1000)
model.fit(xtrain, ytrain)
pred = model.predict(xtest)

In [None]:
#Avaliação do modelo por Erro Absoluto Médio (MAE)
mean_absolute_error(y_true=ytest, y_pred=pred)

In [None]:
#Análise gráfica
a = df_forecast.index[-500:]
fig, ax = plt.subplots()
ax.plot(a, y[-500:])
ax.plot(a[-100:], model.predict(xtest), c='r')
fig.autofmt_xdate()

In [None]:
#Utiliza os dados do dia anterior para fazer a predição
y_magico = df_forecast['adj_close_i'].shift(1)[-100:]
mean_absolute_error(y_true=ytest, y_pred=y_magico)

In [None]:
a = df_forecast.index[-100:]
fig, ax = plt.subplots()
ax.plot(a, y[-100:])
ax.plot(a[-100:], y_magico, c='r')
fig.autofmt_xdate()

In [None]:
#Opções binárias
y_b = df_forecast['adj_close_i'] > df_forecast['adj_close_i'].shift(1)

In [None]:
#separando os dados de treino e teste
y_b_train = y_b[:-100]
y_b_test = y_b[-100:]

In [None]:
#Instanciando e treinando um classificador com redes neurais
model = MLPClassifier(hidden_layer_sizes=(100, 60, 20), activation='relu', max_iter=1000)
model.fit(xtrain, y_b_train)
pred = model.predict(xtest)

In [None]:
accuracy_score(y_true=y_b_test, y_pred=pred)

In [None]:
# Utilizando outros atributos para classificação binária
df_forecast2 = df.drop(columns=['Adj. Open','Adj. High','Adj. Low','Adj. Close'])

In [None]:
df_forecast2 = df_forecast2.dropna()

In [None]:
df_forecast2.head()

In [None]:
df_forecast2 = df_forecast2.asfreq(freq='B')

In [None]:
df_forecast2.isna().sum()

In [None]:
df_forecast2 = df_forecast2.interpolate(method='linear')

In [None]:
df_forecast2.isna().sum()

In [None]:
#df_forecast2['Adj. Close_b'] = df_forecast2['Adj. Close_b'].fillna(method='ffill')
df_forecast2['Adj. Close_b'] = df_forecast2['PCT_change']>0

In [None]:
df_forecast2.isna().sum()

In [None]:
#Como está a escala?
df_forecast2.describe()

In [None]:
#Resolvendo problema de escala
colunas = ['Adj. Volume', 'HL_PCT', 'PCT_change', 'Adj. Close Mean']
df_forecast2[colunas] = MinMaxScaler().fit_transform(df_forecast2[colunas])

In [None]:
df_forecast2.head()

In [None]:
colunas = ['Adj. Volume', 'HL_PCT', 'PCT_change', 'Adj. Close Mean', 'Adj. Close_b']
#Gerando lag para os últimos 5 dias
for coluna in colunas:
    for lag in range(1,5):
        df_forecast2[coluna + ' t-' + str(lag)] = df_forecast2[coluna].shift(lag)

In [None]:
#Removendo atributos do t-0
#df_forecast2 = df_forecast2.drop(columns=['Adj. Volume', 'HL_PCT', 'PCT_change', 'Adj. Close Mean'])

In [None]:
#removendo dados faltantes
df_forecast2 = df_forecast2.dropna()

In [None]:
df_forecast2.head()

In [None]:
#separando os dados de treino e teste
x_train = df_forecast2.drop(columns=['Adj. Close_b'])[:-100]
y_train = df_forecast2['Adj. Close_b'][:-100]

x_test = df_forecast2.drop(columns=['Adj. Close_b'])[-100:]
y_test = df_forecast2['Adj. Close_b'][-100:]

In [None]:
#Instanciando e treinando um classificador com redes neurais
cls = MLPClassifier(hidden_layer_sizes=(100, 60, 20), max_iter=1000)
cls.fit(x_train,y_train)

In [None]:
pred = cls.predict(x_test)

In [None]:
accuracy_score(y_true=y_test, y_pred=pred)