# Aprendizado de Máquina - Predição de Preços na Bolsa de Valores (PETR4.SA)

## Instalação dos pacotes necessários

In [None]:

import warnings
warnings.filterwarnings('ignore')

!pip install numpy
!pip install matplotlib
!pip install yfinance
!pip install scikit-learn
!pip install pandas
!pip install pandas-ta

## Importando os pacotes necessários

In [None]:
import pandas as pd
import numpy as np
import pandas_ta as ta
import yfinance as yf
import matplotlib.pyplot as plt
from sklearn.linear_model import SGDRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler

## Baixando dados da Ação PETR4.SA Utilizando o Yahoo Finance

In [None]:
petr4 = yf.Ticker("PETR4.SA") # instanciando o yfinance com o Ticket de nossa ação
df = petr4.history(period="10y") # dizendo que queremos os dados históricos de 10 anos
print(df.head(10)) # inprimindo os 10 primeiros elementos (df é um pd.DataFrame, já sai bonitinho)

# Calculando o índice OHLC4 (Preço médio) e As bandas de Bollinger (Volatilidade) usando a Pandas-TA

In [None]:
window_length = 5
ts = df.ta.ohlc4() # ts é uma pd.Series
bollinger_bands = ta.bbands(close=ts, length=window_length) # calculando as bandas de bollinger sobre o ohlc4
bollinger_bands.fillna(0.0, inplace=True) # substituindo NaN por 0
bollinger_bands.drop(["BBP_5_2.0", "BBB_5_2.0"], axis=1, inplace=True) # retirando as colunas desnecessárias
ts = pd.concat([ts, bollinger_bands], axis=1)
ts = pd.DataFrame(ts)
ts.rename(columns={'BBL_5_2.0': 'LOWER_BBAND', 'BBM_5_2.0': 'MEAN_BBAND', 'BBU_5_2.0': 'UPPER_BBAND'}, inplace=True)
ts.plot(figsize=(20, 20))

## Preparação de Dados

In [None]:
# cria o vetor de características atrasadas
def create_lagged_features(data, n_lags):
    X, y = [], []
    for i in range(n_lags, len(data)):
        X.append(data[i-n_lags:i])  # Features: n_lags valores anteriores
        y.append(data[i])           # Target: valor atual
    return np.array(X), np.array(y)

n_lags = 10
series = ts["MEAN_BBAND"].to_numpy()  # a banda média de BBANDS é uma versão filtrada de OHLC4
diff_series = np.diff(series, prepend=series[0]) # tirando a tendência do OHLC4
X, y = create_lagged_features(diff_series, n_lags) # criando as caracterpisticas
# acho melhor separar alguns dados para serem os não vistos - 30% da série vou utilizar para testes reais
X_t, y_t = X[0:int(0.7*len(X))], y[0:int(0.7*len(X))]
X_r, y_r = X[int(0.7*len(X)):len(X)], y[int(0.7*len(X)):len(y)]
# SGD é sensúvel à escala
scaler = StandardScaler()
X_t_scaled = scaler.fit_transform(X_t)
X_r_scaled = scaler.transform(X_r)
# separação em dados de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X_t_scaled, y_t, test_size=0.2, shuffle=False)


## Instanciando e Treinando o Modelo SGD

In [None]:
sgd_regressor = SGDRegressor(max_iter=1000, tol=1e-3, random_state=0)

# Treinando o modelo
sgd_regressor.fit(X_train, y_train)

## Testando o modelo com os dados de teste

In [None]:
# Fazendo previsões
y_pred = sgd_regressor.predict(X_test)

# Avaliando o modelo
mse = mean_squared_error(y_test, y_pred)
print(f"Erro médio Quadrático (MSE): {mse:.4f}")

O MSE deu um valor relativamente baixo, indicativo de bom treinamento

## Teste Final

In [None]:
# Fazendo previsões
y_r_pred = sgd_regressor.predict(X_r_scaled)

# Avaliando o modelo
mse = mean_squared_error(y_r, y_r_pred)
print(f"Erro médio Quadrático (MSE): {mse:.4f}")

O MSE nos dados selecionados para teste final é cerca de 5 vezes o valor do MSE sobre os dados de teste.
Embora seja um tanto elevado em relação aos dados de teste, é apenas um estudo e não uma aplicação final.

## Plotando a curva final

In [None]:
# somando pois a série de treinamento é a diferença sobre a curva original - nos dados nunca vistos é uma soma cumulativa
Y_r_pred = np.concatenate((series[0:len(series) - len(X_r_scaled)], series[len(series) - len(X_r) - 1] + np.cumsum(y_r_pred)))
Y_r_pred = pd.Series(Y_r_pred, name="PREDICTED_OHLC4")
Orig_y = ts["OHLC4"].to_numpy()
Orig_y = pd.Series(Orig_y, name="ORIG_OHLC4")
bollinger_bands = ta.bbands(close=Y_r_pred, length=window_length) # calculando as bandas de bollinger sobre o ohlc4 predito
bollinger_bands.fillna(0.0, inplace=True) # substituindo NaN por 0
bollinger_bands.drop(["BBP_5_2.0", "BBB_5_2.0"], axis=1, inplace=True) # retirando as colunas desnecessárias
pts = pd.concat([Orig_y, Y_r_pred, bollinger_bands], axis=1)
pts = pd.DataFrame(pts)
pts.rename(columns={'BBL_5_2.0': 'LOWER_BBAND', 'BBM_5_2.0': 'MEAN_BBAND', 'BBU_5_2.0': 'UPPER_BBAND'}, inplace=True)
pts.plot(figsize=(20, 20))

É possível ver que o modelo diverge bastante para os dados fora do treinamento e teste. O modelo tem performance regular com a base de dados de treinamento feita. Muitas melhorias serão feitas, talvez utilizando RNNs, se for atividade de alguma aula posterior.