LSTM

In [None]:
from datetime import datetime, timedelta
import yfinance as yf
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout, Input
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import ReduceLROnPlateau
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


In [None]:
acao = 'MGLU3.SA'
periodo_tempo_de_precos_acao = "5y"
ativo = yf.download(acao, period=periodo_tempo_de_precos_acao)

In [None]:
ativo.head()

In [None]:
# Pega somente o atributo "Close" (pre√ßo de fechamento da a√ß√£o em cada dia) e armazena em um array bidimensional
# O array precisa ser bidimensional porque o MinMaxScaler espera uma entrada com esse formato.
ativo_close = ativo['Close'].dropna().to_numpy().reshape(-1, 1)

In [None]:
# Criar um DataFrame com os valores ajustados
data = pd.DataFrame(ativo_close)
data.columns = ['Close']

In [None]:
# Normalizar os dados para os modelos
scaler = MinMaxScaler(feature_range=(0, 1))
data['Scaled_Close'] = scaler.fit_transform(data[['Close']])

In [None]:
# Fun√ß√£o para criar janelas de dados
# janela de dados = quantidade de dias do X
def create_dataset(data, window_size):
    X, y = [], []
    for i in range(len(data) - window_size):
        X.append(data[i:i + window_size])
        y.append(data[i + window_size])
    return np.array(X), np.array(y)


In [None]:
window_size = 60
scaled_data = data['Scaled_Close'].values
X, y = create_dataset(scaled_data, window_size)

In [None]:
X[0] # 60 (window-size) valores que ele usa para prever o valor do y. 

In [None]:
scaled_data.shape, X.shape, y.shape

In [None]:
# Dividir os dados em treinamento e teste
# O argumento shuffle=False desativa a aleatoriza√ß√£o dos dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False)

In [None]:
# Ajustar o formato para o LSTM
X_train = np.reshape(X_train, (X_train.shape[0], X_train.shape[1], 1))
X_test = np.reshape(X_test, (X_test.shape[0], X_test.shape[1], 1))

In [None]:
len(X_test)
# X = 1184 (5 anos de dias √∫teis em janelas de 60 dias [71040 valores])
# X_test = 237 dias (20% dos 5 anos de dias √∫teis em janelas de 60 dias [14220 valores])
# y = 1184 valores reais da a√ß√£o
# y_test = 20% dos valores reais da a√ß√£o que ser√£o utilizados para comparmos as nossas previs√µes

In [None]:
# Cria√ß√£o de um modelo sequencial, onde as camadas s√£o empilhadas uma ap√≥s a outra
model = Sequential([
    # Define a forma da entrada: uma sequ√™ncia de 'window_size' passos, cada um com 1 feature (ex: pre√ßo de fechamento da a√ß√£o)
    Input(shape=(window_size, 1)),
    # Primeira camada LSTM com 100 unidades; retorna a sequ√™ncia completa (uma sa√≠da por passo de tempo)
    LSTM(100, return_sequences=True),
    # Dropout de 30% para evitar overfitting (desativa aleatoriamente 30% dos neur√¥nios durante o treino)
    Dropout(0.3),
    # Segunda camada LSTM com 100 unidades; tamb√©m retorna a sequ√™ncia completa
    LSTM(100, return_sequences=True),
    # Outro Dropout de 30% para regulariza√ß√£o
    Dropout(0.3),
    # Terceira camada LSTM com 100 unidades; agora retorna apenas a √∫ltima sa√≠da da sequ√™ncia
    LSTM(100),
    # Mais um Dropout de 30% antes da sa√≠da final
    Dropout(0.3),
    # Camada densa (totalmente conectada) com 1 unidade; representa o valor final previsto (ex: o pr√≥ximo valor)
    Dense(1)
])


In [None]:
model.compile(optimizer=Adam(learning_rate=0.001), loss='mean_squared_error')


In [None]:
# Treinar o modelo
early_stopping = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.5, patience=5, min_lr=1e-5)

model.fit(X_train, y_train, 
               epochs=100, 
               batch_size=32, 
               validation_data=(X_test, y_test),
               callbacks=[early_stopping, reduce_lr], 
               verbose=1)


In [None]:
# Fazer previs√µes
predicted_prices = model.predict(X_test)

# Inverter a normaliza√ß√£o
predicted_prices = scaler.inverse_transform(predicted_prices)

In [None]:
# Cria um DataFrame com as datas, os valores reais e os valores previstos
df_predictions = pd.DataFrame({
    "Date": ativo.index[len(X_train) + window_size : len(X_train) + window_size + len(predicted_prices)],
    "Real": ativo['Close'].iloc[len(X_train) + window_size : len(X_train) + window_size + len(predicted_prices)].values.flatten(),
    "Previs√£o": predicted_prices.flatten()
})

# Formata a coluna de data e define como √≠ndice
df_predictions["Date"] = pd.to_datetime(df_predictions["Date"])
df_predictions.set_index("Date", inplace=True)


In [None]:
df_predictions

In [None]:
# Calcular m√©tricas de desempenho do modelo
mae = mean_absolute_error(df_predictions["Real"], df_predictions["Previs√£o"])  # Erro absoluto m√©dio
mse = mean_squared_error(df_predictions["Real"], df_predictions["Previs√£o"])  # Erro quadr√°tico m√©dio
rmse = np.sqrt(mse)  # Raiz do erro quadr√°tico m√©dio
r2 = r2_score(df_predictions["Real"], df_predictions["Previs√£o"])  # Coeficiente de determina√ß√£o (R¬≤)

# Imprimir as m√©tricas com coment√°rios para organiza√ß√£o
print("üìä M√âTRICAS DE ERRO DO MODELO LSTM üìä\n")

print("üîπ MAE  (Erro Absoluto M√©dio):")
print(f"     ‚Üí Em m√©dia, o modelo erra cerca de {mae:.4f} unidades em cada previs√£o.\n")

print("üîπ MSE  (Erro Quadr√°tico M√©dio):")
print(f"     ‚Üí Erros maiores s√£o penalizados. Valor: {mse:.4f}\n")

print("üîπ RMSE (Raiz do Erro M√©dio Quadr√°tico):")
print(f"     ‚Üí Erro m√©dio em unidades reais: {rmse:.4f}\n")

print("üîπ R¬≤   (Coeficiente de Determina√ß√£o):")
print(f"     ‚Üí {r2:.4f} (ou {r2 * 100:.2f}%) da varia√ß√£o nos dados reais foi explicada pelo modelo.\n")

print("‚úÖ Interpreta√ß√£o r√°pida:")
print("     ‚Ä¢ Quanto menores o MAE, MSE e RMSE, melhor o modelo.")
print("     ‚Ä¢ Quanto mais pr√≥ximo de 1 o R¬≤, melhor a qualidade da previs√£o.")


In [None]:
import matplotlib.pyplot as plt

# Criar o gr√°fico
plt.figure(figsize=(12, 6))
plt.plot(df_predictions.index, df_predictions["Real"], label="Pre√ßo Real", linestyle="-", color="blue")
plt.plot(df_predictions.index, df_predictions["Previs√£o"], label="Previs√£o LSTM", linestyle="--", color="red")

# Adicionar t√≠tulos e legendas
plt.title("Compara√ß√£o entre Pre√ßo Real e Previs√£o do Modelo LSTM", fontsize=14)
plt.xlabel("Data", fontsize=12)
plt.ylabel("Pre√ßo de Fechamento", fontsize=12)
plt.legend()
plt.grid(True)

# Mostrar o gr√°fico
plt.show()


In [None]:
# Calcular m√©dia de acertos e expectativa de lucro
df_predictions = df_predictions.copy()

df_predictions['Varia√ß√£o percentual real'] = df_predictions['Real'].pct_change()

#Nova coluna com a varia√ß√£o percentual da a√ß√£o prevista
df_predictions['Varia√ß√£o percentual previs√£o'] = df_predictions['Previs√£o'].pct_change()

#Remover valores nulos
df_predictions = df_predictions.dropna()

#Nova coluna com a informa√ß√£o se a a√ß√£o subiu ou n√£o
df_predictions['A√ß√£o subiu'] = np.where(df_predictions['Varia√ß√£o percentual real'] > 0, 
                                                      True, False)

#Nova coluna com a informa√ß√£o se a previs√£o subiu ou n√£o
df_predictions['Previs√£o subiu'] = np.where(df_predictions['Varia√ß√£o percentual previs√£o'] > 0, 
                                                      True, False)

#Nova coluna com a informa√ß√£o se o modelo acertou a tend√™ncia
df_predictions['Modelo acertou tend√™ncia'] = np.where(df_predictions['A√ß√£o subiu'] == df_predictions['Previs√£o subiu']
                                      , True, False)

#Nova coluna com a varia√ß√£o percentual real absoluta
df_predictions['Varia√ß√£o percentual real absoluto'] = df_predictions['Varia√ß√£o percentual real'].abs()

#calcular media de acertos e expectativa de lucro
acertou_lado = df_predictions['Modelo acertou tend√™ncia'].sum()/len(df_predictions['Modelo acertou tend√™ncia'])

#calcular media de erros e expectativa de lucro
errou_lado = 1 - acertou_lado

#calcular media de lucro agrupado por acertos e erros
media_lucro = df_predictions.groupby('Modelo acertou tend√™ncia')['Varia√ß√£o percentual real absoluto'].mean()

#calcular media de acertos e expectativa de lucro
acertou_lado = df_predictions['Modelo acertou tend√™ncia'].sum()/len(df_predictions['Modelo acertou tend√™ncia'])

#calcular media de erros e expectativa de lucro
errou_lado = 1 - acertou_lado

#calcular media de lucro agrupado por acertos e erros
media_lucro = df_predictions.groupby('Modelo acertou tend√™ncia')['Varia√ß√£o percentual real absoluto'].mean()

#calcular expectativa matematica de lucro
exp_mat_lucro = acertou_lado * media_lucro[1] - media_lucro[0] * errou_lado

#calcular ganho sobre perda
ganho_sobre_perda = media_lucro[1]/media_lucro[0]

#calcular rendimento diario
exp_mat_lucro_percent = exp_mat_lucro * 100

print("üìä M√âTRICAS DO MODELO - √öltimo ano üìä\n")
print(f"Media lucro: {media_lucro}")
print(f"Ganho sobre perda: {ganho_sobre_perda}")
print(f"Acertou lado: {acertou_lado}")
print("rendimento di√°rio: " + str(round(exp_mat_lucro_percent, 4)) + "%")


In [None]:
# Garante que o √≠ndice est√° como datetime
df_predictions.index = pd.to_datetime(df_predictions.index)

# Define a data final (√∫ltimo dia dispon√≠vel) e inicial (30 dias antes)
data_final = df_predictions.index.max()
data_inicial = data_final - timedelta(days=30)

# Filtra apenas o √∫ltimo m√™s
ultimo_mes = df_predictions.loc[data_inicial:data_final].copy()

# --- C√°lculo das m√©tricas de rendimento di√°rio ---
# Colunas necess√°rias (valores j√° como float)
ultimo_mes['Varia√ß√£o percentual real'] = ultimo_mes['Real'].pct_change()
ultimo_mes['Varia√ß√£o percentual previs√£o'] = ultimo_mes['Previs√£o'].pct_change()

# Remover valores nulos
ultimo_mes = ultimo_mes.dropna()

# Acertos de tend√™ncia
ultimo_mes['A√ß√£o subiu'] = ultimo_mes['Varia√ß√£o percentual real'] > 0
ultimo_mes['Previs√£o subiu'] = ultimo_mes['Varia√ß√£o percentual previs√£o'] > 0
ultimo_mes['Modelo acertou tend√™ncia'] = ultimo_mes['A√ß√£o subiu'] == ultimo_mes['Previs√£o subiu']

# Varia√ß√£o percentual absoluta
ultimo_mes['Varia√ß√£o percentual real absoluto'] = ultimo_mes['Varia√ß√£o percentual real'].abs()

# Probabilidades de acerto e erro
acertou_lado = ultimo_mes['Modelo acertou tend√™ncia'].mean()
errou_lado = 1 - acertou_lado

# M√©dia de lucro por acertos/erros
media_lucro = ultimo_mes.groupby('Modelo acertou tend√™ncia')['Varia√ß√£o percentual real absoluto'].mean()

# Expectativa matem√°tica de lucro di√°rio
exp_mat_lucro = acertou_lado * media_lucro[True] - errou_lado * media_lucro[False]
exp_mat_lucro_percent = exp_mat_lucro * 100

# Ganho sobre perda
ganho_sobre_perda = media_lucro[True] / media_lucro[False]

# --- Impress√£o dos resultados ---
print("üìä M√âTRICAS DO MODELO - √öltimo m√™s üìä\n")
print(f"Media lucro: {media_lucro}")
print(f"Ganho sobre perda: {ganho_sobre_perda:.4f}")
print(f"Acertou lado: {acertou_lado:.4f}")
print(f"Rendimento di√°rio esperado: {exp_mat_lucro_percent:.4f}%")

In [None]:
# Define o hor√°rio atual
#teste
hoje = datetime.now()

# Define se a previs√£o ser√° para hoje ou amanh√£ com base no hor√°rio
if hoje.hour > 18:
    texto_previsao = "\nPre√ßo de fechamento previsto para amanh√£:"
else:
    texto_previsao = "\nPre√ßo de fechamento previsto para hoje:"

# Obt√©m a √∫ltima janela usada no treinamento
ultima_janela = X_test[-1]

# Redimensiona para shape (1, window_size, 1) para prever
X_input = ultima_janela.reshape(1, ultima_janela.shape[0], 1)

# Faz a previs√£o
predicted_price = model.predict(X_input)

# Reverte a escala
predicted_price = scaler.inverse_transform(predicted_price)

# Mostra o resultado
print(texto_previsao)
print(f"R$ {predicted_price[0][0]:.2f}")

In [None]:
import pandas as pd
from datetime import timedelta

# Define o n√∫mero de dias para exibir
dias_passados = 4
dias_futuros = 1

# Garante que o DataFrame de previs√µes est√° com o √≠ndice como datetime
df_predictions.index = pd.to_datetime(df_predictions.index)

# Define a data final (√∫ltimo dia dispon√≠vel)
data_final = df_predictions.index.max()

# Define o intervalo de datas: do passado at√© o futuro
data_inicial = data_final - timedelta(days=dias_passados)
data_futura = data_final + timedelta(days=dias_futuros)

# Filtra o DataFrame para o intervalo desejado e apenas as colunas 'Real' e 'Previs√£o'
df_resultado = df_predictions.loc[data_inicial:data_futura, ['Real', 'Previs√£o']].copy()

# Formata os valores para 2 casas decimais
df_resultado['Real'] = df_resultado['Real'].map(lambda x: f"R$ {x:.2f}")
df_resultado['Previs√£o'] = df_resultado['Previs√£o'].map(lambda x: f"R$ {x:.2f}")

# Renomeia as colunas
df_resultado.columns = ['Pre√ßo Real', 'Pre√ßo Estimado']

# Exibe o resultado
print("üìä Comparativo de Pre√ßo Real vs Estimado:\n")
display(df_resultado)
