<a href="https://colab.research.google.com/github/SabrinaRoses/Data_Science/blob/main/LSTM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

LSTM - São redes neurais recorrentes projetetadas para lembrar dados por período mais longo, uma das melhores abordagens de aprendizado de máquina para previsao de séries temporais.

Previsão de preços de açies com LSTM usando Python.

In [5]:
#Coletar dados mais recentes sobre preços da Apple:

# Importando as bibliotecas necessárias
import pandas as pd #Manipulção de dados
import yfinance as yf #Obter dados Yahoo Finance
import datetime #Trabalhar com datas
from datetime import date, timedelta #Modulo especifico para manipulação de datas

#Obter a data de hoje
today = date.today()

# Formatando a data de hoje para o formato YYYY-MM-DD
d1 = today.strftime("%Y-%m-%d")
end_date = d1 # A data final será a data de hoje

# Subtraindo 5000 dias da data de hoje
d2 = date.today() - timedelta(days=5000)
# Formatando a data resultante para o formato YYYY-MM-DD
d2 = d2.strftime("%Y-%m-%d")
start_date = d2 # A data inicial será 5000 dias atras da data de hoje

# Baixando os dados do ticker 'AAPL' da Yahoo Finance
data = yf.download('AAPL',
                      start=start_date,
                      end=end_date,

                      progress=False) #Desativar a opção de progresso do Download

# Adicionando a coluna "Date" ao DataFrame, que será a data do Indice
data["Date"] = data.index
# Selecionando apenas as colunas relevantes no DataFrame
data= data[["Date", "Open", "High", "Low", "Close", "Adj Close", "Volume"]]
# Resetando o indice para um novo indice padrão
data.reset_index(drop=True, inplace=True)
# Exibindo as ultimas linhas do data frame
data.tail()



Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
3438,2024-01-12,186.059998,186.740005,185.190002,185.919998,185.919998,40444700
3439,2024-01-16,182.160004,184.259995,180.929993,183.630005,183.630005,65603000
3440,2024-01-17,181.270004,182.929993,180.300003,182.679993,182.679993,47317400
3441,2024-01-18,186.089996,189.139999,185.830002,188.630005,188.630005,78005800
3442,2024-01-19,189.330002,191.949997,188.820007,191.559998,191.559998,68741000


In [10]:
#Visualizar com gráfico de velas
import plotly.graph_objects as go # Importando a Biblioteca Ploty para Visualização

# Criando um objeto figure com dados de candlestick
figure = go.Figure(data=[go.Candlestick(x=data["Date"],
                                        open=data["Open"],
                                        high=data["High"],
                                        low=data["Low"],
                                        close=data["Close"])])
# Atualizando o layout do gráfico
figure.update_layout(title = "Apple Stock Price Analysis", # Titulo do Gráfico
                     xaxis_rangeslider_visible=False) # Removendo o controle deslizante de zoom no eixo X
figure.show() #exibindo o gráfico

In [11]:
# Verificar a correlação de todas as colunas com a coluna Close, pois ela é a coluna de destino:
correlation = data.corr() # Calculando a matriz de correlaçãi entre as colunas do DataFrame 'Data'
print(correlation['Close'].sort_values(ascending=False)) #Imprimindo a correlação da coluna close em relação as outrras.

Close        1.000000
Adj Close    0.999955
Low          0.999892
High         0.999886
Open         0.999764
Volume      -0.527185
Name: Close, dtype: float64






data.corr():

O método corr() do DataFrame calcula a matriz de correlação entre todas as colunas do DataFrame. Neste caso, a correlação é calculada entre as séries temporais de abertura, máxima, mínima, fechamento, fechamento ajustado e volume.
correlation['Close']:

Isso extrai a coluna da matriz de correlação correspondente à correlação da coluna 'Close' com todas as outras colunas.
.sort_values(ascending=False):

Esta função classifica os valores em ordem decrescente, de modo que as correlações mais altas aparecem no topo.
print(...):

Imprime a série de correlações ordenadas.
O resultado dessa operação será uma lista das correlações da coluna 'Close' com as outras colunas, classificadas em ordem decrescente. Correlações mais próximas de 1 indicam uma forte correlação positiva, enquanto correlações mais próximas de -1 indicam uma forte correlação negativa. Correlações próximas de 0 indicam uma fraca ou inexistente correlação.

In [13]:
# Treinamento do LSTM para previsão de preços de ações.

# Selecionando as features (variáveis independentes) e o target (variável dependente)
x = data[["Open", "High", "Low", "Volume",]]
y = data["Close"]

# Convertendo os dados para formato numpy
x = x.to_numpy()
y = y.to_numpy()
y = y.reshape(-1,1) # Reshape para garantir que seja uma matriz 2D

from sklearn.model_selection import train_test_split

# Dividindo os dados em conjuntos de treinamento e teste
xtrain, xtest, ytrain, ytest = train_test_split(x, y, test_size=0.2, random_state=42)


In [17]:
# Preparando Neural NetWork para LSTM:

# Importando as bibliotecas necessárias do Keras
from keras.models import Sequential
from keras.layers import Dense, LSTM

# Criando um modelo sequencial
model = Sequential()

# Adicionando a primeira camada LSTM
model.add(LSTM(128, return_sequences=True, input_shape=(xtrain.shape[1], 1))) # LSTM com 128 Unidades, retorna sequencia para a proxima camada e especifica a forma de entrada

# Adicionando a segunda camada LSTM
model.add(LSTM(64, return_sequences=False)) # LSTM com 64, unidades, não retorna sequencias para a proxima camada

# Adicionando uma camada densa com 25 unidades
model.add(Dense(25))

# Adicionando a camada de saída com uma única unidade (para prever o valor continuo)
model.add(Dense(1))

# Exibindo o resumo do modelo, que fornece uma visão geral da arquitetura do modelo
model.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 lstm_1 (LSTM)               (None, 4, 128)            66560     
                                                                 
 lstm_2 (LSTM)               (None, 64)                49408     
                                                                 
 dense (Dense)               (None, 25)                1625      
                                                                 
 dense_1 (Dense)             (None, 1)                 26        
                                                                 
Total params: 117619 (459.45 KB)
Trainable params: 117619 (459.45 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


O objetivo principal durante o treinamento é observar a diminuição da função de perda. Se a função de perda estiver diminuindo, isso sugere que o modelo está aprendendo. Se a perda estabilizar ou aumentar, pode indicar que o modelo está estagnando ou até mesmo sobreajustando (overfitting).

In [20]:
# Treinar o modelo para previsão do preço das ações
model.compile(optimizer='adam', loss='mean_squared_error') #Compila o modelo para torna-lo pronto para treinamento
model.fit(xtrain, ytrain, batch_size=1, epochs=30) #Treinar modelo com dados

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<keras.src.callbacks.History at 0x7a99e4810ac0>

In [21]:
 #Agora vamos testar esse modelo fornecendo valores de entrada de acordo com os recursos que usamos para treinar esse modelo e prever o resultado final:
import numpy as np
#features = [Open, High, Low, Adj Close, Volume]
features = np.array([[177.089996, 180.419998, 177.070007, 74919600]])
model.predict(features)



array([[177.46193]], dtype=float32)