# Redes Neurais Para Finanças
#### by Maycon Cypriano Batestin

### Descriçao

---
1. O objetivo deste notebook é conseguir prever a melhor estimativa, com base em aprendizagem profunda, de açoes de bolsa de valores
2. Utilizaremos o conjunto de dados do [yahoo finances](https://finance.yahoo.com/)

3. Iremos criar um modelo e compara-lo, através de visualizacao de dados, qual a nossa previsão
---

# Dicionário


Fields	                                                  | Type  	  |    Description                              |
----------------------------------------------------------|:---------:|:-------------------------------------------:|
Date 	  										  	  |string     | Data da alteração |
Open														  |float    | preço da abertura                        |
High		     										  |float     | preço mais alto no dia	               |
Low | float | preco mais baixo no dia
Close | float | preco de fechamento
Adj Close | float | preco de fechamento, com ajustes de distribuições de dividendos e/ou ganhos de capital.
Volume | float | Volume total do dia
  

# Instalando os pacotes

In [None]:
!pip install pandas numpy scikit-learn keras matplotlib plotly yfinance


# Documentação

1. ** Pandas ** -> [Link](https://pandas.pydata.org/docs/)
2. ** Numpy ** -> [Link](https://numpy.org/doc/)
4. ** Scikit Learn ** -> [Link](https://scikit-learn.org/stable/)
5. ** Keras ** -> [Link](https://keras.io/api/)
6. ** Tensor Flow ** -> [Tensor Flow](https://www.tensorflow.org/api_docs/python/tf/keras)

7. ** yfinance ** >[Link](https://pypi.org/project/yfinance/)

8. ** Plotly ** > [Link](https://plotly.com/python/statistical-charts/)

# Obtendo o dataset

In [1]:
import pandas as pd
import yfinance as yf
import os



folder = "dataset"

if not os.path.exists(folder):
    os.makedirs(folder)

name = "GOOG"
file = os.path.join(folder, f"{name}.csv")
data = yf.download(name, start="2014-01-01", end="2024-01-01")
data.to_csv(file)
df = pd.read_csv(file)
df.info()

[*********************100%%**********************]  1 of 1 completed

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2516 entries, 0 to 2515
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       2516 non-null   object 
 1   Open       2516 non-null   float64
 2   High       2516 non-null   float64
 3   Low        2516 non-null   float64
 4   Close      2516 non-null   float64
 5   Adj Close  2516 non-null   float64
 6   Volume     2516 non-null   int64  
dtypes: float64(5), int64(1), object(1)
memory usage: 137.7+ KB





# Análise Exploratória

In [2]:
df

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2014-01-02,27.782366,27.839401,27.603037,27.724083,27.692570,73129082
1,2014-01-03,27.770908,27.818977,27.520098,27.521841,27.490559,66917888
2,2014-01-06,27.721344,27.867046,27.557707,27.828691,27.797060,71037271
3,2014-01-07,28.019974,28.385853,27.924334,28.365179,28.332937,102486711
4,2014-01-08,28.543015,28.575891,28.226450,28.424210,28.391901,90036218
...,...,...,...,...,...,...,...
2511,2023-12-22,142.130005,143.250000,142.054993,142.720001,142.557770,18494700
2512,2023-12-26,142.979996,143.945007,142.500000,142.820007,142.657669,11170100
2513,2023-12-27,142.830002,143.320007,141.050995,141.440002,141.279236,17288400
2514,2023-12-28,141.850006,142.270004,140.828003,141.279999,141.119415,12192500


In [3]:
df.shape

(2516, 7)

In [4]:
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2014-01-02,27.782366,27.839401,27.603037,27.724083,27.69257,73129082
1,2014-01-03,27.770908,27.818977,27.520098,27.521841,27.490559,66917888
2,2014-01-06,27.721344,27.867046,27.557707,27.828691,27.79706,71037271
3,2014-01-07,28.019974,28.385853,27.924334,28.365179,28.332937,102486711
4,2014-01-08,28.543015,28.575891,28.22645,28.42421,28.391901,90036218


In [5]:
df.tail(2)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
2514,2023-12-28,141.850006,142.270004,140.828003,141.279999,141.119415,12192500
2515,2023-12-29,140.679993,141.434998,139.899994,140.929993,140.769806,14872700


#### Analise descritiva

In [6]:
df.describe().round() # falar sobre notação cientifica
# O e na notação científica significa "10 elevado a", então e+03 significa
# 4.875000e+03 significa 4.875×10³ que é igual a 4875


Unnamed: 0,Open,High,Low,Close,Adj Close,Volume
count,2516.0,2516.0,2516.0,2516.0,2516.0,2516.0
mean,69.0,70.0,68.0,69.0,69.0,33784115.0
std,37.0,38.0,37.0,37.0,37.0,18823457.0
min,25.0,25.0,24.0,25.0,25.0,158434.0
25%,38.0,38.0,37.0,38.0,38.0,22853700.0
50%,57.0,57.0,56.0,57.0,57.0,28900128.0
75%,100.0,102.0,99.0,101.0,101.0,38077066.0
max,152.0,152.0,150.0,151.0,151.0,223486554.0


In [None]:
df[df['Open'] >= 150.709000] #este vai dar errado, por causa das casas decimais
df[df['High'] <= 16.0] #

In [7]:
df_corr = df[['Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume']]
df_corr.corr()

Unnamed: 0,Open,High,Low,Close,Adj Close,Volume
Open,1.0,0.999802,0.999789,0.999541,0.999541,-0.315026
High,0.999802,1.0,0.999749,0.999787,0.999787,-0.312106
Low,0.999789,0.999749,1.0,0.999805,0.999805,-0.320494
Close,0.999541,0.999787,0.999805,1.0,1.0,-0.317189
Adj Close,0.999541,0.999787,0.999805,1.0,1.0,-0.317189
Volume,-0.315026,-0.312106,-0.320494,-0.317189,-0.317189,1.0


Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume


In [10]:
import plotly.express as px

fig = px.imshow(df_corr.corr())
fig.show()


In [11]:
corr_matrix = pd.DataFrame(df_corr.corr())
fig = px.imshow(corr_matrix,
                x=corr_matrix.columns,
                y=corr_matrix.columns,
                zmin=-1, zmax=1,
                text_auto=True)

fig.update_layout(title='Matriz de Correlação',
                  xaxis_title='',
                  yaxis_title='')

fig.show()


1. Correlações próximas de 1 (amarelo): As variáveis Open, High, Low, Close e Adj Close têm uma correlação quase perfeita entre si. Isso significa que elas se movem praticamente em conjunto. Quando uma aumenta, as outras também aumentam, e vice-versa. Isso é esperado, pois são preços do mesmo ativo em diferentes momentos do período.

2. Correlação próxima de -1 (roxo): O Volume tem uma correlação quase perfeita negativa com as outras variáveis. Isso indica que quando o volume de negociações aumenta, os preços tendem a diminuir, e vice-versa. Essa relação inversa pode ser devido a diversos fatores, como investidores vendendo em massa quando o preço cai.

In [12]:
#conhecendo a variavel depedente

fig = px.line(df, x="Date", y="Open", title='Preco de Abertura por ano')
fig.show()


In [13]:
#expicando o boxplot

#q1 = o primeiro quartil 25%
#q3 = o terceiro quartil é 75%
# mediana = 50%

#iiq = intervalo entre quartil (Q3 - Q1)
#outliers = valores que estão fora do intervalo


fig = px.box(df, y="Volume", title="Outlier")
fig.show()

In [14]:
for col in df.columns:
    px.box(df, y=col, title=col).show()

In [15]:
#IQR (Intervalo Interquartil) ou Z-score. Aqui estão algumas maneiras de fazer isso:

Q1 = df['Volume'].quantile(0.25)
Q3 = df['Volume'].quantile(0.75)
IQR = Q3 - Q1
outliers = df[(df['Volume'] < (Q1 - 1.5 * IQR)) | (df['Volume'] > (Q3 + 1.5 * IQR))]['Volume']



In [16]:
len(df.Volume)

2516

In [17]:
len(outliers)

182

In [18]:
media_volume = df.Volume.mean().round(2)

for outlier in outliers:
    df.Volume.replace(outlier, media_volume, inplace=True)
df

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2014-01-02,27.782366,27.839401,27.603037,27.724083,27.692570,33784114.84
1,2014-01-03,27.770908,27.818977,27.520098,27.521841,27.490559,33784114.84
2,2014-01-06,27.721344,27.867046,27.557707,27.828691,27.797060,33784114.84
3,2014-01-07,28.019974,28.385853,27.924334,28.365179,28.332937,33784114.84
4,2014-01-08,28.543015,28.575891,28.226450,28.424210,28.391901,33784114.84
...,...,...,...,...,...,...,...
2511,2023-12-22,142.130005,143.250000,142.054993,142.720001,142.557770,18494700.00
2512,2023-12-26,142.979996,143.945007,142.500000,142.820007,142.657669,11170100.00
2513,2023-12-27,142.830002,143.320007,141.050995,141.440002,141.279236,17288400.00
2514,2023-12-28,141.850006,142.270004,140.828003,141.279999,141.119415,12192500.00


In [19]:
new_data = df[df['Volume'].isin(outliers)]
fig = px.box(df, y="Volume", title="Outlier")
fig.show()


In [None]:
df
#fig = px.histogram(df, x="Open")
#fig.show()

# Preparando os Dados


### Estipulando os vizinhos


In [20]:
days_time = 10

# para cada nova data que vou estimar, eu considero especialmente as 10 anteriores para se aproximar.



### Separando Treino & Teste

In [22]:
import numpy as np

dados_de_treinamento = int(len(df['Open']) * 0.95)

tamanho_do_teste = len(df['Open']) - dados_de_treinamento

treino_dados, entradas = np.array(df['Open'][0:dados_de_treinamento]), np.array(df['Open'][dados_de_treinamento - days_time:])

teste_dados = np.array(df['Open'][dados_de_treinamento:])



treino_dados.shape, teste_dados.shape

((2390,), (126,))

In [None]:
y = df['Open']
x = df.drop(columns=['Open'])

x