# Modelo de Serie Temporal - Bova 11

Objetivo é realizar uma análise de dados em cima da base de dados do bova11 disponível no kaggle: https://www.kaggle.com/code/natansilva/analise-de-series-temporais-para-bova11/notebook

## Introdução sobre a base de dados

BOVA11 é um ticker de bolsa de valores que representa um fundo de índice negociado na B3 (Brasil, Bolsa, Balcão). Especificamente, o BOVA11 é um ETF (Exchange Traded Fund) que busca replicar o desempenho do Índice Bovespa, que é um índice composto pelas ações mais negociadas na B3.

O BOVA11 é uma forma popular de investimento em ações no Brasil, pois permite que os investidores possam investir em um portfólio diversificado de ações de maneira simples e com baixo custo. Além disso, a negociação do BOVA11 ocorre em tempo real, como se fosse uma ação, o que facilita a compra e venda para os investidores.

- A base de dados contém as sequintes informações:
  - Data: Dados
  - Aberto: Preço de abertura
  - Alta: Preço mais alto do dia
  - Baixa: Preço mais baixo do dia
  - Fechar: Preço de fechamento
  - Adj Close: Preço de fechamento ajustado (levando em consideração fatores como dividendos, desdobramentos, etc.)
  - Volume: Volume de negociação (quantidade de ações negociadas durante o dia)

In [80]:
## Importando as bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [81]:
df = pd.read_csv("/content/drive/MyDrive/Machine Learning/Series Temporais/BOVA11.SA.csv")

In [82]:
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2014-01-02,50.220001,50.27,49.060001,49.080002,49.080002,1001210.0
1,2014-01-03,49.099998,49.470001,49.049999,49.259998,49.259998,1227270.0
2,2014-01-06,49.259998,49.990002,49.200001,49.84,49.84,702060.0
3,2014-01-07,49.549999,50.290001,49.23,49.23,49.23,1304100.0
4,2014-01-08,49.540001,49.59,49.209999,49.279999,49.279999,951950.0


In [83]:
df.shape

(1472, 7)

In [84]:
df.describe()

# A função describe informa valores estastisticos como media, desvio padrão, quartis e etc

Unnamed: 0,Open,High,Low,Close,Adj Close,Volume
count,1468.0,1468.0,1468.0,1468.0,1468.0,1468.0
mean,64.884694,65.402834,64.303965,64.850879,64.850879,2854530.0
std,17.641208,17.67416,17.546691,17.627709,17.627709,1750780.0
min,36.259998,36.610001,36.009998,36.450001,36.450001,0.0
25%,50.279999,50.757499,49.779999,50.290001,50.290001,1698050.0
50%,59.844999,60.345001,59.414999,59.834999,59.834999,2510675.0
75%,78.464998,78.924999,77.652502,78.290001,78.290001,3675310.0
max,104.959999,105.629997,104.529999,105.529999,105.529999,17165950.0


In [85]:
df = df.dropna()

In [86]:
df.info() # A base de dados possui menos de 10 informações ausentes, então utilizei o dropna para excluir essas inconsistencias

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1468 entries, 0 to 1471
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       1468 non-null   object 
 1   Open       1468 non-null   float64
 2   High       1468 non-null   float64
 3   Low        1468 non-null   float64
 4   Close      1468 non-null   float64
 5   Adj Close  1468 non-null   float64
 6   Volume     1468 non-null   float64
dtypes: float64(6), object(1)
memory usage: 91.8+ KB


In [87]:
# Vou utilizar o plotly com o objetivo de ter uma visualização mais nitida e possibilita uam análise

import plotly.express as px
import pandas as pd

# Cria um gráfico de linha com o Plotly Express
fig = px.line(df, x='Date', y='Close', title='Série Temporal')

# Define o estilo do gráfico para o modo escuro
fig.update_layout(template='plotly_dark')

# Define os nomes dos eixos x e y
fig.update_xaxes(title='Data')
fig.update_yaxes(title='Valor de Fechamento')

# Exibe o gráfico
fig.show()


## Teste de Dickey-Fuller Aumentado (ADF)

O Teste de Dickey-Fuller Aumentado (ADF) é um teste estatístico utilizado para verificar se uma série temporal é estacionária ou não estacionária. Em termos simples, a estacionariedade de uma série temporal significa que suas propriedades estatísticas, como média e variância, são constantes ao longo do tempo. Se uma série temporal for não estacionária, suas propriedades estatísticas mudam com o tempo, o que pode dificultar a análise e a previsão de dados.

In [88]:
from statsmodels.tsa.stattools import adfuller
from statsmodels.tsa.arima_model import ARIMA

dados = df['Close']
resultado = adfuller(dados)

print('ADF Statistic:', resultado[0])
print('p-value:', resultado[1])
print('Critical Values:')
for key, value in resultado[4].items():
    print('\t%s: %.3f' % (key, value))


ADF Statistic: 0.12225488702547538
p-value: 0.9675481000978431
Critical Values:
	1%: -3.435
	5%: -2.864
	10%: -2.568


In [89]:
df_novo = df[['Date', 'Close']]