# O PROBLEMA

Imagine que você foi escalado para um time de investimentos e precisará realizar um modelo preditivo com dados do IBOVESPA (Bolsa de Valores) para criar uma série temporal e prever diariamente o fechamento da base.

Para isso, utilize a base de dados contida no site da investing e selecione o período 'diário', com intervalo de tempo que achar adequado.

Você precisará demonstrar para o time de investimentos:

1. O modelo com storytelling, desde a captura do dado até a entrega do modelo;
2. Justificar a técnica utilizada;
3. Atingir uma acurácia adequada (acima de 70%).

Dica: utilize o maior intervalo de tempo possível para atingir maior acurácia no modelo preditivo.

Fonte: https://br.investing.com/indices/bovespa-historical-data

## Importando bibliotecas

In [227]:
import warnings 
warnings.filterwarnings(action = 'ignore')

In [228]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Importando dados

In [229]:
df = pd.read_csv('Dados Históricos - Ibovespa.csv')

In [230]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2478 entries, 0 to 2477
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Data      2478 non-null   object 
 1   Último    2478 non-null   float64
 2   Abertura  2478 non-null   float64
 3   Máxima    2478 non-null   float64
 4   Mínima    2478 non-null   float64
 5   Vol.      2477 non-null   object 
 6   Var%      2478 non-null   object 
dtypes: float64(4), object(3)
memory usage: 135.6+ KB


In [231]:
df.head()

Unnamed: 0,Data,Último,Abertura,Máxima,Mínima,Vol.,Var%
0,08.08.2023,119.09,119.378,119.553,117.492,"10,25M","-0,24%"
1,07.08.2023,119.38,119.509,120.104,118.894,"8,73M","-0,11%"
2,04.08.2023,119.508,120.586,121.442,119.215,"15,07M","-0,89%"
3,03.08.2023,120.586,120.859,122.619,120.365,"13,03M","-0,23%"
4,02.08.2023,120.859,121.249,121.252,119.798,"10,57M","-0,32%"


## Tratamento de dados

In [232]:
#verificando ocorrência de dados nulos
df.isna().sum()

Data        0
Último      0
Abertura    0
Máxima      0
Mínima      0
Vol.        1
Var%        0
dtype: int64

In [233]:
df[df['Vol.'].isnull()]

Unnamed: 0,Data,Último,Abertura,Máxima,Mínima,Vol.,Var%
1860,10.02.2016,40.377,40.592,40.592,39.96,,"-0,53%"


In [234]:
df.drop(1860, inplace = True)
df.isna().sum()

Data        0
Último      0
Abertura    0
Máxima      0
Mínima      0
Vol.        0
Var%        0
dtype: int64

In [235]:
#verificando valores duplicados
df.duplicated().sum()

0

In [236]:
#verificando ocorrência de espaçamentos
espacamento_encontrado = False

for column in df.columns:
    for index, value in df[column].items():
        if isinstance(value, str) and value.isspace():
            print(f'Espaçamento encontrado na coluna "{column}", linha {index}.')
            espacamento_encontrado = True

if not espacamento_encontrado:
    print('Não há espaçamento nos dados.')

Não há espaçamento nos dados.


In [237]:
#renomeando colunas
df.rename(columns = {
    'Data': 'data', 
    'Último': 'ultimo', 
    'Abertura': 'abertura', 
    'Máxima': 'maxima', 
    'Mínima': 'minima', 
    'Vol.': 'volume', 
    'Var%': 
    'variacao'}, inplace = True)
df.columns

Index(['data', 'ultimo', 'abertura', 'maxima', 'minima', 'volume', 'variacao'], dtype='object')

In [238]:
#alterando tipo da coluna de data
df['data'] = df['data'].str.replace('.', '-')
df['data'] = pd.to_datetime(df['data'], format='%d-%m-%Y')

In [239]:
df.head(3)

Unnamed: 0,data,ultimo,abertura,maxima,minima,volume,variacao
0,2023-08-08,119.09,119.378,119.553,117.492,"10,25M","-0,24%"
1,2023-08-07,119.38,119.509,120.104,118.894,"8,73M","-0,11%"
2,2023-08-04,119.508,120.586,121.442,119.215,"15,07M","-0,89%"


In [240]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2477 entries, 0 to 2477
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   data      2477 non-null   datetime64[ns]
 1   ultimo    2477 non-null   float64       
 2   abertura  2477 non-null   float64       
 3   maxima    2477 non-null   float64       
 4   minima    2477 non-null   float64       
 5   volume    2477 non-null   object        
 6   variacao  2477 non-null   object        
dtypes: datetime64[ns](1), float64(4), object(2)
memory usage: 154.8+ KB


In [241]:
df.set_index('data', inplace = True)
df.head()

Unnamed: 0_level_0,ultimo,abertura,maxima,minima,volume,variacao
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2023-08-08,119.09,119.378,119.553,117.492,"10,25M","-0,24%"
2023-08-07,119.38,119.509,120.104,118.894,"8,73M","-0,11%"
2023-08-04,119.508,120.586,121.442,119.215,"15,07M","-0,89%"
2023-08-03,120.586,120.859,122.619,120.365,"13,03M","-0,23%"
2023-08-02,120.859,121.249,121.252,119.798,"10,57M","-0,32%"
