<a href="https://colab.research.google.com/github/cgbas/tc-data-analytics/blob/feature%2Ffase2/fase%202/notebook.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Modelo preditivo Ibovespa

Imagine que você foi escalado para um time de investimentos e precisará realizar um modelo preditivo com dados do IBOVESPA (Bolsa de Valores) para criar uma série temporal e prever diariamente o fechamento da base.

Para isso utilize a base  de dados contida no [Site da Investing](!https://br.investing.com/indices/bovespa-historical-data) e selecione o período diário, com o intervalo de tempo que achar adequado.

Você precisará demonstrar para o time de investimentos:

- O modelo com o storytelling, desde a captura do dado até a entrega do modelo;
- Justificar a técnica utilizada;
- Atingir uma acuracidade adequada (acima de 70%)

_Dica: utilize o maior intervalo de tempo possível para atingir maior acuracidade no modelo preditivo._

## Desenvolvimento
### Análise preliminar e coleta dos dados

Consideraremos dados desde o primeiro dia do plano real (01/07/1994) em nossa análise preliminar, inclusive para entender a ocorrência de outliers desde a introdução de nossa moeda corrente.




In [56]:
import pandas as pd

df_ibovespa = pd.read_csv('/content/Dados Históricos - Ibovespa.csv')
df_ibovespa.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Data      5000 non-null   object 
 1   Último    5000 non-null   float64
 2   Abertura  5000 non-null   float64
 3   Máxima    5000 non-null   float64
 4   Mínima    5000 non-null   float64
 5   Vol.      5000 non-null   object 
 6   Var%      5000 non-null   object 
dtypes: float64(4), object(3)
memory usage: 273.6+ KB


In [57]:
# dado que os dados exportados não estão no formato ideal, vamos convertê-los
df_ibovespa['Data'] = pd.to_datetime(df_ibovespa['Data'], dayfirst=1)
df_ibovespa['Vol.'] = df_ibovespa['Vol.'].str.replace(',', '.')
def convert_value(value):
    if value[-1] == 'K':
        return int(float(value[:-1]) * 1000)
    elif value[-1] == 'M':
        return int(float(value[:-1])* 1000000)
    elif value[-1] == 'B':
        return int(float(value[:-1]) * 1000000000)
    else:
        return int(float(value))

df_ibovespa['Vol.'] = df_ibovespa['Vol.'].apply(convert_value)
df_ibovespa.head()

Unnamed: 0,Data,Último,Abertura,Máxima,Mínima,Vol.,Var%
0,2014-09-12,56.928,58.336,58.336,56.666,4620000,"-2,42%"
1,2014-09-11,58.337,58.202,58.809,58.112,2890000,"0,24%"
2,2014-09-10,58.199,58.675,58.675,57.45,3810000,"-0,81%"
3,2014-09-09,58.676,59.158,59.485,58.306,4460000,"-0,87%"
4,2014-09-08,59.193,60.708,61.513,59.191,4390000,"-2,45%"


In [58]:
df_ibovespa['Var % Recalculada'] = ((df_ibovespa['Último'] / df_ibovespa['Abertura'] - 1) * 100).round(3)
df_ibovespa['Var%'] = df_ibovespa['Var%'].str.replace(',', '.').str.replace('%', '').astype(float)


In [59]:
# Conferindo a diferença com o valor recalculado
df_ibovespa['Diff Var'] = ((df_ibovespa['Var%'] / df_ibovespa['Var % Recalculada'] - 1) * 100).round(1)
df_ibovespa.head()
df_ibovespa.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   Data               5000 non-null   datetime64[ns]
 1   Último             5000 non-null   float64       
 2   Abertura           5000 non-null   float64       
 3   Máxima             5000 non-null   float64       
 4   Mínima             5000 non-null   float64       
 5   Vol.               5000 non-null   int64         
 6   Var%               5000 non-null   float64       
 7   Var % Recalculada  5000 non-null   float64       
 8   Diff Var           4997 non-null   float64       
dtypes: datetime64[ns](1), float64(7), int64(1)
memory usage: 351.7 KB
