In [1]:
import pandas as pd
import numpy as np
from dotenv import load_dotenv
import os
import yfinance as yf

In [None]:
load_dotenv()
path_dados_indices = os.getenv('PATH_DADOS_GERAIS')

# Pegar dados do ibovespa
tickerData = yf.Ticker('^BVSP')
# Importar dados usando taxa de amostragem de 1 mês
tickerDf = tickerData.history(period='1mo', start='2010-01-01', end='2024-06-30')
# Deixar apenas data no indíce
tickerDf.index = tickerDf.index
ibov = tickerDf[['Close']]
ibov = ibov.rename_axis('DATE')
ibov.index = ibov.index.tz_localize(None)


fgv_index = pd.read_csv(path_dados_indices + 'fgv_variaveis.csv')
iee_index = pd.read_csv(path_dados_indices + 'iee.csv', sep=';')
incc_index = pd.read_csv(path_dados_indices + 'INCC.csv')
igpm_index = pd.read_csv(path_dados_indices + 'new_igpm.csv', sep=';')
ipca_index = pd.read_csv(path_dados_indices + 'new_ipca.csv', sep=';')
selic_index = pd.read_csv(path_dados_indices + 'new_selic.csv', sep=';')
vix_index = pd.read_csv(path_dados_indices + 'VIX_History.csv')[['DATE', 'CLOSE']]
fgv_index2 = pd.read_csv(path_dados_indices + 'xgvxConsulta.csv', sep=';')

In [141]:
fgv_index2 = pd.read_csv(path_dados_indices + 'xgvxConsulta.csv', sep=';')

In [None]:
#Removendo colunas com poucos valores ou não utilizadas
fgv_index = fgv_index.drop(columns=['Índice de Variação de Aluguéis Residenciais (IVAR) - Média Nacional (1463201)'])
fgv_index2 = fgv_index2.drop(columns=['Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 6', 'Unnamed: 7', 'Unnamed: 9', 'Unnamed: 10', 'Unnamed: 12'])

In [149]:
#Ajustando formato da coluna de data para datetime e filtrando janela necessária
fgv_index2['Data'] = pd.to_datetime(fgv_index2['Data'], format='%m/%Y')
fgv_index2 = fgv_index2.rename(columns={'Data': 'data'})
fgv_index2 = fgv_index2[fgv_index2['data'] >= '2010-01-01']
fgv_index2 = fgv_index2[fgv_index2['data'] <= '2024-12-31']

In [155]:
#Tratamento dos dados
fgv_index2.set_index('data', inplace=True)
fgv_index2 = fgv_index2.replace({r'\.': '', ',': '.'}, regex=True)
fgv_index2 = fgv_index2.replace('-',0)
fgv_index2 = fgv_index2.replace(' - ',0)
fgv_index2 = fgv_index2.apply(pd.to_numeric)

In [157]:
#mudar a taxa de amostragem dos dados de mensal para trimestral
fgv_index2 = fgv_index2.resample('QE').mean()
fgv_index2.tail()

Unnamed: 0_level_0,1,2,3,4,5,6,7,8,9
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2023-12-31,5.22,4.583333,4.952167,12.236667,6.55,14892.666667,15977.0,8694.0,59.453333
2024-03-31,5.33,3.093333,4.952367,11.266667,6.53,15421.0,15791.0,9017.0,60.193333
2024-06-30,5.33,4.573333,5.216433,10.503333,6.68,14567.0,16411.666667,8715.0,61.13
2024-09-30,5.263333,4.216667,5.5448,10.4,6.903333,13777.666667,16986.666667,7932.333333,61.383333
2024-12-31,4.65,4.5,5.842133,10.946667,7.43,15047.333333,16661.333333,8711.0,61.36


In [160]:
#renomear as colunas para facilitar o entendimento
fgv_index2 = fgv_index2.rename(columns={"1": "Juros EUA", "2": "Tbonds", "3": "Cotacao dolar", "4": "CDI",
                                         "5": "TJLP", "6": "Energia res", "7": "Energia ind", "8": "Energia comer",
                                         "9": "Divida/PIB"})

In [161]:
fgv_index2.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 60 entries, 2010-03-31 to 2024-12-31
Freq: QE-DEC
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Juros EUA      60 non-null     float64
 1   Tbonds         60 non-null     float64
 2   Cotacao dolar  60 non-null     float64
 3   CDI            60 non-null     float64
 4   TJLP           60 non-null     float64
 5   Energia res    60 non-null     float64
 6   Energia ind    60 non-null     float64
 7   Energia comer  60 non-null     float64
 8   Divida/PIB     60 non-null     float64
dtypes: float64(9)
memory usage: 4.7 KB


In [40]:
vix_index.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8697 entries, 0 to 8696
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   DATE    8697 non-null   object 
 1   CLOSE   8697 non-null   float64
dtypes: float64(1), object(1)
memory usage: 136.0+ KB


In [55]:
#converter a primeira coluna dos dataframes para datetime
iee_index['Data'] = pd.to_datetime(iee_index['Data'])
incc_index['Data'] = pd.to_datetime(incc_index['Data'])
igpm_index['DATA'] = pd.to_datetime(igpm_index['DATA'])
ipca_index['DATA'] = pd.to_datetime(ipca_index['DATA'])
selic_index['DATA'] = pd.to_datetime(selic_index['DATA'])
vix_index['DATE'] = pd.to_datetime(vix_index['DATE'])

Filtrar a janela de tempo que será utilizada

In [56]:
# Filtrar datas entre 2010 e 2024 para todos os dataframes trimestrais

def filtra_periodo(df):
    col_data = df.columns[0]
    df = df.copy()
    df[col_data] = pd.to_datetime(df[col_data]).dt.tz_localize(None)
    return df[(df[col_data] >= '2010-01-01') & (df[col_data] <= '2024-12-31')]

ibov_trimestral_filtrado = filtra_periodo(ibov)
iee_trimestral_filtrado = filtra_periodo(iee_index)
incc_trimestral_filtrado = filtra_periodo(incc_index)
igpm_trimestral_filtrado = filtra_periodo(igpm_index)
ipca_trimestral_filtrado = filtra_periodo(ipca_index)
selic_trimestral_filtrado = filtra_periodo(selic_index)
vix_trimestral_filtrado = filtra_periodo(vix_index)

# Padronizar as colunas de data para datetime64[ns] sem timezone
for df in [ibov_trimestral_filtrado, iee_trimestral_filtrado, incc_trimestral_filtrado, igpm_trimestral_filtrado, ipca_trimestral_filtrado, selic_trimestral_filtrado, vix_trimestral_filtrado]:
    df[df.columns[0]] = pd.to_datetime(df[df.columns[0]]).dt.tz_localize(None)

Ajustando a taxa de amostragem dos dados diários para trimestrais

In [57]:
# Ajustando a taxa de amostragem dos dados diários para trimestrais
from pandas.tseries.offsets import QuarterEnd

def amostra_trimestral(df, data_col):
    df = df.copy()
    df[data_col] = pd.to_datetime(df[data_col]).dt.tz_localize(None)
    df.set_index(data_col, inplace=True)
    df_trimestral = df.resample('QE').last().reset_index()
    return df_trimestral


def amostra_trimestral_mean(df, data_col):
    df = df.copy()
    df[data_col] = pd.to_datetime(df[data_col]).dt.tz_localize(None)
    df.set_index(data_col, inplace=True)
    df_trimestral = df.resample('QE').mean().reset_index()
    return df_trimestral

def amostra_trimestral_agregada(df, data_col, valor_col):
    df = df.copy()
    df[data_col] = pd.to_datetime(df[data_col], errors='coerce')
    if hasattr(df[data_col].dt, 'tz') and df[data_col].dt.tz is not None:
        df[data_col] = df[data_col].dt.tz_localize(None)
    df = df.dropna(subset=[data_col, valor_col])
    df.set_index(data_col, inplace=True)
    df = df.sort_index()
    df[valor_col] = df[valor_col].astype(float) / 100
    df_trimestral = (df[valor_col] + 1).resample('QE').prod() - 1
    df_trimestral = df_trimestral.reset_index()
    return df_trimestral

# Exemplo para cada dataframe:
ibov_index_trimestral = ibov.resample('QE').last().reset_index()
iee_index_trimestral = amostra_trimestral(iee_trimestral_filtrado, data_col=iee_trimestral_filtrado.columns[0])
selic_index_trimestral = amostra_trimestral_mean(selic_trimestral_filtrado, data_col=selic_trimestral_filtrado.columns[0])
vix_index_trimestral = amostra_trimestral(vix_index, data_col=vix_index.columns[0])

# Para índices percentuais:
igpm_index_trimestral = amostra_trimestral_agregada(igpm_trimestral_filtrado, data_col=igpm_trimestral_filtrado.columns[0], valor_col=igpm_trimestral_filtrado.columns[1])
ipca_index_trimestral = amostra_trimestral_agregada(ipca_trimestral_filtrado, data_col=ipca_trimestral_filtrado.columns[0], valor_col=ipca_trimestral_filtrado.columns[1])
incc_index_trimestral = amostra_trimestral_agregada(incc_trimestral_filtrado, data_col=incc_trimestral_filtrado.columns[0], valor_col=incc_trimestral_filtrado.columns[1])

In [None]:
iee_index_trimestral.columns = ['data', 'iee']
selic_index_trimestral.columns = ['data', 'selic']
incc_index_trimestral.columns = ['data', 'incc']
ipca_index_trimestral.columns = ['data', 'ipca']
igpm_index_trimestral.columns = ['data', 'igpm']
vix_index_trimestral.columns = ['data', 'vix']
ibov_index_trimestral.columns = ['data', 'ibov']
fgv_index['Data'] = pd.to_datetime(fgv_index['Data'])
fgv_index = fgv_index.rename(columns={'Data': 'data'})

In [59]:
ibov_index_trimestral.head()

Unnamed: 0,data,ibov
0,2010-03-31,70372.0
1,2010-06-30,60936.0
2,2010-09-30,69430.0
3,2010-12-31,69305.0
4,2011-03-31,68587.0


In [None]:
#Juntar os dataframes ibov_index_trimestral  iee_index_trimestral   selic_index_trimestral  vix_index_trimestral   igpm_index_trimestral ipca_index_trimestral incc_index_trimestral
df_junto = ibov_index_trimestral.merge(iee_index_trimestral, on='data', )
df_junto = df_junto.merge(selic_index_trimestral, on='data', suffixes=('', '_selic'))
df_junto = df_junto.merge(vix_index_trimestral, on='data', suffixes=('', '_vix'))
df_junto = df_junto.merge(igpm_index_trimestral, on='data', suffixes=('', '_igpm'))
df_junto = df_junto.merge(ipca_index_trimestral, on='data', suffixes=('', '_ipca'))
df_junto = df_junto.merge(incc_index_trimestral, on='data', suffixes=('', '_incc'))
df_junto = df_junto.merge(fgv_index, on='data', suffixes=('', '_fgv'))
df_junto = df_junto.merge(fgv_index2, on='data', suffixes=('', '_fgv2'))

In [169]:
df_junto.columns

Index(['data', 'ibov', 'iee', 'selic', 'vix', 'igpm', 'ipca', 'incc',
       'IPAOG-DI Ipa - todos os itens - Nro. Índice(1477007)',
       'INCC-Brasil-DI-Todos os itens(1464783)',
       'Indicador de Incerteza da Economia Brasil (IIE-Br)(1428452)',
       'Indicador de Incerteza da Economia Brasil - Componente Mídia (Mídia - IIE-Br)(1463188)',
       'Indicador de Incerteza da Economia Brasil - Componente Expactativas (Expec IIE-Br)(1463189)',
       'Indicador Antecedente de Emprego (IA Emp) com ajuste sazonal(1416205)',
       'Indicador Antecedente de Emprego (IA Emp) com ajuste sazonal(1416205) (Variação Percentual em Relação ao Período Anterior)',
       'PIB a preços de 1995(1428699)', 'PIB a preços correntes(1428698)',
       'Índice de volume mensal  - PIB a preços de mercado (1428676)',
       'Índice de volume mensal pela ótica da produção - Valor adicionado a preços básicos(1428677)',
       'Índice de volume mensal pela ótica da produção - Valor adicionado a preços básic

In [None]:
df_junto.to_csv(path_dados_indices + "dados_indices.csv", sep=';')