# Análise de Índices Macroeconômicos para Sugestionamento de Pilar de Investimento

## Instalação/Referência de bibliotecas utilizadas

In [1]:
!pip install pandas
!pip install seaborn --upgrade
!pip install sklearn --upgrade
!pip install scikit-learn --upgrade

Requirement already up-to-date: seaborn in c:\users\rafael.melero\miniconda3\lib\site-packages (0.11.2)
Requirement already up-to-date: sklearn in c:\users\rafael.melero\miniconda3\lib\site-packages (0.0)
Requirement already up-to-date: scikit-learn in c:\users\rafael.melero\miniconda3\lib\site-packages (1.0)


In [4]:
import numpy as np
import pandas as pd
import datetime

#Visualização dos dados
import seaborn as sns
import matplotlib.pyplot as plt




#Configurando a biblioteca
sns.set_theme(style="darkgrid")
sns.set(rc = {'figure.figsize':(15,5)})

ModuleNotFoundError: No module named 'sklearn'

## Importação e tratativa inicial dos dados

### Taxas

#### Taxa Selic

In [None]:
selic = pd.read_csv('dados/Selic.csv',sep=';')

In [None]:
selic.dtypes

In [None]:
selic.head(1)

In [None]:
#Padronizando a nomenclatura das colunas
selic.rename(columns={'Data' : 'DATA_PREGAO', 'Valor' : 'SELIC'}, inplace = True)

#Padronizando a coluna DATA_PREGAO
selic['DATA_PREGAO'] = pd.to_datetime(selic['DATA_PREGAO'], format="%d/%m/%Y")

#Padronizando a coluna de valor
selic['SELIC'] = selic['SELIC'].apply(lambda x: x.replace(',', '.'))
selic['SELIC'] = pd.to_numeric(selic['SELIC'], downcast='float')

#Criando índice
selic.set_index('DATA_PREGAO', inplace=True)

In [None]:
selic.dtypes

In [None]:
selic.head(1)

#### Taxa Câmbio: Dólar

In [None]:
dolar = pd.read_csv('dados/Dolar.csv', sep=';',dtype='str')

In [None]:
dolar.dtypes

In [None]:
dolar.head(1)

In [None]:
#Padronizando a nomenclatura das colunas
dolar.rename(columns={'DATA' : 'DATA_PREGAO', 'COMPRA' : 'DOLAR'}, inplace = True)

#Removendo colunas desnecessárias
dolar.drop(['COLUNA1', 'COLUNA2', 'TIPO', 'VENDA', 'COLUNA3', 'COLUNA4', 'COLUNA5'], inplace=True, axis=1)

#Padronizando a coluna DATA_PREGAO
dolar['DATA_PREGAO'] = dolar['DATA_PREGAO'].apply(lambda x: x[0:2] + '/' + x[2:4] + '/' + x[4:])
dolar['DATA_PREGAO'] = pd.to_datetime(dolar['DATA_PREGAO'], format="%d/%m/%Y")

#Padronizando a coluna de valor
dolar['DOLAR'] = dolar['DOLAR'].apply(lambda x: x.replace(',', '.'))
dolar['DOLAR'] = pd.to_numeric(dolar['DOLAR'], downcast='float')

#Criando índice
dolar.set_index('DATA_PREGAO', inplace=True)

In [None]:
dolar.dtypes

In [None]:
dolar.head(1)

### Commodities

#### Minério de Ferro Refinado

In [None]:
ferro = pd.read_csv('dados/Minerio_Ferro.csv', sep=',')

In [None]:
ferro.dtypes

In [None]:
ferro.head(1)

In [None]:
#Padronizando a nomenclatura das colunas
ferro.rename(columns={'Data' : 'DATA_PREGAO', 'Último' : 'FERRO'}, inplace = True)

#Removendo colunas desnecessárias
ferro.drop(['Abertura', 'Máxima', 'Mínima', 'Vol.', 'Var%'], inplace=True, axis=1)

#Padronizando a coluna DATA_PREGAO
ferro['DATA_PREGAO'] = ferro['DATA_PREGAO'].apply(lambda x: x.replace('.', '/'))
ferro['DATA_PREGAO'] = pd.to_datetime(ferro['DATA_PREGAO'], format="%d/%m/%Y")

#Padronizando a coluna de valor
ferro['FERRO'] = ferro['FERRO'].apply(lambda x: x.replace(',', '.'))
ferro['FERRO'] = pd.to_numeric(ferro['FERRO'], downcast='float')

#Criando índice
ferro.set_index('DATA_PREGAO', inplace=True)

In [None]:
ferro.dtypes

In [None]:
ferro.head(1)

#### Petróleo Brent Futuros

In [None]:
petroleo = pd.read_csv('dados/Petroleo_Brent.csv', sep=',')

In [None]:
petroleo.dtypes

In [None]:
petroleo.head(1)

In [None]:
#Padronizando a nomenclatura das colunas
petroleo.rename(columns={'Data' : 'DATA_PREGAO', 'Último' : 'PETROLEO', 'Vol.' : 'PETROLEO_VOLUME'}, inplace = True)

#Removendo colunas desnecessárias
petroleo.drop(['Abertura', 'Máxima', 'Mínima', 'Var%'], inplace=True, axis=1)

#Padronizando a coluna DATA_PREGAO
petroleo['DATA_PREGAO'] = petroleo['DATA_PREGAO'].apply(lambda x: x.replace('.', '/'))
petroleo['DATA_PREGAO'] = pd.to_datetime(petroleo['DATA_PREGAO'], format="%d/%m/%Y")

#Padronizando a coluna de valor
petroleo['PETROLEO'] = petroleo['PETROLEO'].apply(lambda x: x.replace(',', '.'))
petroleo['PETROLEO'] = pd.to_numeric(petroleo['PETROLEO'], downcast='float')

#Tratando o Volume
#    Verificando a contagem de registros que não tem o K
petroleo[~petroleo['PETROLEO_VOLUME'].str.contains("K")].count()
#    Substituindo o Valor - por 0 e o K multiplicado por 1.000
petroleo['PETROLEO_VOLUME'] = petroleo['PETROLEO_VOLUME'].apply(lambda x: float(x.replace('-', '0').replace(',', '.').replace('K', ''))*1000)  

#Criando índice
petroleo.set_index('DATA_PREGAO', inplace=True)

In [None]:
petroleo.dtypes

In [None]:
petroleo.head(1)

#### Ouro

In [None]:
ouro = pd.read_csv('dados/Ouro.csv', sep=',')

In [None]:
ouro.dtypes

In [None]:
ouro.head(1)

In [None]:
#Padronizando a nomenclatura das colunas
ouro.rename(columns={'Data' : 'DATA_PREGAO', 'Último' : 'OURO', 'Vol.' : 'OURO_VOLUME'}, inplace = True)

#Removendo colunas desnecessárias
ouro.drop(['Abertura', 'Máxima', 'Mínima', 'Var%'], inplace=True, axis=1)

#Padronizando a coluna DATA_PREGAO
ouro['DATA_PREGAO'] = ouro['DATA_PREGAO'].apply(lambda x: x.replace('.', '/'))
ouro['DATA_PREGAO'] = pd.to_datetime(ouro['DATA_PREGAO'], format="%d/%m/%Y")

#Padronizando a coluna de valor
ouro['OURO'] = ouro['OURO'].apply(lambda x: x.replace('.', '').replace(',', '.'))
ouro['OURO'] = pd.to_numeric(ouro['OURO'], downcast='float')

#Tratando o Volume
ouro['OURO_VOLUME'] = ouro['OURO_VOLUME'].apply(lambda x: x.replace('-', '0'))
#    Verificando a contagem de registros que não tem o K ou 0
ouro[(~ouro['OURO_VOLUME'].str.contains('0')) & (~ouro['OURO_VOLUME'].str.contains('K'))].count()
#    Substituindo o Valor K multiplicado por 1.000
ouro['OURO_VOLUME'] = ouro['OURO_VOLUME'].apply(lambda x: float(x.replace(',', '.').replace('K', ''))*1000)  

#Criando índice
ouro.set_index('DATA_PREGAO', inplace=True)

In [None]:
ouro.dtypes

In [None]:
ouro.head(1)

### Índices

#### Índice Bovespa

In [None]:
bovespa = pd.read_csv('dados/Indice_Bovespa.csv')

In [None]:
bovespa.dtypes

In [None]:
bovespa.head(1)

In [None]:
#Padronizando a nomenclatura das colunas
bovespa.rename(columns={'Date' : 'DATA_PREGAO', 'Close' : 'BOVESPA', 'Volume' : 'BOVESPA_VOLUME'}, inplace = True)

#Removendo colunas desnecessárias
bovespa.drop(['Open', 'High', 'Low', 'Adj Close'], inplace=True, axis=1)

#Padronizando a coluna DATA_PREGAO
bovespa['DATA_PREGAO'] = pd.to_datetime(bovespa['DATA_PREGAO'])

#Padronizando a coluna de VALOR
bovespa['BOVESPA'] = bovespa['BOVESPA'].apply(lambda x: float(x))  

#Padronizando a coluna de VOLUME
bovespa['BOVESPA_VOLUME'] = bovespa['BOVESPA_VOLUME'].apply(lambda x: float(x))  

#Criando índice
bovespa.set_index('DATA_PREGAO', inplace=True)

In [None]:
bovespa.dtypes

In [None]:
bovespa.head(1)

#### Índice S&P 500

In [None]:
sp500 = pd.read_csv('dados/Indice_S&P500.csv')

In [None]:
sp500.dtypes

In [None]:
sp500.head(1)

In [None]:
#Padronizando a nomenclatura das colunas
sp500.rename(columns={'Data' : 'DATA_PREGAO', 'Último' : 'SP500'}, inplace = True)

#Removendo colunas desnecessárias
sp500.drop(['Abertura', 'Máxima', 'Mínima', 'Var%', 'Vol.'], inplace=True, axis=1)

#Padronizando a coluna DATA_PREGAO
sp500['DATA_PREGAO'] = sp500['DATA_PREGAO'].apply(lambda x: x.replace('.', '/'))
sp500['DATA_PREGAO'] = pd.to_datetime(sp500['DATA_PREGAO'], format="%d/%m/%Y")

#Padronizando a coluna de VALOR
sp500['SP500'] = sp500['SP500'].apply(lambda x: float(x.replace('.', '').replace(',', '.')))  

#Criando índice
sp500.set_index('DATA_PREGAO', inplace=True)

In [None]:
sp500.dtypes

In [None]:
sp500.head(1)

## Unindo os Datasets

In [None]:
# Unindo todos os arquivos importados: sp500, bovespa, ouro, petroleo, ferro, dolar, selic
df = sp500.join(bovespa, how="inner")
df = df.join(ouro, how="inner")
df = df.join(petroleo, how="inner")
df = df.join(ferro, how="inner")
df = df.join(dolar, how="inner")
df = df.join(selic, how="inner")

#Ordenar dataframe pelo indice
df.sort_index(axis=0, ascending=True, inplace=True)

In [None]:
#Gerando colunas auxiliares para calculo
df.sort_index(ascending=True)

In [None]:
#Verificação de valores nulos nos itens do dataset
df["SP500"].hasnans, df["BOVESPA"].hasnans, df["BOVESPA_VOLUME"].hasnans, df["OURO"].hasnans, df["OURO_VOLUME"].hasnans, df["PETROLEO"].hasnans, df["PETROLEO_VOLUME"].hasnans, df["FERRO"].hasnans, df["DOLAR"].hasnans, df["SELIC"].hasnans

In [None]:
df.query("BOVESPA.isnull()").index, df.query("BOVESPA_VOLUME.isnull()").index

Devido a não haver negociações na B3 em feriados, a listagem abaixo justifica os dias em que apareceram como nulo no dataset:
- 2020-02-26: Quarta-feira de cinzas
- 2019-03-06: Quarta-feira de cinzas
- 2018-02-14: Quarta-feira de cinzas
- 2017-11-20: Dia Nacional da Consciência Negra

In [None]:
#Por se tratarem de poucos dias e em que não há negociação na B3 em são paulo vamos remover estas datas
df.dropna(subset = ["BOVESPA"], inplace=True) 

#Verificando seainda há valores nulos no dataframe
df["SP500"].hasnans, df["BOVESPA"].hasnans, df["BOVESPA_VOLUME"].hasnans, df["OURO"].hasnans, df["OURO_VOLUME"].hasnans, df["PETROLEO"].hasnans, df["PETROLEO_VOLUME"].hasnans, df["FERRO"].hasnans, df["DOLAR"].hasnans, df["SELIC"].hasnans

In [None]:
#Verificando valores apagados
df.query("BOVESPA.isnull()").count(), df.query("BOVESPA_VOLUME.isnull()").count()

In [None]:
#Verificando chaves duplicadas no dataframe
df.index.duplicated().sum()

In [None]:
df

## Exploração dos dados

### Verificando Outliers

#### SP500
Não foram encontrados Outliers para os pregões do SP500

In [None]:
sns.boxplot(x=df["SP500"])

#### BOVESPA
Foram encontrados 245 outliers que se referem a pregões realizados nos anos de 2019 e 2020 e referem-se à atual escalada que a bolsa realizou nos últimos anos.

In [None]:
sns.boxplot(x=df["BOVESPA"])

In [None]:
#Foi verificando que há valores fora do quartil, por este motivo vamos verificar a quais períodos se referem
np.unique(df.query("BOVESPA > 100000").index.year), np.count_nonzero(np.unique(df.query("BOVESPA > 100000").index.date))

In [None]:
df.query("BOVESPA > 100000").index.min()

In [None]:
#Mostrando o comportamento do indice BOVESPA
sns.set(rc = {'figure.figsize':(15,5)})
sns.lineplot(data=df, x="DATA_PREGAO", y="BOVESPA", size_order=200)

#### BOVESPA_VOLUME
Foram encontrados 567 outliers espalhados pelos 11 anos e por poder indicar uma corrida à bolsa não mexeremos neste indicador.

In [None]:
sns.boxplot(x=df["BOVESPA_VOLUME"])

In [None]:
np.unique(df.query("BOVESPA_VOLUME > 0.75e+07 | BOVESPA_VOLUME < 0.25e+07").index.year), np.count_nonzero(np.unique(df.query("BOVESPA_VOLUME > 0.75e+07 | BOVESPA_VOLUME < 0.25e+07").index.date))

In [None]:
df.query("BOVESPA_VOLUME > 0.75e+07 | BOVESPA_VOLUME < 0.25e+07").index

#### OURO


In [None]:
sns.boxplot(x=df["OURO"])

In [None]:
#Encontramos mais 320 pregões espalhados por 3 anos
np.unique(df.query("OURO > 1700").index.year), np.count_nonzero(np.unique(df.query("OURO > 1700").index.date))

Geralmente a busca pelo ouro decorre da busca de aplicações consideradas mais seguras como metais preciosos
Segundo notícias isto ocorreu em 2011: http://g1.globo.com/economia/noticia/2011/08/ouro-supera-a-barreira-de-us-1700-a-onca-pela-primeira-vez.html e continuou por 2012. Em 2020 devido o advendo da pandemia houve também esta maior demanda desses metais preciosos batendo esta cotação de 2012 conforme notícias: https://www.infomoney.com.br/onde-investir/com-a-maior-cotacao-desde-2012-o-que-esperar-do-ouro-daqui-para-frente/

#### OURO_VOLUME


In [None]:
sns.boxplot(x=df["OURO_VOLUME"])

In [None]:
df.query("OURO_VOLUME > 50000").index

#### PETROLEO
Náo houve a incidência de outliers para o preço do barril do petróleo

In [None]:
sns.boxplot(x=df["PETROLEO"])

#### PETROLEO_VOLUME

In [None]:
sns.boxplot(x=df["PETROLEO_VOLUME"])

#### FERRO

In [None]:
sns.boxplot(x=df["FERRO"])

#### DOLAR
Não foram encontrados outliers para a cotação do Dólar nestes últimos 10 anos

In [None]:
sns.boxplot(x=df["DOLAR"])

#### SELIC
Não foram encontrados outliers para a cotação da selic nos últimos 10 anos

In [None]:
sns.boxplot(x=df["SELIC"])

## Feature engineering

### Criando métricas auxiliares

#### Métricas para cálculo

In [None]:
#Criando médias móveis para os dados
df['SP500_MM_30'] = df.SP500.rolling(30).mean().shift()
df['BOVESPA_MM_30'] = df.BOVESPA.rolling(30).mean().shift()
df['BOVESPA_VOLUME_MM_30'] = df.BOVESPA_VOLUME.rolling(30).mean().shift()
df['OURO_MM_30'] = df.OURO.rolling(30).mean().shift()
df['OURO_VOLUME_MM_30'] = df.OURO_VOLUME.rolling(30).mean().shift()
df['PETROLEO_MM_30'] = df.PETROLEO.rolling(30).mean().shift()
df['PETROLEO_VOLUME_MM_30'] = df.PETROLEO_VOLUME.rolling(30).mean().shift()
df['FERRO_MM_30'] = df.FERRO.rolling(30).mean().shift()
df['DOLAR_MM_30'] = df.DOLAR.rolling(30).mean().shift()
df['SELIC_MM_30'] = df.SELIC.rolling(30).mean().shift()
df['BOVESPA_MM_30'] = df.BOVESPA.rolling(30).mean().shift()

#Setar o fechamento do dia anterior
df['SP500_FECHAMENTO_ANTERIOR'] = df.SP500.shift(1)
df['BOVESPA_FECHAMENTO_ANTERIOR'] = df.BOVESPA.shift(1)
df['BOVESPA_VOLUME_FECHAMENTO_ANTERIOR'] = df.BOVESPA_VOLUME.shift(1)
df['OURO_FECHAMENTO_ANTERIOR'] = df.OURO.shift(1)
df['OURO_VOLUME_FECHAMENTO_ANTERIOR'] = df.OURO_VOLUME.shift(1)
df['PETROLEO_FECHAMENTO_ANTERIOR'] = df.PETROLEO.shift(1)
df['PETROLEO_VOLUME_FECHAMENTO_ANTERIOR'] = df.PETROLEO_VOLUME.shift(1)
df['FERRO_FECHAMENTO_ANTERIOR'] = df.FERRO.shift(1)
df['DOLAR_FECHAMENTO_ANTERIOR'] = df.DOLAR.shift(1)
df['SELIC_FECHAMENTO_ANTERIOR'] = df.SELIC.shift(1)
df['BOVESPA_FECHAMENTO_ANTERIOR'] = df.BOVESPA.shift(1)

#### Métricas para calcular o resultado

In [None]:
#Para setar o resultado esperado criaremos estas variáveis para verificação
df['SP500_RESULT_30'] = df.SP500.shift(-30)
df['BOVESPA_RESULT_30'] = df.BOVESPA.shift(-30)
df['BOVESPA_VOLUME_RESULT_30'] = df.BOVESPA_VOLUME.shift(-30)
df['OURO_RESULT_30'] = df.OURO.shift(-30)
df['OURO_VOLUME_RESULT_30'] = df.OURO_VOLUME.shift(-30)
df['PETROLEO_RESULT_30'] = df.PETROLEO.shift(-30)
df['PETROLEO_VOLUME_RESULT_30'] = df.PETROLEO_VOLUME.shift(-30)
df['FERRO_RESULT_30'] = df.FERRO.shift(-30)
df['DOLAR_RESULT_30'] = df.DOLAR.shift(-30)
df['SELIC_RESULT_30'] = df.SELIC.shift(-30)

#Criando métricas condicionais para medir o retorno mínimo esperado e o maior retorno dentre os pilares de investimento
df['SP500_RESULT_DIFF'] = ((df.SP500_RESULT_30 / df.SP500_FECHAMENTO_ANTERIOR) - 1) * 100
df['BOVESPA_RESULT_DIFF'] = ((df.BOVESPA_RESULT_30 / df.BOVESPA_FECHAMENTO_ANTERIOR) - 1) * 100
df['OURO_RESULT_DIFF'] = ((df.OURO_RESULT_30 / df.OURO_FECHAMENTO_ANTERIOR) - 1) * 100
df['DOLAR_RESULT_DIFF'] = ((df.DOLAR_RESULT_30 / df.DOLAR_FECHAMENTO_ANTERIOR) - 1) * 100
df['SELIC_RESULT_DIFF'] = ((df.SELIC_RESULT_30 / df.SELIC_FECHAMENTO_ANTERIOR) - 1) * 100

In [None]:
#Removendo registros com valores nulos
df = df.dropna()

#### Calculando o resultado esperado
0 - Não fazer nada
1 - Aplicar no índice Bovespa
2 - Aplicar em Dólar
3 - Aplicar em Ouro
4 - Aplicar em Selic
5 - ETF SP&500

In [None]:
condicoes = [    
(df['BOVESPA_RESULT_DIFF'] > df['SP500_RESULT_DIFF']) & (df['BOVESPA_RESULT_DIFF'] > df['OURO_RESULT_DIFF']) & (df['BOVESPA_RESULT_DIFF'] > df['DOLAR_RESULT_DIFF']) & (df['BOVESPA_RESULT_DIFF'] > df['SELIC_RESULT_DIFF']) & (df['BOVESPA_RESULT_DIFF'] > 1)
, (df['DOLAR_RESULT_DIFF'] > df['SP500_RESULT_DIFF']) & (df['DOLAR_RESULT_DIFF'] > df['BOVESPA_RESULT_DIFF']) & (df['DOLAR_RESULT_DIFF'] > df['OURO_RESULT_DIFF']) & (df['DOLAR_RESULT_DIFF'] > df['SELIC_RESULT_DIFF']) & (df['DOLAR_RESULT_DIFF'] > 1)
, (df['OURO_RESULT_DIFF'] > df['SP500_RESULT_DIFF']) & (df['OURO_RESULT_DIFF'] > df['BOVESPA_RESULT_DIFF']) & (df['OURO_RESULT_DIFF'] > df['DOLAR_RESULT_DIFF']) & (df['OURO_RESULT_DIFF'] > df['SELIC_RESULT_DIFF']) & (df['OURO_RESULT_DIFF'] > 1)
, (df['SELIC_RESULT_DIFF'] > df['SP500_RESULT_DIFF']) & (df['SELIC_RESULT_DIFF'] > df['BOVESPA_RESULT_DIFF']) & (df['SELIC_RESULT_DIFF'] > df['OURO_RESULT_DIFF']) & (df['SELIC_RESULT_DIFF'] > df['DOLAR_RESULT_DIFF']) & (df['SELIC_RESULT_DIFF'] > 1)
, (df['SP500_RESULT_DIFF'] > df['BOVESPA_RESULT_DIFF']) & (df['SP500_RESULT_DIFF'] > df['OURO_RESULT_DIFF']) & (df['SP500_RESULT_DIFF'] > df['DOLAR_RESULT_DIFF']) & (df['SP500_RESULT_DIFF'] > df['SELIC_RESULT_DIFF']) & (df['SP500_RESULT_DIFF'] > 1)
]

valores = [1, 2, 3, 4, 5]

df['RESULTADO'] = 0
df['RESULTADO'] = np.select(condicoes, valores)

In [None]:
df.columns

In [None]:
#Apagando colunas utilizadas para calcular o resultado e que não serão utilizadas na predição
df.drop(['SP500', 'BOVESPA', 'BOVESPA_VOLUME', 'OURO', 'OURO_VOLUME', 'PETROLEO', 'PETROLEO_VOLUME', 'FERRO', 'DOLAR'
, 'SELIC', 'SP500_RESULT_30', 'BOVESPA_RESULT_30', 'BOVESPA_VOLUME_RESULT_30', 'OURO_RESULT_30', 'OURO_VOLUME_RESULT_30'
, 'PETROLEO_RESULT_30', 'PETROLEO_VOLUME_RESULT_30', 'FERRO_RESULT_30', 'DOLAR_RESULT_30', 'SELIC_RESULT_30', 'SP500_RESULT_DIFF'
, 'BOVESPA_RESULT_DIFF', 'OURO_RESULT_DIFF', 'DOLAR_RESULT_DIFF', 'SELIC_RESULT_DIFF'], axis='columns', inplace=True)

In [None]:
df.columns

In [None]:
x_df = df.iloc[:,0:19].values
y_df = df.iloc[:,20:].values

In [None]:
x_df

In [None]:
scaler_df = StandardScaler()

In [None]:
X_df = df.fit_transform(x_df)

In [None]:
df.to_csv('saida/saida.csv')
df.head(100)