# Análise de Índices Macroeconômicos para Sugestionamento de Pilar de Investimento

## Instalação/Referência de bibliotecas utilizadas

In [1]:
!pip install pandas



In [2]:
import pandas as pd
import datetime

## Importação e tratativa inicial dos dados

### Taxas

#### Taxa Selic

In [3]:
selic = pd.read_csv('dados/Selic.csv',sep=';')

In [4]:
selic.dtypes

Data     object
Valor    object
dtype: object

In [5]:
selic.head(1)

Unnamed: 0,Data,Valor
0,01/01/2010,875


In [6]:
#Padronizando a nomenclatura das colunas
selic.rename(columns={'Data' : 'DATA_PREGAO', 'Valor' : 'SELIC'}, inplace = True)

#Padronizando a coluna DATA_PREGAO
selic['DATA_PREGAO'] = pd.to_datetime(selic['DATA_PREGAO'], format="%d/%m/%Y")

#Padronizando a coluna de valor
selic['SELIC'] = selic['SELIC'].apply(lambda x: x.replace(',', '.'))
selic['SELIC'] = pd.to_numeric(selic['SELIC'], downcast='float')

#Criando índice
selic.set_index('DATA_PREGAO', inplace=True)

In [7]:
selic.dtypes

SELIC    float32
dtype: object

In [8]:
selic.head(1)

Unnamed: 0_level_0,SELIC
DATA_PREGAO,Unnamed: 1_level_1
2010-01-01,8.75


#### Taxa Câmbio: Dólar

In [9]:
dolar = pd.read_csv('dados/Dolar.csv', sep=';',dtype='str')

In [10]:
dolar.dtypes

DATA       object
COLUNA1    object
COLUNA2    object
TIPO       object
COMPRA     object
VENDA      object
COLUNA3    object
COLUNA4    object
COLUNA5    object
dtype: object

In [11]:
dolar.head(1)

Unnamed: 0,DATA,COLUNA1,COLUNA2,TIPO,COMPRA,VENDA,COLUNA3,COLUNA4,COLUNA5
0,4012010,220,A,USD,17232,17240,10000,10000,


In [12]:
#Padronizando a nomenclatura das colunas
dolar.rename(columns={'DATA' : 'DATA_PREGAO', 'COMPRA' : 'DOLAR'}, inplace = True)

#Removendo colunas desnecessárias
dolar.drop(['COLUNA1', 'COLUNA2', 'TIPO', 'VENDA', 'COLUNA3', 'COLUNA4', 'COLUNA5'], inplace=True, axis=1)

#Padronizando a coluna DATA_PREGAO
dolar['DATA_PREGAO'] = dolar['DATA_PREGAO'].apply(lambda x: x[0:2] + '/' + x[2:4] + '/' + x[4:])
dolar['DATA_PREGAO'] = pd.to_datetime(dolar['DATA_PREGAO'], format="%d/%m/%Y")

#Padronizando a coluna de valor
dolar['DOLAR'] = dolar['DOLAR'].apply(lambda x: x.replace(',', '.'))
dolar['DOLAR'] = pd.to_numeric(dolar['DOLAR'], downcast='float')

#Criando índice
dolar.set_index('DATA_PREGAO', inplace=True)

In [13]:
dolar.dtypes

DOLAR    float32
dtype: object

In [14]:
dolar.head(1)

Unnamed: 0_level_0,DOLAR
DATA_PREGAO,Unnamed: 1_level_1
2010-01-04,1.7232


### Commodities

#### Minério de Ferro Refinado

In [15]:
ferro = pd.read_csv('dados/Minerio_Ferro.csv', sep=',')

In [16]:
ferro.dtypes

Data        object
Último      object
Abertura    object
Máxima      object
Mínima      object
Vol.        object
Var%        object
dtype: object

In [17]:
ferro.head(1)

Unnamed: 0,Data,Último,Abertura,Máxima,Mínima,Vol.,Var%
0,31.12.2020,15584,15584,15584,15584,-,"0,09%"


In [18]:
#Padronizando a nomenclatura das colunas
ferro.rename(columns={'Data' : 'DATA_PREGAO', 'Último' : 'FERRO'}, inplace = True)

#Removendo colunas desnecessárias
ferro.drop(['Abertura', 'Máxima', 'Mínima', 'Vol.', 'Var%'], inplace=True, axis=1)

#Padronizando a coluna DATA_PREGAO
ferro['DATA_PREGAO'] = ferro['DATA_PREGAO'].apply(lambda x: x.replace('.', '/'))
ferro['DATA_PREGAO'] = pd.to_datetime(ferro['DATA_PREGAO'], format="%d/%m/%Y")

#Padronizando a coluna de valor
ferro['FERRO'] = ferro['FERRO'].apply(lambda x: x.replace(',', '.'))
ferro['FERRO'] = pd.to_numeric(ferro['FERRO'], downcast='float')

#Criando índice
ferro.set_index('DATA_PREGAO', inplace=True)

In [19]:
ferro.dtypes

FERRO    float32
dtype: object

In [20]:
ferro.head(1)

Unnamed: 0_level_0,FERRO
DATA_PREGAO,Unnamed: 1_level_1
2020-12-31,155.839996


#### Petróleo Brent Futuros

In [21]:
petroleo = pd.read_csv('dados/Petroleo_Brent.csv', sep=',')

In [22]:
petroleo.dtypes

Data        object
Último      object
Abertura    object
Máxima      object
Mínima      object
Vol.        object
Var%        object
dtype: object

In [23]:
petroleo.head(1)

Unnamed: 0,Data,Último,Abertura,Máxima,Mínima,Vol.,Var%
0,31.12.2020,5180,5149,5184,5090,"133,22K","0,90%"


In [24]:
#Padronizando a nomenclatura das colunas
petroleo.rename(columns={'Data' : 'DATA_PREGAO', 'Último' : 'PETROLEO', 'Vol.' : 'PETROLEO_VOLUME'}, inplace = True)

#Removendo colunas desnecessárias
petroleo.drop(['Abertura', 'Máxima', 'Mínima', 'Var%'], inplace=True, axis=1)

#Padronizando a coluna DATA_PREGAO
petroleo['DATA_PREGAO'] = petroleo['DATA_PREGAO'].apply(lambda x: x.replace('.', '/'))
petroleo['DATA_PREGAO'] = pd.to_datetime(petroleo['DATA_PREGAO'], format="%d/%m/%Y")

#Padronizando a coluna de valor
petroleo['PETROLEO'] = petroleo['PETROLEO'].apply(lambda x: x.replace(',', '.'))
petroleo['PETROLEO'] = pd.to_numeric(petroleo['PETROLEO'], downcast='float')

#Tratando o Volume
#    Verificando a contagem de registros que não tem o K
petroleo[~petroleo['PETROLEO_VOLUME'].str.contains("K")].count()
#    Substituindo o Valor - por 0 e o K multiplicado por 1.000
petroleo['PETROLEO_VOLUME'] = petroleo['PETROLEO_VOLUME'].apply(lambda x: float(x.replace('-', '0').replace(',', '.').replace('K', ''))*1000)  

#Criando índice
petroleo.set_index('DATA_PREGAO', inplace=True)

In [25]:
petroleo.dtypes

PETROLEO           float32
PETROLEO_VOLUME    float64
dtype: object

In [26]:
petroleo.head(1)

Unnamed: 0_level_0,PETROLEO,PETROLEO_VOLUME
DATA_PREGAO,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-12-31,51.799999,133220.0


#### Ouro

In [27]:
ouro = pd.read_csv('dados/Ouro.csv', sep=',')

In [28]:
ouro.dtypes

Data        object
Último      object
Abertura    object
Máxima      object
Mínima      object
Vol.        object
Var%        object
dtype: object

In [29]:
ouro.head(1)

Unnamed: 0,Data,Último,Abertura,Máxima,Mínima,Vol.,Var%
0,31.12.2020,"1.905,80","1.910,00","1.915,20","1.902,90","0,73K","0,09%"


In [30]:
#Padronizando a nomenclatura das colunas
ouro.rename(columns={'Data' : 'DATA_PREGAO', 'Último' : 'OURO', 'Vol.' : 'OURO_VOLUME'}, inplace = True)

#Removendo colunas desnecessárias
ouro.drop(['Abertura', 'Máxima', 'Mínima', 'Var%'], inplace=True, axis=1)

#Padronizando a coluna DATA_PREGAO
ouro['DATA_PREGAO'] = ouro['DATA_PREGAO'].apply(lambda x: x.replace('.', '/'))
ouro['DATA_PREGAO'] = pd.to_datetime(ouro['DATA_PREGAO'], format="%d/%m/%Y")

#Padronizando a coluna de valor
ouro['OURO'] = ouro['OURO'].apply(lambda x: x.replace('.', '').replace(',', '.'))
ouro['OURO'] = pd.to_numeric(ouro['OURO'], downcast='float')

#Tratando o Volume
ouro['OURO_VOLUME'] = ouro['OURO_VOLUME'].apply(lambda x: x.replace('-', '0'))
#    Verificando a contagem de registros que não tem o K ou 0
ouro[(~ouro['OURO_VOLUME'].str.contains('0')) & (~ouro['OURO_VOLUME'].str.contains('K'))].count()
#    Substituindo o Valor K multiplicado por 1.000
ouro['OURO_VOLUME'] = ouro['OURO_VOLUME'].apply(lambda x: float(x.replace(',', '.').replace('K', ''))*1000)  

#Criando índice
ouro.set_index('DATA_PREGAO', inplace=True)

In [31]:
ouro.dtypes

OURO           float32
OURO_VOLUME    float64
dtype: object

In [32]:
ouro.head(1)

Unnamed: 0_level_0,OURO,OURO_VOLUME
DATA_PREGAO,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-12-31,1905.800049,730.0


### Índices

#### Índice Bovespa

In [33]:
bovespa = pd.read_csv('dados/Indice_Bovespa.csv')

In [34]:
bovespa.dtypes

Date          object
Open         float64
High         float64
Low          float64
Close        float64
Adj Close    float64
Volume       float64
dtype: object

In [35]:
bovespa.head(1)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2010-01-04,68587.0,70081.0,68587.0,70045.0,70045.0,1655400.0


In [36]:
#Padronizando a nomenclatura das colunas
bovespa.rename(columns={'Date' : 'DATA_PREGAO', 'Close' : 'BOVESPA', 'Volume' : 'BOVESPA_VOLUME'}, inplace = True)

#Removendo colunas desnecessárias
bovespa.drop(['Open', 'High', 'Low', 'Adj Close'], inplace=True, axis=1)

#Padronizando a coluna DATA_PREGAO
bovespa['DATA_PREGAO'] = pd.to_datetime(bovespa['DATA_PREGAO'])

#Padronizando a coluna de VALOR
bovespa['BOVESPA'] = bovespa['BOVESPA'].apply(lambda x: float(x))  

#Padronizando a coluna de VOLUME
bovespa['BOVESPA_VOLUME'] = bovespa['BOVESPA_VOLUME'].apply(lambda x: float(x))  

#Criando índice
bovespa.set_index('DATA_PREGAO', inplace=True)

In [37]:
bovespa.dtypes

BOVESPA           float64
BOVESPA_VOLUME    float64
dtype: object

In [38]:
bovespa.head(1)

Unnamed: 0_level_0,BOVESPA,BOVESPA_VOLUME
DATA_PREGAO,Unnamed: 1_level_1,Unnamed: 2_level_1
2010-01-04,70045.0,1655400.0


#### Índice S&P 500

In [39]:
sp500 = pd.read_csv('dados/Indice_S&P500.csv')

In [40]:
sp500.dtypes

Data        object
Último      object
Abertura    object
Máxima      object
Mínima      object
Vol.        object
Var%        object
dtype: object

In [41]:
sp500.head(1)

Unnamed: 0,Data,Último,Abertura,Máxima,Mínima,Vol.,Var%
0,31.12.2020,"3.756,07","3.733,27","3.760,20","3.726,88",-,"0,64%"


In [42]:
#Padronizando a nomenclatura das colunas
sp500.rename(columns={'Data' : 'DATA_PREGAO', 'Último' : 'SP500'}, inplace = True)

#Removendo colunas desnecessárias
sp500.drop(['Abertura', 'Máxima', 'Mínima', 'Var%', 'Vol.'], inplace=True, axis=1)

#Padronizando a coluna DATA_PREGAO
sp500['DATA_PREGAO'] = sp500['DATA_PREGAO'].apply(lambda x: x.replace('.', '/'))
sp500['DATA_PREGAO'] = pd.to_datetime(sp500['DATA_PREGAO'], format="%d/%m/%Y")

#Padronizando a coluna de VALOR
sp500['SP500'] = sp500['SP500'].apply(lambda x: float(x.replace('.', '').replace(',', '.')))  

#Criando índice
sp500.set_index('DATA_PREGAO', inplace=True)

In [43]:
sp500.dtypes

SP500    float64
dtype: object

In [44]:
sp500.head(1)

Unnamed: 0_level_0,SP500
DATA_PREGAO,Unnamed: 1_level_1
2020-12-31,3756.07


## Unindo os Datasets