# **Coleta de dados - Séries Temporais**

###  Notebook: `03_01_coleta_de_dados`

## 1. Importação das bibliotecas essenciais

In [1]:
import numpy as np
import matplotlib.pyplot as plt 
import pandas as pd
import math
import requests
import json
import os


## 2. Importação dos datasets

---
Os datasets importados a seguir incluem as informações obtidas internamente à RFB (arrecadação e débitos declarados) e os conjuntos de dados contendo os indicadores macroeconômicos. Algum tratamento inicial, para adequação de periodicidade, estrutura de índice temporal, por exemplo, será realizado neste notebook. 
___


#### 2.1 Importação do dataset RFB para cada cluster

In [2]:
dataset_rfb_cluster0 = pd.read_csv("datasets//03_07_puc_tcc_cluster0.csv")
dataset_rfb_cluster1 = pd.read_csv("datasets//03_07_puc_tcc_cluster1.csv")
dataset_rfb_cluster2 = pd.read_csv("datasets//03_07_puc_tcc_cluster2.csv")
dataset_rfb_cluster3 = pd.read_csv("datasets//03_07_puc_tcc_cluster3.csv")

In [3]:
dataset_rfb_cluster2.head(20)

Unnamed: 0,mes,debitos,arrecadacao
0,200401,730970200.0,6709728000.0
1,200402,4150874000.0,5844144000.0
2,200403,3778614000.0,5757594000.0
3,200404,4927327000.0,7872113000.0
4,200405,2175496000.0,7156122000.0
5,200406,2078371000.0,7048868000.0
6,200407,2531327000.0,8450281000.0
7,200408,1900320000.0,7101401000.0
8,200409,2038177000.0,7709141000.0
9,200410,2499241000.0,8787191000.0


#### 2.2 Importação do dataset PIMPF 2004 - 2020 - IBGE

---

Requisição realizada através da API do SIDRA, disponibilizada pelo IBGE (http://api.sidra.ibge.gov.br/). 

O comando utilizado traz os dados da Pesquisa Industrial Mensal - Produção Física (https://dados.gov.br/dataset/pz-pesquisa-industrial-mensal-producao-fisica-pim-pf) - Tabela 3653, nos períodos de 01/2004 a 12/2020, trazendo o índice mensal.

___

In [4]:
# Baixando e mostrando o conteúdo do dataset baixado

try: 
    resposta_pimpf = requests.get("http://api.sidra.ibge.gov.br/values/t/3653/n1/all/p/200401-202012/v/3136/c544/129316")
    data_pimpf = resposta_pimpf.json()
    print(json.dumps(data_pimpf, indent=4, sort_keys=True))
    
except requests.ConnectionError:
    print("Site não disponível.")



[
    {
        "D1C": "Brasil (C\u00f3digo)",
        "D1N": "Brasil",
        "D2C": "M\u00eas (C\u00f3digo)",
        "D2N": "M\u00eas",
        "D3C": "Vari\u00e1vel (C\u00f3digo)",
        "D3N": "Vari\u00e1vel",
        "D4C": "Se\u00e7\u00f5es e atividades industriais (CNAE 2.0) (C\u00f3digo)",
        "D4N": "Se\u00e7\u00f5es e atividades industriais (CNAE 2.0)",
        "MC": "Unidade de Medida (C\u00f3digo)",
        "MN": "Unidade de Medida",
        "NC": "N\u00edvel Territorial (C\u00f3digo)",
        "NN": "N\u00edvel Territorial",
        "V": "Valor"
    },
    {
        "D1C": "1",
        "D1N": "Brasil",
        "D2C": "200401",
        "D2N": "janeiro 2004",
        "D3C": "3136",
        "D3N": "\u00cdndice mensal (Base: igual m\u00eas do ano anterior = 100)",
        "D4C": "129316",
        "D4N": "3 Ind\u00fastrias de transforma\u00e7\u00e3o",
        "MC": "30",
        "MN": "N\u00famero-\u00edndice",
        "NC": "1",
        "NN": "Brasil",
        "V": "10

In [5]:
# Montando o dataset com os dados da PIMPF
# Os dados necessários para o dataframe são o mês (Variável D2C - Mês (Código)) e Valor (V)

dataset_pimpf = pd.DataFrame(columns=['mes','indice_pimpf'])


for i in range(1,len(data_pimpf)):
    dataset_pimpf.at[i,'mes'] = int(data_pimpf[i].get('D2C'))
    dataset_pimpf.at[i, 'indice_pimpf'] = float(data_pimpf[i].get('V'))

len(dataset_pimpf)


204

In [6]:
dataset_pimpf.head(20)

Unnamed: 0,mes,indice_pimpf
1,200401,104.0
2,200402,103.1
3,200403,113.0
4,200404,107.8
5,200405,108.9
6,200406,113.1
7,200407,110.9
8,200408,113.2
9,200409,107.6
10,200410,103.8


#### 2.2 Importação do dataset IPCA 2004 - 2020 - IBGE

---

Requisição realizada através da API do SIDRA, disponibilizada pelo IBGE (http://api.sidra.ibge.gov.br/). 

O comando utilizado traz os dados do IPCA (http://api.sidra.ibge.gov.br/values/t/1737/n1/all/p/200401-202012/v/63) - Tabela 1737, nos períodos de 01/2004 a 12/2020, trazendo o índice mensal.

___

In [7]:
# Baixando e mostrando o conteúdo do dataset IPCA



try: 
    resposta_ipca = requests.get("http://api.sidra.ibge.gov.br/values/t/1737/n1/all/p/200401-202012/v/63")
    data_ipca = resposta_ipca.json()
    print(json.dumps(data_ipca, indent=4, sort_keys=True))
    
except requests.ConnectionError:
    print("Site não disponível.")


[
    {
        "D1C": "Brasil (C\u00f3digo)",
        "D1N": "Brasil",
        "D2C": "M\u00eas (C\u00f3digo)",
        "D2N": "M\u00eas",
        "D3C": "Vari\u00e1vel (C\u00f3digo)",
        "D3N": "Vari\u00e1vel",
        "MC": "Unidade de Medida (C\u00f3digo)",
        "MN": "Unidade de Medida",
        "NC": "N\u00edvel Territorial (C\u00f3digo)",
        "NN": "N\u00edvel Territorial",
        "V": "Valor"
    },
    {
        "D1C": "1",
        "D1N": "Brasil",
        "D2C": "200401",
        "D2N": "janeiro 2004",
        "D3C": "63",
        "D3N": "IPCA - Varia\u00e7\u00e3o mensal",
        "MC": "2",
        "MN": "%",
        "NC": "1",
        "NN": "Brasil",
        "V": "0.76"
    },
    {
        "D1C": "1",
        "D1N": "Brasil",
        "D2C": "200402",
        "D2N": "fevereiro 2004",
        "D3C": "63",
        "D3N": "IPCA - Varia\u00e7\u00e3o mensal",
        "MC": "2",
        "MN": "%",
        "NC": "1",
        "NN": "Brasil",
        "V": "0.61"
    },


In [8]:
# Montando o dataset com os dados do IPCA
# Os dados necessários para o dataframe são o mês (Variável D2C - Mês (Código)) e Valor (V)

dataset_ipca = pd.DataFrame(columns=['mes','ipca'])


for i in range(1,len(data_ipca)):
    dataset_ipca.at[i,'mes'] = int(data_ipca[i].get('D2C'))
    dataset_ipca.at[i, 'ipca'] = float(data_ipca[i].get('V'))
    

len(dataset_ipca)


204

In [9]:
dataset_ipca.head(20)

Unnamed: 0,mes,ipca
1,200401,0.76
2,200402,0.61
3,200403,0.47
4,200404,0.37
5,200405,0.51
6,200406,0.71
7,200407,0.91
8,200408,0.69
9,200409,0.33
10,200410,0.44


#### 2.3 Importação do dataset Taxa Selic - BACEN

Requisição realizada através da API do BACEN, disponibilizada em (https://dados.gov.br/dataset/4189-taxa-de-juros-selic-acumulada-no-mes-anualizada-base-252). 

O comando utilizado traz os dados da taxa SELIC anualizada (http://api.bcb.gov.br/dados/serie/bcdata.sgs.4189/dados?formato=json&dataInicial=01/01/2004&dataFinal=31/12/2020) - Tabela 4189, nos períodos de 01/2004 a 12/2020, trazendo o valor em percentual de taxa de juros, em valores mensais acumulados.

A adoção dessa série vem em substituição a meta de taxa SELIC divulgada pelo COPOM, que tem vigência entre uma reunião e outra do órgão e pode vigorar por períodos menores que um mês e, ainda, atravessando de um mês para o outro. A série anualizada traz os resultados efetivos das operações com títulos públicos e serve de proxy para a série de metas.

In [10]:
# Baixando e mostrando o conteúdo do dataset Taxa Selic


try: 
    resposta_selic = requests.get(
        "http://api.bcb.gov.br/dados/serie/bcdata.sgs.4189/dados?formato=json&dataInicial=01/01/2004&dataFinal=31/12/2020")
    data_selic = resposta_selic.json()
    print(json.dumps(data_selic, indent=4, sort_keys=True))
    
except requests.ConnectionError:
    print("Site não disponível.")


[
    {
        "data": "01/01/2004",
        "valor": "16.32"
    },
    {
        "data": "01/02/2004",
        "valor": "16.30"
    },
    {
        "data": "01/03/2004",
        "valor": "16.19"
    },
    {
        "data": "01/04/2004",
        "valor": "15.96"
    },
    {
        "data": "01/05/2004",
        "valor": "15.77"
    },
    {
        "data": "01/06/2004",
        "valor": "15.80"
    },
    {
        "data": "01/07/2004",
        "valor": "15.77"
    },
    {
        "data": "01/08/2004",
        "valor": "15.86"
    },
    {
        "data": "01/09/2004",
        "valor": "16.09"
    },
    {
        "data": "01/10/2004",
        "valor": "16.41"
    },
    {
        "data": "01/11/2004",
        "valor": "16.96"
    },
    {
        "data": "01/12/2004",
        "valor": "17.50"
    },
    {
        "data": "01/01/2005",
        "valor": "17.93"
    },
    {
        "data": "01/02/2005",
        "valor": "18.47"
    },
    {
        "data": "01/03/2005",
        "v

In [11]:
# Montando o dataset com os dados da SELIC
# Os dados necessários para o dataframe são o data e Valor 

dataset_selic = pd.DataFrame(columns=['mes','taxa_selic'])


for i in range(0,len(data_selic)):
    dataset_selic.at[i,'mes'] = int(data_selic[i].get('data')[6:10] + data_selic[i].get('data')[3:5])
    dataset_selic.at[i, 'taxa_selic'] = float(data_selic[i].get('valor'))
    

len(dataset_selic)

204

In [12]:
dataset_selic.head(20) 

Unnamed: 0,mes,taxa_selic
0,200401,16.32
1,200402,16.3
2,200403,16.19
3,200404,15.96
4,200405,15.77
5,200406,15.8
6,200407,15.77
7,200408,15.86
8,200409,16.09
9,200410,16.41


#### 2.4 Importação do dataset Taxa efetiva de câmbio USD IPCA - BACEN

---
Requisição realizada através da API do BACEN, disponibilizada em (https://www3.bcb.gov.br/sgspub/consultarvalores/consultarValoresSeries.do?method=consultarValores). 

O comando utilizado traz os dados da taxa câmbio efetiva, corrigida pelo IPCA (http://api.bcb.gov.br/dados/serie/bcdata.sgs.11753/dados?formato=json&dataInicial=01/01/2004&dataFinal=31/12/2020) - Tabela 11753, nos períodos de 01/2004 a 12/2020, trazendo o valor em percentual de taxa de câmbio


---

In [13]:
# Baixando e mostrando o conteúdo do dataset Taxa de Câmbio efetiva


try: 
    resposta_cambio = requests.get(
        "http://api.bcb.gov.br/dados/serie/bcdata.sgs.11753/dados?formato=json&dataInicial=01/01/2004&dataFinal=31/12/2020")
    data_cambio = resposta_cambio.json()
    print(json.dumps(data_cambio, indent=4, sort_keys=True))
    
except requests.ConnectionError:
    print("Site não disponível.")


[
    {
        "data": "01/01/2004",
        "valor": "136.19"
    },
    {
        "data": "01/02/2004",
        "valor": "139.84"
    },
    {
        "data": "01/03/2004",
        "valor": "138.89"
    },
    {
        "data": "01/04/2004",
        "valor": "138.85"
    },
    {
        "data": "01/05/2004",
        "valor": "148.25"
    },
    {
        "data": "01/06/2004",
        "valor": "149.04"
    },
    {
        "data": "01/07/2004",
        "valor": "143.11"
    },
    {
        "data": "01/08/2004",
        "valor": "140.62"
    },
    {
        "data": "01/09/2004",
        "valor": "135.23"
    },
    {
        "data": "01/10/2004",
        "valor": "133.55"
    },
    {
        "data": "01/11/2004",
        "valor": "129.60"
    },
    {
        "data": "01/12/2004",
        "valor": "124.90"
    },
    {
        "data": "01/01/2005",
        "valor": "123.29"
    },
    {
        "data": "01/02/2005",
        "valor": "118.92"
    },
    {
        "data": "01/03/200

In [14]:
# Montando o dataset com os dados da taxa de câmbio
# Os dados necessários para o dataframe são o data e Valor 

dataset_cambio = pd.DataFrame(columns=['mes','taxa_cambio'])


for i in range(0,len(data_cambio)):
    dataset_cambio.at[i,'mes'] = int(data_cambio[i].get('data')[6:10] + data_cambio[i].get('data')[3:5])
    dataset_cambio.at[i, 'taxa_cambio'] = float(data_cambio[i].get('valor'))
    

len(dataset_cambio)

204

In [15]:
dataset_cambio.head(20)

Unnamed: 0,mes,taxa_cambio
0,200401,136.19
1,200402,139.84
2,200403,138.89
3,200404,138.85
4,200405,148.25
5,200406,149.04
6,200407,143.11
7,200408,140.62
8,200409,135.23
9,200410,133.55


#### 2.5 Importação do dataset IBC-Br - BACEN

---
Requisição realizada através da API do BACEN, disponibilizada em (https://dadosabertos.bcb.gov.br/dataset/24363-indice-de-atividade-economica-do-banco-central---ibc-br). 

O comando utilizado traz os dados do índice IBC-Br (http://api.bcb.gov.br/dados/serie/bcdata.sgs.24363/dados?formato=json&dataInicial=01/01/2004&dataFinal=31/12/2020) - Tabela 24363, nos períodos de 01/2004 a 12/2020.

---

In [16]:
# Baixando e mostrando o conteúdo do dataset IBC-Br

try: 
    resposta_ibcbr = requests.get(
        "http://api.bcb.gov.br/dados/serie/bcdata.sgs.24363/dados?formato=json&dataInicial=01/01/2004&dataFinal=31/12/2020")
    data_ibcbr = resposta_ibcbr.json()
    print(json.dumps(data_ibcbr, indent=4, sort_keys=True))
    
except requests.ConnectionError:
    print("Site não disponível.")


[
    {
        "data": "01/01/2004",
        "valor": "98.59"
    },
    {
        "data": "01/02/2004",
        "valor": "99.45"
    },
    {
        "data": "01/03/2004",
        "valor": "111.98"
    },
    {
        "data": "01/04/2004",
        "valor": "107.36"
    },
    {
        "data": "01/05/2004",
        "valor": "106.03"
    },
    {
        "data": "01/06/2004",
        "valor": "107.00"
    },
    {
        "data": "01/07/2004",
        "valor": "111.47"
    },
    {
        "data": "01/08/2004",
        "valor": "110.65"
    },
    {
        "data": "01/09/2004",
        "valor": "109.21"
    },
    {
        "data": "01/10/2004",
        "valor": "108.89"
    },
    {
        "data": "01/11/2004",
        "valor": "109.59"
    },
    {
        "data": "01/12/2004",
        "valor": "107.56"
    },
    {
        "data": "01/01/2005",
        "valor": "103.52"
    },
    {
        "data": "01/02/2005",
        "valor": "104.00"
    },
    {
        "data": "01/03/2005"

In [17]:
# Montando o dataset com os dados do IBC-Br
# Os dados necessários para o dataframe são o data e Valor 

dataset_ibcbr = pd.DataFrame(columns=['mes','ibcbr'])


for i in range(0,len(data_ibcbr)):
    dataset_ibcbr.at[i,'mes'] = int(data_ibcbr[i].get('data')[6:10] + data_ibcbr[i].get('data')[3:5])
    dataset_ibcbr.at[i, 'ibcbr'] = float(data_ibcbr[i].get('valor'))
    

len(dataset_ibcbr)

204

In [18]:
dataset_ibcbr.head(20)

Unnamed: 0,mes,ibcbr
0,200401,98.59
1,200402,99.45
2,200403,111.98
3,200404,107.36
4,200405,106.03
5,200406,107.0
6,200407,111.47
7,200408,110.65
8,200409,109.21
9,200410,108.89


#### 2.6 Importação do dataset Taxa de Juros de Longo Prazo - TJLP - BACEN


---
Requisição realizada através da API do BACEN, disponibilizada em (https://www3.bcb.gov.br/sgspub/consultarvalores/consultarValoresSeries.do?method=consultarValores).

O comando utilizado traz os dados da taxa de juros de longo prazo - TJLP (http://api.bcb.gov.br/dados/serie/bcdata.sgs.256/dados?formato=json&dataInicial=01/01/2004&dataFinal=31/12/2020) - Tabela 256, nos períodos de 01/2004 a 12/2020, trazendo o valor em percentual de taxa de câmbio

---

In [19]:
# Baixando e mostrando o conteúdo do dataset TJLP

try: 
    resposta_tjlp = requests.get(
        "http://api.bcb.gov.br/dados/serie/bcdata.sgs.256/dados?formato=json&dataInicial=01/01/2004&dataFinal=31/12/2020")
    data_tjlp = resposta_tjlp.json()
    print(json.dumps(data_tjlp, indent=4, sort_keys=True))
    
except requests.ConnectionError:
    print("Site não disponível.")

[
    {
        "data": "01/01/2004",
        "valor": "10.00"
    },
    {
        "data": "01/02/2004",
        "valor": "10.00"
    },
    {
        "data": "01/03/2004",
        "valor": "10.00"
    },
    {
        "data": "01/04/2004",
        "valor": "9.75"
    },
    {
        "data": "01/05/2004",
        "valor": "9.75"
    },
    {
        "data": "01/06/2004",
        "valor": "9.75"
    },
    {
        "data": "01/07/2004",
        "valor": "9.75"
    },
    {
        "data": "01/08/2004",
        "valor": "9.75"
    },
    {
        "data": "01/09/2004",
        "valor": "9.75"
    },
    {
        "data": "01/10/2004",
        "valor": "9.75"
    },
    {
        "data": "01/11/2004",
        "valor": "9.75"
    },
    {
        "data": "01/12/2004",
        "valor": "9.75"
    },
    {
        "data": "01/01/2005",
        "valor": "9.75"
    },
    {
        "data": "01/02/2005",
        "valor": "9.75"
    },
    {
        "data": "01/03/2005",
        "valor": "9.7

In [20]:
# Montando o dataset com os dados da TJLP
# Os dados necessários para o dataframe são o data e Valor 

dataset_tjlp = pd.DataFrame(columns=['mes','tjlp'])


for i in range(0,len(data_tjlp)):
    dataset_tjlp.at[i,'mes'] = int(data_tjlp[i].get('data')[6:10] + data_tjlp[i].get('data')[3:5])
    dataset_tjlp.at[i, 'tjlp'] = float(data_tjlp[i].get('valor'))
    

len(dataset_tjlp)

204

In [21]:
dataset_tjlp.head(20)

Unnamed: 0,mes,tjlp
0,200401,10.0
1,200402,10.0
2,200403,10.0
3,200404,9.75
4,200405,9.75
5,200406,9.75
6,200407,9.75
7,200408,9.75
8,200409,9.75
9,200410,9.75


#### 2.7 Importação do dataset PIB Mensal - IPEADATA

---
Requisição realizada através do site do IPEADATA disponibilizado em (http://www.ipeadata.gov.br/Default.aspx).

O arquivo .csv foi extraído manualmente em virtude da API estar inacessível em 30/06/2021, trazendo o PIB Mensal Acumulado nos períodos de 01/1990 a 05/2021.

---

In [22]:

# Carregando o arquivo PIB Mensal

dataset_pib_mensal = pd.read_csv("datasets//pib_mensal_ipeadata_30062021.csv")
len(dataset_pib_mensal)

377

In [23]:
dataset_pib_mensal.head(20)

Unnamed: 0,mes,pib_mensal
0,1990.01,0.7
1,1990.02,1.1
2,1990.03,1.8
3,1990.04,2.5
4,1990.05,3.3
5,1990.06,4.0
6,1990.07,4.9
7,1990.08,5.9
8,1990.09,7.0
9,1990.1,8.3


In [24]:
# Formatando os dados do dataframe 
# Os dados necessários para o dataframe são o data e Valor 


for i in range(0,len(dataset_pib_mensal)):
    dataset_pib_mensal.at[i,'mes'] = int(dataset_pib_mensal.loc[i, 'mes']*100)
        

        
dataset_pib_mensal.head(40)

Unnamed: 0,mes,pib_mensal
0,199001.0,0.7
1,199002.0,1.1
2,199003.0,1.8
3,199004.0,2.5
4,199005.0,3.3
5,199006.0,4.0
6,199007.0,4.9
7,199008.0,5.9
8,199009.0,7.0
9,199010.0,8.3


In [25]:

dataset_pib_mensal = dataset_pib_mensal.drop( 
    dataset_pib_mensal[(dataset_pib_mensal['mes'] <= 200312)].index)


len(dataset_pib_mensal)

209

In [26]:
dataset_pib_mensal = dataset_pib_mensal.drop( 
    dataset_pib_mensal[(dataset_pib_mensal['mes'] >= 202101)].index)

len(dataset_pib_mensal)

204

In [27]:
dataset_pib_mensal

Unnamed: 0,mes,pib_mensal
168,200401.0,1735331.5
169,200402.0,1746819.2
170,200403.0,1765492.2
171,200404.0,1781058.0
172,200405.0,1800951.1
...,...,...
367,202008.0,7348772.7
368,202009.0,7367379.0
369,202010.0,7386165.6
370,202011.0,7417829.9


#### 2.9 Importação do dataset Preço Petróleo Brent - WorldBank

---
Requisição realizada através do site do Banco Mundial, disponibilizado em (https://www.worldbank.org/en/research/commodity-markets).

O arquivo .csv foi extraído manualmente em virtude da ausência de API e tratado para trazer apenas a coluna com o preço do óleo cru Brent.

---

In [28]:
# Carregando o arquivo preço brent

dataset_brent = pd.read_csv("datasets//preco_brent_worldbank.csv", delimiter = ';')
len(dataset_brent)

509

In [29]:

dataset_brent.head(20)

Unnamed: 0,mes,preco_brent
0,1979M01,1895
1,1979M02,2200
2,1979M03,2325
3,1979M04,2365
4,1979M05,3275
5,1979M06,3650
6,1979M07,3500
7,1979M08,3575
8,1979M09,3650
9,1979M10,3850


In [30]:
# Formatando os dados do dataframe 


for i in range(0,len(dataset_brent)):
    dataset_brent.at[i,'mes'] = int(str(dataset_brent.loc[i, 'mes']).replace("M",""))
    dataset_brent.at[i,'preco_brent'] = str(dataset_brent.at[i, 'preco_brent']).replace(",", ".")

In [31]:
dataset_brent.head(40)

Unnamed: 0,mes,preco_brent
0,197901,18.95
1,197902,22.0
2,197903,23.25
3,197904,23.65
4,197905,32.75
5,197906,36.5
6,197907,35.0
7,197908,35.75
8,197909,36.5
9,197910,38.5


In [32]:
dataset_brent = dataset_brent.drop( 
    dataset_brent[(dataset_brent['mes'] <= 200312)].index)


len(dataset_pib_mensal)

204

In [33]:
dataset_brent = dataset_brent.drop( 
    dataset_brent[(dataset_brent['mes'] >= 202101)].index)


len(dataset_brent)

204

In [34]:
dataset_brent.head(40)

Unnamed: 0,mes,preco_brent
300,200401,31.18
301,200402,30.87
302,200403,33.8
303,200404,33.36
304,200405,37.92
305,200406,35.19
306,200407,38.37
307,200408,43.03
308,200409,43.38
309,200410,49.82


#### 2.9 Importação do dataset Desembolsos do Sistema BNDES - Indústria de Transformação

---
Requisição realizada através da API do BACEN, disponibilizada em (https://dados.gov.br/dataset/7416-desembolsos-do-sistema-bndes-industria-de-transformacao/resource/29a7e703-1ae4-4afd-8507-844a1972a112).

O comando utilizado traz os dados de Desembolsos do BNDES para o setor econômico (http://api.bcb.gov.br/dados/serie/bcdata.sgs.7416/dados?formato=json&dataInicial=01/01/2004&dataFinal=31/12/2020) - Tabela 7416, nos períodos de 01/2004 a 12/2020, trazendo o valor em R$ milhões de reais.

---

In [35]:
# Baixando e mostrando o conteúdo do dataset Desembolsos



try: 
    resposta_bndes = requests.get(
        "http://api.bcb.gov.br/dados/serie/bcdata.sgs.7416/dados?formato=json&dataInicial=01/01/2004&dataFinal=31/12/2020")
    data_bndes = resposta_bndes.json()
    print(json.dumps(data_bndes, indent=4 , sort_keys=True))
    
except requests.ConnectionError:
    print("Site não disponível.")

[
    {
        "data": "01/01/2004",
        "valor": "1107"
    },
    {
        "data": "01/02/2004",
        "valor": "2559"
    },
    {
        "data": "01/03/2004",
        "valor": "4302"
    },
    {
        "data": "01/04/2004",
        "valor": "5474"
    },
    {
        "data": "01/05/2004",
        "valor": "5976"
    },
    {
        "data": "01/06/2004",
        "valor": "7338"
    },
    {
        "data": "01/07/2004",
        "valor": "8251"
    },
    {
        "data": "01/08/2004",
        "valor": "8887"
    },
    {
        "data": "01/09/2004",
        "valor": "9562"
    },
    {
        "data": "01/10/2004",
        "valor": "11099"
    },
    {
        "data": "01/11/2004",
        "valor": "12842"
    },
    {
        "data": "01/12/2004",
        "valor": "15526"
    },
    {
        "data": "01/01/2005",
        "valor": "2089"
    },
    {
        "data": "01/02/2005",
        "valor": "3051"
    },
    {
        "data": "01/03/2005",
        "valor": "479

In [36]:
# Montando o dataset com os dados de Desembolso
# Os dados necessários para o dataframe são o data e Valor 

dataset_bndes = pd.DataFrame(columns=['mes','desembolso'])


for i in range(0,len(data_bndes)):
    dataset_bndes.at[i,'mes'] = int(data_bndes[i].get('data')[6:10] + data_bndes[i].get('data')[3:5])
    dataset_bndes.at[i, 'desembolso'] = float(data_bndes[i].get('valor'))
    

len(dataset_bndes)

204

In [37]:
dataset_bndes.head(20)

Unnamed: 0,mes,desembolso
0,200401,1107.0
1,200402,2559.0
2,200403,4302.0
3,200404,5474.0
4,200405,5976.0
5,200406,7338.0
6,200407,8251.0
7,200408,8887.0
8,200409,9562.0
9,200410,11099.0


## 3. Agregação dos diversos conjuntos de dados em um único dataset

---
Os datasets gerados a partir da coleta de dados serão agregados aos dados de cada cluster com o objetivo de gerar os arquivos que serão usados na fase de preparação e análise exploratória para os modelos de séries temporais.

___

In [38]:
dataset_final = pd.merge(dataset_pimpf, dataset_ipca, on='mes')

In [39]:
dataset_final = pd.merge(dataset_final, dataset_selic, on='mes')
dataset_final = pd.merge(dataset_final, dataset_cambio, on='mes')
dataset_final = pd.merge(dataset_final, dataset_ibcbr, on='mes')
dataset_final = pd.merge(dataset_final, dataset_tjlp, on='mes')
dataset_final = pd.merge(dataset_final, dataset_pib_mensal, on='mes')
dataset_final = pd.merge(dataset_final, dataset_brent, on='mes')
dataset_final = pd.merge(dataset_final, dataset_bndes, on='mes')

In [40]:
dataset_final.head(20)

Unnamed: 0,mes,indice_pimpf,ipca,taxa_selic,taxa_cambio,ibcbr,tjlp,pib_mensal,preco_brent,desembolso
0,200401,104.0,0.76,16.32,136.19,98.59,10.0,1735331.5,31.18,1107.0
1,200402,103.1,0.61,16.3,139.84,99.45,10.0,1746819.2,30.87,2559.0
2,200403,113.0,0.47,16.19,138.89,111.98,10.0,1765492.2,33.8,4302.0
3,200404,107.8,0.37,15.96,138.85,107.36,9.75,1781058.0,33.36,5474.0
4,200405,108.9,0.51,15.77,148.25,106.03,9.75,1800951.1,37.92,5976.0
5,200406,113.1,0.71,15.8,149.04,107.0,9.75,1828299.9,35.19,7338.0
6,200407,110.9,0.91,15.77,143.11,111.47,9.75,1853700.2,38.37,8251.0
7,200408,113.2,0.69,15.86,140.62,110.65,9.75,1878059.7,43.03,8887.0
8,200409,107.6,0.33,16.09,135.23,109.21,9.75,1894202.4,43.38,9562.0
9,200410,103.8,0.44,16.41,133.55,108.89,9.75,1909813.0,49.82,11099.0


In [41]:
# Juntando os dados macroeconomicos aos dados de cada cluster

In [42]:
dataset_cluster0 = pd.merge( dataset_final, dataset_rfb_cluster0, on='mes')
dataset_cluster1 = pd.merge( dataset_final, dataset_rfb_cluster1, on='mes')
dataset_cluster2 = pd.merge( dataset_final, dataset_rfb_cluster2, on='mes')
dataset_cluster3 = pd.merge( dataset_final, dataset_rfb_cluster3, on='mes')

In [43]:
dataset_cluster0.head()

Unnamed: 0,mes,indice_pimpf,ipca,taxa_selic,taxa_cambio,ibcbr,tjlp,pib_mensal,preco_brent,desembolso,debitos,arrecadacao
0,200401,104.0,0.76,16.32,136.19,98.59,10.0,1735331.5,31.18,1107.0,75412990.0,280680300.0
1,200402,103.1,0.61,16.3,139.84,99.45,10.0,1746819.2,30.87,2559.0,179152400.0,222566000.0
2,200403,113.0,0.47,16.19,138.89,111.98,10.0,1765492.2,33.8,4302.0,176424900.0,236544200.0
3,200404,107.8,0.37,15.96,138.85,107.36,9.75,1781058.0,33.36,5474.0,354079800.0,304884500.0
4,200405,108.9,0.51,15.77,148.25,106.03,9.75,1800951.1,37.92,5976.0,183660900.0,271579000.0


In [44]:
dataset_cluster1.head()

Unnamed: 0,mes,indice_pimpf,ipca,taxa_selic,taxa_cambio,ibcbr,tjlp,pib_mensal,preco_brent,desembolso,debitos,arrecadacao
0,200401,104.0,0.76,16.32,136.19,98.59,10.0,1735331.5,31.18,1107.0,7472665.21,24292254.98
1,200402,103.1,0.61,16.3,139.84,99.45,10.0,1746819.2,30.87,2559.0,15992826.63,20243261.18
2,200403,113.0,0.47,16.19,138.89,111.98,10.0,1765492.2,33.8,4302.0,14035100.35,21503893.13
3,200404,107.8,0.37,15.96,138.85,107.36,9.75,1781058.0,33.36,5474.0,26344116.48,27743614.22
4,200405,108.9,0.51,15.77,148.25,106.03,9.75,1800951.1,37.92,5976.0,16300643.64,27665574.88


In [45]:
dataset_cluster2.head()

Unnamed: 0,mes,indice_pimpf,ipca,taxa_selic,taxa_cambio,ibcbr,tjlp,pib_mensal,preco_brent,desembolso,debitos,arrecadacao
0,200401,104.0,0.76,16.32,136.19,98.59,10.0,1735331.5,31.18,1107.0,730970200.0,6709728000.0
1,200402,103.1,0.61,16.3,139.84,99.45,10.0,1746819.2,30.87,2559.0,4150874000.0,5844144000.0
2,200403,113.0,0.47,16.19,138.89,111.98,10.0,1765492.2,33.8,4302.0,3778614000.0,5757594000.0
3,200404,107.8,0.37,15.96,138.85,107.36,9.75,1781058.0,33.36,5474.0,4927327000.0,7872113000.0
4,200405,108.9,0.51,15.77,148.25,106.03,9.75,1800951.1,37.92,5976.0,2175496000.0,7156122000.0


In [46]:
dataset_cluster3.head()

Unnamed: 0,mes,indice_pimpf,ipca,taxa_selic,taxa_cambio,ibcbr,tjlp,pib_mensal,preco_brent,desembolso,debitos,arrecadacao
0,200401,104.0,0.76,16.32,136.19,98.59,10.0,1735331.5,31.18,1107.0,7282426.41,68059738.44
1,200402,103.1,0.61,16.3,139.84,99.45,10.0,1746819.2,30.87,2559.0,46156308.72,53040081.05
2,200403,113.0,0.47,16.19,138.89,111.98,10.0,1765492.2,33.8,4302.0,48512047.08,58277134.96
3,200404,107.8,0.37,15.96,138.85,107.36,9.75,1781058.0,33.36,5474.0,57059252.73,58664645.94
4,200405,108.9,0.51,15.77,148.25,106.03,9.75,1800951.1,37.92,5976.0,44466777.51,57931554.86


In [47]:
## Gravando o arquivo com os dados de cada cluster

subdiretorio = "datasets"

## Testando se o subdiretório existe

try:
    os.mkdir(subdiretorio)
except Exception:
    pass

dataset_cluster0.to_csv(os.path.join(subdiretorio,'dataset_cluster0.csv'), index=False)
dataset_cluster1.to_csv(os.path.join(subdiretorio,'dataset_cluster1.csv'), index=False)
dataset_cluster2.to_csv(os.path.join(subdiretorio,'dataset_cluster2.csv'), index=False)
dataset_cluster3.to_csv(os.path.join(subdiretorio,'dataset_cluster3.csv'), index=False)
