# Coleta de Dados Macroeconômicos

## Objetivo
Realizar a coleta automatizada de séries temporais macroeconômicas diretamente da API oficial do Banco Central do Brasil (Sistema Gerenciador de Séries Temporais – SGS), garantindo confiabilidade, rastreabilidade e atualização dinâmica dos dados.

Foram coletadas as seguintes séries:

Taxa de Inadimplência do Crédito

Taxa Média de Juros

Taxa de Desemprego

A extração foi realizada via requisição HTTP utilizando a biblioteca requests, seguida de tratamento inicial com pandas, incluindo:

Conversão de datas para formato datetime

Conversão de valores para tipo numérico

Padronização de nomes de colunas

Consolidação das séries por meio de merge temporal

Ordenação cronológica

Verificação de integridade e valores ausentes

O dataset consolidado foi exportado em formato .parquet, garantindo maior eficiência de armazenamento e performance para as etapas subsequentes de tratamento, análise exploratória e modelagem preditiva.



In [38]:
# ==============================
# IMPORTAÇÕES
# ==============================

import requests
import pandas as pd
import matplotlib.pyplot as plt


In [39]:
# ==============================
# FUNÇÃO DE COLETA DA API DO BCB
# ==============================

def coletar_serie_bcb(codigo_serie):
    """
    Coleta uma série temporal da API do Banco Central do Brasil (SGS).

    Parâmetros:
    codigo_serie (int): Código da série no SGS.

    Retorna:
    DataFrame com colunas ['data', 'valor']
    """
    
    url = f"https://api.bcb.gov.br/dados/serie/bcdata.sgs.{codigo_serie}/dados?formato=json"
    
    response = requests.get(url)
    response.raise_for_status()  # Garante erro caso API falhe
    
    data = response.json()
    df = pd.DataFrame(data)
    
    df['data'] = pd.to_datetime(df['data'], dayfirst=True)
    df['valor'] = df['valor'].astype(float)
    
    return df


In [41]:
# ==============================
# COLETA DAS SÉRIES
# ==============================

# Códigos das séries no SGS
COD_INADIMPLENCIA = 21082
COD_JUROS = 20714
COD_DESEMPREGO = 24369

df_inad = coletar_serie_bcb(COD_INADIMPLENCIA)
df_juros = coletar_serie_bcb(COD_JUROS)
df_desemp = coletar_serie_bcb(COD_DESEMPREGO)

df_inad.head()


Unnamed: 0,data,valor
0,2011-03-01,3.17
1,2011-04-01,3.24
2,2011-05-01,3.37
3,2011-06-01,3.32
4,2011-07-01,3.42


In [42]:
# ==============================
# PADRONIZAÇÃO DOS NOMES
# ==============================

df_inad.columns = ['data', 'inadimplencia']
df_juros.columns = ['data', 'juros']
df_desemp.columns = ['data', 'desemprego']



In [43]:
# ==============================
# MERGE DAS SÉRIES TEMPORAIS
# ==============================

df_final = df_inad.merge(df_juros, on='data', how='inner')
df_final = df_final.merge(df_desemp, on='data', how='inner')

df_final.head()


Unnamed: 0,data,inadimplencia,juros,desemprego
0,2012-03-01,3.67,26.54,8.0
1,2012-04-01,3.76,25.96,7.8
2,2012-05-01,3.76,24.36,7.7
3,2012-06-01,3.71,23.62,7.6
4,2012-07-01,3.72,23.03,7.5


In [44]:
# ==============================
# ORDENAÇÃO CRONOLÓGICA
# ==============================

df_final = df_final.sort_values('data')
df_final.reset_index(drop=True, inplace=True)

df_final.head()


Unnamed: 0,data,inadimplencia,juros,desemprego
0,2012-03-01,3.67,26.54,8.0
1,2012-04-01,3.76,25.96,7.8
2,2012-05-01,3.76,24.36,7.7
3,2012-06-01,3.71,23.62,7.6
4,2012-07-01,3.72,23.03,7.5


In [45]:
# ==============================
# ORDENAÇÃO CRONOLÓGICA
# ==============================

df_final = df_final.sort_values('data')
df_final.reset_index(drop=True, inplace=True)

df_final.head()


Unnamed: 0,data,inadimplencia,juros,desemprego
0,2012-03-01,3.67,26.54,8.0
1,2012-04-01,3.76,25.96,7.8
2,2012-05-01,3.76,24.36,7.7
3,2012-06-01,3.71,23.62,7.6
4,2012-07-01,3.72,23.03,7.5


In [46]:
# ==============================
# VERIFICAÇÃO DE QUALIDADE DOS DADOS
# ==============================

print("Valores ausentes:")
print(df_final.isnull().sum())

print("\nPeríodo disponível:")
print(df_final['data'].min(), "até", df_final['data'].max())

print("\nQuantidade de registros:", len(df_final))


Valores ausentes:
data             0
inadimplencia    0
juros            0
desemprego       0
dtype: int64

Período disponível:
2012-03-01 00:00:00 até 2025-12-01 00:00:00

Quantidade de registros: 166


In [47]:
# ==============================
# EXPORTAÇÃO DA BASE TRATADA
# ==============================

df_final.to_parquet(
    '../data/processed/dataset_macroeconomico.parquet',
    index=False
)

print("Base exportada com sucesso.")


Base exportada com sucesso.


# Conclusão

A coleta dos dados macroeconômicos foi realizada com sucesso por meio da API oficial do Banco Central do Brasil, assegurando credibilidade institucional e consistência histórica das informações.

As séries foram:

Padronizadas e estruturadas

Convertidas para formato temporal adequado

Consolidadas em uma única base integrada

Validadas quanto à integridade e consistência

Exportadas em formato otimizado (.parquet)

Essa etapa estabelece uma base sólida e confiável para o desenvolvimento das análises estatísticas e modelos preditivos aplicados ao estudo da inadimplência no Brasil.
