# Tratamento e Engenharia de Variáveis

## Objetivo

Realizar o tratamento da base consolidada de dados macroeconômicos,
criando novas variáveis relevantes para análise e modelagem.

Etapas realizadas:

- Verificação estrutural da base
- Criação de variáveis temporais (ano e mês)
- Ordenação cronológica
- Cálculo de variações percentuais
- Exportação da base tratada


In [2]:
# ==============================
# IMPORTAÇÃO DA BASE CONSOLIDADA
# ==============================

import pandas as pd

df = pd.read_parquet('../data/processed/dataset_macroeconomico.parquet')

df.head()



Unnamed: 0,data,inadimplencia,juros,desemprego
0,2012-03-01,3.67,26.54,8.0
1,2012-04-01,3.76,25.96,7.8
2,2012-05-01,3.76,24.36,7.7
3,2012-06-01,3.71,23.62,7.6
4,2012-07-01,3.72,23.03,7.5


In [3]:
# ==============================
# DIAGNÓSTICO DA BASE
# ==============================

print("Informações gerais:")
df.info()

print("\nEstatísticas descritivas:")
df.describe()


Informações gerais:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 166 entries, 0 to 165
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   data           166 non-null    datetime64[ns]
 1   inadimplencia  166 non-null    float64       
 2   juros          166 non-null    float64       
 3   desemprego     166 non-null    float64       
dtypes: datetime64[ns](1), float64(3)
memory usage: 5.3 KB

Estatísticas descritivas:


Unnamed: 0,data,inadimplencia,juros,desemprego
count,166,166.0,166.0,166.0
mean,2019-01-15 16:02:53.493975808,3.166867,26.074819,9.736747
min,2012-03-01 00:00:00,2.11,17.95,5.1
25%,2015-08-08 18:00:00,2.92,23.1475,7.2
50%,2019-01-16 12:00:00,3.17,25.755,8.95
75%,2022-06-23 12:00:00,3.51,29.59,12.175
max,2025-12-01 00:00:00,4.08,32.99,14.9
std,,0.453861,4.055641,2.783943


In [4]:
# ==============================
# CRIAÇÃO DE VARIÁVEIS TEMPORAIS
# ==============================

df['ano'] = df['data'].dt.year
df['mes'] = df['data'].dt.month

df.head()


Unnamed: 0,data,inadimplencia,juros,desemprego,ano,mes
0,2012-03-01,3.67,26.54,8.0,2012,3
1,2012-04-01,3.76,25.96,7.8,2012,4
2,2012-05-01,3.76,24.36,7.7,2012,5
3,2012-06-01,3.71,23.62,7.6,2012,6
4,2012-07-01,3.72,23.03,7.5,2012,7


In [5]:
# ==============================
# ORDENAÇÃO CRONOLÓGICA
# ==============================

df = df.sort_values('data')
df.reset_index(drop=True, inplace=True)

df.head()


Unnamed: 0,data,inadimplencia,juros,desemprego,ano,mes
0,2012-03-01,3.67,26.54,8.0,2012,3
1,2012-04-01,3.76,25.96,7.8,2012,4
2,2012-05-01,3.76,24.36,7.7,2012,5
3,2012-06-01,3.71,23.62,7.6,2012,6
4,2012-07-01,3.72,23.03,7.5,2012,7


In [6]:
# ==============================
# CÁLCULO DE VARIAÇÕES PERCENTUAIS
# ==============================

df['var_inadimplencia'] = df['inadimplencia'].pct_change() * 100
df['var_juros'] = df['juros'].pct_change() * 100
df['var_desemprego'] = df['desemprego'].pct_change() * 100

df.head()


Unnamed: 0,data,inadimplencia,juros,desemprego,ano,mes,var_inadimplencia,var_juros,var_desemprego
0,2012-03-01,3.67,26.54,8.0,2012,3,,,
1,2012-04-01,3.76,25.96,7.8,2012,4,2.452316,-2.185381,-2.5
2,2012-05-01,3.76,24.36,7.7,2012,5,0.0,-6.163328,-1.282051
3,2012-06-01,3.71,23.62,7.6,2012,6,-1.329787,-3.037767,-1.298701
4,2012-07-01,3.72,23.03,7.5,2012,7,0.269542,-2.497883,-1.315789


In [7]:
# ==============================
# VERIFICAÇÃO DE VALORES NULOS
# ==============================

print("Valores ausentes por coluna:")
print(df.isnull().sum())


Valores ausentes por coluna:
data                 0
inadimplencia        0
juros                0
desemprego           0
ano                  0
mes                  0
var_inadimplencia    1
var_juros            1
var_desemprego       1
dtype: int64


In [8]:
df = df.dropna().reset_index(drop=True)


In [11]:
# ==============================
# LAG (VARIÁVEIS DEFASADAS)
# ==============================

df['juros_lag1'] = df['juros'].shift(1)
df['desemprego_lag1'] = df['desemprego'].shift(1)

df = df.dropna()


In [13]:
# ==============================
# CRIAÇÃO DE VARIÁVEIS DEFASADAS (LAG)
# ==============================

df['juros_lag1'] = df['juros'].shift(1)
df['desemprego_lag1'] = df['desemprego'].shift(1)

df = df.dropna().reset_index(drop=True)



In [14]:
# ==============================
# EXPORTAÇÃO DA BASE TRATADA
# ==============================

df.to_parquet(
    '../data/processed/dataset_tratado.parquet',
    index=False
)

print("Base tratada exportada com sucesso.")


Base tratada exportada com sucesso.


# Conclusão

A base foi tratada e enriquecida com novas variáveis temporais e
indicadores de variação percentual.

O dataset final está estruturado e pronto para:

- Análise exploratória aprofundada
- Modelagem preditiva
- Construção de dashboards

A utilização do formato `.parquet` garante eficiência e performance.
