Notebook responsável para realizar transformações no dataframe de contratos. Ele está sendo usado apenas para testes, código completos serão enviados para o arquivo de transform.py

Carregamento do arquivo bruto de contratos 👇

In [1]:
from pathlib import Path
import pandas as pd

# Configura o caminho para os arquivos brutos
raw_data_dir = Path('..') / 'data' / 'raw'

# Localiza o arquivo de contratos mais recente (pelo formato de data no nome do arquivo)
contratos_files = list(raw_data_dir.glob('contratos_amostra_*.csv'))

if contratos_files:
    # Pega o arquivo mais recente baseado na data de modificação
    latest_contratos_file = max(contratos_files, key=lambda x: x.stat().st_mtime)

    # Verificação (para debug)
    print(f'Arquivo de contratos encontrado: {latest_contratos_file}')
    print(f'O arquivo existe? {latest_contratos_file.exists()}')

    # Carrega o Dataframe
    df = pd.read_csv(latest_contratos_file, encoding='utf-8', low_memory=False)

    # Visualiza dimensões e primeiras linhas
    print(f'\nDataframe carregado: {df.shape[0]} linhas, {df.shape[1]} colunas')
    print(f'Primeira 5 colunas: {', '.join(df.columns[:5])}')

else:
    print('ERRO: Nenhum arquivo de contratos encontrado em data/raw')
    print(f'Diretório verificado: {raw_data_dir.resolver()}')
    print(f'O diretório existe? {raw_data_dir.exists()}')
    print('Arquivos no diretório:', list(raw_data_dir.glob('*')))

Arquivo de contratos encontrado: ..\data\raw\contratos_amostra_2025-08-03.csv
O arquivo existe? True

Dataframe carregado: 12000 linhas, 39 colunas
Primeira 5 colunas: codigoOrgao, nomeOrgao, codigoUnidadeGestora, nomeUnidadeGestora, codigoUnidadeGestoraOrigemContrato


In [None]:
df.head(10)

Verificação de Nulos por quantidade e porcentagem 👇

In [2]:
# Calcula contagem e percentual de nulos em cada coluna
nulos = df.isnull().sum()
percentual = (df.isnull().sum() / len(df) * 100).round(2)

# Cria um Dataframe simples apenas com colunas que têm pelo menos um valor nulo
colunas_com_nulos = pd.DataFrame({
    'Valores Nulos': nulos[nulos >0],
    'Percentual (%)': percentual[nulos > 0]
}).sort_values('Percentual (%)', ascending=False)

# Exibe o resultado
colunas_com_nulos

Unnamed: 0,Valores Nulos,Percentual (%)
numeroControlePncpContrato,12000,100.0
dataHoraExclusao,12000,100.0
totalDespesasAcessorias,11999,99.99
nomeSubcategoria,11462,95.52
codigoSubcategoria,11462,95.52
unidadesRequisitantes,10824,90.2
informacoesComplementares,8196,68.3
valorAcumulado,6287,52.39
codigoTipo,4997,41.64
nomeTipo,4997,41.64


- `informacoesComplementares` -> pode ser útil para descobrir alguns nulos faltantes (ou valores errados) de outras colunas
- `valorAcumulado` -> dá para descobrir alguns nulos baseado nas colunas 'valorGlobal', 'numeroParcelas' e 'valorParcela' (manter cuidado ao fazer isso para evitar viés de dados -> olhar melhor depois)
- `codigoTipo` e `nomeTipo` -> analisar se convém manter ou excluir (levando em conta que mais de 90% dos registros não nulos são empenho)
- `numeroCompra` -> é provável que não dê para repor os nulos, ver o que fazer
- `codigoUnidadeRealizadoraCompra` e `nomeUnidadeRealizadoraCompra` -> é provável que não dê para repor nulos, mesmo vendo pelo número de contrato, continua confuso
- `dataVigenciaFinal` -> colocar flags para sinalizar os nulos
- `nomeCategoria` ->
- `codigoCategoria` ->

- `nomeRazaoSocialFornecedor` -> dá para descobrir os nulos baseado no 'niFornecedor'

Exclusão de algumas colunas 👇

In [None]:
colunas_para_excluir = [
    'numeroControlePncpContrato', # muitos nulos
    'dataHoraExclusao', # muitos nulos
    'totalDespesasAcessorias', # muitos nulos
    'nomeSubcategoria', # muitos nulos
    'codigoSubcategoria', # muitos nulos
    'unidadesRequisitantes', # muitos nulos // repensar se necessário
    




    'contratoExcluido', # não é uma coluna de interesse
    ]

df.drop(colunas_para_excluir, axis=1, inplace=True)

In [6]:
len(df.columns)

39

In [4]:
# Verifica se há relação com o tipo de contrato
if 'nomeTipo' in df.columns:
    # Calcular o percentual de nulos para cada grupo
    nulos_por_tipo = df.groupby('nomeTipo')['numeroCompra'].apply(
        lambda x: (x.isnull().sum() / len(x) * 100).round(2)
    )
    print("\nPercentual de numeroCompra nulo por tipo de contrato:")
    print(nulos_por_tipo.sort_values(ascending=False).head())


Percentual de numeroCompra nulo por tipo de contrato:
nomeTipo
Acordo de Cooperação Técnica (ACT)    72.48
Termo de Compromisso                  57.14
Outros                                 9.40
Empenho                                0.56
Carta Contrato                         0.00
Name: numeroCompra, dtype: float64


- termo de compromisso (4)-> numeroCompra não se aplica, pois são doações
- 