Notebook responsável para realizar transformações no dataframe de contratos. Ele está sendo usado apenas para testes, código completos serão enviados para o arquivo de transform.py

Carregamento do arquivo bruto de contratos 👇

In [1]:
from pathlib import Path
import pandas as pd

# Configura o caminho para os arquivos brutos
raw_data_dir = Path('..') / 'data' / 'raw'

# Localiza o arquivo de contratos mais recente (pelo formato de data no nome do arquivo)
contratos_files = list(raw_data_dir.glob('contratos_amostra_*.csv'))

if contratos_files:
    # Pega o arquivo mais recente baseado na data de modificação
    latest_contratos_file = max(contratos_files, key=lambda x: x.stat().st_mtime)

    # Verificação (para debug)
    print(f'Arquivo de contratos encontrado: {latest_contratos_file}')
    print(f'O arquivo existe? {latest_contratos_file.exists()}')

    # Carrega o Dataframe
    df = pd.read_csv(latest_contratos_file, encoding='utf-8', low_memory=False)

    # Visualiza dimensões e primeiras linhas
    print(f'\nDataframe carregado: {df.shape[0]} linhas, {df.shape[1]} colunas')
    print(f'Primeira 5 colunas: {', '.join(df.columns[:5])}')

else:
    print('ERRO: Nenhum arquivo de contratos encontrado em data/raw')
    print(f'Diretório verificado: {raw_data_dir.resolver()}')
    print(f'O diretório existe? {raw_data_dir.exists()}')
    print('Arquivos no diretório:', list(raw_data_dir.glob('*')))

Arquivo de contratos encontrado: ..\data\raw\contratos_amostra_2025-08-03.csv
O arquivo existe? True

Dataframe carregado: 12000 linhas, 39 colunas
Primeira 5 colunas: codigoOrgao, nomeOrgao, codigoUnidadeGestora, nomeUnidadeGestora, codigoUnidadeGestoraOrigemContrato


In [3]:
df.head(10)

Unnamed: 0,codigoOrgao,nomeOrgao,codigoUnidadeGestora,nomeUnidadeGestora,codigoUnidadeGestoraOrigemContrato,nomeUnidadeGestoraOrigemContrato,receitaDespesa,numeroContrato,codigoUnidadeRealizadoraCompra,nomeUnidadeRealizadoraCompra,...,valorAcumulado,totalDespesasAcessorias,dataHoraInclusao,numeroControlePncpContrato,idCompra,dataHoraExclusao,contratoExcluido,unidadesRequisitantes,data_inicio,trimestre
0,52121,ESCRITÓRIO AVANÇADO DA OPERAÇÃO CARRO-PIPA DA ...,160454,28º BATALHAO DE CACADORES,160454,28º BATALHAO DE CACADORES,D,00003/2024,160454.0,28º BATALHAO DE CACADORES,...,57606.44,,2024-02-20T14:46:03,,16045407000012024,,False,,2024-01-01,1
1,26407,"INST.FED.DE EDUC.,CIENC.E TEC.GOIANO",158124,"INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...",158124,"INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...",D,2024NE000042,158124.0,"INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...",...,,,2024-07-01T10:33:34,,15812407000032023,,False,,2024-01-26,1
2,5604,PMSP - SUBPREFEITURA CAPELA DO SOCORRO,925068,PMSP - SUBPREFEITURA CAPELA DO SOCORRO,925068,PMSP - SUBPREFEITURA CAPELA DO SOCORRO,D,2024NE038305,925068.0,PMSP - SUBPREFEITURA CAPELA DO SOCORRO,...,631.58,,2024-07-24T12:01:39,,92506806900072024,,False,,2024-03-18,1
3,26430,"INST.FED.DE ED.,CIENC.E TEC.DO S.PERNAMBUCANO",158499,INST.FED.SERTAO PERNAMBUCANO/CAMPUS PETROLINA,158499,INST.FED.SERTAO PERNAMBUCANO/CAMPUS PETROLINA,D,00010/2024,158276.0,INST.FED.DO MARANHAO/CAMPUS SAO LUIS-MACARANA,...,,,2024-07-01T12:00:59,,15827605000052023,,False,,2024-03-25,1
4,38576,CONSELHO REG. DE ENGENHARIA E AGRONOMIA-SC,389087,CONSELHO REGIONAL DE ENGENHARIA E AGRONOMIA DE...,389087,CONSELHO REGIONAL DE ENGENHARIA E AGRONOMIA DE...,D,2024NE000567,389087.0,CONSELHO REGIONAL DE ENGENHARIA E AGRONOMIA DE...,...,1909.0,,2024-07-15T16:51:09,,38908706000092024,,False,,2024-02-16,1
5,52121,ESCRITÓRIO AVANÇADO DA OPERAÇÃO CARRO-PIPA DA ...,160496,ER OP C PIPA/6ª RM,160496,ER OP C PIPA/6ª RM,D,00086/2024,160496.0,ER OP C PIPA/6ª RM,...,,,2024-08-08T10:09:50,,16049607000122023,,False,,2024-01-01,1
6,36000,MINISTERIO DA SAUDE,250057,INST. NACIONAL DE TRAUMATOLOGIA E ORTOPEDIA,250057,INST. NACIONAL DE TRAUMATOLOGIA E ORTOPEDIA,D,2024NE000018,250057.0,INST. NACIONAL DE TRAUMATOLOGIA E ORTOPEDIA,...,891464.0,,2024-07-09T16:57:35,,25005705001572023,,False,,2024-01-08,1
7,36000,MINISTERIO DA SAUDE,250057,INST. NACIONAL DE TRAUMATOLOGIA E ORTOPEDIA,250057,INST. NACIONAL DE TRAUMATOLOGIA E ORTOPEDIA,D,2024NE000016,250057.0,INST. NACIONAL DE TRAUMATOLOGIA E ORTOPEDIA,...,55000.0,,2024-07-09T17:54:33,,25005705001662023,,False,,2024-01-08,1
8,52121,ESCRITÓRIO AVANÇADO DA OPERAÇÃO CARRO-PIPA DA ...,160454,28º BATALHAO DE CACADORES,160454,28º BATALHAO DE CACADORES,D,00108/2024,160454.0,28º BATALHAO DE CACADORES,...,,,2024-03-20T14:37:09,,16045407000012024,,False,,2024-01-01,1
9,52121,ESCRITÓRIO AVANÇADO DA OPERAÇÃO CARRO-PIPA DA ...,160552,ESCRITORIO REGIONAL OP C PIPA/7ª RM,160552,ESCRITORIO REGIONAL OP C PIPA/7ª RM,D,00303/2023,160552.0,ESCRITORIO REGIONAL OP C PIPA/7ª RM,...,65634.24,,2023-12-15T18:09:13,,16055207900052023,,False,,2024-01-01,1


Verificação de Nulos por quantidade e porcentagem 👇

In [2]:
# Calcula contagem e percentual de nulos em cada coluna
nulos = df.isnull().sum()
percentual = (df.isnull().sum() / len(df) * 100).round(2)

# Cria um Dataframe simples apenas com colunas que têm pelo menos um valor nulo
colunas_com_nulos = pd.DataFrame({
    'Valores Nulos': nulos[nulos >0],
    'Percentual (%)': percentual[nulos > 0]
}).sort_values('Percentual (%)', ascending=False)

# Exibe o resultado
colunas_com_nulos

Unnamed: 0,Valores Nulos,Percentual (%)
numeroControlePncpContrato,12000,100.0
dataHoraExclusao,12000,100.0
totalDespesasAcessorias,11999,99.99
nomeSubcategoria,11462,95.52
codigoSubcategoria,11462,95.52
unidadesRequisitantes,10824,90.2
informacoesComplementares,8196,68.3
valorAcumulado,6287,52.39
codigoTipo,4997,41.64
nomeTipo,4997,41.64


Exclusão de algumas colunas 👇

In [None]:
colunas_para_excluir = [
    'numeroControlePncpContrato', # muitos nulos
    'dataHoraExclusao', # muitos nulos
    'totalDespesasAcessorias', # muitos nulos
    'nomeSubcategoria', # muitos nulos
    'codigoSubcategoria', # muitos nulos
    




    'contratoExcluido', # não é uma coluna de interesse
    ]

df.drop(colunas_para_excluir, axis=1, inplace=True)

In [4]:
len(df.columns)

39