Notebook responsável para realizar transformações no dataframe de contratos. Ele está sendo usado apenas para testes, código completos serão enviados para o arquivo de transform.py

Carregamento do arquivo bruto de contratos 👇

In [1]:
from pathlib import Path
import pandas as pd

# Configura o caminho para os arquivos brutos
raw_data_dir = Path('..') / 'data' / 'raw'

# Localiza o arquivo de contratos mais recente (pelo formato de data no nome do arquivo)
contratos_files = list(raw_data_dir.glob('contratos_amostra_*.csv'))

if contratos_files:
    # Pega o arquivo mais recente baseado na data de modificação
    latest_contratos_file = max(contratos_files, key=lambda x: x.stat().st_mtime)

    # Verificação (para debug)
    print(f'Arquivo de contratos encontrado: {latest_contratos_file}')
    print(f'O arquivo existe? {latest_contratos_file.exists()}')

    # Carrega o Dataframe
    df = pd.read_csv(latest_contratos_file, encoding='utf-8', low_memory=False)

    # Visualiza dimensões e primeiras linhas
    print(f'\nDataframe carregado: {df.shape[0]} linhas, {df.shape[1]} colunas')
    print(f'Primeira 5 colunas: {', '.join(df.columns[:5])}')

else:
    print('ERRO: Nenhum arquivo de contratos encontrado em data/raw')
    print(f'Diretório verificado: {raw_data_dir.resolver()}')
    print(f'O diretório existe? {raw_data_dir.exists()}')
    print('Arquivos no diretório:', list(raw_data_dir.glob('*')))

Arquivo de contratos encontrado: ..\data\raw\contratos_amostra_2025-08-03.csv
O arquivo existe? True

Dataframe carregado: 12000 linhas, 39 colunas
Primeira 5 colunas: codigoOrgao, nomeOrgao, codigoUnidadeGestora, nomeUnidadeGestora, codigoUnidadeGestoraOrigemContrato


In [2]:
df.head(10)

Unnamed: 0,codigoOrgao,nomeOrgao,codigoUnidadeGestora,nomeUnidadeGestora,codigoUnidadeGestoraOrigemContrato,nomeUnidadeGestoraOrigemContrato,receitaDespesa,numeroContrato,codigoUnidadeRealizadoraCompra,nomeUnidadeRealizadoraCompra,...,valorAcumulado,totalDespesasAcessorias,dataHoraInclusao,numeroControlePncpContrato,idCompra,dataHoraExclusao,contratoExcluido,unidadesRequisitantes,data_inicio,trimestre
0,52121,ESCRITÓRIO AVANÇADO DA OPERAÇÃO CARRO-PIPA DA ...,160454,28º BATALHAO DE CACADORES,160454,28º BATALHAO DE CACADORES,D,00003/2024,160454.0,28º BATALHAO DE CACADORES,...,57606.44,,2024-02-20T14:46:03,,16045407000012024,,False,,2024-01-01,1
1,26407,"INST.FED.DE EDUC.,CIENC.E TEC.GOIANO",158124,"INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...",158124,"INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...",D,2024NE000042,158124.0,"INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNO...",...,,,2024-07-01T10:33:34,,15812407000032023,,False,,2024-01-26,1
2,5604,PMSP - SUBPREFEITURA CAPELA DO SOCORRO,925068,PMSP - SUBPREFEITURA CAPELA DO SOCORRO,925068,PMSP - SUBPREFEITURA CAPELA DO SOCORRO,D,2024NE038305,925068.0,PMSP - SUBPREFEITURA CAPELA DO SOCORRO,...,631.58,,2024-07-24T12:01:39,,92506806900072024,,False,,2024-03-18,1
3,26430,"INST.FED.DE ED.,CIENC.E TEC.DO S.PERNAMBUCANO",158499,INST.FED.SERTAO PERNAMBUCANO/CAMPUS PETROLINA,158499,INST.FED.SERTAO PERNAMBUCANO/CAMPUS PETROLINA,D,00010/2024,158276.0,INST.FED.DO MARANHAO/CAMPUS SAO LUIS-MACARANA,...,,,2024-07-01T12:00:59,,15827605000052023,,False,,2024-03-25,1
4,38576,CONSELHO REG. DE ENGENHARIA E AGRONOMIA-SC,389087,CONSELHO REGIONAL DE ENGENHARIA E AGRONOMIA DE...,389087,CONSELHO REGIONAL DE ENGENHARIA E AGRONOMIA DE...,D,2024NE000567,389087.0,CONSELHO REGIONAL DE ENGENHARIA E AGRONOMIA DE...,...,1909.0,,2024-07-15T16:51:09,,38908706000092024,,False,,2024-02-16,1
5,52121,ESCRITÓRIO AVANÇADO DA OPERAÇÃO CARRO-PIPA DA ...,160496,ER OP C PIPA/6ª RM,160496,ER OP C PIPA/6ª RM,D,00086/2024,160496.0,ER OP C PIPA/6ª RM,...,,,2024-08-08T10:09:50,,16049607000122023,,False,,2024-01-01,1
6,36000,MINISTERIO DA SAUDE,250057,INST. NACIONAL DE TRAUMATOLOGIA E ORTOPEDIA,250057,INST. NACIONAL DE TRAUMATOLOGIA E ORTOPEDIA,D,2024NE000018,250057.0,INST. NACIONAL DE TRAUMATOLOGIA E ORTOPEDIA,...,891464.0,,2024-07-09T16:57:35,,25005705001572023,,False,,2024-01-08,1
7,36000,MINISTERIO DA SAUDE,250057,INST. NACIONAL DE TRAUMATOLOGIA E ORTOPEDIA,250057,INST. NACIONAL DE TRAUMATOLOGIA E ORTOPEDIA,D,2024NE000016,250057.0,INST. NACIONAL DE TRAUMATOLOGIA E ORTOPEDIA,...,55000.0,,2024-07-09T17:54:33,,25005705001662023,,False,,2024-01-08,1
8,52121,ESCRITÓRIO AVANÇADO DA OPERAÇÃO CARRO-PIPA DA ...,160454,28º BATALHAO DE CACADORES,160454,28º BATALHAO DE CACADORES,D,00108/2024,160454.0,28º BATALHAO DE CACADORES,...,,,2024-03-20T14:37:09,,16045407000012024,,False,,2024-01-01,1
9,52121,ESCRITÓRIO AVANÇADO DA OPERAÇÃO CARRO-PIPA DA ...,160552,ESCRITORIO REGIONAL OP C PIPA/7ª RM,160552,ESCRITORIO REGIONAL OP C PIPA/7ª RM,D,00303/2023,160552.0,ESCRITORIO REGIONAL OP C PIPA/7ª RM,...,65634.24,,2023-12-15T18:09:13,,16055207900052023,,False,,2024-01-01,1


Verificação de Nulos por quantidade e porcentagem 👇

In [3]:
# Calcula contagem e percentual de nulos em cada coluna
nulos = df.isnull().sum()
percentual = (df.isnull().sum() / len(df) * 100).round(2)

# Cria um Dataframe simples apenas com colunas que têm pelo menos um valor nulo
colunas_com_nulos = pd.DataFrame({
    'Valores Nulos': nulos[nulos >0],
    'Percentual (%)': percentual[nulos > 0]
}).sort_values('Percentual (%)', ascending=False)

# Exibe o resultado
colunas_com_nulos

Unnamed: 0,Valores Nulos,Percentual (%)
numeroControlePncpContrato,12000,100.0
dataHoraExclusao,12000,100.0
totalDespesasAcessorias,11999,99.99
nomeSubcategoria,11462,95.52
codigoSubcategoria,11462,95.52
unidadesRequisitantes,10824,90.2
informacoesComplementares,8196,68.3
valorAcumulado,6287,52.39
codigoTipo,4997,41.64
nomeTipo,4997,41.64


- `informacoesComplementares`: manter pois pode ter informações úteis (mesmo com 68,30% de nulos)



- `codigoTipo` e `nomeTipo` -> analisar se convém manter ou excluir (levando em conta que mais de 90% dos registros não nulos são empenho)


- `numeroCompra` -> é provável que não dê para repor os nulos, ver o que fazer
- `codigoUnidadeRealizadoraCompra` e `nomeUnidadeRealizadoraCompra` -> é provável que não dê para repor nulos, mesmo vendo pelo número de contrato, continua confuso
- `dataVigenciaFinal` -> colocar flags para sinalizar os nulos
- `nomeCategoria` ->
- `codigoCategoria` ->
- `nomeRazaoSocialFornecedor` -> dá para descobrir os nulos baseado no 'niFornecedor'

### ANÁLISE DAS COLUNAS NULAS

**Análise da coluna `nomeSubcategoria`** \
*OBS: também inclui `codigoSubcategoria`*
- Total de nulos: 95,52%
- Valores não nulos mais comuns: Nota Fiscal Eletrônica, Quinzenal, Diária, etc
- Quantidade de nulos por `nomeCategoria`: maioria acima de 95%

Conclusão: coluna com altíssima proporção de nulos e baixa utilidade -> <span style='color:red; font-weight:bold;'>descartar</span>

In [None]:
import re
# Configuração do limite para considerar exclusão
LIMITE_NULOS = 90  

if 'nomeSubcategoria' in df.columns:
    # Verifica porcentagem de nulos de 'nomeSubcategoria'
    nulos_sub = df['nomeSubcategoria'].isnull().sum()
    total = len(df)
    percentual_nulos = (nulos_sub / total * 100).round(2)
    print(f"\nTotal de nulos: {nulos_sub} ({percentual_nulos}%)")

    # 1. Verifica relação com coluna 'nomeCategoria'
    if 'nomeCategoria' in df.columns:
        nulos_por_categoria = df.groupby('nomeCategoria')['nomeSubcategoria'].apply(lambda x: x.isnull().mean() * 100).round(2)
        print("\nPercentual de nulos em 'nomeSubcategoria' por 'nomeCategoria':")
        print(nulos_por_categoria.sort_values(ascending=False))

    # 2. Valores não nulos mais comuns
    # Limpeza de valores não nulos (remove URLs)
    df['nomeSubcategoria'] = df['nomeSubcategoria'].apply(lambda x: x if pd.isnull(x) or not re.match(r'^https?://', str(x)) else None)

    if df['nomeSubcategoria'].notnull().any():
        valores_comuns = df['nomeSubcategoria'].value_counts().head(10)
        print("\nValores mais comuns que aparecem em 'nomeSubcategoria':")
        print(valores_comuns)

    # 3. Conclusão baseada na análise
    print("\nConclusão baseada na análise:")
    if percentual_nulos > LIMITE_NULOS:
        print(f"- Mais de {LIMITE_NULOS}% de nulos → candidata forte à exclusão")
    else:
        print("- Percentual de nulos abaixo do limite, avaliar manutenção")

---

**Análise da coluna `unidadesRequisitantes`** \
*OBS: na documentação da API, essa coluna está com o nome um pouco diferente e possui uma coluna auxiliar de código de identificação. As duas colunas são `codigoUnidadeRequisitante` e `nomeUnidadeRequisitante` Não se sabe o motivo dessa mudança e da exclusão da coluna de código, mas deve ser levado em conta na hora de ler a documentação do endpoint de contratos da API*
- Total de nulos: 90,20%
- Valores não nulos mais comuns: EGESP, 090172, CENTRO DE TRABALHO E EDUCAÇÃO, SGM/CAF/DAP...
- Órgãos com unidade requisitante: 122 de 299 (40,8%)
- Órgãos mais associados: JUSTICA ELEITORAL, ESP-SECRETARIA DA SAUDE, ESP-SECRETARIA DA FAZENDA E PLANEJAMENTO, ESP-SECRETARIA ADMINISTRACAO PENITENCIARIA...

Conclusão: coluna com proporção muito alta de nulos e presente em menos da metade dos órgãos -> <span style='color:red; font-weight:bold;'>descartar</span>

In [None]:
# Configuração do limite para considerar exclusão
LIMITE_NULOS = 90  

if 'unidadesRequisitantes' in df.columns:
    # Verifica porcentagem de nulos de 'unidadesRequisitantes'
    nulos_sub = df['unidadesRequisitantes'].isnull().sum()
    total = len(df)
    percentual_nulos = (nulos_sub / total * 100).round(2)
    print(f"\nTotal de nulos: {nulos_sub} ({percentual_nulos}%)")


    # 1. Verifica relação com coluna 'nomeOrgao'
    if 'nomeOrgao' in df.columns:
        df_unidades = df[df['unidadesRequisitantes'].notnull()]
        
        # 1.1 verifica quais órgãos mais aparecem quando unidadesRequisitantes não está nula
        orgaos_por_unidade = df_unidades.groupby('nomeOrgao')['unidadesRequisitantes'].count().sort_values(ascending=False)
        print("\nÓrgãos com mais unidades requisitantes:")
        print(orgaos_por_unidade)

        # 1.2 verifica quantos órgão diferentes têm algum registro de unidadesRequisitantes
        total_orgaos = df['nomeOrgao'].nunique()
        num_orgaos_diferentes = df_unidades['nomeOrgao'].nunique()
        print(f"\nTotal de órgãos: {total_orgaos}")
        print(f"Órgãos com unidades requisitantes: {num_orgaos_diferentes} de {total_orgaos} ({num_orgaos_diferentes/total_orgaos:.1%})")

    # 2. Valores não nulos mais comuns
    if df['unidadesRequisitantes'].notnull().any():
        valores_comuns = df['unidadesRequisitantes'].value_counts().head(10)
        print("\nValores mais comuns que aparecem em 'unidadesRequisitantes':")
        print(valores_comuns)

    # 3. Conclusão baseada na análise
    print("\nConclusão baseada na análise:")
    if percentual_nulos > LIMITE_NULOS:
        print(f"- Mais de {LIMITE_NULOS}% de nulos → candidata forte à exclusão")
    else:
        print("- Percentual de nulos abaixo do limite, avaliar manutenção")

**Análise da coluna `valorAcumulado`**  
- Total de nulos: 52,39%  
- Comparação com `valorGlobal`: alguns registros apresentam diferenças grandes, incluindo valores negativos e outliers muito altos, provavelmente por ajustes ou juros.  

Observações:
- Não passa muita confiança nos valores. Em alguns casos o valorAcumulado é maior que o valor total do contrato. Isso pode estar relacionado a juros ou reajustes, mas a API não fornece metadados suficientes para confirmar.

Conclusão: coluna com quantidade alta de nulos e valores inconsistentes. Em alguns casos, o `valorAcumulado` supera o `valorGlobal`, mas não há metadados que expliquem essa diferença (ex.: juros ou reajustes). Para análises gerais, `valorGlobal` é suficiente → <span style='color:red; font-weight:bold;'>descartar</span>

In [None]:
from IPython.display import display

# Configuração do limite para considerar exclusão
LIMITE_NULOS = 90  

if 'valorAcumulado' in df.columns:
    # Verifica porcentagem de nulos de 'valorAcumulado'
    nulos_sub = df['valorAcumulado'].isnull().sum()
    total = len(df)
    percentual_nulos = (nulos_sub / total * 100).round(2)
    print(f"\nTotal de nulos: {nulos_sub} ({percentual_nulos}%)")

    # 1. Verificar quantos registros têm 'valorAcumulado' diferente de 'valorGlobal'
    if 'valorGlobal' in df.columns:
        valores_diferentes = df[df['valorAcumulado'].notnull() & (df['valorAcumulado'] != df['valorGlobal'])]
        print(f"Registros com valorAcumulado diferente de valorGlobal: {len(valores_diferentes)}")

        # 1.1 Verificar discrepância entre as duas colunas
        diff = df[df['valorAcumulado'].notnull() & (df['valorAcumulado'] != df['valorGlobal'])].copy()
        diff['diferenca'] = diff['valorAcumulado'] - diff['valorGlobal']
        display(diff[['valorGlobal','valorAcumulado','diferenca']].describe())

**Análise da coluna `nomeTipo`** \
*OBS: também inclui `codigoTipo`*
- Total de nulos: 41,64%
- Valores não nulos mais comuns: 
- Quantidade de nulos por `a`: 

Conclusão: a -> <span style='color:white; font-weight:bold;'>a</span>

---

Exclusão de algumas colunas 👇

In [None]:
colunas_para_excluir = [
    'numeroControlePncpContrato',
    'dataHoraExclusao',
    'totalDespesasAcessorias',
    'nomeSubcategoria',
    'codigoSubcategoria',
    'unidadesRequisitantes',
    'valorAcumulado',

    
    'contratoExcluido', # não é uma coluna de interesse
    ]

df.drop(colunas_para_excluir, axis=1, inplace=True)

In [6]:
len(df.columns)

39

In [5]:
# Verifica se há relação com o tipo de contrato
if 'nomeTipo' in df.columns:
    # Calcular o percentual de nulos para cada grupo
    nulos_por_tipo = df.groupby('nomeTipo')['numeroCompra'].apply(
        lambda x: (x.isnull().sum() / len(x) * 100).round(2)
    )
    print("\nPercentual de numeroCompra nulo por tipo de contrato:")
    print(nulos_por_tipo.sort_values(ascending=False).head())


Percentual de numeroCompra nulo por tipo de contrato:
nomeTipo
Acordo de Cooperação Técnica (ACT)    72.48
Termo de Compromisso                  57.14
Outros                                 9.40
Empenho                                0.56
Carta Contrato                         0.00
Name: numeroCompra, dtype: float64


- termo de compromisso (4)-> numeroCompra não se aplica, pois são doações
- 