## Extração, transformação e carregamento dos dados

Notebook para extração, transformação e carregamento dos dados que serão utilizados no APP Streamlit.

In [29]:
from utils import SimpleAPIClient
from utils.proj_types import JSONType
from config import SOF_TOKEN

from typing import List

import pandas as pd

In [30]:
ANO_BASE=2024

In [31]:
def get_key_dados(resp_sof:JSONType)->str:

    #obtem a chave de dados, que varia
    chaves = set(resp_sof.keys())
    chaves.discard("metaDados")
    chave_dados = chaves.pop()

    return chave_dados

In [32]:
def get_sof(endpoint:str, pagination_parameter:str='numPagina', **params)->JSONType:

    BASE_URL = 'https://gateway.apilib.prefeitura.sp.gov.br/sf/sof/v4/'

    client = SimpleAPIClient(BASE_URL)

    headers: dict[str, str] = {'Authorization' : f'Bearer {SOF_TOKEN}'}
    
    page = 1
    resp =  client.get(endpoint, headers=headers, pagination_parameter=1, **params)

    chave_dados = get_key_dados(resp)
    total_pages= resp['metaDados']['qtdPaginas']
    page+=1

    while page < total_pages:
        page_resp = client.get(endpoint, headers=headers, pagination_parameter=page, **params)
        resp[chave_dados].extend(page_resp[chave_dados])
    
    return resp

In [33]:
def clean_cnpj(cnpj:str)->str:

    cnpj = ''.join([char for char in cnpj if char.isdigit()])

    return cnpj

In [34]:
def busca_credor(cnpj:str, ano=ANO_BASE)->JSONType:
    
    cnpj = clean_cnpj(cnpj)
    endpoint = 'credores'

    return get_sof(endpoint, numCpfCnpj=cnpj)




In [35]:
from typing import Any, Dict, List


CNPJ_PRODAM = '43.076.702/0001-61'

credores: JSONType  = busca_credor(CNPJ_PRODAM)

In [36]:
prodam = credores[get_key_dados(credores)][0]

In [37]:
prodam

{'txtNomeFantasia': 'PRODAM S P',
 'txtTipoNatureza': 'C',
 'txtRazaoSocial': 'EMPRESA DE TECNOLOGIA DA INFORMACAO E COMUNICACAO DO MUNICIPIO DE SAO PAULO  PRODAMSP SA',
 'numCpfCnpj': '43076702000161'}

In [38]:
def get_contratos_by_credor(cnpj:str, ano:int=ANO_BASE)->JSONType:

    cnpj = clean_cnpj(cnpj)
    endpoint = 'contratos'

    return get_sof(endpoint, anoContrato=ano, numCpfCnpj=cnpj)

In [39]:
contratos_prodam = get_contratos_by_credor(prodam['numCpfCnpj'])

In [40]:
contratos_prodam = contratos_prodam[get_key_dados(contratos_prodam)]

In [41]:
len(contratos_prodam)

50

In [42]:
contratos_prodam[0]

{'txtDescricaoModalidade': 'Dispensa de Licitação',
 'codEmpresa': '07',
 'codTipoContratacao': '30',
 'valReajustes': 0.0,
 'codProcesso': '9310202400022280',
 'codModalidade': 6,
 'valAditamentos': 0.0,
 'codContrato': 18,
 'valLiquidado': 0.0,
 'codOrgao': '33',
 'valPago': 0.0,
 'valAnulacao': 0.0,
 'valEmpenhadoLiquido': 0.0,
 'valTotalEmpenhado': 3817.33,
 'anoContrato': 2024,
 'txtDescricaoOrgao': 'Agência Reg. de Serv. Públicos do Mun de São Paulo        ',
 'valAnuladoEmpenho': 3817.33,
 'valPrincipal': 45808.02,
 'txtTipoContratacao': 'Nota de Empenho para Fornecimento de Serviços',
 'txtObjetoContrato': 'Prestação dos serviços de Comunicação de Dados SD-WAN, pela Contratada, para o suporte aos negócios para a Agência Reguladora de Serviços Públicos do Município de São Paulo - SP REGULA,'}

In [43]:
df_prodam = pd.DataFrame(contratos_prodam)

In [44]:
df_prodam.head()

Unnamed: 0,txtDescricaoModalidade,codEmpresa,codTipoContratacao,valReajustes,codProcesso,codModalidade,valAditamentos,codContrato,valLiquidado,codOrgao,...,anoContrato,txtDescricaoOrgao,valAnuladoEmpenho,valPrincipal,txtTipoContratacao,txtObjetoContrato,datVigencia,datAssinaturaContrato,numOriginalContrato,datPublicacaoContrato
0,Dispensa de Licitação,7,30,0.0,9310202400022280,6,0.0,18,0.0,33,...,2024,Agência Reg. de Serv. Públicos do Mun de São P...,3817.33,45808.02,Nota de Empenho para Fornecimento de Serviços,Prestação dos serviços de Comunicação de Dados...,,,,
1,Dispensa de Licitação,19,2,0.0,113512023,6,1065260.33,18,821316.83,10,...,2024,Tribunal de Contas do Município de São Paulo,2276.2,716940.33,Termo de Contrato - Serviços,Prestação de serviços de sustentação e melhori...,02/03/2026 00:00:00,03/03/2024 00:00:00,04/2024,05/03/2024 00:00:00
2,Não Aplicável,30,73,0.0,7810202400008736,8,0.0,35,207123.24,5,...,2024,São Paulo Urbanismo,41790.01,842387.0,Nota de Empenho para Fornecimento de Serviços ...,Prestação de Serviços de SUSTENTAÇÃO DE TIC pa...,15/07/2026 00:00:00,12/07/2024 00:00:00,7810.2024/0000873-6,16/07/2024 00:00:00
3,Dispensa de Licitação,19,2,0.0,22682024,6,260850.3,52,215100.74,10,...,2024,Tribunal de Contas do Município de São Paulo,15430.01,260850.3,Termo de Contrato - Serviços,"Prestação de Serviços de Sustentação de TIC, r...",04/04/2026 00:00:00,04/04/2024 00:00:00,09/2024,05/04/2024 00:00:00
4,Dispensa de Licitação,85,2,0.0,8510202400006786,6,0.0,148,85654.16,85,...,2024,Fundação Theatro Municipal de São Paulo,8740.92,309523.09,Termo de Contrato - Serviços,Contratação de serviços de sustentação e melho...,27/10/2025 00:00:00,24/10/2024 00:00:00,094/FTMSP/2024,25/10/2024 00:00:00


In [45]:
df_prodam.columns

Index(['txtDescricaoModalidade', 'codEmpresa', 'codTipoContratacao',
       'valReajustes', 'codProcesso', 'codModalidade', 'valAditamentos',
       'codContrato', 'valLiquidado', 'codOrgao', 'valPago', 'valAnulacao',
       'valEmpenhadoLiquido', 'valTotalEmpenhado', 'anoContrato',
       'txtDescricaoOrgao', 'valAnuladoEmpenho', 'valPrincipal',
       'txtTipoContratacao', 'txtObjetoContrato', 'datVigencia',
       'datAssinaturaContrato', 'numOriginalContrato',
       'datPublicacaoContrato'],
      dtype='object')

In [46]:
cols_valores = [col for col in df_prodam.columns if col.startswith('val')]

In [47]:
df_prodam[cols_valores].dtypes

valReajustes           float64
valAditamentos         float64
valLiquidado           float64
valPago                float64
valAnulacao            float64
valEmpenhadoLiquido    float64
valTotalEmpenhado      float64
valAnuladoEmpenho      float64
valPrincipal           float64
dtype: object

In [48]:
assert (df_prodam[cols_valores].dtypes==float).all()

In [49]:
df_prodam[cols_valores].describe()

Unnamed: 0,valReajustes,valAditamentos,valLiquidado,valPago,valAnulacao,valEmpenhadoLiquido,valTotalEmpenhado,valAnuladoEmpenho,valPrincipal
count,50.0,50.0,50.0,50.0,50.0,50.0,50.0,50.0,50.0
mean,2029.1672,308404.0,2039053.0,1930142.0,86153400000.0,4052518.0,5802262.0,1749744.0,86159030000.0
std,12981.39342,1854287.0,5521347.0,5444506.0,609196600000.0,9071614.0,13103080.0,5719006.0,609195700000.0
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4354.77
25%,0.0,0.0,32725.76,9493.38,0.0,133372.4,169348.9,2644.65,169348.9
50%,0.0,0.0,169348.9,134092.4,0.0,360381.5,475508.6,24423.11,393270.7
75%,0.0,0.0,812650.8,625490.9,0.0,2052676.0,4499964.0,454539.4,7030733.0
max,91809.85,13100270.0,33712020.0,33709020.0,4307670000000.0,47030950.0,67267000.0,36085430.0,4307670000000.0


Aparentemente em alguns casos o numero do CNPJ da Prodam foi parar dentro dos valores

In [50]:
df_prodam[df_prodam['valAnulacao']>10**9]

Unnamed: 0,txtDescricaoModalidade,codEmpresa,codTipoContratacao,valReajustes,codProcesso,codModalidade,valAditamentos,codContrato,valLiquidado,codOrgao,...,anoContrato,txtDescricaoOrgao,valAnuladoEmpenho,valPrincipal,txtTipoContratacao,txtObjetoContrato,datVigencia,datAssinaturaContrato,numOriginalContrato,datPublicacaoContrato
36,Dispensa de Licitação,1,2,0.0,6074202400042915,6,0.0,30336,0.0,34,...,2024,Secretaria Municipal de Direitos Humanos e Cid...,481997.5,4307670000000.0,Termo de Contrato - Serviços,Prestação de Serviços de Acesso à Rede Corpora...,,,,


In [51]:
def if_larger_then_tresh_to_mean(df:pd.DataFrame, cols:List[str], tresh:float=10**9)->pd.DataFrame:

    df = df.copy()
    for col in cols:
        df[col] = df[col].apply(lambda x: x if x <  tresh else df[col].mean())

    return df
    

In [52]:
df_prodam = if_larger_then_tresh_to_mean(df_prodam, cols_valores)

In [53]:
df_prodam[cols_valores].describe()

Unnamed: 0,valReajustes,valAditamentos,valLiquidado,valPago,valAnulacao,valEmpenhadoLiquido,valTotalEmpenhado,valAnuladoEmpenho,valPrincipal
count,50.0,50.0,50.0,50.0,50.0,50.0,50.0,50.0,50.0
mean,2029.1672,308404.0,2039053.0,1930142.0,1723068000.0,4052518.0,5802262.0,1749744.0,1728810000.0
std,12981.39342,1854287.0,5521347.0,5444506.0,12183930000.0,9071614.0,13103080.0,5719006.0,12183920000.0
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4354.77
25%,0.0,0.0,32725.76,9493.38,0.0,133372.4,169348.9,2644.65,169348.9
50%,0.0,0.0,169348.9,134092.4,0.0,360381.5,475508.6,24423.11,393270.7
75%,0.0,0.0,812650.8,625490.9,0.0,2052676.0,4499964.0,454539.4,7030733.0
max,91809.85,13100270.0,33712020.0,33709020.0,86153400000.0,47030950.0,67267000.0,36085430.0,86159030000.0


In [54]:
df_prodam.sample(3)

Unnamed: 0,txtDescricaoModalidade,codEmpresa,codTipoContratacao,valReajustes,codProcesso,codModalidade,valAditamentos,codContrato,valLiquidado,codOrgao,...,anoContrato,txtDescricaoOrgao,valAnuladoEmpenho,valPrincipal,txtTipoContratacao,txtObjetoContrato,datVigencia,datAssinaturaContrato,numOriginalContrato,datPublicacaoContrato
28,Dispensa de Licitação,1,29,0.0,6023202400012350,6,0.0,21336,0.0,23,...,2024,Secretaria Municipal de Inovação e Tecnologia,0.0,87842.3,Termo de Contrato para Aquisição de Bens de Co...,Prestação de serviços de consultoria técnica e...,,,,
37,Dispensa de Licitação,1,2,0.0,6074202400042915,6,0.0,30364,0.0,34,...,2024,Secretaria Municipal de Direitos Humanos e Cid...,481997.5,1652562.8,Termo de Contrato - Serviços,Prestação de Serviços de Acesso à Rede Corpora...,,,,
49,Dispensa de Licitação,1,2,0.0,6068202400086545,6,0.0,35272,5336451.84,29,...,2024,Secretaria Municipal de Urbanismo e Licenciamento,568117.25,27415244.95,Termo de Contrato - Serviços,Prestação de Serviços para Sustentação de Infr...,31/10/2025 00:00:00,31/10/2024 00:00:00,17/2024/SMUL,04/11/2024 00:00:00


In [55]:
from utils.serialize_df import df_to_parquet

In [56]:
df_to_parquet(df_prodam, 'contratos_prodam.parquet')

'data/contratos_prodam.parquet'