In [6]:
from sqlalchemy import create_engine
import pandas as pd
import logging

In [7]:
# Configuração de logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

In [8]:
# Conexão com o banco de dados
engine = create_engine('postgresql://airflow:airflow@127.0.0.1:5432/airflow', echo=False)

In [9]:
# Função para criar DataFrame a partir de uma tabela no PostgreSQL, incluindo o esquema
def criar_dataframe(nome_tabela, engine, schema='stage'):
    query = f"SELECT * FROM {schema}.{nome_tabela};"
    try:
        df = pd.read_sql_query(query, engine)
        logging.info(f"DataFrame criado para a tabela {schema}.{nome_tabela} com {len(df)} linhas.")
        return df
    except Exception as e:
        logging.error(f"Erro ao criar DataFrame da tabela {schema}.{nome_tabela}: {e}")
        return pd.DataFrame()

if __name__ == "__main__":
    # Criar DataFrames para as tabelas 'contratos' e 'convenios' no esquema 'stage'
    df_contratos = criar_dataframe('contratos', engine, 'stage')
    df_convenios = criar_dataframe('convenios', engine, 'stage')

2024-04-07 18:30:38,830 - INFO - DataFrame criado para a tabela stage.contratos com 1000 linhas.
2024-04-07 18:30:38,853 - INFO - DataFrame criado para a tabela stage.convenios com 250 linhas.


In [10]:
#Consultando as 5 primeiras linhas.
df_contratos.head(5)

Unnamed: 0,id,cod_concedente,cod_financiador,cod_gestora,cod_orgao,cod_secretaria,decricao_modalidade,descricao_objeto,descricao_tipo,descricao_url,...,data_publicacao_doe,descricao_nome_credor,isn_parte_origem,data_auditoria,data_termino_original,data_inicio,data_rescisao,confidential,gestor_contrato,data_finalizacao_prestacao_contas
0,371917,228011,805489,220001,22000000,22000000,DISPENSA,aquisição de gêneros da agricultura familiar p...,CONTRATO,20191106.1108545.Integra.CONTRATO.pdf,...,2019-11-20T00:00:00.000-03:00,COOPERATIVA AGROPECUARIA E DE SERVICOS NOSSA S...,85565,2022-09-16,2020-11-19T00:00:00.000-03:00,2019-11-20T00:00:00.000-03:00,,False,,
1,435305,220001,3215,220001,22000000,22000000,INEXIGIBILIDADE,O presente contrato tem por objetivo a contrat...,CONTRATO,20211111.1190722.Integra.CONTRATO.pdf,...,2021-11-11T00:00:00.000-03:00,SINDICATO DAS EMPRESAS DE TRANSPORTES DE PAS...,202624,2022-09-21,2022-05-10T00:00:00.000-03:00,2021-11-10T00:00:00.000-03:00,,False,WESLEY CAVALCANTE MELO,
2,378018,240001,318374,241521,24200364,24000000,PREGÃO,AQUISIÇÃO DE FILMES RADIOLÓGICOS PARA O IPC.,CONTRATO,20200623.1124263.Integra.CONTRATO.pdf,...,2020-06-26T00:00:00.000-03:00,CARESTREAM DO BRASIL COMERCIO E SERVIÇOS DE PR...,203041,2022-09-16,2021-06-18T00:00:00.000-03:00,2020-06-18T00:00:00.000-03:00,,False,,
3,518156,241331,2619,241331,24200224,24000000,PREGÃO,RECURSO DESTINADO AQUISIÇÃO DE MATERIAL DE LAB...,DESPESA.SEM.INSTRUMENTO.CONTRATUAL,Sem Íntegra,...,2023-08-22T13:53:26.000-03:00,IMPORTEC IMPORTADORA CEARENSE LTDA,321253,2023-08-22,2023-12-31T00:00:00.000-03:00,2023-06-29T00:00:00.000-03:00,,False,,
4,443599,240001,126835,240401,24200004,24000000,PREGÃO,AQUISIÇÃO DE XMTVI MAXAMAID PARA ATENDER DEMAN...,DESPESA.SEM.INSTRUMENTO.CONTRATUAL,Sem Íntegra,...,2022-10-21T13:49:50.000-03:00,ART MEDICA COM E REP PROD HOST LTDA,203041,2023-01-18,2022-12-31T00:00:00.000-03:00,2022-02-15T00:00:00.000-03:00,,False,,


In [11]:
#Consultando as 5 primeiras linhas.
df_convenios.head(5)

Unnamed: 0,id,cod_concedente,cod_financiador,cod_gestora,cod_orgao,cod_secretaria,decricao_modalidade,descricao_objeto,descricao_tipo,descricao_url,...,data_publicacao_doe,descricao_nome_credor,isn_parte_origem,data_auditoria,data_termino_original,data_inicio,data_rescisao,confidential,gestor_contrato,data_finalizacao_prestacao_contas
0,197593,240001,860040,240401,24200004,24000000,USO INTERNO,Celebrar Termo de Ajuste com a Prefeitura Muni...,TERMO.AJUSTE,2010624.632222.Integra.TERMO.AJUSTE.pdf,...,2010-06-29T00:00:00.000-03:00,PREF MUNIC DE CASCAVEL,203041,2024-04-06,2010-12-31T00:00:00.000-03:00,2010-06-23T00:00:00.000-03:00,,False,MANOEL FRANCISCO DE CARVALHO LOPES,
1,442708,81401,860047,81401,43200007,43000000,USO INTERNO,Pavimentação Asfáltica no Município de Chorozi...,CONVENIO.DESPESA,20211223.1197033.Integra.CONVENIO.DESPESA.pdf,...,2022-01-04T00:00:00.000-03:00,PREF MUNIC DE CHOROZINHO,660288,2024-04-07,2022-12-22T00:00:00.000-03:00,2021-12-22T00:00:00.000-03:00,,False,,2023-08-31
2,445357,81401,860030,81401,43200007,43000000,USO INTERNO,Pavimentação em Pedra Tosca no Município de Br...,CONVENIO.DESPESA,20220314.1201834.Integra.CONVENIO.DESPESA.pdf,...,2022-04-08T00:00:00.000-03:00,PREF MUNIC DE BREJO SANTO,660288,2024-04-07,2023-03-10T00:00:00.000-03:00,2022-03-10T00:00:00.000-03:00,,False,,
3,484742,270001,881196,270401,27200004,27000000,USO INTERNO,Constitui objeto do presente TERMO DE EXECUÇÃO...,CONVENIO.DESPESA,20221111.1245332.Integra.CONVENIO.DESPESA.pdf,...,2022-11-17T00:00:00.000-03:00,FRANCISCO ELIEZIO PEREIRA LIMA,203134,2024-04-07,2023-11-11T00:00:00.000-03:00,2022-11-11T00:00:00.000-03:00,,False,FABIANO DOS SANTOS,
4,236189,80101,860083,80101,8200001,8000000,USO INTERNO,Construção de uma passagem molhada sobre o Rio...,CONVENIO.DESPESA,2009128.478857.Convenio.pdf,...,2009-12-17T00:00:00.000-03:00,PREF MUNIC DE ITAPAJE,202525,2024-04-06,2010-02-28T00:00:00.000-03:00,2009-12-03T00:00:00.000-03:00,,False,,


In [12]:
#Consultando as 5 ultimas linhas.
df_contratos.tail(5)

Unnamed: 0,id,cod_concedente,cod_financiador,cod_gestora,cod_orgao,cod_secretaria,decricao_modalidade,descricao_objeto,descricao_tipo,descricao_url,...,data_publicacao_doe,descricao_nome_credor,isn_parte_origem,data_auditoria,data_termino_original,data_inicio,data_rescisao,confidential,gestor_contrato,data_finalizacao_prestacao_contas
995,419599,228122,822862,220001,22000000,22000000,DISPENSA,MATERIAL DE LIMPEZA E PRODUÇÃO DE HIGIENIZAÇÃO...,DESPESA.SEM.INSTRUMENTO.CONTRATUAL,20210809.1172632.Declaracao.Dispensa.DESPESA.S...,...,2022-06-10T11:32:17.000-03:00,MARIA EDNA DE SOUZA - ME,85920,2022-09-16,2021-12-31T00:00:00.000-03:00,2021-08-09T00:00:00.000-03:00,,False,,
996,409271,241291,827910,241291,24200214,24000000,PREGÃO,"Aquisição de medicamentos, de acordo com a ata...",DESPESA.SEM.INSTRUMENTO.CONTRATUAL,Sem Íntegra,...,2022-04-01T15:53:48.000-03:00,ONCOVIT DISTRIBUIDORA DE MEDICAMENTOS LTDA,321252,2022-09-16,2021-12-31T00:00:00.000-03:00,2021-03-15T00:00:00.000-03:00,,False,,
997,378038,240001,875801,240401,24200004,24000000,PREGÃO,AQUISIÇÃO DO MEDICAMENTO ACETATO DE OCTREOTIDA...,DESPESA.SEM.INSTRUMENTO.CONTRATUAL,Sem Íntegra,...,2021-09-16T09:12:42.000-03:00,ELFA MEDICAMENTOS S.A.,203041,2022-09-16,2020-12-31T00:00:00.000-03:00,2020-06-25T00:00:00.000-03:00,,False,,
998,199060,240001,252712,240401,24200004,24000000,PREGÃO,contratação de empresa especiliazada para manu...,CONTRATO,20100830.647117.Integra.CONTRATO.pdf,...,2010-09-10T00:00:00.000-03:00,ALSCIENCE ENGENHARIA E REPRESENTAÇÕES LTDA,203041,2022-09-16,2011-09-10T00:00:00.000-03:00,2010-09-10T00:00:00.000-03:00,,False,,
999,408578,241281,827910,241281,24200184,24000000,PREGÃO,"AQUISIÇÃO DE MATERIAL FARMACOLÓGICO, PARA O HO...",DESPESA.SEM.INSTRUMENTO.CONTRATUAL,Sem Íntegra,...,2022-04-04T09:43:45.000-03:00,ONCOVIT DISTRIBUIDORA DE MEDICAMENTOS LTDA,321261,2022-09-16,2021-12-31T00:00:00.000-03:00,2021-03-09T00:00:00.000-03:00,,False,,


In [13]:
#Consultando as 5 ultimas linhas.
df_convenios.tail(5)

Unnamed: 0,id,cod_concedente,cod_financiador,cod_gestora,cod_orgao,cod_secretaria,decricao_modalidade,descricao_objeto,descricao_tipo,descricao_url,...,data_publicacao_doe,descricao_nome_credor,isn_parte_origem,data_auditoria,data_termino_original,data_inicio,data_rescisao,confidential,gestor_contrato,data_finalizacao_prestacao_contas
245,531785,81401,860075,81401,43200007,43000000,USO INTERNO,PAVIMENTAÇÃO EM PEDRA TOSCA DE DIVERSAS RUAS D...,CONVENIO.DESPESA,20231018.1294308.Integra.CONVENIO.DESPESA.pdf,...,2023-10-24T00:00:00.000-03:00,PREF MUNIC DE IPAPORANGA,660288,2024-04-07,2024-10-18T00:00:00.000-03:00,2023-10-18T00:00:00.000-03:00,,False,,
246,218471,240001,860200,241081,24200464,24000000,USO INTERNO,Prestar serviços especializados no bloco da mé...,CONVENIO.DESPESA,200968.313055.Convenio.pdf,...,2009-06-23T00:00:00.000-03:00,INSTITUTO DR JOSE FROTA,203041,2024-04-06,2010-04-04T00:00:00.000-03:00,2009-05-04T00:00:00.000-03:00,,False,,
247,110083,210001,831653,210001,21000000,21000000,USO INTERNO,IR 007/2018 - Paulo Freire/FIDA - Fortalecer a...,CONVENIO.DESPESA,20180328.1039567.Integra.CONVENIO.DESPESA.pdf,...,2018-04-05T00:00:00.000-03:00,ASSOCIAÇÃO COMUNITÁRIA RURAL DE ZIPU,203809,2024-04-07,2019-03-22T00:00:00.000-03:00,2018-03-23T00:00:00.000-03:00,,False,MARIA IRIS TAVARES FARIAS - MATRÍCULA 300103-1-0,
248,47991,240001,860014,240401,24200004,24000000,USO INTERNO,Aquisição de 02 (dois) veículos tipo ambulânci...,TERMO.AJUSTE,20160422.983406.Integra.TERMO.AJUSTE.pdf,...,2016-04-27T00:00:00.000-03:00,PREFEITURA MUNICIPAL DE ARARENDA,203041,2024-04-07,2016-12-30T00:00:00.000-03:00,2016-03-16T00:00:00.000-03:00,,False,,2017-02-10
249,112806,430001,860023,430001,43000000,43000000,USO INTERNO,Pavimentação em Pedra Tosca nas ruas Mestre Ju...,TERMO.AJUSTE,20180525.1046412.Integra.TERMO.AJUSTE.pdf,...,2018-06-04T00:00:00.000-03:00,PREF MUNIC DE BARREIRA,203478,2024-04-07,2019-04-24T00:00:00.000-03:00,2018-04-24T00:00:00.000-03:00,,False,,2023-11-27


In [14]:
df_convenios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250 entries, 0 to 249
Data columns (total 60 columns):
 #   Column                             Non-Null Count  Dtype 
---  ------                             --------------  ----- 
 0   id                                 250 non-null    int64 
 1   cod_concedente                     250 non-null    object
 2   cod_financiador                    250 non-null    object
 3   cod_gestora                        250 non-null    object
 4   cod_orgao                          250 non-null    object
 5   cod_secretaria                     250 non-null    object
 6   decricao_modalidade                250 non-null    object
 7   descricao_objeto                   250 non-null    object
 8   descricao_tipo                     250 non-null    object
 9   descricao_url                      250 non-null    object
 10  data_assinatura                    250 non-null    object
 11  data_processamento                 250 non-null    object
 12  data_ter

In [15]:
df_contratos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 60 columns):
 #   Column                             Non-Null Count  Dtype 
---  ------                             --------------  ----- 
 0   id                                 1000 non-null   int64 
 1   cod_concedente                     1000 non-null   object
 2   cod_financiador                    1000 non-null   object
 3   cod_gestora                        1000 non-null   object
 4   cod_orgao                          1000 non-null   object
 5   cod_secretaria                     1000 non-null   object
 6   decricao_modalidade                1000 non-null   object
 7   descricao_objeto                   1000 non-null   object
 8   descricao_tipo                     1000 non-null   object
 9   descricao_url                      1000 non-null   object
 10  data_assinatura                    1000 non-null   object
 11  data_processamento                 1000 non-null   object
 12  data_te

In [16]:
# Contagem de valores nulos para cada coluna em df_convenios
nulos_convenios = df_convenios.isnull().sum()
print("Contagem de valores NULOS em cada coluna de df_convenios:")
print(nulos_convenios)

Contagem de valores NULOS em cada coluna de df_convenios:
id                                     0
cod_concedente                         0
cod_financiador                        0
cod_gestora                            0
cod_orgao                              0
cod_secretaria                         0
decricao_modalidade                    0
descricao_objeto                       0
descricao_tipo                         0
descricao_url                          0
data_assinatura                        0
data_processamento                     0
data_termino                           0
flg_tipo                               0
isn_parte_destino                      0
isn_sic                                0
num_spu                               14
valor_contrato                         0
isn_modalidade                         0
isn_entidade                           0
tipo_objeto                           47
num_spu_licitacao                    250
descricao_justificativa                0

In [17]:
# Contagem de valores nulos para cada coluna em df_contratos
nulos_contratos = df_contratos.isnull().sum()
print("Contagem de valores NULOS em cada coluna de df_contratos:")
print(nulos_contratos)

Contagem de valores NULOS em cada coluna de df_contratos:
id                                      0
cod_concedente                          0
cod_financiador                         0
cod_gestora                             0
cod_orgao                               0
cod_secretaria                          0
decricao_modalidade                     0
descricao_objeto                        0
descricao_tipo                          0
descricao_url                           0
data_assinatura                         0
data_processamento                      0
data_termino                            0
flg_tipo                                0
isn_parte_destino                       0
isn_sic                                 0
num_spu                                36
valor_contrato                          0
isn_modalidade                          0
isn_entidade                            0
tipo_objeto                            51
num_spu_licitacao                      78
descricao_justific

In [20]:
#Consulta de Duplicados - DF_CONTRATOS

# Definição das chaves únicas
colunas_chave_unica_contratos = ['cpf_cnpj_financiador', 'num_contrato', 'data_assinatura']

# Verificação de duplicatas
duplicadas_contratos = df_contratos.duplicated(subset=colunas_chave_unica_contratos, keep=False)

# Contagem das linhas duplicadas
quantidade_duplicadas_contratos = duplicadas_contratos.sum()

# Exibição da quantidade de linhas duplicadas
print("Quantidade de linhas duplicadas em df_contratos com base nas chaves únicas:")
print(quantidade_duplicadas_contratos)

Quantidade de linhas duplicadas em df_contratos com base nas chaves únicas:
103


In [21]:
#Consulta de Duplicados - DF_CONVENIOS

# Definição das chaves únicas
colunas_chave_unica_contratos = ['cpf_cnpj_financiador', 'num_contrato', 'data_assinatura']

# Verificação de duplicatas
duplicadas_convenios = df_convenios.duplicated(subset=colunas_chave_unica_contratos, keep=False)

# Contagem das linhas duplicadas
quantidade_duplicadas_convenios = duplicadas_convenios.sum()

# Exibição da quantidade de linhas duplicadas
print("Quantidade de linhas duplicadas em df_convenios com base nas chaves únicas:")
print(quantidade_duplicadas_convenios)


Quantidade de linhas duplicadas em df_convenios com base nas chaves únicas:
0
