In [15]:
from sqlalchemy import create_engine
import pandas as pd
import logging

In [16]:
# Configuração de logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

In [17]:
# Conexão com o banco de dados
engine = create_engine('postgresql://airflow:airflow@127.0.0.1:5432/airflow', echo=False)

In [18]:
# Função para criar DataFrame a partir de uma tabela no PostgreSQL, incluindo o esquema
def criar_dataframe(nome_tabela, engine, schema='stage'):
    query = f"SELECT * FROM {schema}.{nome_tabela};"
    try:
        df = pd.read_sql_query(query, engine)
        logging.info(f"DataFrame criado para a tabela {schema}.{nome_tabela} com {len(df)} linhas.")
        return df
    except Exception as e:
        logging.error(f"Erro ao criar DataFrame da tabela {schema}.{nome_tabela}: {e}")
        return pd.DataFrame()

if __name__ == "__main__":
    # Criar DataFrames para as tabelas 'contratos' e 'convenios' no esquema 'stage'
    df_contratos = criar_dataframe('contratos', engine, 'stage')
    df_convenios = criar_dataframe('convenios', engine, 'stage')

2024-04-08 14:33:04,102 - INFO - DataFrame criado para a tabela stage.contratos com 10000 linhas.
2024-04-08 14:33:04,192 - INFO - DataFrame criado para a tabela stage.convenios com 2500 linhas.


In [19]:
#Consultando as 5 primeiras linhas.
df_contratos.head(5)

Unnamed: 0,id,cod_concedente,cod_financiador,cod_gestora,cod_orgao,cod_secretaria,decricao_modalidade,descricao_objeto,descricao_tipo,descricao_url,...,data_publicacao_doe,descricao_nome_credor,isn_parte_origem,data_auditoria,data_termino_original,data_inicio,data_rescisao,confidential,gestor_contrato,data_finalizacao_prestacao_contas
0,371917,228011,805489,220001,22000000,22000000,DISPENSA,aquisição de gêneros da agricultura familiar p...,CONTRATO,20191106.1108545.Integra.CONTRATO.pdf,...,2019-11-20T00:00:00.000-03:00,COOPERATIVA AGROPECUARIA E DE SERVICOS NOSSA S...,85565,2022-09-16,2020-11-19T00:00:00.000-03:00,2019-11-20T00:00:00.000-03:00,,False,,
1,435305,220001,3215,220001,22000000,22000000,INEXIGIBILIDADE,O presente contrato tem por objetivo a contrat...,CONTRATO,20211111.1190722.Integra.CONTRATO.pdf,...,2021-11-11T00:00:00.000-03:00,SINDICATO DAS EMPRESAS DE TRANSPORTES DE PAS...,202624,2022-09-21,2022-05-10T00:00:00.000-03:00,2021-11-10T00:00:00.000-03:00,,False,WESLEY CAVALCANTE MELO,
2,378018,240001,318374,241521,24200364,24000000,PREGÃO,AQUISIÇÃO DE FILMES RADIOLÓGICOS PARA O IPC.,CONTRATO,20200623.1124263.Integra.CONTRATO.pdf,...,2020-06-26T00:00:00.000-03:00,CARESTREAM DO BRASIL COMERCIO E SERVIÇOS DE PR...,203041,2022-09-16,2021-06-18T00:00:00.000-03:00,2020-06-18T00:00:00.000-03:00,,False,,
3,518156,241331,2619,241331,24200224,24000000,PREGÃO,RECURSO DESTINADO AQUISIÇÃO DE MATERIAL DE LAB...,DESPESA.SEM.INSTRUMENTO.CONTRATUAL,Sem Íntegra,...,2023-08-22T13:53:26.000-03:00,IMPORTEC IMPORTADORA CEARENSE LTDA,321253,2023-08-22,2023-12-31T00:00:00.000-03:00,2023-06-29T00:00:00.000-03:00,,False,,
4,443599,240001,126835,240401,24200004,24000000,PREGÃO,AQUISIÇÃO DE XMTVI MAXAMAID PARA ATENDER DEMAN...,DESPESA.SEM.INSTRUMENTO.CONTRATUAL,Sem Íntegra,...,2022-10-21T13:49:50.000-03:00,ART MEDICA COM E REP PROD HOST LTDA,203041,2023-01-18,2022-12-31T00:00:00.000-03:00,2022-02-15T00:00:00.000-03:00,,False,,


In [20]:
#Consultando as 5 primeiras linhas.
df_convenios.head(5)

Unnamed: 0,id,cod_concedente,cod_financiador,cod_gestora,cod_orgao,cod_secretaria,decricao_modalidade,descricao_objeto,descricao_tipo,descricao_url,...,data_publicacao_doe,descricao_nome_credor,isn_parte_origem,data_auditoria,data_termino_original,data_inicio,data_rescisao,confidential,gestor_contrato,data_finalizacao_prestacao_contas
0,197593,240001,860040,240401,24200004,24000000,USO INTERNO,Celebrar Termo de Ajuste com a Prefeitura Muni...,TERMO.AJUSTE,2010624.632222.Integra.TERMO.AJUSTE.pdf,...,2010-06-29T00:00:00.000-03:00,PREF MUNIC DE CASCAVEL,203041,2024-04-06,2010-12-31T00:00:00.000-03:00,2010-06-23T00:00:00.000-03:00,,False,MANOEL FRANCISCO DE CARVALHO LOPES,
1,442708,81401,860047,81401,43200007,43000000,USO INTERNO,Pavimentação Asfáltica no Município de Chorozi...,CONVENIO.DESPESA,20211223.1197033.Integra.CONVENIO.DESPESA.pdf,...,2022-01-04T00:00:00.000-03:00,PREF MUNIC DE CHOROZINHO,660288,2024-04-08,2022-12-22T00:00:00.000-03:00,2021-12-22T00:00:00.000-03:00,,False,,2023-08-31
2,445357,81401,860030,81401,43200007,43000000,USO INTERNO,Pavimentação em Pedra Tosca no Município de Br...,CONVENIO.DESPESA,20220314.1201834.Integra.CONVENIO.DESPESA.pdf,...,2022-04-08T00:00:00.000-03:00,PREF MUNIC DE BREJO SANTO,660288,2024-04-08,2023-03-10T00:00:00.000-03:00,2022-03-10T00:00:00.000-03:00,,False,,
3,484742,270001,881196,270401,27200004,27000000,USO INTERNO,Constitui objeto do presente TERMO DE EXECUÇÃO...,CONVENIO.DESPESA,20221111.1245332.Integra.CONVENIO.DESPESA.pdf,...,2022-11-17T00:00:00.000-03:00,FRANCISCO ELIEZIO PEREIRA LIMA,203134,2024-04-08,2023-11-11T00:00:00.000-03:00,2022-11-11T00:00:00.000-03:00,,False,FABIANO DOS SANTOS,
4,236189,80101,860083,80101,8200001,8000000,USO INTERNO,Construção de uma passagem molhada sobre o Rio...,CONVENIO.DESPESA,2009128.478857.Convenio.pdf,...,2009-12-17T00:00:00.000-03:00,PREF MUNIC DE ITAPAJE,202525,2024-04-06,2010-02-28T00:00:00.000-03:00,2009-12-03T00:00:00.000-03:00,,False,,


In [21]:
#Consultando as 5 ultimas linhas.
df_contratos.tail(5)

Unnamed: 0,id,cod_concedente,cod_financiador,cod_gestora,cod_orgao,cod_secretaria,decricao_modalidade,descricao_objeto,descricao_tipo,descricao_url,...,data_publicacao_doe,descricao_nome_credor,isn_parte_origem,data_auditoria,data_termino_original,data_inicio,data_rescisao,confidential,gestor_contrato,data_finalizacao_prestacao_contas
9995,154214,310501,355520,310501,31200005,31000000,CONCURSO,Ampliar o índice de inovação tecnológica das e...,CONTRATO.SUBVENCAO,20120518.821780.Integra.CONTRATO.SUBVENCAO.pdf,...,2012-05-31T00:00:00.000-03:00,VERDE TECNOLOGIA LTDA,203194,2022-09-16,2014-04-12T00:00:00.000-03:00,2012-04-13T00:00:00.000-03:00,,False,HAROLDO RODRIGUES DE ALBUQUERQUE JUNIOR,
9996,483739,228252,797884,220001,22000000,22000000,CARTA CONVITE,AQUISIÇÃO DE MATERIAL DE COPA E COZINHA E PROL...,CONTRATO,20221026.1241298.Integra.CONTRATO.pdf,...,2022-11-10T00:00:00.000-03:00,ZILFRANIO A DE SOUSA,89299,2023-10-10,2023-10-09T00:00:00.000-03:00,2022-10-10T00:00:00.000-03:00,,False,CLAUDENIA SOARES DE SOUSA CASTRO,
9997,291410,241281,824058,241281,24200184,24000000,PREGÃO,AQUISIÇÃO DE MEDICAMENTO PARA O HOSPITAL GERAL...,DESPESA.SEM.INSTRUMENTO.CONTRATUAL,Sem Íntegra,...,2020-03-11T09:00:34.000-03:00,NDS DISTRIBUIDORA DE MEDICAMENTOS LTDA,321261,2022-09-16,2018-12-31T00:00:00.000-03:00,2018-07-04T00:00:00.000-03:00,,False,,
9998,459264,241281,6841,241281,24200184,24000000,PREGÃO,"AQUISIÇÃO DE MATERIAL MÉDICO HOSPITALAR, PARA ...",DESPESA.SEM.INSTRUMENTO.CONTRATUAL,Sem Íntegra,...,2023-03-09T10:38:17.000-03:00,POINT SUTURE DO BRASIL INDUSTRIA DE FIOS CIRUR...,321261,2023-03-09,2022-12-31T00:00:00.000-03:00,2022-05-27T00:00:00.000-03:00,,False,,
9999,474494,100601,901725,100606,10200006,10000000,PREGÃO,Aquisição de 40 (quarenta) aeronaves remotamen...,CONTRATO,20220909.1228261.Integra.CONTRATO.pdf,...,2022-09-14T00:00:00.000-03:00,DT OFFICE - DISTRIBUIDOR DE ELETRONICOS EIRELI,411609,2023-04-25,2022-12-31T00:00:00.000-03:00,2022-09-09T00:00:00.000-03:00,,False,,


In [22]:
#Consultando as 5 ultimas linhas.
df_convenios.tail(5)

Unnamed: 0,id,cod_concedente,cod_financiador,cod_gestora,cod_orgao,cod_secretaria,decricao_modalidade,descricao_objeto,descricao_tipo,descricao_url,...,data_publicacao_doe,descricao_nome_credor,isn_parte_origem,data_auditoria,data_termino_original,data_inicio,data_rescisao,confidential,gestor_contrato,data_finalizacao_prestacao_contas
2495,443491,240001,860026,240401,24200004,24000000,USO INTERNO,REALIZAÇÃO DE PROCEDIMENTOS MEDICO HOSPITALARE...,CONVENIO.DESPESA,20220209.1198410.Integra.CONVENIO.DESPESA.pdf,...,2022-02-17T00:00:00.000-03:00,PREF MUNIC DE BATURITE,203041,2024-04-08,2023-02-09T00:00:00.000-03:00,2022-02-09T00:00:00.000-03:00,,False,,
2496,93033,300001,860022,300001,30000000,30000000,USO INTERNO,O presente convênio tem por objetivo geral o e...,CONVENIO.DESPESA,20140519.926405.Integra.CONVENIO.DESPESA.pdf,...,2014-05-21T00:00:00.000-03:00,PREF MUNIC DE BARBALHA,203172,2024-04-06,2014-07-14T00:00:00.000-03:00,2014-05-16T00:00:00.000-03:00,,False,ANDRÉA DE SOUZA BRAGA,
2497,107133,240001,860036,240401,24200004,24000000,USO INTERNO,Aquisição de Ambulância para o município de Ca...,TERMO.AJUSTE,20180425.1042384.Integra.TERMO.AJUSTE.PDF,...,2018-05-08T00:00:00.000-03:00,PREF MUNIC DE CARIRE,203041,2024-04-08,2019-02-18T00:00:00.000-03:00,2018-04-24T00:00:00.000-03:00,,False,,2019-11-28
2498,159126,270001,860022,270401,27200004,27000000,USO INTERNO,"Constitui objeto do presente Convênio, que o E...",CONVENIO.DESPESA,20120423.818020.Integra.CONVENIO.DESPESA.pdf,...,2012-05-03T00:00:00.000-03:00,PREF MUNIC DE BARBALHA,203134,2024-04-06,2012-06-30T00:00:00.000-03:00,2012-02-17T00:00:00.000-03:00,,False,FABRÍCIO VIDAL DE LIMA,
2499,149962,430001,860183,430001,43000000,43000000,USO INTERNO,Firmar Temo de Ajuste com a Prefeitura de Groa...,TERMO.AJUSTE,20120621.830896.Integra.TERMO.AJUSTE.pdf,...,2012-07-06T00:00:00.000-03:00,PREF MUNIC DE GROAIRAS,203478,2024-04-06,2013-06-05T00:00:00.000-03:00,2012-06-05T00:00:00.000-03:00,,False,JOSÉ VAGNER MACHADO,


In [23]:
df_convenios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2500 entries, 0 to 2499
Data columns (total 60 columns):
 #   Column                             Non-Null Count  Dtype 
---  ------                             --------------  ----- 
 0   id                                 2500 non-null   int64 
 1   cod_concedente                     2500 non-null   object
 2   cod_financiador                    2500 non-null   object
 3   cod_gestora                        2500 non-null   object
 4   cod_orgao                          2500 non-null   object
 5   cod_secretaria                     2500 non-null   object
 6   decricao_modalidade                2500 non-null   object
 7   descricao_objeto                   2500 non-null   object
 8   descricao_tipo                     2500 non-null   object
 9   descricao_url                      2499 non-null   object
 10  data_assinatura                    2500 non-null   object
 11  data_processamento                 2500 non-null   object
 12  data_t

In [24]:
df_contratos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 60 columns):
 #   Column                             Non-Null Count  Dtype 
---  ------                             --------------  ----- 
 0   id                                 10000 non-null  int64 
 1   cod_concedente                     10000 non-null  object
 2   cod_financiador                    10000 non-null  object
 3   cod_gestora                        10000 non-null  object
 4   cod_orgao                          10000 non-null  object
 5   cod_secretaria                     10000 non-null  object
 6   decricao_modalidade                10000 non-null  object
 7   descricao_objeto                   10000 non-null  object
 8   descricao_tipo                     10000 non-null  object
 9   descricao_url                      10000 non-null  object
 10  data_assinatura                    10000 non-null  object
 11  data_processamento                 10000 non-null  object
 12  data_

In [25]:
# Contagem de valores nulos para cada coluna em df_convenios
nulos_convenios = df_convenios.isnull().sum()
print("Contagem de valores NULOS em cada coluna de df_convenios:")
print(nulos_convenios)

Contagem de valores NULOS em cada coluna de df_convenios:
id                                      0
cod_concedente                          0
cod_financiador                         0
cod_gestora                             0
cod_orgao                               0
cod_secretaria                          0
decricao_modalidade                     0
descricao_objeto                        0
descricao_tipo                          0
descricao_url                           1
data_assinatura                         0
data_processamento                      0
data_termino                            0
flg_tipo                                0
isn_parte_destino                       0
isn_sic                                 0
num_spu                               285
valor_contrato                          0
isn_modalidade                          0
isn_entidade                            0
tipo_objeto                           761
num_spu_licitacao                    2500
descricao_justific

In [26]:
# Contagem de valores nulos para cada coluna em df_contratos
nulos_contratos = df_contratos.isnull().sum()
print("Contagem de valores NULOS em cada coluna de df_contratos:")
print(nulos_contratos)

Contagem de valores NULOS em cada coluna de df_contratos:
id                                       0
cod_concedente                           0
cod_financiador                          0
cod_gestora                              0
cod_orgao                                0
cod_secretaria                           0
decricao_modalidade                      0
descricao_objeto                         0
descricao_tipo                           0
descricao_url                            0
data_assinatura                          0
data_processamento                       0
data_termino                             0
flg_tipo                                 0
isn_parte_destino                        0
isn_sic                                  0
num_spu                                152
valor_contrato                           0
isn_modalidade                           0
isn_entidade                             0
tipo_objeto                            417
num_spu_licitacao                      

In [27]:
#Consulta de Duplicados - DF_CONTRATOS

# Definição das chaves únicas
colunas_chave_unica_contratos = ['cpf_cnpj_financiador', 'num_contrato', 'data_assinatura']

# Verificação de duplicatas
duplicadas_contratos = df_contratos.duplicated(subset=colunas_chave_unica_contratos, keep=False)

# Contagem das linhas duplicadas
quantidade_duplicadas_contratos = duplicadas_contratos.sum()

# Exibição da quantidade de linhas duplicadas
print("Quantidade de linhas duplicadas em df_contratos com base nas chaves únicas:")
print(quantidade_duplicadas_contratos)

Quantidade de linhas duplicadas em df_contratos com base nas chaves únicas:
1695


In [28]:
#Consulta de Duplicados - DF_CONVENIOS

# Definição das chaves únicas
colunas_chave_unica_contratos = ['cpf_cnpj_financiador', 'num_contrato', 'data_assinatura']

# Verificação de duplicatas
duplicadas_convenios = df_convenios.duplicated(subset=colunas_chave_unica_contratos, keep=False)

# Contagem das linhas duplicadas
quantidade_duplicadas_convenios = duplicadas_convenios.sum()

# Exibição da quantidade de linhas duplicadas
print("Quantidade de linhas duplicadas em df_convenios com base nas chaves únicas:")
print(quantidade_duplicadas_convenios)


Quantidade de linhas duplicadas em df_convenios com base nas chaves únicas:
9
