In [7]:
from sqlalchemy import create_engine
import pandas as pd
import logging

In [8]:
# Configuração de logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

In [9]:
# Conexão com o banco de dados
engine = create_engine('postgresql://airflow:airflow@127.0.0.1:5432/airflow', echo=False)

In [None]:
# Função para criar DataFrame a partir de uma tabela no PostgreSQL, incluindo o esquema
def criar_dataframe(nome_tabela, engine, schema='stage'):
    query = f"SELECT * FROM {schema}.{nome_tabela};"
    try:
        df = pd.read_sql_query(query, engine)
        logging.info(f"DataFrame criado para a tabela {schema}.{nome_tabela} com {len(df)} linhas.")
        return df
    except Exception as e:
        logging.error(f"Erro ao criar DataFrame da tabela {schema}.{nome_tabela}: {e}")
        return pd.DataFrame()

if __name__ == "__main__":
    # Criar DataFrames para as tabelas 'contratos' e 'convenios' no esquema 'stage'
    df_contratos = criar_dataframe('contratos', engine, 'stage')
    df_convenios = criar_dataframe('convenios', engine, 'stage')

In [None]:
#Consultando as 5 primeiras linhas.
df_contratos.head(5)

In [None]:
#Consultando as 5 primeiras linhas.
df_convenios.head(5)

In [None]:
#Consultando as 5 ultimas linhas.
df_contratos.tail(5)

In [None]:
#Consultando as 5 ultimas linhas.
df_convenios.tail(5)

In [None]:
df_convenios.info()

In [None]:
df_contratos.info()

In [None]:
# Contagem de valores nulos para cada coluna em df_convenios
nulos_convenios = df_convenios.isnull().sum()
print("Contagem de valores NULOS em cada coluna de df_convenios:")
print(nulos_convenios)

In [None]:
# Contagem de valores nulos para cada coluna em df_contratos
nulos_contratos = df_contratos.isnull().sum()
print("Contagem de valores NULOS em cada coluna de df_contratos:")
print(nulos_contratos)

In [None]:
#Consulta de Duplicados - DF_CONTRATOS

# Definição das chaves únicas
colunas_chave_unica_contratos = ['cpf_cnpj_financiador', 'num_contrato', 'data_assinatura']

# Verificação de duplicatas
duplicadas_contratos = df_contratos.duplicated(subset=colunas_chave_unica_contratos, keep=False)

# Exibição das linhas duplicadas
print("Linhas duplicadas em df_contratos com base nas chaves únicas:")
print(df_contratos[duplicadas_contratos])

In [None]:
#Consulta de Duplicados - DF_CONVENIOS

# Definição das chaves únicas
colunas_chave_unica_convenios = ['cpf_cnpj_financiador', 'num_contrato', 'data_assinatura']

# Verificação de duplicatas
duplicadas_convenios = df_convenios.duplicated(subset=colunas_chave_unica_convenios, keep=False)

# Exibição das linhas duplicadas
print("Linhas duplicadas em df_convenios com base nas chaves únicas:")
print(df_convenios[duplicadas_convenios])
