## Este notebook tem como objetivo validar se as colunas das Views em um banco SQL SERVER estão de acordo com o Dicionário de Dados baseado nas colunas dos Endpoints da API do Caravel

## Funcionamento:
##### A função "process_dataframes", realiza um left join entre o df que contém os metadados da tabela do banco com o df do dicionário de dados através da coluna que representa o nome das colunas de ambos os dataframes("column_name"). Após o join é retornado as colunas correspondentes do dicionário de dados que são (nome de coluna, tipo de dado e se é null ou não). A partir da obtenção dessas informaçãoes é realizado a validação dos metadados. Também é apresentado as colunas que estão no dicionário de dados mas não foram encontradas na tabela do banco, seja por não existirem ou por terem nomes diferentes entre si.

## Pré-Requisitos:
##### Os dicionários de dados devem ter uma tabela com as seguintes colunas: "column_name", "data_type" e "is_nullable" para realização dos join e validações.

## Regras adicionais aplicadas:
##### Durante a validação da tabela do banco, os tipos de dados (char, varchar, text, nchar, nvarchar e ntext) são consolidados como varchar.
##### Durante a validação da tabela do banco, os tipos de dados (bigint, numeric, smallint, int e numeric) são consolidados como int.
##### Obs: É possível ver essa consolidação na coluna "dtype_consolidado"

In [1]:
!pip install psycopg2-binary
!pip install rich



# Import libs

In [2]:
from sqlalchemy import create_engine
import pandas as pd
from valida_sql_v1_2 import DataFrameProcessor

# Inicialize a instância do console Rich
#console = Console()

# Seta limite de linhas
pd.set_option('display.max_rows',60)

# Defina a função para aplicar a cor verde ao texto 'OK'
#def neg_vermelho(val):
#    color = 'green' if val == 'OK' else 'red'
#    return 'color: {0!s}'.format(color)

# Variáveis de conexão do banco

In [3]:
#LEITURA VIEW BANCO
# Configurações de conexão com o banco de dados
user = 'postgres'
password = 'password'
host = 'postgres'
port = '5432'  # Porta padrão do PostgreSQL
database = 'prova'

# Cria a string de conexão
connection_string = f'postgresql://{user}:{password}@{host}:{port}/{database}'

# Cria a engine de conexão
engine = create_engine(connection_string)

# Execução da Função Exemplo 1

In [4]:
#Parâmetros para leitura do Dicionário
file_name = "/home/jovyan/notebooks/Validação estrutura/a.xlsx"  # Caminho do arquivo Excel - dicionário de dados
sheet_name = 'a' #Aba do arquivo Excel - dicionário de dados

#Parâmetros para leitura da tabela do banco
schema = 'public' #Schema do tabeal do banco
nome_tabela = 'fato_avaliacoes' #Nome da tabela do banco

# Execução da Função. Recebe file_name, sheet_name, schema, nome_tabela e engine
processor = DataFrameProcessor(file_name, sheet_name, schema, nome_tabela,engine)

# Chama os métodos para processar os dataframes
processor.read_excel_to_df() #Leitura do dicionário
processor.execute_sql_to_df() #Comandos de leitura da tabela do banco
processor.process_dataframes() #Retorno dos dataframes para exibição

Nome da aba do dicionário de dados: a
Schema da tabela do banco: public
Nome da Tabela: fato_avaliacoes
Hora e data: 2024-02-13 16:29:23.534603-03:00


Unnamed: 0,column_name,Metadados coerentes com dicionário?,Observação
0,id_turma,Sim,OK
1,id_disciplina,Sim,OK
2,data_avaliacao,Sim,OK
3,titulo,Sim,OK


Unnamed: 0,column_name,data_type,is_nullable
0,a,int,NO
1,b,int,NO
2,a,int,NO
3,e,int,NO
4,f,text,YES


Unnamed: 0,id_turma,id_disciplina,data_avaliacao,titulo
0,2,203,2021-03-10,AV-EE-10-3-2021
1,4,404,2021-03-04,AV-PE-4-3-2021
2,1,103,2021-06-16,AV-SO-16-6-2021
3,2,203,2021-04-14,AV-EE-14-4-2021
4,2,201,2021-04-19,AV-GF-19-4-2021


Unnamed: 0,column_name,data_type,is_nullable,dtype_consolidado,dic_column_name,dic_data_type,dic_is_nullable,coluna_existente_no_dic?,tipagem_igual_dic?,null_igual_dic?
0,id_turma,bigint,YES,int,id_turma,int,YES,sim,sim,sim
1,id_disciplina,bigint,YES,int,id_disciplina,int,YES,sim,sim,sim
2,data_avaliacao,date,YES,date,data_avaliacao,date,YES,sim,sim,sim
3,titulo,text,YES,varchar,titulo,varchar,YES,sim,sim,sim


# Execução da Função Exemplo 2

In [5]:
#Paramêtros para leitura do Dicionário
file_name = "/home/jovyan/notebooks/Validação estrutura/a.xlsx"  # Caminho do arquivo Excel - dicionário de dados
sheet_name = 'b' #Aba do arquivo Excel - dicionário de dados

#Paramêtros para leitura da tabela do banco
schema = 'public' #Schema do tabeal do banco
nome_tabela = 'view_avaliacoes3' #Nome da tabela do banco

# Execução da Função. Recebe file_name, sheet_name, schema, nome_tabela e engine
processor = DataFrameProcessor(file_name, sheet_name, schema, nome_tabela,engine)

# Chama os métodos para processar os dataframes
processor.read_excel_to_df() #Leitura do dicionário
processor.execute_sql_to_df() #Comandos de leitura da tabela do banco
processor.process_dataframes() #Retorno dos dataframes para exibição

Nome da aba do dicionário de dados: b
Schema da tabela do banco: public
Nome da Tabela: view_avaliacoes3
Hora e data: 2024-02-13 16:29:30.247712-03:00


Unnamed: 0,column_name,Metadados coerentes com dicionário?,Observação
0,id_turma,Não,Tipagem ou nullable diferentes do dicionário
1,id_disciplina,Não,Não encontrada no dicionário
2,data_avaliacao,Sim,OK
3,titulo,Sim,OK


Unnamed: 0,column_name,data_type,is_nullable
0,a,int,YES


Unnamed: 0,id_turma,id_disciplina,data_avaliacao,titulo
0,2,203,2021-03-10,AV-EE-10-3-2021
1,4,404,2021-03-04,AV-PE-4-3-2021
2,1,103,2021-06-16,AV-SO-16-6-2021
3,2,203,2021-04-14,AV-EE-14-4-2021
4,2,201,2021-04-19,AV-GF-19-4-2021


Unnamed: 0,column_name,data_type,is_nullable,dtype_consolidado,dic_column_name,dic_data_type,dic_is_nullable,coluna_existente_no_dic?,tipagem_igual_dic?,null_igual_dic?
0,id_turma,bigint,YES,int,id_turma,text,YES,sim,não,sim
1,id_disciplina,bigint,YES,int,,,,não,não,não
2,data_avaliacao,date,YES,date,data_avaliacao,date,YES,sim,sim,sim
3,titulo,text,YES,varchar,titulo,varchar,YES,sim,sim,sim
