# **ANÁLISE BANCO DE DADOS CORPORATIVO**

### **IMPORTAÇÃO DAS BIBLIOTECAS**

In [8]:
# Importando as bibliotecas
import pandas as pd
import psycopg2
from prettytable import PrettyTable
import traceback

___

### **CONEXÃO COM O BANCO DE DADOS NO POSTGRES**

In [12]:
# Connection parameters for PostgreSQL
host = '$$$$$$'
database = 'corporativo_db'
user = '$$$$$'
password = '$$$$'
port = '$$$$'

# Constructing the connection string
conn_str = f"host={host} port={port} dbname={database} user={user} password={password}"

try:
    # Establishing the connection
    conn = psycopg2.connect(conn_str)

    # Creating a cursor
    cursor = conn.cursor()

    # Testing the connection with a simple query (e.g., getting the PostgreSQL version)
    cursor.execute("SELECT version();")
    row = cursor.fetchone()

    # Printing the result
    if row:
        print("Connected successfully. PostgreSQL version:", row[0])
    else:
        print("Connected successfully. No results returned.")

except Exception as e:
    print(f"Error connecting to the database: {e}")

finally:
    # Closing the cursor and connection
    cursor.close()
    conn.close()


Connected successfully. PostgreSQL version: PostgreSQL 13.14 (Debian 13.14-1.pgdg120+2) on x86_64-pc-linux-gnu, compiled by gcc (Debian 12.2.0-14) 12.2.0, 64-bit


In [14]:
#Carregando a extensão
%load_ext sql

In [18]:
#Conectando o banco
%sql postgresql://postgres:&&&&&&&@$$$$$$:&&&&/corporativo_db

___

### **ANALISANDO AS INFORMAÇÕES DO BANCO DE DADOS**

##### SELECT

In [19]:
#Select geral para saber as tabelas do SCHEMA PUBLIC;

%sql SELECT table_name FROM information_schema.tables WHERE table_schema = 'geral';

 * postgresql://postgres:***@&&&&&&&:$$$$$/corporativo_db
12 rows affected.


table_name
estado
contato
tipo_contato
cidade
pessoa_fisica
pessoa_juridica
responsavel_juridico
vi_pessoa_fisica
vi_pessoa_juridica
pessoa


In [21]:
#Select geral para saber as tabelas do SCHEMA PUBLIC;

%sql SELECT table_name FROM information_schema.tables WHERE table_schema = 'rh';

 * postgresql://postgres:***@+++++:&&&&/corporativo_db
5 rows affected.


table_name
cargo
lotacao
departamento
escolaridade
funcionario


In [22]:
#Select geral para saber as tabelas do SCHEMA PUBLIC;

%sql SELECT table_name FROM information_schema.tables WHERE table_schema = 'vendas';

 * postgresql://postgres:***@++++++:++++/corporativo_db
5 rows affected.


table_name
categoria
produto
forma_pagamento
nota_fiscal
item_nota_fiscal


##### TIPOS DE DADOS E AS COLUNAS

In [23]:
#Consultando os tipos de dados e as colunas de cada tabela.
%sql SELECT table_name, column_name, data_type FROM information_schema.columns WHERE table_schema = 'geral';

 * postgresql://postgres:***@++++++:+++++/corporativo_db
45 rows affected.


table_name,column_name,data_type
vi_pessoa_juridica,id,integer
cidade,descricao,text
bairro,id,integer
pessoa_fisica,id,integer
pessoa_fisica,nascimento,timestamp with time zone
pessoa,id,integer
endereco,id_pessoa,integer
estado,descricao,text
vi_pessoa_juridica,cidade,text
tipo_contato,id,integer


In [25]:
#Consultando os tipos de dados e as colunas de cada tabela.
%sql SELECT table_name, column_name, data_type FROM information_schema.columns WHERE table_schema = 'rh';

 * postgresql://postgres:***@+++++:????/corporativo_db
20 rows affected.


table_name,column_name,data_type
departamento,id,integer
lotacao,data_cadastro,timestamp with time zone
funcionario,id_pessoa,integer
departamento,sigla,text
escolaridade,codigo,text
cargo,id,integer
funcionario,pcd,boolean
lotacao,id_cargo,integer
escolaridade,id,integer
lotacao,id_funcionario,integer


In [26]:
#Consultando os tipos de dados e as colunas de cada tabela.
%sql SELECT table_name, column_name, data_type FROM information_schema.columns WHERE table_schema = 'vendas';

 * postgresql://postgres:***@+++++:++++/corporativo_db
22 rows affected.


table_name,column_name,data_type
categoria,descricao,text
item_nota_fiscal,id_produto,integer
nota_fiscal,numero_nf,text
produto,valor_venda,numeric
nota_fiscal,id_cliente,integer
produto,id_fornecedor,integer
nota_fiscal,total,numeric
item_nota_fiscal,valor_venda_real,numeric
nota_fiscal,id_forma_pagto,integer
nota_fiscal,id,integer


##### VALORES NULOS

In [27]:
#Trás todos os registros com valores nulos
%sql SELECT c.table_name, c.column_name, t.* FROM information_schema.columns c JOIN information_schema.tables t ON c.table_name = t.table_name WHERE c.table_schema = 'geral' AND c.is_nullable = 'YES';

 * postgresql://postgres:***@+++++:++++/corporativo_db
15 rows affected.


table_name,column_name,table_catalog,table_schema,table_name_1,table_type,self_referencing_column_name,reference_generation,user_defined_type_catalog,user_defined_type_schema,user_defined_type_name,is_insertable_into,is_typed,commit_action
tipo_contato,sigla,corporativo_db,geral,tipo_contato,BASE TABLE,,,,,,YES,NO,
pessoa_fisica,nascimento,corporativo_db,geral,pessoa_fisica,BASE TABLE,,,,,,YES,NO,
vi_pessoa_fisica,id,corporativo_db,geral,vi_pessoa_fisica,VIEW,,,,,,NO,NO,
vi_pessoa_fisica,nome,corporativo_db,geral,vi_pessoa_fisica,VIEW,,,,,,NO,NO,
vi_pessoa_fisica,bairro,corporativo_db,geral,vi_pessoa_fisica,VIEW,,,,,,NO,NO,
vi_pessoa_fisica,cidade,corporativo_db,geral,vi_pessoa_fisica,VIEW,,,,,,NO,NO,
vi_pessoa_fisica,sigla,corporativo_db,geral,vi_pessoa_fisica,VIEW,,,,,,NO,NO,
vi_pessoa_juridica,id,corporativo_db,geral,vi_pessoa_juridica,VIEW,,,,,,NO,NO,
vi_pessoa_juridica,razao_social,corporativo_db,geral,vi_pessoa_juridica,VIEW,,,,,,NO,NO,
vi_pessoa_juridica,bairro,corporativo_db,geral,vi_pessoa_juridica,VIEW,,,,,,NO,NO,


In [28]:
#Trás todos os registros com valores nulos
%sql SELECT c.table_name, c.column_name, t.* FROM information_schema.columns c JOIN information_schema.tables t ON c.table_name = t.table_name WHERE c.table_schema = 'rh' AND c.is_nullable = 'YES';

 * postgresql://postgres:***@++++:++++/corporativo_db
4 rows affected.


table_name,column_name,table_catalog,table_schema,table_name_1,table_type,self_referencing_column_name,reference_generation,user_defined_type_catalog,user_defined_type_schema,user_defined_type_name,is_insertable_into,is_typed,commit_action
lotacao,data_desligamento,corporativo_db,rh,lotacao,BASE TABLE,,,,,,YES,NO,
lotacao,salario,corporativo_db,rh,lotacao,BASE TABLE,,,,,,YES,NO,
departamento,sigla,corporativo_db,rh,departamento,BASE TABLE,,,,,,YES,NO,
escolaridade,codigo,corporativo_db,rh,escolaridade,BASE TABLE,,,,,,YES,NO,


In [29]:
#Trás todos os registros com valores nulos
%sql SELECT c.table_name, c.column_name, t.* FROM information_schema.columns c JOIN information_schema.tables t ON c.table_name = t.table_name WHERE c.table_schema = 'vendas' AND c.is_nullable = 'YES';

 * postgresql://postgres:***@+++++:++++/corporativo_db
2 rows affected.


table_name,column_name,table_catalog,table_schema,table_name_1,table_type,self_referencing_column_name,reference_generation,user_defined_type_catalog,user_defined_type_schema,user_defined_type_name,is_insertable_into,is_typed,commit_action
nota_fiscal,numero_nf,corporativo_db,vendas,nota_fiscal,BASE TABLE,,,,,,YES,NO,
nota_fiscal,total,corporativo_db,vendas,nota_fiscal,BASE TABLE,,,,,,YES,NO,


##### **RESULTADO DA ANÁLISE** - Existem muitos Nulos nas tabelas e sem duplicados.

___

### **ESTRUTURA DO DATA WAREHOUSE**

#### As **dimensões** e **fato** serão criadas pelo **PENTAHO**, mas a baixo tem a modelagem que será utilizada como base para montar o KTR.

##### Dimensões e Fatos

##### Banco de Dados `corporativo_dw` e schema `public`

**Dimensão Estado - dim_estado** 
- `id_estado`: SERIAL PRIMARY KEY
- `sigla`: TEXT
- `descricao`: TEXT

**Dimensão Cidade - dim_cidade** 
- `id_cidade`: SERIAL PRIMARY KEY
- `id_estado`: INTEGER, FOREIGN KEY REFERENCES `dim_estado(id_estado)`
- `descricao`: TEXT

**Dimensão Bairro - dim_bairro** 
- `id_bairro`: SERIAL PRIMARY KEY
- `id_cidade`: INTEGER, FOREIGN KEY REFERENCES `dim_cidade(id_cidade)`
- `descricao`: TEXT

**Dimensão Endereço - dim_endereco** 
- `id_endereco`: SERIAL PRIMARY KEY
- `id_bairro`: INTEGER, FOREING KEY REFERENCES  `dim_bairro(bairro)`
- `rua`: TEXT
- `numero`: TEXT
- `cep`: TEXT
- `complemento`: TEXT
- `id_cidade`: INTEGER, FOREIGN KEY REFERENCES `dim_cidade(id_cidade)` -- Alteração posterior
- `id_estado`: INTEGER, FOREIGN KEY REFERENCES `dim_estado(id_estado)` -- Alteração posterior

**Dimensão Contato**
- `id_contato`: SERIAL PRIMARY KEY
- `descricao`: TEXT
- `principal`: BOOLEAN
- `sigla`: TEXT
- `valor`: TEXT
- `data_cadastro`: TIMESTAMP WITH TIME ZONE
- *Associar a `pessoa_fisica_id` ou `pessoa_juridica_id` conforme necessário.*

**Dimensão Pessoa Física**
- `pessoa_fisica_id`: SERIAL PRIMARY KEY
- `nome`: TEXT
- `cpf`: TEXT UNIQUE
- `nascimento`: TIMESTAMP WITH TIME ZONE
- `id_contato`: TIMESTAMP WITH TIME ZONE
- `endereco_id`: INTEGER, FOREIGN KEY REFERENCES `dim_endereco(endereco_id)`

**Dimensão Pessoa Jurídica**
- `pessoa_juridica_id`: SERIAL PRIMARY KEY
- `razao_social`: TEXT
- `cnpj`: TEXT UNIQUE
- `id_contato`: TIMESTAMP WITH TIME ZONE
- `endereco_id`: INTEGER, FOREIGN KEY REFERENCES `dim_endereco(endereco_id)`

**Dimensão Cargo - dim_cargo** 
- `id_cargo`: SERIAL PRIMARY KEY
- `descricao`: TEXT

**Dimensão Departamento - dim_departamento** 
- `id_departamento`: SERIAL PRIMARY KEY
- `descricao`: TEXT
- `sigla`: TEXT

**Dimensão Escolaridade - dim_escolaridade** 
- `id_escolaridade`: SERIAL PRIMARY KEY
- `descricao`: TEXT
- `codigo`: TEXT

**Dimensão Funcionário - dim_funcionario** 
- `id_funcionario`: INTEGER PRIMARY KEY
- `id_pessoa`: INTERGER
- `id_escolaridade`: INTEGER, FOREIGN KEY REFERENCES `dim_escolaridade(id_escolaridade)`
- `pretensao_salarial`: NUMERIC
- `nome`: TEXT
- `pcd`: BOOLEAN
- `id_cargo`: INTEGER, FOREIGN KEY REFERENCES `dim_cargo(id_cargo)`
- `id_departamento`: INTEGER, FOREIGN KEY REFERENCES `dim_departamento(id_departamento)`
- `data_cadastro`: TIMESTAMP WITH TIME ZONE
- `data_desligamento`: TIMESTAMP WITH TIME ZONE
- `salario`: NUMERIC

**Dimensão Categoria - dim_categoria** y
- `id_categoria`: SERIAL PRIMARY KEY
- `descricao`: TEXT

**Dimensão Forma Pagamento - dim_forma_pagamento** y
- `id_forma_pagamento`: SERIAL PRIMARY KEY
- `descricao`: TEXT

**Dimensão Produto - dim_produto**  y
- `id_produto`: SERIAL PRIMARY KEY
- `id_fornecedor`: INTEGER -- não existe tabela fornecedor então não tem fk.
- `id_categoria`: INTEGER, FOREIGN KEY REFERENCES `dim_categoria(id_categoria)`
- `nome`: TEXT
- `valor_venda`: NUMERIC
- `valor_custo`: NUMERIC

**Fato Vendas - fato_vendas** y
- `id_produto`: INTEGER, FOREIGN KEY REFERENCES `dim_produto(produto_id)`
- `id_nota_fiscal`: INTEGER
- `quantidade`: INTEGER
- `valor_venda_real`: NUMERIC
- `id_funcionario`: INTEGER, FOREIGN KEY REFERENCES `dim_funcionario(id_funcionario)`
- `id_pessoa_juridica`: INTEGER, FOREIGN KEY REFERENCES `dim_pessoa_juridica(id_pessoa_juridica)`
- `id_forma_pagamento`: INTEGER, FOREIGN KEY REFERENCES `dim_forma_pagamento(id_forma_pagamento)`
- `data_venda`: TIMESTAMP WITH TIME ZONE
- `numero_nf`: TEXT
- `total`: NUMERIC



---

### **TRANSFORMAÇÕES PENTAHO**

![GERAL](fluxo_schema_geral.png)


![RH](fluxo_schema_rh.png)

![VENDAS](fluxo_schema_venda.png)

**OBSERVAÇÃO** - O Data Warehouse foi modelado de acordo com as necessidades do projeto e informações disponíveis na base final.

### **JOB PENTAHO**

![Email](job_email.png)


**OBSERVAÇÃO** - quando você clica duas vezes no "Start" no seu job no Pentaho Data Integration, isso é usado para configurar o início da execução de um job, mas não para agendar execuções recorrentes dentro do próprio PDI. Isso significa que você pode definir um atraso para quando o job deve começar após ser acionado, mas não para agendá-lo para execução contínua ou periódica.

### **ENVIO EMAIL**

![Email2](e-mail.png)


**OBSERVAÇÃO** - No Pentaho não existe uma opção de agendar envios automáticos das transformações, você deve utilizar  a ferramenta Job Scheduler para isso ou de forma mais simplificada o agendador de tarefas do windows.

### **AGENDAMENTO DE ENVIOS AUTOMÁTICOS**

![agendamento](agendamento.png)


**OBSERVAÇÃO** - Agendamento feito para executar apenas 1 vez, no dia 19/03/2024 às 12:00. Apenas para registro da atividade.