# ANÁLISE BANCO DE DADOS NORTWIND 

In [9]:
# Importando as bibliotecas
import pandas as pd
import psycopg2
from prettytable import PrettyTable


In [10]:
# Connection parameters for PostgreSQL
host = 'localhost'
database = 'northwind'
user = 'postgres'
password = '1234'

# Constructing the connection string
conn_str = f"host={host} dbname={database} user={user} password={password}"

try:
    # Establishing the connection
    conn = psycopg2.connect(conn_str)

    # Creating a cursor
    cursor = conn.cursor()

    # Testing the connection with a simple query (e.g., getting the PostgreSQL version)
    cursor.execute("SELECT version();")
    row = cursor.fetchone()

    # Printing the result
    if row:
        print("Connected successfully. PostgreSQL version:", row[0])
    else:
        print("Connected successfully. No results returned.")

except Exception as e:
    print(f"Error connecting to the database: {e}")

finally:
    # Closing the cursor and connection
    cursor.close()
    conn.close()

Connected successfully. PostgreSQL version: PostgreSQL 15.3, compiled by Visual C++ build 1914, 64-bit


In [11]:
#Carregando a extensão
%load_ext sql

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


In [12]:
#Conectando o banco
%sql postgresql://postgres:1234@localhost/northwind

## ANALISANDO AS INFORMAÇÕES DO BANCO DE DADOS (GERAL) - TIPO DE DADOS, QUANTIDADE DE COLUNAS, INFORMAÇÕES DAS TABELAS, VALORES NULOS.

In [13]:
#Select geral para saber as tabelas do banco de dados.

%sql SELECT table_name FROM information_schema.tables WHERE table_schema = 'public';



 * postgresql://postgres:***@localhost/northwind
15 rows affected.


table_name
us_states
customers
orders
employees
shippers
products
order_details
categories
suppliers
region


In [14]:
#Consultando os tipos de dados e as colunas de cada tabela.
%sql SELECT table_name, column_name, data_type FROM information_schema.columns WHERE table_schema = 'public';


 * postgresql://postgres:***@localhost/northwind
103 rows affected.


table_name,column_name,data_type
orders,order_id,smallint
orders,employee_id,smallint
employees,photo,bytea
orders,order_date,date
employees,reports_to,smallint
employees,birth_date,date
shippers,shipper_id,smallint
employees,hire_date,date
orders,required_date,date
products,product_id,smallint


In [15]:
#Trás todos os registros com valores nulos
%sql SELECT c.table_name, c.column_name, t.* FROM information_schema.columns c JOIN information_schema.tables t ON c.table_name = t.table_name WHERE c.table_schema = 'public' AND c.is_nullable = 'YES';


 * postgresql://postgres:***@localhost/northwind
71 rows affected.


table_name,column_name,table_catalog,table_schema,table_name_1,table_type,self_referencing_column_name,reference_generation,user_defined_type_catalog,user_defined_type_schema,user_defined_type_name,is_insertable_into,is_typed,commit_action
categories,description,northwind,public,categories,BASE TABLE,,,,,,YES,NO,
categories,picture,northwind,public,categories,BASE TABLE,,,,,,YES,NO,
customer_demographics,customer_desc,northwind,public,customer_demographics,BASE TABLE,,,,,,YES,NO,
customers,contact_name,northwind,public,customers,BASE TABLE,,,,,,YES,NO,
customers,contact_title,northwind,public,customers,BASE TABLE,,,,,,YES,NO,
customers,address,northwind,public,customers,BASE TABLE,,,,,,YES,NO,
customers,city,northwind,public,customers,BASE TABLE,,,,,,YES,NO,
customers,region,northwind,public,customers,BASE TABLE,,,,,,YES,NO,
customers,postal_code,northwind,public,customers,BASE TABLE,,,,,,YES,NO,
customers,country,northwind,public,customers,BASE TABLE,,,,,,YES,NO,


# ANALISANDO 5 REGISTROS DE CADA TABELA - PARA UMA ANÁLISE GERAL

In [16]:
#Análise da Tabela us_states.
%sql SELECT * FROM us_states LIMIT 5;



 * postgresql://postgres:***@localhost/northwind
5 rows affected.


state_id,state_name,state_abbr,state_region
1,Alabama,AL,south
2,Alaska,AK,north
3,Arizona,AZ,west
4,Arkansas,AR,south
5,California,CA,west


In [17]:
#Análise da Tabela customers.
%sql SELECT * FROM customers LIMIT 5;



 * postgresql://postgres:***@localhost/northwind
5 rows affected.


customer_id,company_name,contact_name,contact_title,address,city,region,postal_code,country,phone,fax
ALFKI,Alfreds Futterkiste,Maria Anders,Sales Representative,Obere Str. 57,Berlin,,12209,Germany,030-0074321,030-0076545
ANATR,Ana Trujillo Emparedados y helados,Ana Trujillo,Owner,Avda. de la Constitución 2222,México D.F.,,05021,Mexico,(5) 555-4729,(5) 555-3745
ANTON,Antonio Moreno Taquería,Antonio Moreno,Owner,Mataderos 2312,México D.F.,,05023,Mexico,(5) 555-3932,
AROUT,Around the Horn,Thomas Hardy,Sales Representative,120 Hanover Sq.,London,,WA1 1DP,UK,(171) 555-7788,(171) 555-6750
BERGS,Berglunds snabbköp,Christina Berglund,Order Administrator,Berguvsvägen 8,Luleå,,S-958 22,Sweden,0921-12 34 65,0921-12 34 67


In [18]:
#Análise da Tabela orders.
%sql SELECT * FROM orders LIMIT 5;



 * postgresql://postgres:***@localhost/northwind
5 rows affected.


order_id,customer_id,employee_id,order_date,required_date,shipped_date,ship_via,freight,ship_name,ship_address,ship_city,ship_region,ship_postal_code,ship_country
10248,VINET,5,1996-07-04,1996-08-01,1996-07-16,3,32.38,Vins et alcools Chevalier,59 rue de l'Abbaye,Reims,,51100,France
10249,TOMSP,6,1996-07-05,1996-08-16,1996-07-10,1,11.61,Toms Spezialitäten,Luisenstr. 48,Münster,,44087,Germany
10250,HANAR,4,1996-07-08,1996-08-05,1996-07-12,2,65.83,Hanari Carnes,"Rua do Paço, 67",Rio de Janeiro,RJ,05454-876,Brazil
10251,VICTE,3,1996-07-08,1996-08-05,1996-07-15,1,41.34,Victuailles en stock,"2, rue du Commerce",Lyon,,69004,France
10252,SUPRD,4,1996-07-09,1996-08-06,1996-07-11,2,51.3,Suprêmes délices,"Boulevard Tirou, 255",Charleroi,,B-6000,Belgium


In [None]:

#Análise da Tabela employess - na consulta dá erro, por que o jupyter não consegue interpretar o tipo de dado da coluna photo, por ser uma coluna do tipo byte 
#fiz uma opção de contornar a situação na célula seguinte.
%sql SELECT * FROM employees LIMIT 5;



In [20]:
#Análise da Tabela shippers.
%sql SELECT * FROM shippers LIMIT 5;



 * postgresql://postgres:***@localhost/northwind
5 rows affected.


shipper_id,company_name,phone
1,Speedy Express,(503) 555-9831
2,United Package,(503) 555-3199
3,Federal Shipping,(503) 555-9931
4,Alliance Shippers,1-800-222-0451
5,UPS,1-800-782-7892


In [21]:
#Análise da Tabela productos.
%sql SELECT * FROM products LIMIT 5;



 * postgresql://postgres:***@localhost/northwind
5 rows affected.


product_id,product_name,supplier_id,category_id,quantity_per_unit,unit_price,units_in_stock,units_on_order,reorder_level,discontinued
1,Chai,8,1,10 boxes x 30 bags,18.0,39,0,10,1
2,Chang,1,1,24 - 12 oz bottles,19.0,17,40,25,1
3,Aniseed Syrup,1,2,12 - 550 ml bottles,10.0,13,70,25,0
4,Chef Anton's Cajun Seasoning,2,2,48 - 6 oz jars,22.0,53,0,0,0
5,Chef Anton's Gumbo Mix,2,2,36 boxes,21.35,0,0,0,1


In [22]:
#Análise da Tabela order_details.
%sql SELECT * FROM order_details LIMIT 5;



 * postgresql://postgres:***@localhost/northwind
5 rows affected.


order_id,product_id,unit_price,quantity,discount
10248,11,14.0,12,0.0
10248,42,9.8,10,0.0
10248,72,34.8,5,0.0
10249,14,18.6,9,0.0
10249,51,42.4,40,0.0


In [None]:
#Análise da Tabela categories - na consulta dá erro, por que o jupyter não consegue interpretar o tipo de dado da coluna picture.
%sql SELECT * FROM categories;



In [24]:

# Análise da Tabela categories - na coluna pictures, foi feito um coolasce e mudado o tipo de dado para texto, incluindo um valor, para trazer o resultado no console.
%sql SELECT category_id, category_name, description, COALESCE(picture::text, '') as picture FROM categories LIMIT 5;



 * postgresql://postgres:***@localhost/northwind
5 rows affected.


category_id,category_name,description,picture
1,Beverages,"Soft drinks, coffees, teas, beers, and ales",\x
2,Condiments,"Sweet and savory sauces, relishes, spreads, and seasonings",\x
3,Confections,"Desserts, candies, and sweet breads",\x
4,Dairy Products,Cheeses,\x
5,Grains/Cereals,"Breads, crackers, pasta, and cereal",\x


In [25]:

#Analise da Tabela suppliers
%sql SELECT * FROM suppliers LIMIT 5;


 * postgresql://postgres:***@localhost/northwind
5 rows affected.


supplier_id,company_name,contact_name,contact_title,address,city,region,postal_code,country,phone,fax,homepage
1,Exotic Liquids,Charlotte Cooper,Purchasing Manager,49 Gilbert St.,London,,EC1 4SD,UK,(171) 555-2222,,
2,New Orleans Cajun Delights,Shelley Burke,Order Administrator,P.O. Box 78934,New Orleans,LA,70117,USA,(100) 555-4822,,#CAJUN.HTM#
3,Grandma Kelly's Homestead,Regina Murphy,Sales Representative,707 Oxford Rd.,Ann Arbor,MI,48104,USA,(313) 555-5735,(313) 555-3349,
4,Tokyo Traders,Yoshi Nagase,Marketing Manager,9-8 Sekimai Musashino-shi,Tokyo,,100,Japan,(03) 3555-5011,,
5,Cooperativa de Quesos 'Las Cabras',Antonio del Valle Saavedra,Export Administrator,Calle del Rosal 4,Oviedo,Asturias,33007,Spain,(98) 598 76 54,,


In [26]:
#Analise da Tabela region
%sql SELECT * FROM region LIMIT 5;


 * postgresql://postgres:***@localhost/northwind
4 rows affected.


region_id,region_description
1,Eastern
2,Western
3,Northern
4,Southern


In [27]:
#Analise da Tabela territories
%sql SELECT * FROM territories LIMIT 5;


 * postgresql://postgres:***@localhost/northwind
5 rows affected.


territory_id,territory_description,region_id
1581,Westboro,1
1730,Bedford,1
1833,Georgetow,1
2116,Boston,1
2139,Cambridge,1


In [28]:
#Análise da Tabela employee_territories
%sql SELECT * FROM employee_territories LIMIT 5;


 * postgresql://postgres:***@localhost/northwind
5 rows affected.


employee_id,territory_id
1,6897
1,19713
2,1581
2,1730
2,1833


In [29]:
# Análise dos primeiros 5 registros da tabela 'customer_demographics'
# Esta consulta oferece uma visão preliminar dos dados demográficos dos clientes, destacando as características demográficas associadas a cada tipo de cliente.
%sql SELECT * FROM customer_demographics LIMIT 5;


 * postgresql://postgres:***@localhost/northwind
0 rows affected.


customer_type_id,customer_desc


In [30]:
# Análise dos primeiros 5 registros da tabela 'customer_customer_demo'

%sql SELECT * FROM customer_customer_demo LIMIT 5;

 * postgresql://postgres:***@localhost/northwind
0 rows affected.


customer_id,customer_type_id



O banco de dados **Northwind** serve como um exemplo clássico e amplamente utilizado para demonstrar conceitos de **bancos de dados relacionais**. Ele contém um conjunto rico de informações que abrangem várias áreas de um negócio de comércio, incluindo:

- **Pedidos**: Detalhes completos dos pedidos de vendas, incluindo datas de pedido, envio e detalhes do pedido.
- **Clientes**: Informações sobre os clientes que compram produtos da Northwind.
- **Funcionários**: Dados dos funcionários responsáveis pela gestão dos pedidos e interações com os clientes.
- **Produtos**: Catálogo de produtos que a Northwind oferece, incluindo detalhes sobre fornecedores e categorias.
- **Fornecedores**: Empresas que fornecem produtos para a Northwind, juntamente com informações de contato e endereço.

Este banco de dados é frequentemente usado para treinamento e prática de SQL, modelagem de dados, e técnicas de business intelligence (BI).


______________________________________________________________________________________________________________________________________________________________________________

## ESTRUTURA DIMENSIONAL ##

As tabelas dimensões e fatos serão criadas e modeladas, utilizando a ferramenta PENTAHO; Abaixo trago apenas a estrutura das tabelas para conhecimento e registro.

### Dimensões:

**DimCliente (`customers`):**
- `customer_id` (chave primária)
- `company_name`
- `contact_name`
- `contact_title`
- `address`
- `city`
- `region`
- `postal_code`
- `country`
- `phone`
- `fax`

**DimEmpregado (`employees`):**
- `employee_id` (chave primária)
- `last_name`
- `first_name`
- `title`
- `title_of_courtesy`
- `birth_date`
- `hire_date`
- `address`
- `city`
- `region`
- `postal_code`
- `country`
- `home_phone`
- `extension`
- `notes`
- `reports_to` (relaciona-se com `employee_id` para representar hierarquia)
- `photo_path`

**DimProduto (`products`):**
- `product_id` (chave primária)
- `product_name`
- `supplier_id`
- `category_id`
- `quantity_per_unit`
- `unit_price`
- `units_in_stock`
- `units_on_order`
- `reorder_level`
- `discontinued`

**DimFornecedor (`suppliers`):**
- `supplier_id` (chave primária)
- `company_name`
- `contact_name`
- `contact_title`
- `address`
- `city`
- `region`
- `postal_code`
- `country`
- `phone`
- `fax`
- `homepage`

**DimTransportadora (`shippers`):**
- `shipper_id` (chave primária)
- `company_name`
- `phone`

**DimCategoria (`categories`):**
- `category_id` (chave primária)
- `category_name`
- `description`

**DimRegiao (`region`, `territories`, `employee_territories`):**
- `region_id` (chave primária)
- `region_description`
- `territory_id`
- `territory_description`
- `employee_id`

**DimEstado (`us_states`):**
- `state_id` (chave primária)
- `state_name`
- `state_abbr`
- `state_region`


### Tabela de Fato: FatoPedido (`orders`, `order_details`)

- `order_id` (chave primária)
- `customer_id` (chave estrangeira para `DimCliente`)
- `employee_id` (chave estrangeira para `DimEmpregado`)
- `order_date`
- `required_date`
- `shipped_date`
- `ship_via` (chave estrangeira para `DimTransportadora`)
- `freight` (medida numérica)
- `shipping_id` (chave estrangeira para `DimShipping`)
- `product_id` (chave estrangeira para `DimProduto`)
- `unit_price` (medida numérica)
- `quantity` (medida numérica)
- `discount` (medida numérica)


### Relacionamentos:

- A tabela **FatoPedido** está ligada a todas as dimensões através das chaves estrangeiras correspondentes.
- **DimProduto** está ligada à **DimFornecedor** e à **DimCategoria** através das colunas `supplier_id` e `category_id`, respectivamente.
- **DimEmpregado** pode estar ligada a si mesma através da coluna `reports_to` para representar hierarquia ou relações de supervisão.


## MODELAGEM PENTAHO ##

![Transformacao_Pentaho](transformacao_pentaho.png)


# Resumo da Transformação no Pentaho Data Integration

A transformação descrita envolve um processo ETL (Extract, Transform, Load) para manipular dados de um sistema de banco de dados e carregar em um data warehouse estruturado, facilitando a análise e a geração de relatórios.

## Extração de Dados (Extract)

- **Table Input**: Vários steps para extrair dados das tabelas originais do banco de dados:
  - `customers`
  - `us_states`
  - `suppliers`
  - `categories`
  - `products`
  - `territories`
  - `region`
  - `employees`
  - `orders`
  - `order_details`
  - `shippers`

## Transformação de Dados (Transform)

- **Select Values**: Seleciona, renomeia ou converte colunas dos dados extraídos.
- **Sort Rows**: Ordena os dados por chaves relevantes para preparar para joins.
- **Merge Join**: Combina streams de dados para enriquecer informações de pedidos com dados adicionais.
- **If field value is null**: Verifica e trata campos com valores nulos.
- **Unique Rows**: Remove duplicatas para manter linhas únicas.
- **Add sequence**: Adiciona um identificador único ou sequência a alguma tabela.
- **Calculator**: Realiza cálculos em campos de dados.
- **Value Mapper**: Mapeia ou substitui valores de campos.

## Carregamento de Dados (Load)

- **Table Output**: Carrega dados transformados nas tabelas de dimensão e fato do data warehouse:
  - `dim_cliente`
  - `dim_estado`
  - `dim_fornecedor`
  - `dim_categoria`
  - `dim_produto`
  - `dim_regiao`
  - `dim_funcionario`
  - `fato_orders`
  - `dim_transportadora`
  - `dim_data`

Há um fluxo específico para tratar dados relacionados ao tempo (`dim_data`), provavelmente criando uma tabela de dimensão de tempo para análises temporais.

Essa transformação é uma operação típica em Business Intelligence (BI) e é crucial para preparar dados para análises avançadas e relatórios.


## ANALISES NO BANCO DIMENSIONAL - EXEMPLO DE CONSULTAS

### 1. Análise de Vendas Totais por Cliente

In [33]:
%sql SELECT c.company_name, ROUND(SUM(f.freight), 2) AS total_freight, ROUND(SUM(f.unit_price * f.quantity * (1 - f.discount)), 2) AS total_sales FROM dw.fato_orders f JOIN dw.dim_cliente c ON f.customer_id = c.customer_id GROUP BY  c.company_name ORDER BY  total_sales DESC;


 * postgresql://postgres:***@localhost/northwind
89 rows affected.


company_name,total_freight,total_sales
QUICK-Stop,20861.13,110277.31
Ernst Handel,24536.92,104874.98
Save-a-lot Markets,26533.85,104361.95
Rattlesnake Canyon Grocery,6775.19,51097.8
Hungry Owl All-Night Grocers,7214.49,49979.91
Hanari Carnes,1553.85,32841.37
Königlich Essen,3033.25,30908.38
Folk och fä HB,5310.94,29567.56
Mère Paillarde,4121.11,28872.19
White Clover Markets,4017.32,27363.61


### 2. Análise de Desempenho de Vendas por Produto


In [35]:
%sql SELECT p.product_name, SUM(f.quantity) AS units_sold, ROUND(SUM(f.quantity * f.unit_price * (1 - f.discount)), 2) AS total_sales FROM dw.fato_orders f JOIN dw.dim_produto p ON f.product_id = p.product_id GROUP BY p.product_name ORDER BY units_sold DESC;


 * postgresql://postgres:***@localhost/northwind
77 rows affected.


product_name,units_sold,total_sales
Camembert Pierrot,1577,46825.48
Raclette Courdavault,1496,71155.7
Gorgonzola Telino,1397,14920.88
Gnocchi di nonna Alice,1263,42593.06
Pavlova,1158,17215.78
Rhönbräu Klosterbier,1155,8177.49
Guaraná Fantástica,1125,4504.37
Boston Crab Meat,1103,17910.63
Tarte au sucre,1083,47234.97
Chang,1057,16355.96


### 3. Análise da Quantidade de Pedidos por Funcionário


In [38]:
%sql SELECT e.first_name || ' ' || e.last_name AS employee_name, COUNT(f.order_id) AS number_of_orders FROM dw.fato_orders f JOIN dw.dim_funcionario e ON f.employee_id = e.employee_id GROUP BY employee_name ORDER BY number_of_orders DESC;



 * postgresql://postgres:***@localhost/northwind
9 rows affected.


employee_name,number_of_orders
Margaret Peacock,420
Nancy Davolio,345
Janet Leverling,321
Laura Callahan,260
Andrew Fuller,241
Robert King,176
Michael Suyama,168
Steven Buchanan,117
Anne Dodsworth,107
