<a href="https://colab.research.google.com/github/felipecampelo/DesafioEngDados/blob/main/DesafioEngDados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#### ✅ Importação de Bibliotecas Necessárias

In [1]:
# Importando as bibliotecas necessárias para a pipeline
import pandas as pd
import psycopg2
from sqlalchemy import create_engine
from datetime import datetime
from pathlib import Path

#### ✅ Declaração de Funções Necessárias

In [2]:
# Função para criar conexão no banco
def conecta_db():
  con = psycopg2.connect(host='db.ucytbvdjqkadkigyyqzw.supabase.co', 
                         database='SourceData',
                         user='postgres', 
                         password='Senha135Indicium')
  return con

# Função para consultas no banco
def consultar_db(sql):
  con = conecta_db()
  cur = con.cursor()
  cur.execute(sql)
  recset = cur.fetchall()
  registros = []
  for rec in recset:
    registros.append(rec)
  con.close()
  return registros

# Função para executar um comando SQL no banco
def executarSQL(sql):
  con = psycopg2.connect(host='db.ucytbvdjqkadkigyyqzw.supabase.co', 
                           database='FinalDataBase',
                           user='postgres', 
                           password='Senha135Indicium')
  cur = con.cursor()
  cur.execute(sql)
  con.commit()
  con.close()

# Função para salvar as tabelas vindas do Postgres no ambiente local
def salvarTabelaPostgres(tabela, dataArquivo, columns):

  # Consultando os dados da tabela
  consulta = consultar_db(f'select * from {tabela}')

  # Transformando a consulta em um DataFrame
  dfConsulta = pd.DataFrame(consulta, columns = columns)
  dfConsulta.head()

  # Salvando a tabela em formato CSV no ambiente local
  filepath = Path(f'data/postgres/{tabela}/{dataArquivo.year}/{dataArquivo.month}/{dataArquivo.day}/tabela_{tabela}.csv')  
  filepath.parent.mkdir(parents=True, exist_ok=True)
  dfConsulta.to_csv(filepath, index = False)

#### 🔽 Escolha **AQUI** a Data para Processamento dos Dados

In [3]:
# Os arquivos terão uma nomenclatura padrão de:
# 1) Para as tabelas vindas do Postgres: data/postgres/{tabela}/{dataArquivo.year}/{dataArquivo.month}/{dataArquivo.day}/tabela_{tabela}.csv
# 2) Para a tabela vinda de um CSV: data/csv/{dataArquivo.year}/{dataArquivo.month}/{dataArquivo.day}/tabela_order_details.csv

dataArquivo = '26/01/2023' # Altere a data aqui no formato 'DD/MM/AAA' ou deixe como está para o dia atual

# Transformando de string para datetime
dataArquivo = datetime.strptime(dataArquivo, '%d/%m/%Y').date() 

#### ✅ Extração das Tabelas do Banco e Armazenamento no Local em Formato CSV

`Tabelas: categories, products, suppliers, customers, customer_customer_demo, customer_demographics, orders, employees, employee_territories, territories, region, shippers, us_states`

##### 🟤 Tabela "categories"

In [4]:
# Definindo as colunas da tabela
columns = ['category_id','category_name','description','picture']

# Salvando as tabelas vindas do Postgres no ambiente local através da função salvarTabelaPostgres
salvarTabelaPostgres('categories', dataArquivo, columns)

##### 🟤 Tabela "products"

In [5]:
# Definindo as colunas da tabela
columns = ['product_id', 'product_name', 'supplier_id', 'category_id', 'quantity_per_unit', 'unit_price', 'units_in_stock', 'units_on_order', 'reorder_level', 'discontinued']

# Salvando as tabelas vindas do Postgres no ambiente local através da função salvarTabelaPostgres
salvarTabelaPostgres('products', dataArquivo, columns)

##### 🟤 Tabela "suppliers"

In [6]:
# Definindo as colunas da tabela
columns = ['supplier_id','company_name','contact_name','contact_title', 'address', 'city', 'region', 'postal_code', 'country', 'phone', 'fax', 'homepage']

# Salvando as tabelas vindas do Postgres no ambiente local através da função salvarTabelaPostgres
salvarTabelaPostgres('suppliers', dataArquivo, columns)

##### 🟤 Tabela "customers"

In [7]:
# Definindo as colunas da tabela
columns = ['customer_id', 'company_name', 'contact_name', 'contact_title', 'address', 'city', 'region', 'postal_code', 'country', 'phone', 'fax']

# Salvando as tabelas vindas do Postgres no ambiente local através da função salvarTabelaPostgres
salvarTabelaPostgres('customers', dataArquivo, columns)

##### 🟤 Tabela "customer_customer_demo"

In [8]:
# Definindo as colunas da tabela
columns = ['customer_id', 'customer_type_id']

# Salvando as tabelas vindas do Postgres no ambiente local através da função salvarTabelaPostgres
salvarTabelaPostgres('customer_customer_demo', dataArquivo, columns)

##### 🟤 Tabela "customer_demographics"

In [9]:
# Definindo as colunas da tabela
columns = ['customer_type_id', 'customer_desc']

# Salvando as tabelas vindas do Postgres no ambiente local através da função salvarTabelaPostgres
salvarTabelaPostgres('customer_demographics', dataArquivo, columns)

##### 🟤 Tabela "orders"

In [10]:
# Definindo as colunas da tabela
columns = ['order_id', 'customer_id', 'employee_id', 'order_date', 'required_date', 'shipped_date', 'ship_via', 'freight', 'ship_name', 'ship_address', 'ship_city', 'ship_region', 'ship_postal_code', 'ship_country']

# Salvando as tabelas vindas do Postgres no ambiente local através da função salvarTabelaPostgres
salvarTabelaPostgres('orders', dataArquivo, columns)

##### 🟤 Tabela "employees"

In [11]:
# Definindo as colunas da tabela
columns = ['employee_id', 'last_name', 'first_name', 'title', 'title_of_courtesy', 'birth_date', 'hire_date', 'address', 'city', 'region', 'postal_code', 'country', 'home_phone', 'extension', 'photo', 'notes', 'reports_to', 'photo_path']

# Salvando as tabelas vindas do Postgres no ambiente local através da função salvarTabelaPostgres
salvarTabelaPostgres('employees', dataArquivo, columns)

##### 🟤 Tabela "employee_territories"

In [12]:
# Definindo as colunas da tabela
columns = ['employee_id', 'territory_id']

# Salvando as tabelas vindas do Postgres no ambiente local através da função salvarTabelaPostgres
salvarTabelaPostgres('employee_territories', dataArquivo, columns)

##### 🟤 Tabela "territories"

In [13]:
# Definindo as colunas da tabela
columns = ['territory_id', 'territory_description', 'region_id']

# Salvando as tabelas vindas do Postgres no ambiente local através da função salvarTabelaPostgres
salvarTabelaPostgres('territories', dataArquivo, columns)

##### 🟤 Tabela "region"

In [14]:
# Definindo as colunas da tabela
columns = ['region_id','region_description']

# Salvando as tabelas vindas do Postgres no ambiente local através da função salvarTabelaPostgres
salvarTabelaPostgres('region', dataArquivo, columns)

##### 🟤 Tabela "shippers"

In [15]:
# Definindo as colunas da tabela
columns = ['shipper_id','company_name','phone']

# Salvando as tabelas vindas do Postgres no ambiente local através da função salvarTabelaPostgres
salvarTabelaPostgres('shippers', dataArquivo, columns)

##### 🟤 Tabela "us_states"

In [16]:
# Definindo as colunas da tabela
columns = ['state_id', 'state_name', 'state_abbr', 'state_region']

# Salvando as tabelas vindas do Postgres no ambiente local através da função salvarTabelaPostgres
salvarTabelaPostgres('us_states', dataArquivo, columns)

#### ✅ Extração do Arquivo CSV Direto do Github e  Armazenamento no Local em Formato CSV

`Tabela: order_details`

In [17]:
filepath = Path(f'data/csv/{dataArquivo.year}/{dataArquivo.month}/{dataArquivo.day}/tabela_order_details.csv')  
filepath.parent.mkdir(parents=True, exist_ok=True) 

# Leitura do arquivo CSV referente à tabela "order_details"
df_order_details = pd.read_csv('https://raw.githubusercontent.com/techindicium/code-challenge/main/data/order_details.csv')

# Armazenando no ambiente local
df_order_details.to_csv(filepath, index = False)

#### ✅ Carregamento do Sistema de Armazenamento Local para o Novo Banco de Dados Postgres

In [57]:
# Armazenando a lista de tabelas em uma variável
listaTabelasPostgres = ['categories', 'suppliers', 'products', 'customer_demographics', 
                        'customer_customer_demo', 'customers', 'us_states', 'shippers', 
                        'region', 'territories', 'employees', 'employee_territories',
                        'orders', 'order_details']

# Apagar os dados existentes nas tabelas para não dar conflito no momento de inserção dos dados
for tabela in listaTabelasPostgres:
  sql = f'''DO $$
            BEGIN
              IF EXISTS(SELECT 1 FROM information_schema.tables WHERE table_schema = current_schema() AND table_name = '{tabela}') THEN
                TRUNCATE TABLE {tabela} CASCADE;
              END IF;
            END; $$ language plpgsql;'''
  executarSQL(sql) 

# Inserindo os dados dos arquivos CSV no novo banco de dados postgres
engine = create_engine('postgresql+psycopg2://postgres:Senha135Indicium@db.ucytbvdjqkadkigyyqzw.supabase.co:5432/FinalDataBase')

for tabela in listaTabelasPostgres: 
  if tabela == 'order_details':
    df = pd.read_csv(f'data/csv/{dataArquivo.year}/{dataArquivo.month}/{dataArquivo.day}/tabela_{tabela}.csv')
  else:
    df = pd.read_csv(f'data/postgres/{tabela}/{dataArquivo.year}/{dataArquivo.month}/{dataArquivo.day}/tabela_{tabela}.csv')

  df.to_sql(tabela, con=engine, if_exists = 'append', index = False)

#### ✅ Consulta Final: Armazenando os Pedidos e Seus Detalhes em Arquivo CSV

In [None]:
# Realizando a consulta no PostegreSQL
consulta = consultar_db('select * from ')
columns = []

# Tranformando os dados da consulta no PostegreSQL em DataFrame
df_consulta_final = pd.DataFrame(consulta, columns = columns)
df_consulta_final.head()

# Armazenando a consulta final no local
filepath = Path(f'data/consulta_final/{dataArquivo.year}/{dataArquivo.month}/{dataArquivo.day}/consulta_final.csv')  
filepath.parent.mkdir(parents=True, exist_ok=True) 
df_consulta_final.to_csv(filepath)