# ETL DB loja para DW vendas

In [3]:
import psycopg2
import pandas as pd
from sqlalchemy import create_engine
import warnings

# Suprimir todos os avisos
warnings.filterwarnings("ignore")

# Função para extrair dados da tabela de origem
def connect_to_db():
    try:
        # Configurações do banco de dados
        conn = psycopg2.connect(
            host="localhost",  # ou o IP do seu servidor PostgreSQL
            port="5439",  # porta padrão do PostgreSQL
            database="DB_loja",  # nome do banco de dados
            user="luk",  # seu usuário PostgreSQL
            password="123456"  # sua senha PostgreSQL
        )
        
        # Cria um cursor para executar comandos SQL
        cursor = conn.cursor()

        # Executa um comando simples para verificar se a conexão está funcionando
        cursor.execute("SELECT version();")
        
        # Recupera o resultado da consulta
        db_version = cursor.fetchone()
        print(f"Parabéns você está conectado ao banco de dados PostgreSQL. Versão: {db_version}\n\n")
        
        # Query para selecionar todos os dados da tabela de origem
        query = "SELECT * FROM dw_vendas_informacoes"
    
        # Ler os dados para um DataFrame pandas
        df = pd.read_sql(query, conn)    
                               
        # Fechar cursor e conexão
        cursor.close()
        conn.close()
        
        return df

    except (Exception, psycopg2.DatabaseError) as error:
        print(f"Erro ao conectar ao banco de dados: {error}")

        
# Função para verificar valores nulos        
def percent_missings(df):
    
    # Contar a quantidade de valores nulos ou em branco em cada coluna
    valores_nulos = df.isnull().sum()

    # Calcular a porcentagem de valores nulos em relação ao total de linhas
    percentual_nulos = (valores_nulos / len(df)) * 100

    # Criar um DataFrame para mostrar os resultados de forma mais organizada
    resultado = pd.DataFrame({
        'Valores Nulos': valores_nulos,
        'Percentual Nulos (%)': percentual_nulos
    })

    # Exibir o resultado
    return resultado


# Função para transformar os dados (limpeza e validação)
def transform_data(df):
    # Exemplo de limpeza e transformações
    
    # 1. Remover linhas duplicadas
    df = df.drop_duplicates()
    
    # 2. Preencher valores nulos em colunas específicas
    df.fillna('NA', inplace=True)
    
    # 3. Remover espaços em branco de strings
    df = df.applymap(lambda x: x.strip() if isinstance(x, str) else x)
    
    return df


# Função para particionar os dados transformados em diferentes partes
def split_data(df):
    
    # Selecionar colunas e remover duplicatas
    df_cliente = df[['id_cliente', 'nome_cliente', 'uf']].drop_duplicates()
    df_vendedor = df[['id_vendedor', 'nome_vendedor']].drop_duplicates()  
    df_loja = df[['id_loja', 'local']].drop_duplicates()              
    df_produto = df[['id_produto', 'nome_produto', 'categoria']].drop_duplicates()
    df_transacao = df[['id_transacao', 'id_cliente', 'id_vendedor', 'id_loja', 'id_produto', 'data_transacao', 'quantidade', 'valor_total']] 
    
    return df_cliente, df_vendedor, df_loja, df_produto, df_transacao



# Função para carregar os dados transformados e separados no DW
def load_data(engine, df, table_name_dw):
    try:
        # Inserir os dados no Data Warehouse
        df.to_sql(table_name_dw, engine, index=False, if_exists='append',  schema='dw_vendas')
        
        print(f"Dados carregados com sucesso na tabela {table_name_dw}.")
    
    except Exception as e:
        print(f"Erro ao carregar dados na tabela {table_name_dw}: {e}")

        
# Função principal de ETL
def etl_process():
    try:
        # Etapa de Extração
        print("Iniciando Extração...")
        df = connect_to_db()
        
        if df is not None:
            print("Dados extraídos com sucesso.")
            
            print("Seu dataset tem:", len(df), 'linhas')
            dados_nulos = percent_missings(df)
            print("Dados nulos ou em brancos no dataset\n", dados_nulos, "\n")
      
            # Etapa de Transformação
            print("Iniciando Transformação...")
            df_transformed = transform_data(df)
            print("Transformação concluída.")
                                  
            # Separar os dados em diferentes DataFrames para serem carregados em tabelas separadas no DW
            print("Iniciando Particionamento dos Dados...")
            df_cliente, df_vendedor, df_loja, df_produto, df_transacao = split_data(df_transformed)
            print("Particionamento concluído.")
            
            # Conectar ao Data Warehouse (DW)
            engine = create_engine('postgresql+psycopg2://luk:123456@localhost:5439/DW_vendas')
            
            # Etapa de Carga
            print("Iniciando Carga...")
            load_data(engine, df_cliente, 'dim_cliente')
            load_data(engine, df_vendedor, 'dim_vendedor')
            load_data(engine, df_loja, 'dim_loja')
            load_data(engine, df_produto, 'dim_produto')
            load_data(engine, df_transacao, 'fato_transacao')
            print("Carga concluída em todas as tabelas do DW.")
        
        else:
            print("Erro na extração dos dados. Processo ETL abortado.")

    except Exception as e:
        print(f"Erro no processo ETL: {e}")

# Executar o processo ETL
etl_process()

Iniciando Extração...
Parabéns você está conectado ao banco de dados PostgreSQL. Versão: ('PostgreSQL 16.1 (Debian 16.1-1.pgdg120+1) on x86_64-pc-linux-gnu, compiled by gcc (Debian 12.2.0-14) 12.2.0, 64-bit',)


Dados extraídos com sucesso.
Seu dataset tem: 124930 linhas
Dados nulos ou em brancos no dataset
                 Valores Nulos  Percentual Nulos (%)
id_transacao                0                   0.0
id_cliente                  0                   0.0
id_vendedor                 0                   0.0
id_loja                     0                   0.0
id_produto                  0                   0.0
nome_cliente                0                   0.0
uf                          0                   0.0
data_transacao              0                   0.0
nome_vendedor               0                   0.0
local                       0                   0.0
nome_produto                0                   0.0
categoria                   0                   0.0
quantidade    