In [1]:
import pandas as pd
from sqlalchemy import create_engine

# 1. Conexão com o banco de dados - URL de conexão com a porta 5433
engine = create_engine('postgresql://postgres:1234@localhost:5433/projeto_python_da18')
# 2. Carregar tabelas do banco de dados
print("Carregando tabelas do banco de dados...")

# Carregar tabelas de dimensão
dim_data = pd.read_sql('SELECT * FROM datawarehouse.dim_data', engine)
dim_estados = pd.read_sql('SELECT * FROM datawarehouse.dim_estados', engine)
dim_produtos = pd.read_sql('SELECT * FROM datawarehouse.dim_produtos', engine)
dim_nivel_comercializacao = pd.read_sql('SELECT * FROM datawarehouse.dim_nivel_comercializacao', engine)
dim_macrogrupo = pd.read_sql('SELECT * FROM datawarehouse.dim_macrogrupo', engine)

# Carregar tabela fato
fato_produtos = pd.read_sql('SELECT * FROM datawarehouse.fato_produtos', engine)

# 3. Pré-processamento das tabelas com seus novos nomes
print("\nPreparando tabelas para junção...")

dimensoes = {
    'dim_data': dim_data[['id', 'ano_mes', 'mes', 'ano']].rename(columns={'id': 'id_data'}),
    'dim_estados': dim_estados[['id', 'estado']].rename(columns={'id': 'id_U.F.'}),
    'dim_produtos': dim_produtos[['id', 'prod_und', 'macrogrupo_id']].rename(columns={'id': 'id_Produto/Unidade'}),
    'dim_nivel_comercializacao': dim_nivel_comercializacao[['id', 'tipo_de_comercializacao']].rename(columns={'id': 'id_Nivel de Comercialização'}),
    'dim_macrogrupo': dim_macrogrupo[['id', 'macrogrupo']].rename(columns={'id': 'id_macrogrupo_dim'})
}

# 4. Realizar as junções com os novos nomes
print("\nRealizando junções...")

df_completo = (
    fato_produtos
    # Junção com dim_data
    .merge(dimensoes['dim_data'], 
           left_on='id_data', 
           right_on='id_data', 
           how='left',
           suffixes=('', '_data'))
    
    # Junção com dim_estados
    .merge(dimensoes['dim_estados'], 
           left_on='id_U.F.', 
           right_on='id_U.F.', 
           how='left',
           suffixes=('', '_estado'))
    
    # Junção com dim_produtos
    .merge(dimensoes['dim_produtos'], 
           left_on='id_Produto/Unidade', 
           right_on='id_Produto/Unidade', 
           how='left',
           suffixes=('', '_produto'))
    
    # Junção com dim_nivel_comercializacao
    .merge(dimensoes['dim_nivel_comercializacao'], 
           left_on='id_Nível de Comercialização', 
           right_on='id_Nivel de Comercialização', 
           how='left',
           suffixes=('', '_nivel'))
    
    # Junção com dim_macrogrupo (via macrogrupo_id que veio de dim_produtos)
    .merge(dimensoes['dim_macrogrupo'], 
           left_on='macrogrupo_id', 
           right_on='id_macrogrupo_dim', 
           how='left',
           suffixes=('', '_macrogrupo'))
)

# 5. Pós-processamento
print("\nFinalizando processamento...")

# Remover colunas duplicadas mantendo a primeira ocorrência
df_completo = df_completo.loc[:, ~df_completo.columns.duplicated()]

# 6. Verificação final
print("\nJunção concluída com sucesso!")
print(f"Shape do DataFrame final: {df_completo.shape}")
print("\nPrimeiras linhas do resultado:")
print(df_completo.head(3))

# 7. Opcional: Salvar resultado em CSV
df_completo.to_csv('dados_completos.csv', index=False)
print("\nDataFrame salvo como 'dados_completos.csv'")

Carregando tabelas do banco de dados...

Preparando tabelas para junção...

Realizando junções...

Finalizando processamento...

Junção concluída com sucesso!
Shape do DataFrame final: (240528, 16)

Primeiras linhas do resultado:
   id_Produto/Unidade  id_Nível de Comercialização  id_U.F.  id_data  valor  \
0                 932                            3       23       97   4.33   
1                1423                            3       23       97   5.60   
2                1019                            3       27      102  95.64   

   id_macrogrupo ano_mes      mes   ano estado  \
0              8  202201  Janeiro  2022     RR   
1              8  202201  Janeiro  2022     RR   
2              2  202206    Junho  2022     TO   

                                       prod_und  macrogrupo_id  \
0           FARINHA DE MANDIOCA BRANCO (A) (kg)              8   
1  FARINHA DE MANDIOCA MÉDIA TIPO 1 D ÁGUA (kg)              8   
2                        MILHO EM GRÃOS (60 kg)       