In [4]:
import pandas as pd
from sqlalchemy import create_engine

# 1. Conexão com o banco de dados
engine = create_engine('postgresql://postgres:1234@localhost:5433/projeto_python_da18')

# 2. Carregar tabelas do banco de dados
print("Carregando tabelas do banco de dados...")

# Carregar tabelas de dimensão
dim_data = pd.read_sql('SELECT * FROM datawarehouse.dim_data', engine)
dim_estados = pd.read_sql('SELECT * FROM datawarehouse.dim_estados', engine)
dim_produtos = pd.read_sql('SELECT * FROM datawarehouse.dim_produtos', engine)
dim_nivel_comercializacao = pd.read_sql('SELECT * FROM datawarehouse.dim_nivel_comercializacao', engine)
dim_macrogrupo = pd.read_sql('SELECT * FROM datawarehouse.dim_macrogrupo', engine)  
dim_regiao = pd.read_sql('SELECT * FROM datawarehouse.dim_regiao', engine)

# Carregar tabela fato
fato_produtos = pd.read_sql('SELECT * FROM datawarehouse.fato_produtos', engine)

# 3. Pré-processamento das tabelas
print("\nPreparando tabelas para junção...")

dimensoes = {
    'dim_data': dim_data[['id', 'ano_mes', 'mes', 'ano']].rename(columns={'id': 'id_data'}),
    'dim_estados': dim_estados[['id', 'estado', 'id_regiao']].rename(columns={'id': 'id_U.F.', 'id_regiao': 'id_regiao_estado'}),
    'dim_produtos': dim_produtos[['id', 'prod_und', 'macrogrupo_id']].rename(columns={'id': 'id_Produto/Unidade', 'macrogrupo_id': 'id_macrogrupo_produto'}),
    'dim_nivel_comercializacao': dim_nivel_comercializacao[['id', 'tipo_de_comercializacao']].rename(columns={'id': 'id_Nível de Comercialização'}),
    'dim_macrogrupo': dim_macrogrupo[['id', 'macrogrupo']].rename(columns={'id': 'id_macrogrupo'}),
    'dim_regiao': dim_regiao[['id_regiao', 'nome_regiao', 'sigla_regiao']].rename(columns={'id_regiao': 'id_regiao'})
}

# 4. Realizar as junções
print("\nRealizando junções...")

# Primeiro merge com dim_data
df_completo = fato_produtos.merge(
    dimensoes['dim_data'],
    left_on='id_data',
    right_on='id_data',
    how='left'
)

# Merge com dim_estados
df_completo = df_completo.merge(
    dimensoes['dim_estados'],
    left_on='id_U.F.',
    right_on='id_U.F.',
    how='left'
)

# Merge com dim_produtos
df_completo = df_completo.merge(
    dimensoes['dim_produtos'],
    left_on='id_Produto/Unidade',
    right_on='id_Produto/Unidade',
    how='left'
)

# Merge com dim_nivel_comercializacao
df_completo = df_completo.merge(
    dimensoes['dim_nivel_comercializacao'],
    left_on='id_Nível de Comercialização',
    right_on='id_Nível de Comercialização',
    how='left'
)

# Merge com dim_macrogrupo - usando a coluna id_macrogrupo do fato OU do dim_produtos

df_completo = df_completo.merge(
    dimensoes['dim_macrogrupo'],
    left_on='id_macrogrupo',  # ou 'id_macrogrupo_produto' se quiser usar a do dim_produtos
    right_on='id_macrogrupo',
    how='left'
)

# Merge com dim_regiao - usando a coluna id_regiao do dim_estados
df_completo = df_completo.merge(
    dimensoes['dim_regiao'],
    left_on='id_regiao_estado',  # coluna que veio do dim_estados
    right_on='id_regiao',
    how='left'
)

# 5. Pós-processamento
print("\nFinalizando processamento...")

# Remover colunas duplicadas
df_completo = df_completo.loc[:, ~df_completo.columns.duplicated()]

# 6. Verificação final
print("\nJunção concluída com sucesso!")
print(f"Shape do DataFrame final: {df_completo.shape}")
print("\nPrimeiras linhas do resultado:")
print(df_completo.head(3))

# 7. Salvar resultado
df_completo.to_csv('dados_completos.csv', index=False)
print("\nDataFrame salvo como 'dados_completos.csv'")

Carregando tabelas do banco de dados...

Preparando tabelas para junção...

Realizando junções...

Finalizando processamento...

Junção concluída com sucesso!
Shape do DataFrame final: (240528, 19)

Primeiras linhas do resultado:
   id_Produto/Unidade  id_Nível de Comercialização  id_U.F.  id_data  valor  \
0                 781                            4       27       67   3.89   
1                 781                            4       27       68   3.69   
2                 781                            4       27       69   3.69   

   id_macrogrupo  id_regiao_x ano_mes       mes   ano estado  \
0              7            1  201907     Julho  2019     TO   
1              7            1  201908    Agosto  2019     TO   
2              7            1  201909  Setembro  2019     TO   

   id_regiao_estado               prod_und  id_macrogrupo_produto  \
0                 1  AÇÚCAR CRISTAL (2 kg)                      7   
1                 1  AÇÚCAR CRISTAL (2 kg)                