# Notebook Loading para Banco de Dados Postgres

In [48]:
import os
import pandas as pd
from sqlalchemy import create_engine

# Caminho do diretório onde as pastas de arquivos Parquet estão armazenados
parquet_directory_path = 'gold/'

# Dados de conexão com o PostgreSQL
user = 'vinicius'
password = '1234'
host = 'localhost'
port = '5432'
database = 'atividade_banco'

# Criar a string de conexão com PostgreSQL
connection_string = f'postgresql+psycopg2://{user}:{password}@{host}:{port}/{database}'

# Criar o motor de conexão
engine = create_engine(connection_string)

# Função para carregar os arquivos Parquet para o PostgreSQL
def carregar_arquivos_parquet(parquet_directory_path):
    # Listar todos os diretórios na pasta gold/
    diretorios = [d for d in os.listdir(parquet_directory_path) if os.path.isdir(os.path.join(parquet_directory_path, d))]

    if not diretorios:
        print(f'Nenhuma subpasta encontrada em {parquet_directory_path}.')
        return

    for diretorio in diretorios:
        # Caminho completo do diretório
        diretorio_path = os.path.join(parquet_directory_path, diretorio)

        # Listar todos os arquivos .parquet dentro da subpasta
        arquivos = [f for f in os.listdir(diretorio_path) if f.endswith('.parquet')]

        if not arquivos:
            print(f'Nenhum arquivo Parquet encontrado na pasta {diretorio_path}.')
            continue

        for arquivo in arquivos:
            # Caminho completo do arquivo Parquet
            parquet_file_path = os.path.join(diretorio_path, arquivo)
            
            # Ler o arquivo Parquet em um DataFrame
            try:
                df = pd.read_parquet(parquet_file_path, engine='pyarrow')
                print(f"Carregando dados de {arquivo}...")
                
                # Nome da tabela no PostgreSQL (usando o nome da subpasta como nome da tabela)
                table_name = diretorio  # Usamos o nome da subpasta como nome da tabela
                
                # Carregar os dados para o PostgreSQL
                try:
                    df.to_sql(table_name, engine, if_exists='replace', index=False)
                    print(f"Dados de {arquivo} carregados com sucesso na tabela {table_name}!")
                except Exception as e:
                    print(f"Ocorreu um erro ao carregar os dados de {arquivo}: {e}")
            
            except Exception as e:
                print(f"Ocorreu um erro ao ler o arquivo {arquivo}: {e}")

# Chama a função para carregar os arquivos Parquet
carregar_arquivos_parquet(parquet_directory_path)


Carregando dados de part-00000-922caf32-5066-4cc9-8957-ac991513266b-c000.snappy.parquet...
Dados de part-00000-922caf32-5066-4cc9-8957-ac991513266b-c000.snappy.parquet carregados com sucesso na tabela dim_produto!
Carregando dados de part-00001-922caf32-5066-4cc9-8957-ac991513266b-c000.snappy.parquet...
Dados de part-00001-922caf32-5066-4cc9-8957-ac991513266b-c000.snappy.parquet carregados com sucesso na tabela dim_produto!
Carregando dados de part-00007-48f87862-555d-42d1-95fc-659c2201dcc1-c000.snappy.parquet...
Dados de part-00007-48f87862-555d-42d1-95fc-659c2201dcc1-c000.snappy.parquet carregados com sucesso na tabela dim_geolocalizacao!
Carregando dados de part-00005-48f87862-555d-42d1-95fc-659c2201dcc1-c000.snappy.parquet...
Dados de part-00005-48f87862-555d-42d1-95fc-659c2201dcc1-c000.snappy.parquet carregados com sucesso na tabela dim_geolocalizacao!
Carregando dados de part-00008-48f87862-555d-42d1-95fc-659c2201dcc1-c000.snappy.parquet...
Dados de part-00008-48f87862-555d-42d1-