In [1]:
import os
import pandas as pd

# Diretórios onde os arquivos CSV estão localizados
bronze_directory = "db/bronze/"
silver_directory = "db/silver/"

# Cria os diretórios para as camadas bronze e prata (se não existirem)
os.makedirs(bronze_directory, exist_ok=True)
os.makedirs(silver_directory, exist_ok=True)


# Lista todos os arquivos no diretório bronze
files = os.listdir(bronze_directory)

# Itera sobre os arquivos e lê cada CSV
for file in files:
    if file.endswith(".csv"):
        # Gera o nome do DataFrame a partir do nome do arquivo (sem extensão)
        df_name = file.split(".")[0]
        
        # Lê o CSV e armazena no DataFrame correspondente
        df = pd.read_csv(os.path.join(bronze_directory, file), encoding='latin1', sep=';', on_bad_lines='skip')
        
        # Define o caminho de saída para o arquivo Parquet na camada prata
        parquet_path = os.path.join(silver_directory, f"{df_name}.parquet")
        
        # Exporta o DataFrame para Parquet
        df.to_parquet(parquet_path, index=False)
        
        # Exibe uma mensagem confirmando que o arquivo foi exportado
        print(f"{df_name} exportado para {parquet_path}.")



bem_candidato_2024_BRASIL exportado para db/silver/bem_candidato_2024_BRASIL.parquet.
consulta_cand_2024_BRASIL exportado para db/silver/consulta_cand_2024_BRASIL.parquet.
consulta_cand_complementar_2024_BRASIL exportado para db/silver/consulta_cand_complementar_2024_BRASIL.parquet.
consulta_coligacao_2024_BRASIL exportado para db/silver/consulta_coligacao_2024_BRASIL.parquet.
consulta_vagas_2024_BRASIL exportado para db/silver/consulta_vagas_2024_BRASIL.parquet.
motivo_cassacao_2024_BRASIL exportado para db/silver/motivo_cassacao_2024_BRASIL.parquet.
rede_social_candidato_2024_BRASIL exportado para db/silver/rede_social_candidato_2024_BRASIL.parquet.


In [2]:
# csv to db

import os
import pandas as pd
import psycopg2
from sqlalchemy import create_engine

# Conectando ao PostgreSQL
conn = psycopg2.connect(
    host="localhost",
    database="postgres",
    user="postgres",
    password="31415926"
)

# Diretório onde os arquivos CSV estão localizados
bronze_directory = "db/bronze/"
silver_directory = "db/silver/"

# Cria o diretório para a camada prata (se não existir)
os.makedirs(silver_directory, exist_ok=True)

# Lista todos os arquivos no diretório bronze
files = os.listdir(bronze_directory)

# Define o engine para SQLAlchemy usando psycopg2
engine = create_engine('postgresql+psycopg2://postgres:31415926@localhost/postgres')

# Itera sobre os arquivos e lê cada CSV
for file in files:
    if file.endswith(".csv"):
        # Gera o nome do DataFrame a partir do nome do arquivo (sem extensão)
        df_name = file.split(".")[0]
        
        # Lê o CSV e armazena no DataFrame correspondente
        df = pd.read_csv(os.path.join(bronze_directory, file), encoding='latin1', sep=';', on_bad_lines='skip')
        
        # Define o caminho de saída para o arquivo Parquet na camada prata
        parquet_path = os.path.join(silver_directory, f"{df_name}.parquet")
        
        # Exporta o DataFrame para Parquet
        df.to_parquet(parquet_path, index=False)
        
        # Exibe uma mensagem confirmando que o arquivo foi exportado
        print(f"{df_name} exportado para {parquet_path}.")
        
        # Escreve o DataFrame no PostgreSQL usando chunksize para evitar MemoryError
        table_name = df_name.lower()  # Converte o nome do DataFrame para minúsculas para usar como nome da tabela
        df.to_sql(table_name, con=engine, if_exists='replace', index=False, chunksize=10000)
        
        # Exibe uma mensagem confirmando que o DataFrame foi escrito no PostgreSQL
        print(f"{df_name} carregado no PostgreSQL na tabela {table_name}.")


bem_candidato_2024_BRASIL exportado para db/silver/bem_candidato_2024_BRASIL.parquet.
bem_candidato_2024_BRASIL carregado no PostgreSQL na tabela bem_candidato_2024_brasil.
consulta_cand_2024_BRASIL exportado para db/silver/consulta_cand_2024_BRASIL.parquet.
consulta_cand_2024_BRASIL carregado no PostgreSQL na tabela consulta_cand_2024_brasil.
consulta_cand_complementar_2024_BRASIL exportado para db/silver/consulta_cand_complementar_2024_BRASIL.parquet.
consulta_cand_complementar_2024_BRASIL carregado no PostgreSQL na tabela consulta_cand_complementar_2024_brasil.
consulta_coligacao_2024_BRASIL exportado para db/silver/consulta_coligacao_2024_BRASIL.parquet.
consulta_coligacao_2024_BRASIL carregado no PostgreSQL na tabela consulta_coligacao_2024_brasil.
consulta_vagas_2024_BRASIL exportado para db/silver/consulta_vagas_2024_BRASIL.parquet.
consulta_vagas_2024_BRASIL carregado no PostgreSQL na tabela consulta_vagas_2024_brasil.
motivo_cassacao_2024_BRASIL exportado para db/silver/motivo

In [3]:
cand = pd.read_parquet("db/silver/consulta_cand_2024_BRASIL.parquet")

cand_ma = cand[cand['SG_UF'] == "MA"]