# Carregando os dados do DuckDB

O objetivo dessa etapa √© realizar a carga nos dados no banco duckdb.

## Etapas realizadas neste c√≥digo:
1. Importa√ß√£o das bibliotecas necess√°rias (duckdb, pandas, time, os, datetime).
2. Defini√ß√£o de uma fun√ß√£o de log para registrar mensagens com timestamp.
3. Mapeamento dos arquivos de uma pasta para um dicion√°rio com nomes e caminhos completos.
4. Conex√£o ao banco de dados DuckDB.
5. Cria√ß√£o/verifica√ß√£o do schema 'raw' no banco de dados.
6. Inser√ß√£o dos arquivos mapeados como tabelas no schema 'raw' do DuckDB, utilizando detec√ß√£o autom√°tica de formato.
7. Cria√ß√£o das demais zonas de dados


## 1- Import e cria√ß√£o das fun√ß√µes

In [1]:
import duckdb
import pandas as pd
import time
import os
from datetime import datetime

# Fun√ß√£o utilit√°ria para log com hor√°rio
def log(msg):
    print(f"[{datetime.now().strftime('%Y-%m-%d %H:%M:%S')}] {msg}")

In [2]:
def mapear_arquivos_pasta(pasta):
    """
    Mapeia todos os arquivos da pasta e retorna um dicion√°rio
    com o nome do arquivo como chave e o caminho completo como valor.
    """
    arquivos_dict = {}
    for root, dirs, files in os.walk(pasta):
        for file in files:
            caminho_completo = os.path.join(root, file)
            arquivos_dict[file] = caminho_completo
    return arquivos_dict

In [10]:
def inserir_arquivos_no_duckdb(arquivos_dict, con):
    """
    Para cada arquivo no dicion√°rio, checa se a tabela existe.
    Se n√£o existir, insere usando fast-arrow (COPY ... FROM ... AUTO_DETECT).
    """

    # Garante apenas UMA VEZ que o schema 'raw' existe
    con.execute("CREATE SCHEMA IF NOT EXISTS raw;")
    print("üìÅ Schema criado/verificado: raw")

    # Loop √∫nico sobre os arquivos
    for nome_arquivo, caminho_arquivo in arquivos_dict.items():

        nome_tabela = os.path.splitext(nome_arquivo)[0]
        tabela_com_schema = f"raw.{nome_tabela}"

        # Checa se a tabela j√° existe
        existe = con.execute(
            f"""
            SELECT COUNT(*)
            FROM information_schema.tables
            WHERE table_schema = 'raw'
              AND table_name = '{nome_tabela}'
            """
        ).fetchone()[0]

        if existe:
            log(f"Tabela '{tabela_com_schema}' j√° existe. Pulando inser√ß√£o.")
            continue

        # Detecta tipo de arquivo
        if caminho_arquivo.endswith(".parquet"):
            comando = f"""
                CREATE TABLE {tabela_com_schema} AS
                SELECT * FROM read_parquet('{caminho_arquivo}')
            """
        elif caminho_arquivo.lower().endswith(".csv"):
            comando = f"""
                CREATE TABLE {tabela_com_schema} AS
                SELECT * FROM read_csv_auto('{caminho_arquivo}')
            """
        else:
            log(f"Formato n√£o suportado '{caminho_arquivo}'. Pulando.")
            continue

        log(f"Inserindo '{caminho_arquivo}' na tabela '{tabela_com_schema}'...")
        con.execute(comando)
        log(f"Tabela '{tabela_com_schema}' criada e dados inseridos com sucesso.")


In [11]:
def listar_tabelas(conexao):
    """
    Retorna uma lista com o nome de todas as tabelas existentes no banco DuckDB conectado.
    """
    resultado = conexao.execute(
        "SELECT table_name FROM information_schema.tables WHERE table_schema = 'raw'"
    ).fetchall()
    return [linha[0] for linha in resultado]

## 2: Defini√ß√£o de entradas

In [12]:
# Caminho do arquivo (pode ser CSV, Parquet, etc)
PATH_DIRETORIO = "data_input"

# Caminho do banco DuckDB (arquivo .db)
CAMINHO_DUCKDB = "bd/dev.duckdb"

# Cria a conex√£o com o banco DuckDB
con = duckdb.connect(CAMINHO_DUCKDB)


In [13]:
inserir_arquivos_no_duckdb(mapear_arquivos_pasta(PATH_DIRETORIO), con)


üìÅ Schema criado/verificado: raw
[2025-11-21 18:11:59] Tabela 'raw.Cursos_2017' j√° existe. Pulando inser√ß√£o.
[2025-11-21 18:11:59] Tabela 'raw.cursos_2019' j√° existe. Pulando inser√ß√£o.
[2025-11-21 18:11:59] Tabela 'raw.cursos_2022' j√° existe. Pulando inser√ß√£o.
[2025-11-21 18:11:59] Tabela 'raw.cursos_2024' j√° existe. Pulando inser√ß√£o.
[2025-11-21 18:11:59] Tabela 'raw.cursos_2018' j√° existe. Pulando inser√ß√£o.


In [14]:
listar_tabelas(con)

['Cursos_2017',
 'cursos_2018',
 'cursos_2019',
 'cursos_2022',
 'cursos_2024',
 'gestor_2019',
 'gestor_2020']

In [8]:
#Cria√ß√£o dos schemas
for schema in  ["staging", "intermediate", "mart"]:
    con.execute(f"CREATE SCHEMA IF NOT EXISTS {schema};")


In [9]:
con.close()