# Demo pipline usign duckdb with dbt

## exporting cvs to parquet with duckdb
## ISO-8859-1 ≠ latin-1

In [None]:
import duckdb
import os
import time 


# --- Configuración de Archivos ---
INPUT_FILE = 'input/entrada.txt'
OUTPUT_PARQUET = 'output/cleaned-file.parquet'

print("Fase 1: Convirtiendo CSV a Parquet directamente con DuckDB...")

#medicion de tiempoa
star_time=time.time()

# Conexión a DuckDB en memoria
con = duckdb.connect(':memory:')

# Limpieza
if os.path.exists(OUTPUT_PARQUET):
    os.remove(OUTPUT_PARQUET)

# COMANDO SQL CORREGIDO: Parámetros en una sola línea 
sql_query = f"""
    COPY (
        SELECT *
        FROM read_csv_auto(
            '{INPUT_FILE}',
            DELIM='»',
            HEADER=TRUE,
            ENCODING='latin-1',
            IGNORE_ERRORS=TRUE,
            ALL_VARCHAR=TRUE
        )
    ) TO '{OUTPUT_PARQUET}' (FORMAT 'parquet');
"""

try:
    con.execute(sql_query)
    print("Archivo Parquet generado exitosamente!")
except duckdb.ParserException as e:
    print(f"Error al ejecutar SQL. Verifique la sintaxis: {e}")
finally:
    # Cierre de conexión
    con.close()

# timepo final
final_time=time.time()-star_time

print(f"timepo de ejecusion fue de {final_time:.3f}, segundos")

Fase 1: Convirtiendo CSV a Parquet directamente con DuckDB...
✓ Archivo Parquet generado exitosamente!
timepo de ejecusion fue de 21.942, segundos


## importing csv to duckdb

In [2]:
import duckdb
import time

INPUT_FILE = 'input/entrada.txt'

print("Fase 1: Cargando CSV y almacenando dentro de DuckDB optimizado...")

start_time = time.time()

# Puedes usar archivo físico (recomendado)
con = duckdb.connect('duckdb/mybase.duckdb')

sql_query = f"""
    CREATE OR REPLACE TABLE victimas AS
    SELECT *
    FROM read_csv_auto(
        '{INPUT_FILE}',
        delim='»',
        header=True,
        encoding='latin-1',
        ignore_errors=True,
        all_varchar=True
    );
"""

try:
    con.execute(sql_query)
    print("✓ Datos cargados y almacenados en DuckDB")
except Exception as e:
    print(f"Error: {e}")
finally:
    con.close()

elapsed = time.time() - start_time
print(f"Tiempo total: {elapsed:.3f} segundos")


Fase 1: Cargando CSV y almacenando dentro de DuckDB optimizado...
✓ Datos cargados y almacenados en DuckDB
Tiempo total: 189.995 segundos
