# Duckdb

Es un sistema de gestión de bases de datos relacionales de código abierto diseñado para consultas analíticas rápidas y eficientes. A menudo se describe como un "SQLite para análisis de datos", ya que es ligero y fácil de integrar, pero al mismo tiempo es muy potente en el procesamiento de grandes volúmenes de datos.

In [None]:
import duckdb as db

## Generar conexion

In [None]:
# Conectar a DuckDB
# conn = db.connect(database=":memory:")  # Base en memoria
conn = db.connect(database="../data/database.db")  # Base en físico

In [None]:
# Crear schema de base de datos
conn.sql("create schema if not exists DATMLOPS")

## Crear tabla 

In [None]:
# Crear tabla leyendo ficheros parquet
conn.sql(
    """
    create or replace table DATMLOPS.PRUEBA as
    select *
    from read_parquet("../data/prueba2/*.parquet")
    """
)

In [None]:
# Crear la tabla REGION_X_CIUDAD
conn.sql("""
    create or replace table DATMLOPS.REGION_X_CIUDAD (
        REGION varchar,
        CIUDAD varchar
    )
""")

# Insertar varios registros en una sola sentencia
conn.sql("""
    INSERT INTO DATMLOPS.REGION_X_CIUDAD VALUES
    ('REGION_0', 'CIUDAD_0'),
    ('REGION_1', 'CIUDAD_1'),
    ('REGION_2', 'CIUDAD_2'),
""")

## Ver metadata y descriptivos

In [None]:
# Metadata
# "columns", "tables", "views", "schemata", "table_constraints", "key_column_usage", "constraint_column_usage"
conn.sql(
    """
    select *
    FROM information_schema.tables
    """
).show()

In [None]:
# Tipos de variables
conn.sql(
    """
    describe DATMLOPS.PRUEBA
    """
).df().head()

In [None]:
# Resumen con analisis descriptivo
conn.sql(
    """
    summarize DATMLOPS.PRUEBA
    """
)

## Slicing

In [None]:
# Seleccionar primeros 5 registros
dbf = conn.sql(
    """
    select *
    from DATMLOPS.PRUEBA
    limit 5 offset 2
    """
)
dbf

## Join

In [None]:
# join
dfb_vf = conn.sql(
    """
    select *
    from DATMLOPS.PRUEBA
    left join DATMLOPS.REGION_X_CIUDAD
    on COL_A = REGION
    limit 5 offset 0
    """
)
dfb_vf.df()

## Ordenar

In [None]:
# Ordendar
dbf = conn.sql(
    """
    select *
    from DATMLOPS.PRUEBA
    order by NRO_ID, DATE_FIELD
    limit 5 offset 2
    """
)
dbf

## Escritura

In [None]:
# Escribir a parquet
conn.sql(
    """
    COPY (SELECT * FROM DATMLOPS.PRUEBA) TO '../data/prueba3.parquet' (FORMAT parquet)
    """
)

In [None]:
conn.close()