# Clase 5: DuckDB

# 1. Introducción

## 1). ¿Qué es DuckDB?

DuckDB es una base de datos analítica embebida, de código abierto y alto rendimiento, optimizada para el procesamiento analítico de datos tabulares. Se ejecuta dentro del proceso del usuario (por ejemplo, en una aplicación, notebook o script), a diferencia de los sistemas de bases de datos cliente-servidor tradicionales. Esto le permite procesar datos de manera eficiente sin la sobrecarga de la comunicación entre procesos.

Sus características clave incluyen:

* **Procesamiento en memoria**: DuckDB sobresale en el procesamiento en memoria, lo que lo hace extremadamente rápido para conjuntos de datos que caben en la RAM. También admite el "derrame" a disco para conjuntos de datos más grandes.

* **SQL compatible con ANSI**: Utiliza un dialecto SQL familiar y admite muchas funciones SQL estándar, lo que facilita su aprendizaje y uso para aquellos con experiencia en SQL.

* **Soporte para múltiples formatos de datos**: Puede leer y escribir datos en una variedad de formatos, incluidos CSV, Parquet, JSON y Arrow, así como interactuar con otras bases de datos como PostgreSQL y SQLite.

* **Integración con lenguajes de programación**: Ofrece integraciones perfectas con Python, R y otros lenguajes de programación, lo que permite a los usuarios consultar y procesar datos directamente desde sus entornos de programación preferidos.

* **Columnar**: Almacena datos en un formato columnar, lo que lo hace eficiente para consultas analíticas que involucran agregaciones y filtrado en columnas específicas.

DuckDB es una excelente opción para analistas de datos y científicos de datos que trabajan con conjuntos de datos tabulares de tamaño moderado que desean un procesamiento rápido y eficiente sin la complejidad de configurar y administrar un sistema de base de datos separado.

## 2). ¿Por qué es útil aprender DuckDB?

* **rendimiento y velocidad**: DuckDB es significativamente más rápido que muchas alternativas para análisis en memoria, especialmente para conjuntos de datos que caben en la RAM. Esto acelera los flujos de trabajo de análisis de datos y permite una iteración más rápida. Para conjuntos de datos más grandes, DuckDB puede superar a Pandas, especialmente en operaciones que involucran agregaciones, uniones y otras transformaciones de datos.

* **Simplicidad y facilidad de uso**:

    * **Sin servidor**: Al ser una base de datos embebida, DuckDB no requiere la configuración y administración de un servidor separado, lo que simplifica el proceso de configuración y reduce la sobrecarga administrativa. Es decir, no es necesario levantar un docker como hicimos con postgres

    * **Fácil integración**: Se integra fácilmente con lenguajes de programación populares como Python y R, lo que permite a los usuarios aprovechar las herramientas y bibliotecas existentes.

    * **SQL estándar**: Utiliza un dialecto SQL estándar, lo que facilita su aprendizaje para aquellos que ya están familiarizados con SQL.

* **Versatilidad y flexibilidad**: Admite una amplia variedad de formatos de datos, lo que lo hace versátil para trabajar con diferentes fuentes de datos.

* **Costo-efectividad**: Es una alternativa muy barata a las soluciones basadas en la nube.


## **Porque "Big Data is Dead"**

**Comparación:**

In [9]:
import os

# Cambiar el directorio de trabajo a dos niveles arriba
os.chdir(os.path.join(os.getcwd(), "../.."))

# Verificar el nuevo directorio de trabajo
print("El nuevo directorio de trabajo es:", os.getcwd())

El nuevo directorio de trabajo es: /home/juan/UCCuyo/BaseDeDatos2024


In [15]:
import duckdb

import pandas as pd

con = duckdb.connect()

In [12]:
%%time
df = con.sql('''
SELECT stop_id, COUNT(DISTINCT trip_id) 
FROM read_csv('Data/feed-gtfs/stop_times.txt', types={'stop_id': 'VARCHAR'})
GROUP BY stop_id
''').df()

FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

CPU times: user 11min 47s, sys: 6min 7s, total: 17min 55s
Wall time: 11min 37s


In [13]:
df.head(2)

Unnamed: 0,stop_id,count(DISTINCT trip_id)
0,201044,1242
1,201884,1156


In [12]:
%%time

# Leer el archivo CSV y asegurarse de que stop_id sea tratado como texto
df = pd.read_csv('Data/feed-gtfs/stop_times.txt', dtype={'stop_id': str})

# Agrupar por stop_id y contar los valores únicos de trip_id
result = df.groupby('stop_id')['trip_id'].nunique().reset_index()

# Renombrar las columnas para que coincidan con la consulta SQL original
result.columns = ['stop_id', 'trip_count']

CPU times: user 9min 9s, sys: 7min 22s, total: 16min 32s
Wall time: 21min 17s


In [16]:
%%time
from sqlalchemy import create_engine

sqlalchemy_engine = create_engine('postgresql://postgres:1234@localhost:5432/gtfs')

query = '''
SELECT stop_id, COUNT(DISTINCT trip_id) AS trip_count
FROM static.stop_times
GROUP BY stop_id
'''

# Ejecutar la consulta y traer los resultados como DataFrame
df = pd.read_sql(query, sqlalchemy_engine)

CPU times: user 21.4 s, sys: 5.72 s, total: 27.2 s
Wall time: 6min 42s


Comparaciones

**Pandas**

```
CPU times: user 9min 9s, sys: 7min 22s, total: 16min 32s
Wall time: 21min 17s
```

**Postgres**

```
CPU times: user 21.4 s, sys: 5.72 s, total: 27.2 s
Wall time: 6min 42s
```

**DuckDB**

```
CPU times: user 11min 47s, sys: 6min 7s, total: 17min 55s
Wall time: 11min 37s
```

**DuckDB con persistencia de Datos**

```
CPU times: user 6min 48s, sys: 3min 10s, total: 9min 58s
Wall time: 4min 56s
```

**Duckdb con PostgresScan**

```
CPU times: user 8min 7s, sys: 0 ns, total: 8min 7s
Wall time: 10min 40s
```

## 3). Cuándo usar DuckDB:

* **Análisis rápido de datos tabulares:**  Si necesitas analizar datos estructurados en tablas (o documentos que se puedan representar como tablas) y la velocidad es crucial, DuckDB es una excelente opción.

* **Conjuntos de datos de tamaño moderado:** DuckDB funciona mejor con conjuntos de datos que caben en la memoria o que, aunque mayores,  permitan la funcionalidad de "spill-over"  a disco de forma eficiente (cientos de gigabytes).

* **Análisis ad-hoc y exploración de datos:** Es ideal para la exploración de datos, análisis ad-hoc y creación rápida de prototipos debido a su facilidad de uso y velocidad.

* **Integración con Python/R:** Si trabajas con Python o R, la integración fluida de DuckDB con estos lenguajes lo convierte en una herramienta poderosa para el análisis de datos.

* **Análisis de datos local y privado:** Si necesitas analizar datos sensibles que no se pueden compartir o transferir a un servidor remoto, DuckDB es una excelente opción ya que procesa los datos localmente.

* **Transformaciones de datos:** DuckDB es muy eficiente para realizar transformaciones de datos, como agregar, filtrar, unir y pivotar datos.


## 4). Cuándo NO usar DuckDB:

* **Datos transaccionales:** DuckDB tiene un soporte limitado para transacciones y no es adecuado para aplicaciones que requieren un alto nivel de concurrencia y consistencia de datos, como sistemas de comercio electrónico o aplicaciones financieras. Para eso sirven las bases de datos cliente-servidor tradicionales como PostgreSQL.

* **Conjuntos de datos extremadamente grandes (Big Data):**  Aunque puede manejar conjuntos de datos más grandes que la memoria mediante el volcado a disco, su rendimiento disminuye cuando se requiere un uso intensivo del disco. Para conjuntos de datos masivos (terabytes o petabytes), distribuye el proceso con 
herramientas como Spark u opta por bases de datos diseñadas para Big Data.

* **Streaming de datos en tiempo real:** DuckDB no está diseñado para procesar flujos de datos en tiempo real.  Es una base de datos orientada a lotes, lo que significa que procesa los datos en lotes en lugar de continuamente.

## 5). DuckDB Vs Postgres

| Característica      | DuckDB                                    | PostgreSQL                                         |
|---------------------|-------------------------------------------|---------------------------------------------------|
| **Tipo**            | Embebido, en proceso                      | Cliente-servidor                                  |
| **Arquitectura**    | Columnar, en memoria, analítica            | Fila, en disco, transaccional                     |
| **Escalabilidad**   | Limitada por la memoria RAM                | Alta, escalable a grandes conjuntos de datos      |
| **Transacciones**   | Mínimo soporte                            | Soporte completo ACID                             |
| **Concurrencia**    | Limitada                                  | Alta                                              |
| **Casos de uso**    | Análisis ad-hoc, procesamiento de datos    | Aplicaciones web, almacenamiento de datos         |
| **Rendimiento**     | Muy alto para datos en memoria            | Bueno, pero puede requerir optimización           |
| **Facilidad de uso**| Fácil de configurar y usar                | Requiere más configuración y administración       |
| **Tamaño de datos** | Cientos de gigabytes                      | Terabytes, petabytes                              |


### Cosas que puede hacer DuckDB que no puede hacer Postgres:

### **a. Inferir el tipo de archivo y el esquema:**

DuckDB simplifica la consulta de datos externos al inferir automáticamente el tipo de archivo y el esquema. Esto significa que no necesitas definir manualmente la estructura de los datos antes de consultarlos.

* **Inferencia de tipo de archivo:** DuckDB reconoce automáticamente los formatos de archivo comunes como CSV, JSON, Parquet y otros.  Simplemente especificando la ruta del archivo en la cláusula `FROM`, DuckDB detecta el formato y utiliza el lector apropiado.  No necesitas especificar explícitamente `read_csv`, `read_json`, etc., a menos que quieras configurar opciones específicas.

* **Inferencia de esquema:**  DuckDB examina una muestra de los datos para determinar el tipo de dato de cada columna (INTEGER, VARCHAR, DATE, etc.).  Este proceso es generalmente preciso, pero se puede personalizar utilizando funciones como `read_csv_auto`, `read_json_auto` y `read_parquet_auto`, que ofrecen un mayor control sobre la inferencia de tipos y otras opciones de lectura.

* **Ejemplo:**

```sql
SELECT * FROM 'mi_archivo.csv';  -- DuckDB infiere que es un CSV y su esquema
```

* **Ventajas:**
    * **Simplicidad:** Reduce la cantidad de código necesario para consultar datos externos.
    * **Rapidez:**  Permite un análisis rápido sin la necesidad de definir esquemas manualmente.
    * **Flexibilidad:** Se adapta a diferentes formatos de archivo.

* **Consideraciones:**
    * **Precisión de la inferencia:**  Si bien la inferencia automática suele ser precisa, puede haber casos donde necesites ajustar los tipos de datos manualmente.
    * **Muestreo:** La inferencia se basa en una muestra de los datos. Si la muestra no es representativa, los tipos de datos inferidos podrían ser incorrectos. (el caso de "Stop_times")


### **b. Usar una base de datos sin persistir datos**

Usar una base de datos sin persistir datos significa **consultar y procesar información directamente desde la fuente original**, sin importarla ni almacenarla previamente dentro de la propia base de datos. En lugar de crear tablas y cargar los datos en ellas, se accede a los datos externamente (por ejemplo, en archivos CSV, JSON, Parquet, u otras bases de datos) y se ejecutan las consultas directamente sobre esas fuentes.



* **Análisis de datos remotos:**  Puedes consultar datos directamente desde un almacenamiento en la nube (como S3) o un servidor remoto sin necesidad de descargarlos completamente. Esto es útil para explorar grandes conjuntos de datos o para realizar análisis preliminares antes de decidir si vale la pena importarlos.

* **Transformación de datos:** DuckDB se puede utilizar como una herramienta de transformación de datos "intermedia".  Puedes leer datos de una fuente, transformarlos usando SQL (filtrar, agregar, unir, etc.) y luego exportarlos a otro formato o sistema sin necesidad de almacenarlos en DuckDB.

* **Aprovechar la velocidad de DuckDB con otras bases de datos:** Puedes conectar DuckDB a otras bases de datos (como SQLite o PostgreSQL) y consultar sus datos directamente usando el motor de consultas de DuckDB, que suele ser más rápido para análisis. Esto te permite aprovechar las ventajas de ambas bases de datos.

* **Análisis ad-hoc:**  Para análisis rápidos y exploratorios, no siempre es necesario persistir los datos.  Puedes consultar directamente los archivos o las bases de datos externas y obtener resultados inmediatos.

* **Privacidad y seguridad:** En algunos casos, la persistencia de datos puede ser un problema de privacidad o seguridad. Consultar datos sin persistirlos evita estos problemas.


* **Ejemplo (Transformación de datos):**

```sql
COPY (SELECT * FROM 'datos.csv' WHERE columna1 > 10) TO 'datos_filtrados.csv' WITH (HEADER);
```


En resumen, la capacidad de consultar datos sin persistencia hace que DuckDB sea una herramienta extremadamente versátil para una amplia gama de tareas de análisis y manipulación de datos, ofreciendo flexibilidad, velocidad y eficiencia en diferentes escenarios.


## 6). Diferencia entre SQL de DuckDB y de otras bases de datos


### **a. Flexibilidad en `SELECT *`:**

Aunque `SELECT *` es conveniente, puede causar problemas si la tabla cambia (se agregan o eliminan columnas). DuckDB ofrece alternativas para manejar esto de forma más robusta:

* **`EXCLUDE`:** Excluye columnas específicas de un `SELECT *`.  Es útil cuando quieres casi todas las columnas, pero algunas son irrelevantes o muy grandes.

   ```sql
   SELECT * EXCLUDE (id, timestamp) FROM eventos; -- Selecciona todas las columnas menos id y timestamp
   ```

* **`REPLACE`:**  Reemplaza el valor de una columna por el resultado de una expresión, manteniendo el resto de las columnas intactas.  Útil para realizar cálculos o transformaciones sobre la marcha.

   ```sql
   SELECT * REPLACE (SUBSTR(nombre, 1, 10) AS nombre_corto) FROM usuarios; -- Trunca la columna nombre a 10 caracteres
   SELECT * REPLACE (precio * 1.21 AS precio_con_iva) FROM productos; -- Calcula el precio con IVA
   ```

### **b. Proyección y filtrado dinámico con `COLUMNS`:**

`COLUMNS` ofrece una potente forma de seleccionar, filtrar y agregar columnas basándose en patrones o funciones.

* **Selección con expresiones regulares:**

   ```sql
   SELECT COLUMNS('sensor_.*') FROM mediciones;  -- Selecciona todas las columnas que empiezan por "sensor_"
   SELECT COLUMNS('%_temp') FROM datos; -- Selecciona columnas que terminan en "_temp"
   ```

* **Filtrado con expresiones regulares y otras condiciones:**

   ```sql
   SELECT id, COLUMNS('sensor.*') FROM mediciones WHERE fecha > '2024-01-01'; -- Filtra por fecha y selecciona columnas "sensor"
   ```

* **Agregación dinámica:**

   ```sql
   SELECT max(COLUMNS('sensor.*')) FROM mediciones; -- Calcula el máximo para cada columna que empieza con "sensor_"
   ```

* **Funciones Lambda:** Permite mayor flexibilidad.

   ```sql
   SELECT COLUMNS(c -> c LIKE '%_valor' AND typeof(c) = 'DOUBLE') FROM datos; -- Selecciona columnas numéricas que terminan en "_valor"
   ```

### **c. Inserción `BY NAME`:**

La "inserción by name" en DuckDB facilita la inserción de datos desde una fuente externa, como un archivo CSV o una tabla en otra base de datos, cuando el orden de las columnas en la fuente no coincide con el orden de las columnas en la tabla de destino.  En lugar de reordenar las columnas en la consulta `SELECT` o especificar explícitamente la correspondencia entre columnas, DuckDB permite que las columnas se correspondan *por nombre*.

**Problema que resuelve:**

Imagina que tienes un archivo CSV llamado `datos.csv` con las columnas `nombre`, `apellido` e `id`, en ese orden. Quieres insertar estos datos en una tabla llamada `usuarios` en DuckDB, pero en tu tabla las columnas están en un orden diferente: `id`, `nombre`, `apellido`.

Con la inserción estándar, tendrías que reordenar las columnas en la consulta `SELECT`:

```sql
INSERT INTO usuarios(id, nombre, apellido) SELECT id, nombre, apellido FROM 'datos.csv';
```

O tendrías que especificar explícitamente la correspondencia:

```sql
INSERT INTO usuarios(id, nombre, apellido) SELECT id, nombre, apellido FROM read_csv_auto('datos.csv', names=['nombre', 'apellido', 'id']);

```

Esto puede ser tedioso, especialmente si tienes muchas columnas o si el orden de las columnas en la fuente cambia con frecuencia.

**Solución con "inserción by name":**

Con la "inserción by name", simplemente usas la cláusula `BY NAME` después de `INSERT INTO`:

```sql
INSERT INTO usuarios BY NAME SELECT nombre, apellido, id FROM 'datos.csv';
```

DuckDB automáticamente corresponderá las columnas en la consulta `SELECT` con las columnas en la tabla `usuarios` *por nombre*, independientemente de su orden.  En este ejemplo, `nombre` del CSV se insertará en la columna `nombre` de la tabla, `apellido` en `apellido` e `id` en `id`, aunque el orden en el `SELECT` sea diferente.



### **d. Muestreo de datos con `SAMPLE`:**

Obtén una muestra aleatoria de tus datos para análisis exploratorios o pruebas.

* **Porcentaje:**

   ```sql
   SELECT * FROM ventas USING SAMPLE 5%; -- Muestra del 5% de las filas
   ```

* **Número fijo de filas:**

   ```sql
   SELECT * FROM clientes USING SAMPLE 100 ROWS; -- 100 filas aleatorias
   ```

* **Métodos de muestreo:**
    * `BERNOULLI`: (por defecto) Cada fila tiene una probabilidad independiente de ser incluida.
    * `SYSTEM`: Muestrea sistemáticamente cada n-ésima fila.  Menos aleatorio, pero puede ser más eficiente.
    * `RESERVOIR`:  Útil para muestras de tamaño fijo cuando no se conoce el tamaño total del conjunto de datos.

### **e.  Alias en cualquier parte:**

La capacidad de DuckDB de usar alias "en cualquier parte" se refiere a la posibilidad de referenciar un alias de columna, definido en la cláusula `SELECT`, en cualquier otra parte de la misma consulta, incluyendo `WHERE`, `GROUP BY`, `HAVING` e incluso `ORDER BY`.  Esto no es estándar en SQL y muchos otros sistemas de bases de datos no lo permiten, lo que obliga a repetir expresiones o a usar subconsultas.

**Ventajas de usar alias en cualquier parte:**

* **Legibilidad:** Hace las consultas más fáciles de leer y entender, especialmente las complejas, al evitar la repetición de expresiones largas o complicadas.
* **Mantenimiento:** Si necesitas modificar una expresión, solo tienes que cambiarla en un lugar (la cláusula `SELECT`), en lugar de en todas las cláusulas donde se utiliza.
* **Concisión:** Reduce la longitud del código SQL al evitar la repetición.


**Ejemplos:**

**1. En la cláusula `WHERE`:**

```sql
SELECT fecha AS fecha_compra, precio * cantidad AS total
FROM ventas
WHERE fecha_compra > '2024-01-01';  -- Usando el alias fecha_compra en el WHERE
```

Sin esta característica, tendrías que repetir la expresión `fecha` o usar una subconsulta:

```sql
-- Repitiendo la expresión
SELECT fecha, precio * cantidad AS total
FROM ventas
WHERE fecha > '2024-01-01';

-- Usando una subconsulta (más complejo)
SELECT fecha_compra, total
FROM (SELECT fecha AS fecha_compra, precio * cantidad AS total FROM ventas) AS subconsulta
WHERE fecha_compra > '2024-01-01';
```

**2. En la cláusula `GROUP BY`:**

```sql
SELECT strftime('%Y-%m', fecha) AS mes, SUM(precio) AS total_ventas
FROM ventas
GROUP BY mes;  -- Usando el alias mes en el GROUP BY
```


**3. En la cláusula `HAVING`:**

```sql
SELECT strftime('%Y-%m', fecha) AS mes, SUM(precio) AS total_ventas
FROM ventas
GROUP BY mes
HAVING total_ventas > 10000; -- Usando el alias total_ventas en el HAVING
```


**4. En la cláusula `ORDER BY`:**

```sql
SELECT nombre, LENGTH(nombre) AS longitud_nombre
FROM usuarios
ORDER BY longitud_nombre DESC;  -- Usando el alias longitud_nombre en el ORDER BY
```

### **f. `GROUP BY ALL`:**


Agrupa por todas las columnas no agregadas, simplificando la sintaxis.

```sql
SELECT fecha, producto, SUM(cantidad) AS total_vendido
FROM ventas
GROUP BY ALL; -- Equivalente a GROUP BY fecha, producto
```

### **g. `ORDER BY ALL`:**

Ordena por todas las columnas del `SELECT`, de izquierda a derecha.

```sql
SELECT * FROM usuarios ORDER BY ALL; -- Ordena por todas las columnas en el orden en que aparecen en el SELECT
```

Estas extensiones simplifican muchas tareas comunes de análisis de datos y hacen que las consultas SQL en DuckDB sean más concisas, legibles y fáciles de mantener.



# 2. ¿Cómo usar DuckDB?

## 1). Con Python

Puedes crear una base de datos DuckDB desde Python de varias maneras, dependiendo de si quieres una base de datos en memoria o persistente en disco:

**1. Base de datos en memoria (por defecto):**

La forma más simple es crear una conexión sin especificar un archivo de base de datos.  Esto crea una base de datos en memoria que se perderá al cerrar la conexión.

```python
import duckdb

# Crea una conexión a una base de datos en memoria
con = duckdb.connect()

# Realiza consultas y operaciones
con.execute("CREATE TABLE mi_tabla (a INTEGER, b VARCHAR)")
con.execute("INSERT INTO mi_tabla VALUES (1, 'Hola'), (2, 'Mundo')")
result = con.execute("SELECT * FROM mi_tabla")
print(result.fetchdf())

# Cierra la conexión (la base de datos en memoria se pierde)
con.close()

```

También puedes usar la cadena especial `:memory:` para crear una base de datos en memoria, de forma explícita:

```python
import duckdb

con = duckdb.connect(":memory:")
# ... operaciones ...
con.close()
```

**2. Base de datos persistente en disco:**

Para crear una base de datos que persista después de cerrar la conexión, especifica una ruta de archivo al crear la conexión.

```python
import duckdb

# Crea una conexión a una base de datos en disco
con = duckdb.connect("mi_base_de_datos.duckdb")

# Realiza consultas y operaciones (igual que con la base de datos en memoria)
con.execute("CREATE TABLE otra_tabla (x INTEGER, y FLOAT)")
# ... otras operaciones ...

# Cierra la conexión (la base de datos se guarda en el archivo)
con.close()


# Para volver a acceder a la base de datos, simplemente conecta al mismo archivo
con = duckdb.connect("mi_base_de_datos.duckdb")
# ... más operaciones ...
con.close()

```


**Consideraciones adicionales:**

* **Read-only:** Puedes abrir una base de datos en modo de solo lectura usando el argumento `read_only=True` en `duckdb.connect()`.  Esto es útil para acceder a bases de datos sin modificarlas.

* **Base de datos en memoria con copia de seguridad en disco:** Para una base de datos en memoria que se guarde en disco al cerrar la conexión,  utiliza el argumento `config={"backup_database_path": "ruta_de_archivo.duckdb"}`.


"Crear una base de datos en memoria" significa que la base de datos reside completamente en la memoria RAM del computadora, en lugar de ser almacenada en un disco duro o unidad de estado sólido (SSD).  Todos los datos, tablas, índices y otras estructuras de la base de datos se mantienen en la memoria principal durante su funcionamiento.

**Ventajas de una base de datos en memoria:**

* **Velocidad:** El acceso a los datos en memoria es significativamente más rápido que el acceso a datos en disco, lo que resulta en un rendimiento de consulta mucho mayor.

* **Simplicidad:** No se requiere administración de archivos ni configuración de almacenamiento, lo que simplifica la configuración y el uso.


**Desventajas de una base de datos en memoria:**

* **Volatilidad:** Los datos se pierden cuando se apaga el sistema o se cierra la conexión a la base de datos.  No es persistente a menos que se implemente un mecanismo de copia de seguridad/restauración o volcado a disco.

* **Limitaciones de tamaño:** El tamaño de la base de datos está limitado por la cantidad de memoria RAM disponible en el sistema. No es adecuado para bases de datos extremadamente grandes que exceden la capacidad de la memoria.


**Cuándo es útil una base de datos en memoria:**

* **Análisis rápido de datos pequeños o medianos:** Ideal para conjuntos de datos que caben cómodamente en la memoria.

* **Prototipos y experimentación:** Facilita la creación rápida de prototipos y la experimentación con datos sin la sobrecarga de la persistencia en disco.

* **Aplicaciones temporales:**  Útil para aplicaciones donde la persistencia de datos no es esencial o donde los datos se pueden reconstruir fácilmente si es necesario.

* **Almacenamiento en caché:** Se puede usar como caché para datos utilizados con frecuencia, lo que acelera el acceso a los datos almacenados en disco.


En resumen, una base de datos en memoria ofrece un rendimiento excepcional para conjuntos de datos que caben en la memoria, pero no es adecuada para aplicaciones que requieren persistencia de datos a largo plazo o que manejan grandes volúmenes de datos.

**Ejemplo con GTFS**

En el ejemplo anterior, creamos una base de datos duckdb en memoria y leímos direcatmente el archivo "stop_times" que está guardado en el disco de la máquina. La tabla "Stop_times" fue leída solamente para hacer el calculo pero no fue guardada en ningún otro lado,, este sería un caso de uso de duckdb sin persistir los datos:

In [22]:
%%time

con = duckdb.connect()

con.sql('''
SELECT stop_id, COUNT(DISTINCT trip_id) 
FROM read_csv('Data/feed-gtfs/stop_times.txt', types={'stop_id': 'VARCHAR'})
GROUP BY stop_id
''')

CPU times: user 8.78 ms, sys: 187 ms, total: 196 ms
Wall time: 192 ms


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

┌─────────────┬─────────────────────────┐
│   stop_id   │ count(DISTINCT trip_id) │
│   varchar   │          int64          │
├─────────────┼─────────────────────────┤
│ 67602759    │                     169 │
│ 67602966    │                     169 │
│ 67602857    │                     169 │
│ 67602547    │                     162 │
│ 67601869    │                     162 │
│ 67602755    │                     162 │
│ 67602250    │                     162 │
│ 67602500    │                     163 │
│ 67602584    │                     163 │
│ 67602757    │                     212 │
│    ·        │                      ·  │
│    ·        │                      ·  │
│    ·        │                      ·  │
│ 06861000015 │                     197 │
│ 06252000017 │                     132 │
│ 06861000024 │                     197 │
│ 06861000025 │                     197 │
│ 06252000016 │                     132 │
│ 06252000019 │                     132 │
│ 06252000032 │                   

In [23]:
con.close()

Por el contrario, si queremos persistir los datos para que DuckDB no tenga que leer los archivos .txt cada vez que se haga una operación con la tabla, se puede hacer lo siguiente:

In [17]:
# Ruta a la carpeta que contiene los archivos GTFS
ruta_gtfs = "Data/feed-gtfs"

# Nombre de la base de datos DuckDB
nombre_bd = "gtfs.duckdb"

In [25]:
# Crea una conexión a la base de datos DuckDB
con = duckdb.connect(nombre_bd)

# Crea el esquema "static" si no existe
con.execute("CREATE SCHEMA IF NOT EXISTS static")

# Itera sobre los archivos .txt en la carpeta GTFS
for archivo in os.listdir(ruta_gtfs):
    if archivo.endswith(".txt"):
        nombre_tabla = archivo[:-4]  # Elimina la extensión .txt
        ruta_archivo = os.path.join(ruta_gtfs, archivo)

        # Crea la tabla en el esquema "static"
        if nombre_tabla == "stop_times":  # Caso especial para stop_times.txt, hay que especificar que "stop_id" es varchar porque los sistemas automaticamente lo infieren como integer
            sql = f"""
            CREATE TABLE static."{nombre_tabla}" AS
            SELECT * FROM read_csv('{ruta_archivo}', types={{'stop_id': 'VARCHAR'}} );
            """
        else: # Resto de los archivos
            sql = f"""
            CREATE TABLE static."{nombre_tabla}" AS
            SELECT * FROM read_csv_auto('{ruta_archivo}');
            """

        try:
            con.execute(sql)
        except Exception as e:
            print(f"Error al crear la tabla {nombre_tabla}: {e}")


# Cierra la conexión a la base de datos
con.close()

print(f"Base de datos '{nombre_bd}' creada (o actualizada).")


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

Base de datos 'gtfs.duckdb' creada (o actualizada).


In [18]:
con = duckdb.connect(nombre_bd)

In [19]:
con.sql('''
SELECT *
FROM information_schema.tables
''')

┌───────────────┬──────────────┬────────────────┬────────────┬──────────────────────────────┬──────────────────────┬───────────────────────────┬──────────────────────────┬────────────────────────┬────────────────────┬──────────┬───────────────┬───────────────┐
│ table_catalog │ table_schema │   table_name   │ table_type │ self_referencing_column_name │ reference_generation │ user_defined_type_catalog │ user_defined_type_schema │ user_defined_type_name │ is_insertable_into │ is_typed │ commit_action │ TABLE_COMMENT │
│    varchar    │   varchar    │    varchar     │  varchar   │           varchar            │       varchar        │          varchar          │         varchar          │        varchar         │      varchar       │ varchar  │    varchar    │    varchar    │
├───────────────┼──────────────┼────────────────┼────────────┼──────────────────────────────┼──────────────────────┼───────────────────────────┼──────────────────────────┼────────────────────────┼────────────────────┼

In [20]:
%%time
df = con.sql('''
SELECT stop_id, COUNT(DISTINCT trip_id) 
FROM static.stop_times
GROUP BY stop_id
''').df()

FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

CPU times: user 6min 48s, sys: 3min 10s, total: 9min 58s
Wall time: 4min 56s


In [21]:
con.close()

## 3). Con Postgres:

In [22]:
con_pos = duckdb.connect()

In [23]:
# Credenciales de PostgreSQL
cred = {
    "dbname": "gtfs",
    "user": "postgres",
    "password": "1234",
    "host": "localhost",
    "port": 5432,
}

con_pos.execute(f'''
INSTALL postgres;
LOAD postgres;
ATTACH 'dbname={cred['dbname']} user={cred['user']} password={cred['password']} host={cred['host']} port={cred['port']}' AS db (TYPE POSTGRES, READ_ONLY);
''')


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

<duckdb.duckdb.DuckDBPyConnection at 0x7f141cc88170>

In [24]:
con_pos.sql('''
SELECT *
FROM information_schema.tables
''')

┌───────────────┬────────────────────┬───────────────────────┬────────────┬──────────────────────────────┬──────────────────────┬───────────────────────────┬──────────────────────────┬────────────────────────┬────────────────────┬──────────┬───────────────┬───────────────┐
│ table_catalog │    table_schema    │      table_name       │ table_type │ self_referencing_column_name │ reference_generation │ user_defined_type_catalog │ user_defined_type_schema │ user_defined_type_name │ is_insertable_into │ is_typed │ commit_action │ TABLE_COMMENT │
│    varchar    │      varchar       │        varchar        │  varchar   │           varchar            │       varchar        │          varchar          │         varchar          │        varchar         │      varchar       │ varchar  │    varchar    │    varchar    │
├───────────────┼────────────────────┼───────────────────────┼────────────┼──────────────────────────────┼──────────────────────┼───────────────────────────┼─────────────────────

In [25]:
%%time
df = con_pos.sql('''

SELECT *

FROM postgres_query('db', 'SELECT stop_id, COUNT(DISTINCT trip_id) 
                          FROM static.stop_times
                          GROUP BY stop_id');
''').df()

FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

CPU times: user 8min 7s, sys: 0 ns, total: 8min 7s
Wall time: 10min 40s


# 3. MotherDuck

## 1). ¿Qué es MotherDuck?

MotherDuck es una plataforma de análisis de datos sin servidor que utiliza DuckDB como motor de consultas. Se centra en proporcionar una experiencia simplificada y eficiente para consultar y analizar datos, eliminando la necesidad de que los usuarios administren la infraestructura subyacente. Permite la ejecución híbrida de consultas, combinando el DuckDB local con el de la nube, y ofrece funciones de colaboración y acceso a través de una interfaz web, la CLI de DuckDB y las APIs de DuckDB.

* **Sin servidor:**  "Sin servidor" significa que los usuarios no tienen que preocuparse por la administración de la infraestructura subyacente, como servidores, máquinas virtuales, clústeres o la configuración de la base de datos.  MotherDuck se encarga de todo esto, permitiendo a los usuarios concentrarse en el análisis de datos en lugar de la administración de sistemas.

* **Basada en DuckDB:** MotherDuck utiliza DuckDB como su motor de consultas. Esto proporciona un rendimiento excepcional para consultas analíticas, especialmente en conjuntos de datos que caben en memoria. 

* **Colaborativa:** MotherDuck está diseñada para facilitar la colaboración entre usuarios.  Permite compartir bases de datos y consultas.

* **Plataforma de análisis:**  El enfoque principal de MotherDuck es el análisis de datos.  Proporciona herramientas y funcionalidades para consultar, explorar y analizar datos de diversas fuentes.

* **Acceso flexible:** Se puede acceder a MotherDuck a través de diferentes interfaces:
    * **Interfaz de usuario web:** Una interfaz intuitiva basada en navegador para escribir consultas, explorar datos y visualizar resultados.
    * **DuckDB CLI:** La interfaz de línea de comandos de DuckDB, extendida con funcionalidades específicas de MotherDuck.
    * **APIs de DuckDB:**  Integraciones con lenguajes de programación como Python, lo que permite interactuar con MotherDuck desde el código.

* **Beneficios clave:**
    * **Simplicidad:**  Elimina la complejidad de la administración de la infraestructura.
    * **Escalabilidad:**  Escala automáticamente según las necesidades, sin intervención manual.
    * **Rentabilidad:**  Solo se paga por los recursos utilizados, sin costos fijos de infraestructura.
    * **Colaboración:** Facilita el trabajo en equipo y el intercambio de datos.

* **Objetivo:** MotherDuck busca democratizar el acceso al análisis de datos de alto rendimiento, permitiendo a los usuarios, incluso aquellos sin experiencia en administración de bases de datos, realizar análisis complejos de forma sencilla y eficiente.

En resumen, la introducción de MotherDuck la posiciona como una solución innovadora que simplifica el análisis de datos en la nube al combinar la potencia de DuckDB con la conveniencia del modelo sin servidor, la colaboración y una interfaz de usuario accesible.


## 2). ¿Por Qué usar MotherDuck?

Porque tiene  **"Ejecución Híbrida"**: MotherDuck optimiza la ejecución de consultas al distribuir el trabajo entre tu máquina local y la nube. Por ejemplo, si tenes datos localmente y quieres unirlos con datos que residen en MotherDuck, la extensión determinará la forma más eficiente de realizar la unión, ya sea enviando los datos locales a la nube o trayendo los datos de la nube a tu máquina local. Esto minimiza la transferencia de datos y maximiza el rendimiento.

Esto hace que no sea tan rápido y potente como otros DataWarehouses como Snowflake, pero es considerablemente más barato:

**Precios de MotherDuck**

![image.png](attachment:image.png)


**Precios de Snowflake**

![image-2.png](attachment:image-2.png)

![image-3.png](attachment:image-3.png)

Es decir, ejecutar un código por una hora en Snowflake puede costar desde 3 a 2300 dolares. Tampoco existe un plan gratuito, mientras que el de MotherDuck es bastante generoso.

## 3). ¿Cómo usar MotherDuck?

### 1). Crearse una cuenta en auth.motherduck.com

![image.png](attachment:image.png)

### 2). Ir a settings

![image.png](attachment:image.png)

### 3). ir a "Plans"
![image.png](attachment:image.png)

### 4). En "Plans" poner "Switch to Free"

![image.png](attachment:image.png)

### 5). Ir a "General" y Poner "Create Token"

![image.png](attachment:image.png)

### 6). Crear token y asignarle un nombre cualquiera

![image.png](attachment:image.png)

### 7). Copiar el token

![image.png](attachment:image.png)

### 8). Guardar el Token en el .env

![image.png](attachment:image.png)

## 9). Instalar MotherDuck

In [54]:
pip install motherduck

Collecting motherduck
  Downloading motherduck-0.0.0-py3-none-any.whl.metadata (80 bytes)
Downloading motherduck-0.0.0-py3-none-any.whl (2.0 kB)
Installing collected packages: motherduck
Successfully installed motherduck-0.0.0
Note: you may need to restart the kernel to use updated packages.


## 10). cargar el token en una variable

In [7]:
import os 
from dotenv import load_dotenv
load_dotenv()

motherduck_token = os.getenv('MOTHER_DUCK_TOKEN')

In [10]:
import duckdb 

nombre_bd_motherduck = 'gtfs_cloud'

ruta_bd_local = 'gtfs.duckdb'

con = duckdb.connect(f"md:?motherduck_token={motherduck_token}")

# Crea la base de datos en MotherDuck a partir de la base de datos local
con.execute(f"CREATE DATABASE {nombre_bd_motherduck} FROM '{ruta_bd_local}'")

FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

<duckdb.duckdb.DuckDBPyConnection at 0x7f141d93c330>

# 4. Extra

## 1). Lenguaje de definición de datos:

El Lenguaje de Definición de Datos (DDL) en DuckDB, al igual que en otros sistemas de gestión de bases de datos relacionales, se utiliza para definir la estructura de la base de datos.  Esto incluye la creación, modificación y eliminación de tablas, vistas, esquemas y otros objetos de la base de datos. DuckDB ofrece una sintaxis SQL estándar para DDL, con algunas extensiones útiles.

**1. `CREATE TABLE`:**

Esta sentencia se utiliza para crear nuevas tablas.  Puedes especificar los nombres de las columnas, sus tipos de datos y varias restricciones.

* **Sintaxis básica:**

```sql
CREATE TABLE nombre_tabla (
    columna1 tipo_dato restricciones,
    columna2 tipo_dato restricciones,
    ...
);
```

* **Tipos de datos:** DuckDB soporta una variedad de tipos de datos, incluyendo `INTEGER`, `FLOAT`, `DOUBLE`, `VARCHAR`, `DATE`, `TIMESTAMP`, `BOOLEAN`, etc.

* **Restricciones:**
    * `NOT NULL`:  Especifica que una columna no puede contener valores NULL.
    * `UNIQUE`:  Asegura que todos los valores en una columna sean únicos.
    * `PRIMARY KEY`:  Combina `NOT NULL` y `UNIQUE`.  Identifica de forma única cada fila en la tabla.
    * `FOREIGN KEY`:  Establece una relación con otra tabla, asegurando la integridad referencial.
    * `CHECK`:  Define una condición que los valores de una columna deben cumplir.
    * `DEFAULT`:  Especifica un valor por defecto para una columna si no se proporciona ningún valor durante la inserción.

* **Ejemplo:**

```sql
CREATE TABLE productos (
    id INTEGER PRIMARY KEY,
    nombre VARCHAR NOT NULL,
    precio DECIMAL(10, 2) CHECK (precio >= 0),
    categoria VARCHAR DEFAULT 'Sin categoría'
);
```

* **`IF NOT EXISTS`:** Esta cláusula evita errores si la tabla ya existe. La sentencia se convierte en un "no-op" (no operación).

```sql
CREATE TABLE IF NOT EXISTS productos (
    ...
);
```


**2. `ALTER TABLE`:**

Se utiliza para modificar la estructura de una tabla existente.

* **Agregar columna:**

```sql
ALTER TABLE productos ADD COLUMN descripcion VARCHAR;
```

* **Eliminar columna:**

```sql
ALTER TABLE productos DROP COLUMN descripcion;
```

* **Renombrar columna:**

```sql
ALTER TABLE productos RENAME COLUMN nombre TO nombre_producto;
```

* **Renombrar tabla:**

```sql
ALTER TABLE productos RENAME TO productos_nuevos;
```


**3. `DROP TABLE`:**

Elimina una tabla de la base de datos.

```sql
DROP TABLE productos;
```

* **`IF EXISTS`:**  Evita errores si la tabla no existe.

```sql
DROP TABLE IF EXISTS productos;
```


**4. `CREATE VIEW`:**

Crea una vista, que es una consulta almacenada que se comporta como una tabla virtual.

```sql
CREATE VIEW productos_caros AS
SELECT * FROM productos WHERE precio > 100;
```


**5. `CREATE SCHEMA`:**

Crea un esquema, que es una colección de tablas y otros objetos de la base de datos.  Sirve para organizar y agrupar objetos.

```sql
CREATE SCHEMA ventas;

CREATE TABLE ventas.clientes (
  ...
);
```


**6.  `CREATE SEQUENCE`:**

Crea una secuencia, que es un generador de números únicos.  Útil para generar valores autoincrementales para claves primarias.

```sql
CREATE SEQUENCE id_producto START 1 INCREMENT 1;
```

Luego, puedes usar `nextval('id_producto')` para obtener el siguiente valor de la secuencia.


**7. `CREATE OR REPLACE TABLE` / `CREATE OR REPLACE VIEW`:**
DuckDB incluye las sentencias  `CREATE OR REPLACE TABLE` y `CREATE OR REPLACE VIEW`. La ventaja, es que si la tabla o vista ya existen, se eliminan y se crean con la nueva estructura especificada en la sentencia.

```sql
CREATE OR REPLACE TABLE mi_tabla(id INTEGER);
```

Estas sentencias DDL en DuckDB proporcionan las herramientas necesarias para definir y gestionar la estructura de tu base de datos de manera eficiente.  El uso de  `IF NOT EXISTS` o `IF EXISTS` hace que tu código sea más robusto, evitando errores en caso de que los objetos ya existan o no.  Las secuencias son útiles para generar valores únicos, y las vistas simplifican consultas complejas. Recuerda consultar la documentación oficial de DuckDB para obtener la lista completa de tipos de datos, restricciones y opciones disponibles para cada sentencia DDL.


## 2). Lenguaje de Manipulación de datos (DML) en Duckdb

El Lenguaje de Manipulación de Datos (DML) en DuckDB, al igual que en otros sistemas de gestión de bases de datos, permite interactuar con los datos dentro de las tablas.  Esto incluye insertar nuevos datos, actualizar datos existentes, eliminar datos y, por supuesto, consultar datos.  DuckDB utiliza SQL estándar para DML, con algunas extensiones propias.

**1. `INSERT`:**

Inserta nuevas filas en una tabla.

* **Sintaxis básica:**

```sql
INSERT INTO nombre_tabla (columna1, columna2, ...) VALUES (valor1, valor2, ...);
```

* **Insertar múltiples filas:**

```sql
INSERT INTO productos (nombre, precio) VALUES ('Producto A', 10), ('Producto B', 20);
```

* **Insertar desde una consulta `SELECT`:**

```sql
INSERT INTO productos_caros SELECT * FROM productos WHERE precio > 100;
```

* **`BY NAME`:** Inserta datos desde una fuente externa, correspondiendo las columnas por nombre, independientemente del orden.

```sql
INSERT INTO usuarios BY NAME SELECT nombre, apellido, id FROM 'usuarios.csv';
```

* **Manejo de conflictos (`ON CONFLICT`):**  Define cómo se manejan los conflictos durante la inserción, como violaciones de clave única.

```sql
INSERT INTO usuarios (id, nombre) VALUES (1, 'Juan') ON CONFLICT (id) DO UPDATE SET nombre = excluded.nombre;
```


**2. `UPDATE`:**

Modifica los datos en filas existentes.

* **Sintaxis básica:**

```sql
UPDATE nombre_tabla SET columna1 = valor1, columna2 = valor2 WHERE condicion;
```

* **Ejemplo:**

```sql
UPDATE productos SET precio = precio * 1.10 WHERE categoria = 'Electrónica';
```


**3. `DELETE`:**

Elimina filas de una tabla.

* **Sintaxis básica:**

```sql
DELETE FROM nombre_tabla WHERE condicion;
```

* **Ejemplo:**

```sql
DELETE FROM productos WHERE fecha_vencimiento < CURRENT_DATE;
```



**4. `SELECT`:**

Recupera datos de una o más tablas.

* **Sintaxis básica:**

```sql
SELECT columna1, columna2, ... FROM nombre_tabla WHERE condicion;
```

* **Cláusulas:**
    * `WHERE`:  Filtra las filas que se devuelven.
    
    * `GROUP BY`:  Agrupa filas con valores iguales en columnas especificadas.
    
    * `HAVING`:  Filtra los grupos creados por `GROUP BY`.
    
    * `ORDER BY`:  Ordena los resultados.
    
    * `LIMIT`:  Limita el número de filas que se devuelven.
    
    * `OFFSET`:  Omite un número determinado de filas antes de empezar a devolver resultados.
    
    * `JOIN`:  Combina filas de dos o más tablas basándose en una condición de unión.  DuckDB soporta diferentes tipos de `JOIN`: `INNER JOIN`, `LEFT OUTER JOIN`, `RIGHT OUTER JOIN`, `FULL OUTER JOIN` y `CROSS JOIN`.
    
    * `DISTINCT`: Elimina las filas duplicadas del resultado.

* **Funciones agregadas:**  `COUNT`, `SUM`, `AVG`, `MIN`, `MAX`, etc.

* **Subconsultas:**  Consultas anidadas dentro de otra consulta.

* **Expresiones de tabla comunes (CTE):**  `WITH nombre_cte AS (SELECT ...) SELECT ... FROM nombre_cte`.


* **Ejemplos:**

```sql
SELECT nombre, precio FROM productos WHERE categoria = 'Electrónica' ORDER BY precio DESC LIMIT 10;

SELECT categoria, COUNT(*) AS cantidad_productos FROM productos GROUP BY categoria HAVING cantidad_productos > 5;

SELECT o.id_orden, c.nombre AS nombre_cliente, SUM(p.precio * oi.cantidad) AS total
FROM ordenes o
JOIN clientes c ON o.id_cliente = c.id
JOIN orden_items oi ON o.id_orden = oi.id_orden
JOIN productos p ON oi.id_producto = p.id
GROUP BY o.id_orden, c.nombre;
```

Estas sentencias DML, combinadas con las funciones y operadores de SQL, proporcionan una forma flexible y potente de interactuar con los datos en DuckDB.  La inclusión de características como `BY NAME` en `INSERT` y el manejo de conflictos con `ON CONFLICT` simplifican tareas comunes y hacen que DuckDB sea más fácil de usar para el análisis de datos. Recuerda consultar la documentación oficial para obtener una lista completa de opciones y ejemplos.
