<a href="https://colab.research.google.com/github/angel539/Python-Notebooks/blob/main/DeSQLAnoSQL_MongoDB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Ángel Mora Segura** / *Científico de Datos* / [**Linkedin**](https://www.linkedin.com/in/angelmoras/)

Este notebook ha sido creado con un propósito educacional. Puedes compartir este notebook siempre que lo hagas bajo [estos términos](https://creativecommons.org/licenses/by-nc-sa/4.0/).

---

## 1. Instalaciones y conexión con el servidor de la base de datos.

En este notebook, vamos a comprobar como usar la libreria `pymongo` de Python para conectarnos a una base de datos **MongoDB** alojada en un cluster de **Mongo Atlas**. Para hacer esta demostración usaremos un caso de estudio altamente conocido en el mundo de las bases de datos como es la gestión básica de una tienda. En la tienda, los `clientes` pueden hacer `pedidos` y los `pedidos` contendrán uno o más `productos`. Para el cliente almacenaremos varias direcciones. Por simplificación, nos basaremos en la idea de que nuestra base de datos está diseñada para girar en torno a 4 entidades: `Cliente`, `Pedido`, `Producto` y `Dirección`. Usaremos una serie de datos almacenados en CSVs y creados de manera aleatoria para este caso de estudio que se encuentran disponibles en el [siguiente enlace](https://drive.google.com/file/d/1D7oNOjh85JfItZ_Q7iKaNLaOXAhA3nvE/view?usp=sharing).

**Prerequisitos**:

*   Tener un servicio de **MongoDB** alojado en [*MongoDB Atlas*](https://www.mongodb.com/cloud/atlas). Lo más sencillo, es seguir los pasos que figuran en el enlace de [***'Cómo Empezar'***](https://docs.atlas.mongodb.com/getting-started/) del propio servicio. Una vez desplegado el servicio que contiene al cluster, podremos conectarnos a el tanto por consola de comandos como por cualquier aplicación para gestionar bases de datos MongoDB, como MongoDB Compass.
*   Para la gestión de la base de datos con una aplicación de Escritorio se puede usar [*MongoDB Compass*](https://www.mongodb.com/products/compass). Para instalar **MongoDB Compass** se pueden seguir los siguientes [pasos](https://docs.mongodb.com/compass/master/install).


**Comprobando la información del sistema.**

Lo primero que vamos a hacer es comprobar la versión de Python que tenemos instalada en el sistema. En mi caso, como ejecuto este notebook desde **Google Colab**, tengo instalada la `versión 3.6.9`. Para dicha versión, instalaremos las dependencias que sean necesarias usando simplemente `sys.executable`.

In [None]:
import sys
print(sys.version)
# Importing mongo for 3.6.9 (default, Jul 17 2020, 12:50:27)

**Importando e instalando las dependencias.**

Ahora, instalaremos e importaremos las librerias que sean necesarias para operar contra la base de datos. En este caso, usaremos la librería `pymongo` para operar desde Python contra la base de datos creada en MongoDB. Esta librería requiere la instalación de la librería `dnspython` para poder conectarse con el cluster que está alojado en **MongoDB Atlas** y resolver la URL donde estará almacenada nuestra base de datos.

In [None]:
# Instalando dependencias.
!{sys.executable} -m pip install 'mongo' dnspython
!{sys.executable} -m pip install pymongo

**Importando `pymongo` y comprobando la versión instalada.**

Una vez instalada la librería, la importaremos usando la sentencia `import`.

In [None]:
import pymongo
print ("version:", pymongo.version)

**Conectándose a un cluster de MongoDB.**

Desde `pymongo` podemos conectarnos a una instancia de una base de datos de MongoDB desde la clase [`MongoClient`](https://api.mongodb.com/python/current/api/pymongo/mongo_client.html). Basta con indicar la URL donde la base de datos se encuentra alojada. Para conocer la URL donde se encuentra alojada la base de datos en el cluster de Mongo Atlas se pueden seguir los [siguientes pasos](https://docs.atlas.mongodb.com/connect-to-cluster/#connect-to-a-cluster).

Esa URL de conexión tiene la forma `"mongodb+srv://user:password@cluster0.w8yg0.gcp.mongodb.net/<dbname>"`. Será particular para cada caso. Pero esa es la misma URL que podemos usar para acceder a la base de datos desde **Mongo Compass**.

In [None]:
# Si quieres hacer esto en casa puedes consultar el siguiente enlace:
# https://docs.atlas.mongodb.com/tutorial/connect-to-your-cluster/

# Aquí, debes indicar la URL de conexión de tu cluster.

url = "AQUÍ DEBES INDICAR TU URL DE LA FORMA mongodb+srv"
client = pymongo.MongoClient(url)
db = client.test

## 2. Operaciones CRUD.

Generalmente, en informática, el término ***CRUD operations*** o ***operaciones CRUD*** se usa para referirse al conjunto de funciones básicas para operar contra una base de datos o la capa de persistencia de un software. Así, las siglas CRUD se refieren al acrónimo de "Crear, Leer, Actualizar y Borrar" (del original en inglés: **C**reate, **R**ead, **U**pdate and **D**elete). [REF1](https://es.wikipedia.org/wiki/CRUD)

Para explorar cómo hacer esas operaciones contra una base de datos creada en MongoDB seguiremos ese mismo orden.

### 2.1 **Create.**

A continuación, vamos a ver como crear una base de datos y acceder a ella en **MongoDB** desde **Python**.

**Creando la base de datos de `Pedidos` y `Productos`.**

Para ello, basta con invocar al cliente creado en los pasos anteriores e indicarle un nombre de la base de datos a la que queremos conectarnos. En mi caso, la base de datos se llamará simplemente `mi_tienda_favorita`. Pero le puedes poner el nombre que te apetezca. Para simplificar los siguientes pasos, voy a asignar esa base de datos a una variable llamada `db`.

In [None]:
db = client.mi_tienda_favorita

>> En caso de usar Mongo Compass y estar creando la base de datos por primera vez, Mongo Compass no refleja los cambios hasta que no se ha insertado el primer documento (o registro) en la base de datos. Por lo tanto, no te preocupes, si en este paso, no ves nada reflejado en `Mongo Compass` por mucho que le des a `Refresh / Actualizar` :).

**Creando el primer `producto`.**

Como en la tienda vamos a almacenar `productos` y `pedidos` que hacen los `clientes` sobre esos productos. Vamos a crear una `colección` (o tabla, si eres de los que viene de trabajar mucho con SQL) llamada `producto`. Una vez insertado el primer dato en la `colección`, podremos comprobar que los cambios se han efectuado tanto en el cluster de la base de datos como en ***Mongo Compass***.

Para insertar un elemento en la base de datos usaremos la función `insert_one()`.

In [None]:
mi_primer_producto = {
    'producto_id' :    1,
    'precio' :         1200.54,
    'nombre' :         'Ordenador de 14 pulgadas con 2 cores',
    'descripcion' :    'Un ordenador de la marca Acer',
    'stock' :          34
}

result = db.producto.insert_one(mi_primer_producto)
print("Insertado objeto: ", result.inserted_id)

> Una vez insertado el primer producto podremos visualizarlo desde Mongo Compass y se debería ver algo como este [pantallazo](https://drive.google.com/file/d/1g2Ks4n0msciNRheih3nsVsbbtbd3fZdb/view?usp=sharing). Si te resulta dificil hacer la comparación entre MongoDB y SQL (porque estás más acostumbrado a trabajar con este tipo de bases de datos), siempre puedes referirte al [siguiente enlace](https://docs.mongodb.com/manual/reference/sql-comparison/) para comparar ambas tecnologías.

> El resto de `productos` de la base de datos los he insertado desde un CSV creado a propósito para tal efecto, llamado `Producto.csv`. Todos los CSVs están disponibles en el [siguiente enlace](https://drive.google.com/file/d/1D7oNOjh85JfItZ_Q7iKaNLaOXAhA3nvE/view?usp=sharing). Para insertar productos en una base de datos de MongoDB desde un CSV puedes referirte al [siguiente video](https://youtu.be/tnY0bUk67AQ) donde hago una demostración.

> Si quieres saber más sobre cómo importar y exportar datos usando MongoDB Compass, puedes usar el [siguiente enlace](https://docs.mongodb.com/compass/master/import-export).

**Creando unos clientes con `insert_many()`.**

A continuación, vamos a hacer la misma operación que antes, pero en lugar de insertar un sólo objeto en la base de datos, vamos a insertar varios objetos a la vez. Para ello, en lugar de usar la función `insert_one()`, usaremos la función `insert_many()`.

In [None]:
cliente_1 = {
    'cliente_id' : 1,
    'nombre' : 'Perico',
    'apellidos' : 'Palotes del Bosque'
}

cliente_2 = {
    'cliente_id' : 2,
    'nombre' : 'Pepe',
    'apellidos' : 'Pérez Ratón' 
}

cliente_3 = {
    'cliente_id' : 3,
    'nombre' : 'Manolita',
    'apellidos' : 'García Fernández'
}

result = db.cliente.insert_many([cliente_1, cliente_2, cliente_3])
print("Insertado objeto: ", result.inserted_ids)

> Una vez insertados estos tres clientes, se deberían ver reflejados en la base de datos como en el [siguiente pantallazo](https://drive.google.com/file/d/1wR8NOEEDZVezy74CpWj7P9SeKSkXd5l5/view?usp=sharing). Al igual que en el caso anterior, el resto de Clientes los he insertado desde un CSV creado de manera específica para este caso y llamado `Cliente.csv`. Sólo me quedaría insertar unos cuantos `pedidos` en la base de datos y las direcciones de envio de los clientes. Esto lo he hecho directamente creando las colecciones en Mongo Compass. Pero puedes hacerlo programaticamente con las anteriores funciones si quieres hacer la prueba.

A diferencia de SQL, MongoDB no es una base de datos relacional, por lo que las relaciones entre elementos deben fabricarse a conveniencia del programador o diseñador. Siempre que se pueda, se deberían crear relaciones 1-M o de 1 a muchos elementos. Hay diferentes formas de hacerlo como indica el [siguiente enlace](https://docs.mongodb.com/manual/applications/data-models-relationships/). De momento, como este tutorial presupone el hecho de que el lector está más habituado a trabajar con SQL, voy a hacer uso de una colección auxiliar (que simule lo que sería una tabla de cruce en una base de datos SQL) para reflejar la relación entre `pedidos` y `productos`. Así, tendré una colección llamada `pedido_producto` que conecta a los pedidos con los productos que contiene cada uno de ellos.

> Al final, mi base de datos se habrá quedado en [el siguiente estado temporal](https://drive.google.com/file/d/1riTFnNyGngF21SuUV8xKSifiGji68wph/view?usp=sharing).

Si quieres saber cómo se puede hacer un `dump` (volcado) de tu base de datos puedes consultar el [siguiente enlace](https://docs.mongodb.com/manual/tutorial/backup-and-restore-tools/). En caso, simplemente he usado la siguiente instrucción:

```
mongodump --uri <URI de conexión a la base de datos de la forma mongodb+srv> -o <carpeta de destino del dump>
```

### 2.2 **Read.**

Ahora vamos a seguir con el segundo de los pasos de las operaciones CRUD. Es decir, leer de la base de datos. Para ello, vamos a usar la función `find()`. De momento, sin parámetros. Al no indicar parámetros, le estamos pidiendo a la base de datos que nos devuelva todas las instancias alojadas en una determinada colección. Por ejemplo, vamos a consultar todas los documentos alojados en la colección `clientes`.

In [None]:
# Para hacer esto mismo puedes consultar el siguiente enlace:
# https://docs.mongodb.com/manual/reference/method/db.collection.find/

# Consulta de MongoDB
result_q1 = db.cliente.find({})

# Consultando el cursor (result_q1) para este find().
for document in result_q1.sort('cliente_id', pymongo.ASCENDING):
    print(document.get('cliente_id'), ":", document.get('nombre'), document.get('apellidos'))

En caso de que queramos consultar los datos alojados en una colección concreta aplicando un filtro sobre esa consulta, bastará con definir ese filtro dentro del `find()`. Así, podemos consultar los clientes cuyo `nombre` sea `'John'`.

In [None]:
# Para hacer esto mismo puedes consultar el siguiente enlace:
# https://docs.mongodb.com/manual/reference/method/db.collection.find/

# Consulta de MongoDB
result_q2 = db.cliente.find({
    'nombre':'John'
})

# Consultando el cursor
for document in result_q2.sort('cliente_id', pymongo.ASCENDING):
  print(document.get('cliente_id'), ":", document.get('nombre'), document.get('apellidos'))

En la sección de SQL a noSQL profundizaremos más en las consultas sobre bases de datos no relacionales. Pero de momento, nos quedaremos con la idea de lo que es un `find()`. Un `find()` selecciona documentos que están almacenados en una colección y devuelve un cursor a los elementos seleccionados. Este filtro es la base para hacer cualquier consulta en MongoDB y puede ser comparado a hacer el Select más básico que exista sobre una base de datos SQL.

### 2.3 **Update.**

Probemos ahora el tercer paso de las operaciones CRUD. Es decir, actualizar (o `update`). Para ello, usaremos las funciones `update_one()` y `update_many()`. Una operación de actualización modifica uno o varios documentos ya existentes en la base de datos y puede: (i) modificar campos ya existentes en la base de datos, (ii) reemplazar una porción del documento al completo o (iii) añadir nuevos campos a la base de datos. Todo ello, dependerá de los parámetros indicados en el método de actualización. Para conocer más en profundidad cómo se hace un update sobre una base de datos MongoDB puedes consultar el [siguiente enlace](https://docs.mongodb.com/manual/reference/method/db.collection.update/).

> Básicamente, las funciones de actualización constan de dos campos: (i) un ***criterio de búsqueda***, similar al filtro aplicado en un `find()` y (ii) la ***modificación que se desea aplicar*** a los documentos encontrados por el campo de búsqueda. El número de registros a los que se les aplique el cambio dependerá de si se usa la función `update_one()` o `update_many()`. En caso de usar `update_one()` se actualizará solamente el *primer documento* insertado en la base de datos que coincida con el criterio de búsqueda, en caso de usar `update_many()` se actualizarán *todos los documentos* que cumplan con el criterio de búsqueda.

**Así, para aplicar un cambio al primer cliente cuyo nombre sea John podremos hacerlo con `update_one()`:**

In [None]:
# Para hacer esto mismo puedes consultar el siguiente enlace:
# https://docs.mongodb.com/manual/reference/method/db.collection.update/

result_q3 = db.cliente.update_one(
    {'nombre':'John'},        # Criterio de búsqueda.
    {"$set":                  # Modificación.
          {
              "edad": 35
          },
     "$currentDate": {"lastModified": True}
    }
)

print("Se han modificado", result_q3.modified_count, "registros")

**En cambio, para aplicar un cambio a todos los clientes cuyo nombre sea John podremos hacerlo con `update_many()`:**

In [None]:
# Para hacer esto mismo puedes consultar el siguiente enlace:
# https://docs.mongodb.com/manual/reference/method/db.collection.update/

result_q4 = db.cliente.update_many(
    {'nombre':'John'},          # Criterio de búsqueda.
    {"$set":                    # Modificación.
          {
              "edad": 35
          },
     "$currentDate": {"lastModified": True}
    }
)

print("Se han modificado", result_q4.modified_count, "registros")

La modificación que se desea aplicar sobre la base de datos es dependiente del operador indicado al inicio de dicha modificación. Así, hay operadores para establecer el valor de un campo en los documentos extraidos por el campo de búsqueda (`$set`), para incrementar el valor de un campo numérico concreto (`$inc`), o para renombrar un campo (`$rename`). Puedes consultar el resto de operadores disponibles en una actualización en el [siguiente enlace](https://docs.mongodb.com/manual/reference/operator/update/#id1).

**Incrementando el `stock` de un `producto` concreto:**

> Por ejemplo, como en nuestra tienda tenemos una serie de productos alojados en la colección `productos`. Vamos a incrementar en 10 unidades el **stock** del producto cuyo `producto_id` sea 4.

In [None]:
result_q5 = db.producto.update_one(
    {'producto_id': 4},
    {
      "$inc":{"stock": 10},
      "$set": {
        "anyo": "2020"
      },
     "$currentDate": {"lastModified": True}
    }
)

print("Se han modificado", result_q5.modified_count, "registros")

> Después de ejecutar esta actualización, el documento alojado en la base de datos [ha pasado a estar así](https://drive.google.com/file/d/174mjL1vgcxCg_76hJvgqS-E7E6XqZTUk/view?usp=sharing). Es decir, con el stock incrementado y una marca de última modificación alojada en el campo `currentDate`.

**Incrementando en 15 unidades el `stock` de todos los `productos` que estuvieran a 0 y añadiendo un `tag` para indicar que está `en promoción`:**

> Ahora, vamos a actualizar el stock para todos los productos cuyo stock esté a 0. Además, vamos a añadir unos campos de fecha y tags de actualización. Por ejemplo, para indicar que un `producto` está `en promoción`.

In [None]:
result_q6 = db.producto.update_many(
    {'stock': 0},
    {
      "$inc":{"stock": 15},
      "$set": {
        "fecha.dia": "16",
        "fecha.mes": "10",
        "fecha.anyo": "2020",
        "tags": ["en_promocion"]
      },
     "$currentDate": {"lastModified": True}
    }
)

print("Se han modificado", result_q6.modified_count, "registros")

> Después de ejecutar dicha actualización, los registros afectados se han modificado hasta quedar de la [siguiente forma](https://drive.google.com/file/d/1eYVRWCV2cp_MXDJ8s6i690ZVSRAQ84zv/view?usp=sharing).

Más adelante, profundizaremos en como actualizar la base de datos con actualizaciones más complejas. Pero de momento, vamos a explorar la última de las operaciones CRUD.

### 2.4 **Delete.**

La última de las operaciones CRUD es la operación de eliminación (Delete). Una operación de eliminación borra documentos de una colección. Para eliminar un elemento podemos usar la función `delete_one()` y para borrar varios `delete_many()`. Puedes consultar el resto de información sobre la operación delete en el [siguiente enlace](https://docs.mongodb.com/manual/tutorial/remove-documents/).

**Por ejemplo, vamos a eliminar al cliente cuyo `cliente_id` sea 4.**

In [None]:
# Para hacer esto mismo puedes consultar el siguiente enlace:
# https://docs.mongodb.com/manual/tutorial/remove-documents/

result_q7 = db.cliente.delete_one(
          {
            'cliente_id': 4
          }
)

print("Se han eliminado", result_q7.deleted_count, "registros")

**A continuación, vamos a eliminar a todos los clientes cuyo `nombre` sea `John`.**

In [None]:
# Para hacer esto mismo puedes consultar el siguiente enlace:
# https://docs.mongodb.com/manual/tutorial/remove-documents/

result_q8 = db.cliente.delete_many(
          {
             'nombre':'John'
          }
)

print("Se han eliminado", result_q8.deleted_count, "registros")

> Ahora, al intentar ejecutar la misma consulta que nos dió como resultado `result_q2`, no obtendremos ningún resultado, porque todos los `John`(s) han sido eliminados. Esta vez, en lugar de hacerlo con un find(), vamos a usar la función `count_documents()` para contar los registros existentes en una base de datos.

In [None]:
# Para hacer esto mismo puedes consultar el siguiente enlace:
# https://docs.mongodb.com/manual/reference/method/db.collection.countDocuments/

# Consulta de MongoDB
result_q9 = db.cliente.count_documents(
                      {
                          'nombre':'John'
                      }
        )

print("Se han encontrado:", result_q9, "registros.")

Hasta aquí, ya hemos explorado las funciones básicas para operar contra una base de datos MongoDB.

## 3. De SQL a noSQL.

Cómo lo más dificil de empezar a trabajar con una base de datos no basada en relaciones como es MongoDB es el cambio de paradigma que supone pasar de operar con tecnologías SQL a noSQL, vamos a hacer unas cuantas consultas en nuestra base de datos por comparación a SQL.

Para ello, vamos a usar una referencia que está disponible en la documentación oficial de MongoDB ([Mapeando consultas SQL a MongoDB](https://docs.mongodb.com/manual/reference/sql-aggregation-comparison/)) y además vamos a probar [cada uno de los **ejemplos**](https://docs.mongodb.com/manual/reference/sql-aggregation-comparison/#examples) que figuran en dicha referencia. Por lo tanto, el listado de ejercicios planteados a continuación es una prueba de concepto para cada una de esas consultas.

> Para todas las siguientes consultas vamos a usar las función `aggregate()`. Una **operación de agregación** procesar todos los registros almacenados en una colección y devuelve un resultado acorde a las distintas condiciones de búsqueda definidas en sus parámetros. Así, una agregación agrupa valores que están presentes en distintos documentos, y puede realizar cambios en esos valores hasta presentar los datos en un único resultado. 

> Ojo! Una agregación, por defecto, no modifica la base de datos. Sino que su función principal es la de mantener los datos intactos en la base de datos, mientras se presentan a conveniencia para el usuario. Para comprobar cómo se puede usar una función de `actualización con agregación`, ve a la [Sección 4](#scrollTo=VqnLDXCGwJRz&line=1&uniqifier=1). Para poder agregar modificando la base de datos existen operadores específicos como `$merge` o `$out`.

Para ejecutar una agregación, MongoDB hace uso un concepto que se llama Aggregation Pipeline. El aggregation pipeline de MongoDB es un entorno donde los datos se van procesando en orden aplicando sobre ellos distintas operaciones. Si vienes de trabajar con SQL, este detalle no es importante para entender las consultas, pero si sientes curiosidad sobre cómo funciona un aggregate() en MongoDB siempre puedes consultar los siguientes enlaces: [enlace1](https://docs.mongodb.com/manual/aggregation/), [enlace2](https://docs.mongodb.com/manual/core/aggregation-pipeline/#pipeline-expressions).

### 3.1 `Count` y `Sum`.

**Ejemplo de `count`.** Contar todos los registros de la colección `pedido`.

*Versión en SQL:*
```
SELECT COUNT(*) AS count FROM pedido
```

*Ejemplo en MongoDB:*

In [None]:
# Ejemplo de count.
# Count all records from pedidos.
result_q10 = db.pedido.aggregate([
          {
              "$group": {
                  "_id": "null", # de todos los registros.
                  "count": {"$sum": 1} # contador
                }
   }
] )

print(list(result_q10))

**Ejemplo de `sum`.** Sumar el ``precio_total`` de todos los registros de la colección ``pedido``.

*Versión en SQL:*
```
SELECT SUM(precio_total) AS total FROM pedido
```

*Ejemplo en MongoDB:*

In [None]:
# Ejemplo de sum.
# Count all records from pedidos.
result_q10 = db.pedido.aggregate([
          {
              "$group": {
                  "_id": "null", # de todos los registros.
                  "total": {"$sum": "$precio_total"} # sumatoria
                }
   }
] )

print(list(result_q10))

### 3.2 `Group by`.

**Ejemplo de `group by` marcando un identificador en `cliente_id`.** Para cada cliente, sumar el campo precio_total.

*Versión en SQL:*
```
SELECT cliente_id,
       SUM(precio_total) AS total
FROM pedido
GROUP BY cliente_id
```

*Ejemplo en MongoDB:*

In [None]:
# Ejemplo de group by.
# Para poder hacer un group_by en lugar de hacer "_id = null", 
# hacemos "_id = identificador de agrupación".

# Ejemplo: Agrupando por cliente.
result_q11 = db.pedido.aggregate([
   {
     "$group": {
        "_id": "$cliente_id", # Para poder hacer un group_by
        "total": {
            "$sum": "$precio_total"
        }
     }
   }
])

# Consultando el cursor
# Este cursor es del tipo CommandCursor y no cuenta con la función sort()
for document in result_q11:
  print("Cliente:", document.get('_id'), "-> Precio total:", document.get('total'))

Veamos como ordenar el resultado anterior usando `$sort`.

In [None]:
# Igual que antes pero haciendo sort ascending.

# Ejemplo de group by + sort.
# Documentación para el sort().
# https://docs.mongodb.com/manual/reference/operator/aggregation/sort/#pipe._S_sort
result_q12 = db.pedido.aggregate([
      {
          "$group":{
              "_id": "$cliente_id",
              "total": {
                  "$sum":"$precio_total"
              }
          }
      },
      {
          "$sort":{
              "_id": 1 # Sort ascending. (-1 para descending)
          }
      }
])

# Consultando el cursor
# Este cursor es del tipo CommandCursor y no cuenta con la función sort()
for document in result_q12:
  print("Cliente:", document.get('_id'), "-> Precio total:", document.get('total'))

> En `result_q11` y `result_q12` hemos obtenido el mismo resultado, sólo que en `result_q12` ha sido ordenado por el campo `_id`.

Veamos otro ejemplo pero marcando un identificador en el campo `fecha`.

In [None]:
# Ejemplo de group by.
# Para poder hacer un group_by en lugar de hacer "_id = null", 
# hacemos "_id = identificador de agrupación".

# Ejemplo: Agrupando por fecha.

result_q13 = db.pedido.aggregate([
   {
     "$group": {
        "_id": "$fecha", # Para poder hacer un group_by
        "total": {
            "$sum": "$precio_total"
        }
     }
   }
])

# Consultando el cursor
# Este cursor es del tipo CommandCursor y no cuenta con la función sort()
for document in result_q13:
  print("Fecha:", document.get('_id'), "-> Precio total:", document.get('total'))

Y ahora además ordenando por fecha.

In [None]:
# Ejemplo de group by.
# Para poder hacer un group_by en lugar de hacer "_id = null", 
# hacemos "_id = identificador de agrupación".

# Ejemplo: Agrupando por fecha.

result_q14 = db.pedido.aggregate([
   {
     "$group": {
        "_id": "$fecha", # Para poder hacer un group_by
        "total": {
            "$sum": "$precio_total"
        }
     }
   },
   {
      "$sort":{
          "_id": 1 # Sort ascending. (-1 para descending)
       }
   }
])

# Consultando el cursor
# Este cursor es del tipo CommandCursor y no cuenta con la función sort()
for document in result_q14:
  print("Fecha:", document.get('_id'), "-> Precio total:", document.get('total'))

**Ejemplo de `group by` con un identificador complejo (doble identificador en `cliente_id` y `fecha`).** Para cada para de `cliente_id` y `fecha`, sumar el campo `precio_total`. Excluir la parte de la fecha que corresponde a la hora. Es decir, parsear la fecha (que es del tipo `Date`) a una cadena de caracteres (`string`) con formato.

*Versión en SQL:*
```
SELECT cliente_id, fecha, SUM(precio_total) AS total
      FROM pedido
      GROUP BY cliente_id, fecha
```

*Ejemplo en MongoDB:*

In [None]:
# Ejemplo de group by con dos identificadores.
result_q15 = db.pedido.aggregate([
            {
              "$group": {
                  "_id": {
                    "cliente_id": "$cliente_id",
                    "fecha": {
                        "$dateToString": {
                            "format": "%Y-%m-%d",
                            "date": "$fecha"
                        }
                    }
                  },
                  "total": {
                      "$sum": "$precio_total"
                  }
              }
            }
 ])

# Consultando el cursor
# Este cursor es del tipo CommandCursor y no cuenta con la función sort()
for document in result_q15:
  print("Cliente_id:",  document.get('_id').get('cliente_id'), "Fecha:", document.get('_id').get('fecha'), "-> Precio total:", document.get('total'))

Ahora, ordenando el resultado anterior por `cliente_id` y `fecha`.

In [None]:
# Ejemplo de group by con dos identificadores.
result_q16 = db.pedido.aggregate([
            {
              "$group": {
                  "_id": {
                    "cliente_id": "$cliente_id",
                    "fecha": {
                        "$dateToString": {
                            "format": "%Y-%m-%d",
                            "date": "$fecha"
                        }
                    }
                  },
                  "total": {
                      "$sum": "$precio_total"
                  }
              }
            },
            {
              "$sort":{
                  "_id.cliente_id": 1, # Sort ascending. (-1 para descending)
                  "_id.fecha": 1       # Sort ascending. (-1 para descending)
              }
            }
 ])

# Consultando el cursor
# Este cursor es del tipo CommandCursor y no cuenta con la función sort()
for document in result_q16:
  print("Cliente_id:",  document.get('_id').get('cliente_id'), "Fecha:", document.get('_id').get('fecha'), "-> Precio total:", document.get('total'))

### 3.3 `Having` y `Where`.

Recuerda que lo que distingue en SQL a un `Having` de un `Where` es que el primero comprueba una condición que se aplica a cada agrupación creada por el `Group by`, mientras que el segundo es una condición que se comprueba por cada registro, es decir, acompaña a un `Select`. Puedes consultar más sobre esta distinción en páginas como [Stackoverflow](https://stackoverflow.com/questions/9253244/sql-having-vs-where). 

> La principal diferencia entre SQL y el lenguage de consulta definido para operar con MongoDB es que tanto un `Having` como un `Where` se comprueba con el operador `$match`. Para distingue si un `$match` hace la labor de un where o hace la labor de un having vamos a comprobar unos cuantos ejemplos.

**Ejemplo de `match` como si fuera un `having` (asociado a un `group by`).** Para cada `cliente_id` en la colección `pedido` con multiples registros devolver sólo aquellos que han hecho `más de 5 pedidos`.

*Versión en SQL:*
```
SELECT cliente_id, count(*)
    FROM pedido
    GROUP BY cliente_id
    HAVING count(*) > 5
```

*Ejemplo en MongoDB:*

In [None]:
# Ejemplo de match como si fuera un having.
# Dejando sólo los clientes que han hecho más de cinco pedidos.

result_q17 = db.pedido.aggregate( [
            {
                "$group": {
                    "_id": "$cliente_id",
                    "count": {
                        "$sum": 1
                    }
                }
            },
            {
                "$match":{
                    "count":{
                        "$gt": 5
                    }
                }
            }
])

# Consultando el cursor
# Este cursor es del tipo CommandCursor y no cuenta con la función sort()
for document in result_q17:
  print("Cliente_id:", document.get('_id'), "-> Contador:", document.get('count'))

El resultado devuelto por un agrupación como `aggregate()` **no dispone del método sort()**. Por lo tanto, si queremos ordenar los resultados obtenidos, tendremos que añadir a nuestras consultas el operador `$sort` que actua como `ORDER BY` en SQL.

> Ahora, vamos a ordenar el resultado anterior usando el resultado del contador (`count`) y mostrandolo en orden descendente. Es decir, primero irán los clientes que más pedidos han hecho.

In [None]:
# Ejemplo de match como si fuera un having.
# Dejando sólo los clientes que han hecho más de cinco pedidos.

result_q18 = db.pedido.aggregate( [
            {
                "$group": {
                    "_id": "$cliente_id",
                    "count": {
                        "$sum": 1
                    }
                }
            },
            {
                "$match":{
                    "count":{
                        "$gt": 5
                    }
                }
            },
            {
              "$sort":{
                  "count": -1, # Sort ascending. (-1 para descending)
              }
            }
])

# Consultando el cursor
# Este cursor es del tipo CommandCursor y no cuenta con la función sort()
for document in result_q18:
  print("Cliente_id:", document.get('_id'), "-> Contador:", document.get('count'))

**Ejemplo de `match` como si fuera un `having` para asociarlo a un `group by` y un identificador complejo (con `cliente_id` y `fecha`).** Para cada cliente y por cada fecha, devolver sólo aquellos cuyo cantidad total de pedidos efectuados sea mayor que 500. Formatear la fecha para quedarnos sólo con la parte destinada a mostrar el día.

In [None]:
# Ejemplo de group by con identificador complejo
# y haciendo un match como si fuera un having.

result_q19 = db.pedido.aggregate([
            {
                "$group": {
                    "_id": {
                        "cliente_id": "$cliente_id",
                        "fecha": {
                            "$dateToString": {
                              "format": "%Y-%m-%d",
                              "date": "$fecha"
                            }
                        }
                    },
                    "total": {
                        "$sum": "$precio_total"
                    }
                }
            },
            {
                "$match":{
                    "total":{
                        "$gt": 500
                    }
                }
            }
])

# Consultando el cursor
# Este cursor es del tipo CommandCursor y no cuenta con la función sort()
for document in result_q19:
  print("Cliente_id:",  document.get('_id').get('cliente_id'), "Fecha:", document.get('_id').get('fecha'), "-> Precio total:", document.get('total'))

Ordenemos ahora el resultado anterior por precio total en orden descendente:

In [None]:
# Ejemplo de group by con identificador complejo
# y haciendo un match como si fuera un having.

result_q20 = db.pedido.aggregate([
            {
                "$group": {
                    "_id": {
                        "cliente_id": "$cliente_id",
                        "fecha": {
                            "$dateToString": {
                              "format": "%Y-%m-%d",
                              "date": "$fecha"
                            }
                        }
                    },
                    "total": {
                        "$sum": "$precio_total"
                    }
                }
            },
            {
                "$match":{
                    "total":{
                        "$gt": 500
                    }
                }
            },
            {
                "$sort":{
                    "total": -1
                }
            }
])

# Consultando el cursor
# Este cursor es del tipo CommandCursor y no cuenta con la función sort()
for document in result_q20:
  print("Cliente_id:",  document.get('_id').get('cliente_id'), "Fecha:", document.get('_id').get('fecha'), "-> Precio total:", document.get('total'))

**Haciendo un `match` como si fuera un `where` (es decir, sobre un select).**

> Para que tenga sentido hacer esto, primero voy a actualizar unos cuantos pedidos con el estado `pendiente` (en concreto, aquellos con `fecha` de pedido mayor que el día 08-09-2020). Aquellos con la fecha menor o igual al día 08-09-2020 tendrán como estado `enviado`.

In [None]:
import datetime

In [None]:
result_q20 = db.pedido.update_many(
    {
        "fecha":{
            "$gt": datetime.datetime(2020, 8, 9)
        }
    },
    {
      "$set": {
          "status": "pendiente"
      },
     "$currentDate": {"lastModified": True}
    }
)
            
print("Se han modificado", result_q20.modified_count, "registros")

In [None]:
result_q21 = db.pedido.update_many(
    {
        "fecha":{
            "$lte": datetime.datetime(2020, 8, 9)
        }
    },
    {
      "$set": {
          "status": "enviado"
      },
     "$currentDate": {"lastModified": True}
    }
)
            
print("Se han modificado", result_q21.modified_count, "registros")

> Una vez hecho esto, vamos a hacer un `group by` sobre los pedidos que están enviados y aquellos que están pendientes de enviar.

In [None]:
result_q21 = db.pedido.aggregate([
                {
                    "$match": { # Este match se aplica sobre los registros.
                        "status": 'enviado'
                    }
                },
                {
                    "$group": {
                        "_id": {
                          "cliente_id": "$cliente_id",
                          "fecha": {
                              "$dateToString": {
                                "format": "%Y-%m-%d",
                                "date": "$fecha"
                              }
                          }
                        },
                        "total": {
                            "$sum": "$precio_total"
                        }
                    }
                },
                {
                  "$sort":{
                      "_id.cliente_id": 1, # Sort ascending. (-1 para descending)
                      "_id.fecha": 1       # Sort ascending. (-1 para descending)
                  }
                }
])

# Consultando el cursor
# Este cursor es del tipo CommandCursor y no cuenta con la función sort()
for document in result_q21:
  print("Cliente_id:",  document.get('_id').get('cliente_id'), "Fecha:", document.get('_id').get('fecha'), "-> Precio total:", document.get('total'))

Vamos a ver ahora, aquellos que están pendientes de enviar:

In [None]:
result_q22 = db.pedido.aggregate([
                {
                    "$match": { # Este match se aplica sobre los registros.
                        "status": 'pendiente'
                    }
                },
                {
                    "$group": {
                        "_id": {
                          "cliente_id": "$cliente_id",
                          "fecha": {
                              "$dateToString": {
                                "format": "%Y-%m-%d",
                                "date": "$fecha"
                              }
                          }
                        },
                        "total": {
                            "$sum": "$precio_total"
                        }
                    }
                },
                {
                  "$sort":{
                      "_id.cliente_id": 1, # Sort ascending. (-1 para descending)
                      "_id.fecha": 1       # Sort ascending. (-1 para descending)
                  }
                }
])

# Consultando el cursor
# Este cursor es del tipo CommandCursor y no cuenta con la función sort()
for document in result_q22:
  print("Cliente_id:",  document.get('_id').get('cliente_id'), "Fecha:", document.get('_id').get('fecha'), "-> Precio total:", document.get('total'))

Además, podríamos poner esta consulta en función del estado para reutilizarla tantas veces como quisieramos:

In [None]:
def total_pedido_status(status):
        resultado = db.pedido.aggregate([
                {
                    "$match": { # Este match se aplica sobre los registros.
                        "status": status
                    }
                },
                {
                    "$group": {
                        "_id": {
                          "cliente_id": "$cliente_id",
                          "fecha": {
                              "$dateToString": {
                                "format": "%Y-%m-%d",
                                "date": "$fecha"
                              }
                          }
                        },
                        "total": {
                            "$sum": "$precio_total"
                        }
                    }
                },
                {
                  "$sort":{
                      "_id.cliente_id": 1, # Sort ascending. (-1 para descending)
                      "_id.fecha": 1       # Sort ascending. (-1 para descending)
                  }
                }
          ])
        
        return resultado

In [None]:
# Consultando el cursor
# Este cursor es del tipo CommandCursor y no cuenta con la función sort()
for document in total_pedido_status('enviado'):
  print("Cliente_id:",  document.get('_id').get('cliente_id'), "Fecha:", document.get('_id').get('fecha'), "-> Precio total:", document.get('total'))

In [None]:
# Consultando el cursor
# Este cursor es del tipo CommandCursor y no cuenta con la función sort()
for document in total_pedido_status('pendiente'):
  print("Cliente_id:",  document.get('_id').get('cliente_id'), "Fecha:", document.get('_id').get('fecha'), "-> Precio total:", document.get('total'))

**Ahora combinamos `where` y `having`. Es decir, hacemos dos matches. Uno para el `where` y otro para `having`.**

> Basicamente, vamos a hacer lo mismo que antes, pero añadiendo un `match` al final que hará la función del `having`. El caso que queremos resolver es el siguiente: Para aquellos pedidos cuyo `estado` sea `'enviado'`, agrupar por `cliente_id` y comprobar la suma total de los pedidos realizados por dicho cliente. Además, una vez tengamos las agrupaciones nos quedaremos sólo con aquellas que superen la suma de 300.

*Versión en SQL:*
```
SELECT cliente_id, SUM(precio_total) as total
          FROM pedido
          WHERE estado = 'enviado'
          GROUP BY cliente_id
          HAVING total > 300
```

*Ejemplo en MongoDB:*

In [None]:
result_q23 = db.pedido.aggregate([
                {
                    "$match": { # Actúa como un WHERE
                        "status": 'enviado'
                    }
                },
                {
                    "$group": {
                        "_id": "$cliente_id",
                        "total": {
                            "$sum": "$precio_total"
                        }
                    }
                },
                {
                    "$match": { # Actúa como un HAVING
                        "total": {
                            "$gt": 300
                        }
                    }
                }
])

# Consultando el cursor
# Este cursor es del tipo CommandCursor y no cuenta con la función sort()
for document in result_q23:
  print("Cliente_id:", document.get('_id'), "-> Total:", document.get('total'))

### 3.4 Subquery.

En SQL, una subquery es una consulta dentro de otra consulta. Es decir, es una consulta que está anidada dentro de otra consulta. Las subqueries pueden devolver valores individuales (un número, por ejemplo) o una lista de valores (una lista de cadenas, por ejemplo). Normalmente, en SQL, una subquery se encuentra encerrada dentro de unos paréntesis. Así, es normal, encontrar consultas como la del siguiente ejemplo.

> En la siguiente consulta, vamos a contar el número de registros distintos que hay en la colección `pedido`, después de agruparlos por `cliente_id` y `fecha` de pedido. Para agrupar las fechas, vamos a excluir la parte de la hora de cada una de ellas, quedándonos sólo con la parte del dia.

*Versión en SQL:*
```
SELECT COUNT(*)
          FROM (SELECT cliente_id,
                       fecha
                FROM pedido
                GROUP BY cliente_id,
                         fecha)
                as Subtabla
```

*Ejemplo en MongoDB:*

In [None]:
# Ejemplo de group by con identificador complejo
# y haciendo un match como si fuera un having.
result_q24 = db.pedido.aggregate([
            {
                "$group": {
                    "_id": {
                        "cliente_id": "$cliente_id",
                        "fecha": {
                            "$dateToString": {
                              "format": "%Y-%m-%d",
                              "date": "$fecha"
                            }
                        }
                    }
                }
            },
            {
               "$group": {
                  "_id": "null",
                  "count": { 
                      "$sum": 1 
                  }
               }
            }
])

print("El número de total de registros es:", result_q24.next().get('count'))

## 4. Conceptos avanzados.

### 4.1 `Update` + `Aggregate`.

Desde la versión MongoDB 4.2, se puede usar el mismo concepto que vimos en los ejemplos de agregación para realizar operaciones de actualización de los datos que se presentan al usuario. Las operaciones de agregación con actualización usan generalmente los siguientes operadores.

*   [`$addFields`](https://docs.mongodb.com/manual/reference/operator/aggregation/addFields/#pipe._S_addFields). Añade nuevos campos a un documento.
*   [`$project`](https://docs.mongodb.com/manual/reference/operator/aggregation/project/#pipe._S_project). Cambia / proyecta / selecciona la información disponible en un documento y la presenta a conveniencia para realizar alguna operación sobre el mismo.
*   [`$replaceWith`](https://docs.mongodb.com/manual/reference/operator/aggregation/replaceRoot/#pipe._S_replaceRoot). Reemplaza todos los campos de un documento, incluyendo su identificador. Antes de esta versión se llamaba `$replaceRoot`.
*   [`$set`](https://docs.mongodb.com/manual/reference/operator/aggregation/set/#pipe._S_set). Añade nuevos campos a un documento.
*   [`$unset`](https://docs.mongodb.com/manual/reference/operator/aggregation/unset/#pipe._S_unset). Elimina campos de un documento.

> Por lo tanto, ahora vamos a revisar unos cuantos ejemplos sobre estos operadores.

**Ejemplo de `$addFields`.**

Vamos a etiquetar el producto con `producto_id=1` con los tags `["electrónica", "ordenador", "portátil"]`:

> *Ejemplo en MongoDB de aggregate() con $addFields.* No actualiza la base de datos. Sólo presenta los datos con elementos añadidos.

In [None]:
result_q24 = db.producto.aggregate([
                  { 
                      "$match": { 
                          "producto_id": 1
                      }
                  },
                  {
                     "$addFields": {
                          "tags": ["electrónica", "ordenador", "portátil"]
                      }
                  }
])

print(list(result_q24)) 

> *Ejemplo en MongoDB de updateOne() con $addFields.* Si actualiza la base de datos.

In [None]:
result_q25 = db.producto.update_one(
                  {
                      "producto_id": 1
                  }, # Criterio de búsqueda.
                  [
                   {
                       "$addFields": {     # Modificación.
                          "tags": ["electrónica", "ordenador", "portátil"]
                        }
                   }
                  ]
)

print("Se han modificado", result_q25.modified_count, "registros")

> Así, el `producto_id` 1 ha pasado de estar en [este estado](https://drive.google.com/file/d/1v5kI6Kqa62VoWqrirjd8HwMNg-oTMp3_/view?usp=sharing) a estar en este [otro estado](https://drive.google.com/file/d/1wqWkcC-hOIl9NopCbbQiXwOnznNazjGP/view?usp=sharing).

**Ejemplo de `$project`.**

Vamos a proyectar cómo sería el objeto cuyo `producto_id` es 1 sin la descripción y sin los tags.

> *Ejemplo en MongoDB de aggregate() con $project.* No actualiza la base de datos. Sólo presenta los datos con elementos cambiados.

In [None]:
result_q26 = db.producto.aggregate([
                  { 
                      "$match": { 
                          "producto_id": 1
                      }
                  },
                  {
                     "$project": {
                         "producto_id": 1, # Incluye el campo en la proyección
                         "precio": 1,
                         "nombre": 1,
                         "stock": 1
                      }
                  }
])

print(list(result_q26)) 

> *Ejemplo en MongoDB de updateOne() con $project.* Si actualiza la base de datos.

In [None]:
result_q27 = db.producto.update_one(
                  {
                      "producto_id": 1
                  }, # Criterio de búsqueda.
                  [
                   {
                       "$project": {     # Modificación.
                          "producto_id": 1, # Incluye el campo en la proyección
                          "precio": 1,
                          "nombre": 1,
                          "stock": 1
                        }
                   }
                  ]
)

print("Se han modificado", result_q27.modified_count, "registros")

> Así, el `producto_id` 1 ha pasado de estar en [este estado](https://drive.google.com/file/d/1wqWkcC-hOIl9NopCbbQiXwOnznNazjGP/view?usp=sharing) a este [otro estado](https://drive.google.com/file/d/1DziLwsZzSoyCPDVzrZFsiLEZp7-ZwLXj/view?usp=sharing).

**Ejemplo de `$replaceWith`.**

Vamos a sustituir algunos pedidos (aquellos con id mayor o igual a 10 y menor o igual a 15) que están `pendientes` con el estado `enviado`.

> *Ejemplo en MongoDB de aggregate() con $replaceWith.* No actualiza la base de datos. Sólo presenta los datos con elementos reemplazados.

In [None]:
result_q28 = db.pedido.aggregate([
                  {
                      "$match": {
                          "$and": [ 
                              {
                                  "pedido_id": { 
                                      "$gte": 10 
                                  } 
                              }, 
                              { 
                                  "pedido_id": { 
                                      "$lte": 15
                                  }
                              },
                              { 
                                  "status": "pendiente"
                              }
                          ]
                      }
                  },
                  {
                      "$replaceWith": {
                          "_id":        "$_id",
                          "pedido_id" : "$pedido_id",
                          "cliente_id": "$cliente_id",
                          "fecha":      "$fecha",
                          "status":     "enviado",
                          "fecha_envio": datetime.datetime.now()
                      }
                   }
])

print(list(result_q28))

Al igual que en los ejemplos anteriores, `aggregate()` no modifica la base de datos, para poder hacerlo tenémos que usar `update_many()`.

> *Ejemplo en MongoDB de updateMany() con $replaceWith.* Si actualiza la base de datos.

In [None]:
# Recuerda que en un update_many() no necesitamos hacer un $match
# porque el primer operador ya es el campo de búsqueda.

result_q29 = db.pedido.update_many(
                  {
                      "$and": [ 
                          {
                              "pedido_id": { 
                                  "$gte": 10 
                              } 
                          }, 
                          { 
                              "pedido_id": { 
                                  "$lte": 15
                              }
                          },
                          { 
                              "status": "pendiente"
                          }
                      ]
                  },
                  [
                    {
                        "$replaceWith": {
                            "_id":        "$_id",
                            "pedido_id" : "$pedido_id",
                            "cliente_id": "$cliente_id",
                            "fecha":      "$fecha",
                            "status":     "enviado",
                            "fecha_envio": datetime.datetime.now()
                        }
                    }
                  ]
)

print("Se han modificado", result_q29.modified_count, "registros")

Después de la modificación, los registros han pasado de estar en [este estado](https://drive.google.com/file/d/18cnNedx8H2jdMhBIbXGbO5lkNL3EJAji/view?usp=sharing) a este [otro estado](https://drive.google.com/file/d/1hr_SZdZBa6HtjmrWkHgDhw12pxowkAfc/view?usp=sharing).

**Ejemplo de `$set` y `$unset`.**

Sigamos con el mismo ejemplo que antes, pero en esta ocasión vamos a hacerlo con $set y $unset para los pedidos cuyo está comprendido entre los valores 16 y 20.

> *Ejemplo en MongoDB de aggregate() con* `$set` *y* `$unset`. No actualiza la base de datos. Sólo presenta los datos con elementos reemplazados.

In [None]:
result_q30 = db.pedido.aggregate([
                  {
                      "$match": {
                          "$and": [ 
                              {
                                  "pedido_id": { 
                                      "$gte": 16 
                                  } 
                              }, 
                              { 
                                  "pedido_id": { 
                                      "$lte": 20
                                  }
                              },
                              { 
                                  "status": "pendiente"
                              }
                          ]
                      }
                  },
                  {
                      "$set": {
                          "status":     "enviado",
                          "fecha_envio": datetime.datetime.now()
                      }
                   },
                   {
                       "$unset": "fecha"
                   }
])

print(list(result_q30))

> *Ejemplo en MongoDB de updateMany() con* `$set` *y* `$unset`. Si actualiza la base de datos.

In [None]:
result_q31 = db.pedido.update_many(
                  {
                      "$and": [ 
                          {
                              "pedido_id": { 
                                  "$gte": 16 
                              } 
                          }, 
                          { 
                              "pedido_id": { 
                                  "$lte": 20
                              }
                          },
                          { 
                              "status": "pendiente"
                          }
                      ]
                  },
                  [
                      {
                          "$set": {
                              "status":     "enviado",
                              "fecha_envio": datetime.datetime.now()
                          }
                      },
                      {
                          "$unset": "fecha"
                      }
                  ]
)

print("Se han modificado", result_q31.modified_count, "registros")

Así, después de la modificación los registros afectados han pasado de estar en [este estado](https://drive.google.com/file/d/1GTKR-diyV4Cj0fREr8PY-RqEcbZc4MeY/view?usp=sharing) a este [otro estado](https://drive.google.com/file/d/18yb4iFENXlI6w57A-G3T9Tun8EhBAjf1/view?usp=sharing).

### 4.2 `Join` (operador `$lookup`).

Anda!, pero si MongoDB es una base de datos no basada en relaciones, ¿qué hacemos con los joins? ¡Con lo que me había costado a mi aprenderme lo que era un ON en un join!. Bueno, pues no te preocupes, porque siempre nos quedará el operador `$lookup`.

> En primer lugar, recuerda que estamos trabajando con bases de datos no relacionales. Por lo que se espera que la mayoría de relaciones estén embebidas o aninadas en los documentos usando arrays o diccionarios auxiliares. Aún así, siempre hay formas de trabajar con ellas cómo si hicieramos un join o una subquery sobre la base de datos.

Para ello veamos primero la sintáxis de un `$lookup` y después unos cuantos ejemplos.

*Versión en SQL:*
```
SELECT *, <output array field>
   FROM collection
   WHERE <output array field> IN (SELECT *
                                  FROM <collection to join>
                                  WHERE <foreignField> = <collection.localField>);
```

*Ejemplo en MongoDB:*
```
{
      $lookup:
        {
          from: <collection to join>,
          let: { <var_1>: <expression>, …, <var_n>: <expression> },
          pipeline: [ <pipeline to execute on the collection to join> ],
          as: <output array field>
        }
}
```

**Ejemplo 1.** Hacer una agregación sobre la colección de clientes para comprobar las direcciones de cada cliente alojadas en la colección dirección.

In [None]:
result_q32 = db.cliente.aggregate([
                    {
                        "$lookup": {
                            "from": "direccion",
                            "localField": "cliente_id",
                            "foreignField": "cliente_id",
                            "as": "direcciones"
                        }
                    }
])

for document in result_q32:
  print("Cliente:", document.get('cliente_id'))
  for direccion in document.get('direcciones'):
    print(direccion.get('nombre_calle'), direccion.get('numero'), direccion.get('piso'), direccion.get('ciudad'))

**Ejemplo 2.** Hacer una agregación sobre la colección de clientes para comprobar las direcciones de cada cliente sólo en los códigos postales que coincidan con un valor.

In [None]:
result_q33 = db.cliente.aggregate([
                    {
                        "$lookup": {
                            "from": "direccion",
                            "let": { 
                                "cliente_local" : "$cliente_id"
                            },
                            "pipeline": [
                                { 
                                  "$match": {
                                      "$expr": {
                                        "$and": [ 
                                            {
                                                "$eq": ["$codigo_postal",  "6208"]
                                            }, 
                                            {
                                                "$eq": ["$cliente_id",  "$$cliente_local"]
                                            }
                                        ]
                                      }
                                  }
                                }
                            ],
                            "as" : "direcciones"
                        }
                    }
])

for document in result_q33:
  print("Cliente:", document.get('cliente_id'))
  for direccion in document.get('direcciones'):
    print(direccion.get('nombre_calle'), direccion.get('numero'), direccion.get('piso'), direccion.get('ciudad'))

### 4.3 `Merge` (operador `$merge`).

**Ojo! Merge combinado con una agrupación modifica la base de datos. Por lo que ten cuidado con lo que defines al juntar los datos mezclados. Manten siempre una colección temporal antes de hacer el volcado completo a la colección definitiva.**

Merge escribe el resultado del pipeline general en una colección específica. Así, siempre se debe poner el operador `$merge` al final de toda agregación. Al igual que el operador anterior, `$merge` cuenta con una serie de campos que ya viene predefinidos y que sirven para componer la porción del pipeline al completo.

*Ejemplo en MongoDB:*
```
{ 
      $merge: {
        into: <collection> -or- { db: <db>, coll: <collection> },
        on: <identifier field> -or- [ <identifier field1>, ...],  // Optional
        let: <variables>,                                         // Optional
        whenMatched: <replace|keepExisting|merge|fail|pipeline>,  // Optional
        whenNotMatched: <insert|discard|fail>                     // Optional
      }
}
```

Veamos un ejemplo:

**Ejemplo.** Tenemos almacenada una colección llamada `pedido_producto` y nos gustaría que en lugar de tener dicha colección tuvieramos un array dentro de los `pedidos` con los `productos` correspondientes a cada uno de ellos. Así, el resultado tendría un aspecto más orientado a bases de datos no relacionales y podríamos llegar a eliminar dicha colección. Por lo tanto, lo primero que vamos a hacer, es agrupar las relaciones entre `pedidos` y `productos` por `pedido_id`. Posteriormente, vamos a proyectar cómo queremos presentar esas agrupaciones a `$merge`. Finalmente, vamos a fusionar ambas colecciones (la de `pedidos` y la de `pedido_producto`).

In [None]:
# Para saber como operar con indices en MongoDB, puedes consultar el siguiente enlace:
# https://docs.mongodb.com/manual/indexes/
db.pedido.create_index([("pedido_id", 1)])

'pedido_id_1'

In [None]:
result_q34 = db.pedido_producto.aggregate([
            {
              "$group": {
                  "_id": "$pedido_id",
                  "productos": { 
                      "$addToSet": {
                          "producto_id": "$producto_id",
                          "unidades": "$unidades"
                      }    
                  }
              }
            },
            {
                "$merge": { 
                    "into": "pedido_new",
                    "on":   "_id"
                }
            }
])

result_q35 = db.pedido.aggregate([
            {
                "$project": {
                      "_id":            "$pedido_id",
                      "cliente_id" :    "$cliente_id",
                      "precio_total" :  "$precio_total",  
                      "fecha":          "$fecha"
                  },
            },
            {
                "$merge": { 
                    "into":    "pedido_new",
                    "on":      "_id"
                }
            }
])

Si estamos convencidos de los cambios, podemos hacerlos definitivos eliminando las colecciones auxiliares y cambiando los nombres que sean necesarios. Por ejemplo, así:

In [None]:
db.pedido.drop()
db.pedido_producto.drop()
db.pedido_new.rename("pedido")

### 4.4 `$merge` vs. `$out`.

MongoDB provee dos etapas para escribir resultados en una operación de agregación. La primera de ellas era `$merge` y la segunda es `$out`. A diferencia de merge `$out` reemplaza la colección de salida completamente si esta ya existe. Por lo que sólo debe usarse si se está muy seguro de los cambios que se quieren efectuar. El ejemplo para usar `$out` sería similar a `$merge`.

### 4.4 `Union with`.

A partir de la versión 4.4 de MongoDB, se pueden ejecutar además operaciones de unión entre colecciones. Una unión combina los resultados obtenidos para dos colecciones en un sólo resultado (incluyendo duplicados). Por lo que sería como hacer un `UNION ALL` en SQL.

*Versión en SQL:*
```
SELECT *
FROM Collection1
WHERE ...
    UNION ALL
SELECT *
FROM Collection2
WHERE ...
```

Así que para probar esto mismo vamos a combinar los resultados obtenidos en la anterior consulta (con los `pedidos` ya actualizados) y los datos que tenemos de los clientes (en la colección `cliente`). Se podría hacer de la siguiente forma:

```
db.pedido.aggregate([
   { $project: { cliente_id: 1, _id: 0 } },
   { $unionWith: { coll: "cliente", pipeline: [ { $project: { cliente_id: 1, _id: 0 } } ]} }
])
```

## 5. Guardando los resultados en un dataframe.

Finalmente, recuerda que podemos guardar el resultado de cualquier consulta en un dataframe de `pandas` y de ahí llevarlo a un CSV. Por ejemplo, así:

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame(list(db.cliente.find()))
df.to_csv('cliente.csv')
df.head()