<img src="https://drive.google.com/uc?export=view&id=14zlrGu_mEUI0VYv0n35l4IINfiPBKMoN" width="100%"></img>

# **Conceptos de MongoDB**
---

En este notebook se dará una introducción práctica al motor de base de datos _MongoDB_ desde _Python_. Para este notebook, se recomienda tener creada una base de datos en atlas y realizar la conexión:

In [1]:
!pip install pymongo[srv]

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [2]:
from pymongo import MongoClient

In [3]:
# agregue su string de conexión
connection_str = "mongodb+srv://mlds3user:RudkYN1xsGz8OSUZ@mlds3.jipkxtc.mongodb.net/?retryWrites=true&w=majority"
client = MongoClient(connection_str)

MongoDB maneja un nivel de jerarquía de datos basado en bases de datos y colecciones. Se puede ver de forma análoga a _SQL_ de la siguiente forma:

| SQL | MongoDB |
| --- | --- |
| Base de datos | Base de datos |
| Tabla | Colección |
| Filas | Documento |
| Columna | Campos |

Vamos a ver algunos conceptos generales de _MongoDB_:

## **1. Estructura de Documentos**
---

_MongoDB_ se caracteriza por ser una base de datos documental donde se puede guardar información que no necesariamente está estructurada (no tenemos columnas o campos fijos). Esto se consigue por medio de una estructura de datos conocida como **documento** o **diccionario**.

En _Python_ poseemos esta estructura de datos como el tipo `dict`, por ejemplo:

In [4]:
data = {
        "name": "Juan Sebastián",
        "lastname": "Lara Ramírez",
        "age": 26,
        "contact": {
            "mobile": [123456, 654321],
            "email": ["julara@unal.edu.co", "juselara96@gmail.com"]
            }
        }

Esta estructura de datos, se puede interpretar como un árbol, tal y como se muestra a continuación:

<img src="https://drive.google.com/uc?export=view&id=1tU-MNNO9sdj6w6Dp9MG_aBns9c5qaGfY" width="100%">

Generalmente, los documentos contienen los siguientes tipos de datos:

| Tipo | Notación |
| --- | --- |
| Objeto | `{}` |
| Lista | `[]` |
| Texto | `"valor"` |
| Número | `3.5` |
| Booleano | `true`, `false` |

Los documentos se caracterizan por ser elementos que se almacenan bajo la estructura de clave-valor. En _MongoDB_ las claves siempre son strings mientras que los valores son los que pueden tomar los tipos de la tabla anterior.

Veamos algunas operaciones tipo CRUD con _MongoDB_:

## **2. Creación**
---

En _MongoDB_ la creación de bases de datos y colecciones generalmente se realiza de forma automatizada.

Para crear una base de datos (o utilizar una ya existente), basta con especificarle al cliente el nombre que queremos usar, de la siguiente forma:

In [5]:
db = client["mlds3"]
print(db)

Database(MongoClient(host=['ac-jmjph3p-shard-00-02.jipkxtc.mongodb.net:27017', 'ac-jmjph3p-shard-00-00.jipkxtc.mongodb.net:27017', 'ac-jmjph3p-shard-00-01.jipkxtc.mongodb.net:27017'], document_class=dict, tz_aware=False, connect=True, retrywrites=True, w='majority', authsource='admin', replicaset='atlas-gxr907-shard-0', tls=True), 'mlds3')


En este caso, creamos una base de datos llamada `mlds3` si es que esta no existe.

Para crear una colección, basta con que repitamos el mismo proceso pero sobre la base de datos:

In [6]:
collection = db["students"]
print(collection)

Collection(Database(MongoClient(host=['ac-jmjph3p-shard-00-02.jipkxtc.mongodb.net:27017', 'ac-jmjph3p-shard-00-00.jipkxtc.mongodb.net:27017', 'ac-jmjph3p-shard-00-01.jipkxtc.mongodb.net:27017'], document_class=dict, tz_aware=False, connect=True, retrywrites=True, w='majority', authsource='admin', replicaset='atlas-gxr907-shard-0', tls=True), 'mlds3'), 'students')


Para insertar documentos a la colección, tenemos dos opciones:

* **Inserción individual**: permite insertar un único documento en la colección, se realiza por medio del método `insert_one`. Veamos un ejemplo:

In [7]:
data = {
        "name": "Bart Simpson",
        "age": 10,
        "gender": "male",
        "grades": [3.0, 4.5, 2.8],
        "approved": True,
        "contact": {"email": "bart@correo.com"}
        }
collection.insert_one(data)

<pymongo.results.InsertOneResult at 0x7fe0dcf865d0>

* **Inserción en lote**: permite insertar varios documentos a la colección, se realiza por medio del método `insert_many`. Veamos un ejemplo:

In [8]:
data = [
        {
            "name": "Lisa Simpson",
            "age": 8,
            "grades": [5.0, 4.8, 4.9],
            "approved": True,
            "contact": {"email": "lisa@correo.com", "phone": 38888}
            },
        {
            "name": "Ralph Gorgory",
            "grades": [1.0, 1.5, 0.1],
            "approved": False, "age": 9,
            "gender": "male",
            "contact": {"email": "yo@koreo.com", "phone": "no tengo"}
            },
        {
            "name": "Maria Perez",
            "age": 5,
            "approved": False,
            "contact": {"email": "maria@correo.com", "phone": 32323}
            }
        ]
collection.insert_many(data)

<pymongo.results.InsertManyResult at 0x7fe0dc881990>

## **3. Lectura**
---

Al igual que en el ejemplo de inserción, la lectura puede realizarse individualmente o en lote:

* **Lectura individual**: permite extraer un documento de la colección, se realiza por medio del método `find_one`. Veamos un ejemplo:

In [9]:
res = collection.find_one({"name": "Bart Simpson"})
print(res)

{'_id': ObjectId('63764343f9a17ce0ef704b8e'), 'name': 'Bart Simpson', 'age': 10, 'gender': 'male', 'grades': [3.0, 4.5, 2.8], 'approved': True, 'contact': {'email': 'bart@correo.com'}}


Como puede evidenciar, obtuvimos el primer registro que insertamos. La única diferencia es que _MongoDB_ agrega un campo `_id` como identificador único del documento creado.

* **Lectura en lote**: permite extraer varios documentos de la colección, se realiza por medio del método `find`. Veamos un ejemplo:

In [10]:
res = list(collection.find({"approved": True}))
print(res)

[{'_id': ObjectId('63764343f9a17ce0ef704b8e'), 'name': 'Bart Simpson', 'age': 10, 'gender': 'male', 'grades': [3.0, 4.5, 2.8], 'approved': True, 'contact': {'email': 'bart@correo.com'}}, {'_id': ObjectId('637643e7f9a17ce0ef704b8f'), 'name': 'Lisa Simpson', 'age': 8, 'grades': [5.0, 4.8, 4.9], 'approved': True, 'contact': {'email': 'lisa@correo.com', 'phone': 38888}}, {'_id': ObjectId('6376981a0b45d8450e5fb6e4'), 'name': 'Bart Simpson', 'age': 10, 'gender': 'male', 'grades': [3.0, 4.5, 2.8], 'approved': True, 'contact': {'email': 'bart@correo.com'}}, {'_id': ObjectId('6376981b0b45d8450e5fb6e5'), 'name': 'Lisa Simpson', 'age': 8, 'grades': [5.0, 4.8, 4.9], 'approved': True, 'contact': {'email': 'lisa@correo.com', 'phone': 38888}}]


Como pudimos ver en los ejemplos anteriores, los filtros se realizan especificando una consulta como un documento o diccionario.

De forma general, el diseño de una consulta en _MongoDB_ consiste en crear una especie de patrón o template en cuanto a cómo podrían ser los documentos esperados.

Los métodos `find_one` y `find` tienen los mismos parámetros, la única diferencia es que el primero solo recupera un documento mientras que el segundo todos los que coinciden con la consulta.

Si queremos obtener toda una colección, podemos hacer una consulta sin ningún filtro:

In [11]:
res = list(collection.find({}))
print(res)

[{'_id': ObjectId('63764343f9a17ce0ef704b8e'), 'name': 'Bart Simpson', 'age': 10, 'gender': 'male', 'grades': [3.0, 4.5, 2.8], 'approved': True, 'contact': {'email': 'bart@correo.com'}}, {'_id': ObjectId('637643e7f9a17ce0ef704b8f'), 'name': 'Lisa Simpson', 'age': 8, 'grades': [5.0, 4.8, 4.9], 'approved': True, 'contact': {'email': 'lisa@correo.com', 'phone': 38888}}, {'_id': ObjectId('637643e7f9a17ce0ef704b90'), 'name': 'Ralph Gorgory', 'grades': [1.0, 1.5, 0.1], 'approved': False, 'age': 9, 'gender': 'male', 'contact': {'email': 'yo@koreo.com', 'phone': 'no tengo'}}, {'_id': ObjectId('637643e7f9a17ce0ef704b91'), 'name': 'Maria Perez', 'age': 5, 'approved': False, 'contact': {'email': 'maria@correo.com', 'phone': 32323}}, {'_id': ObjectId('6376981a0b45d8450e5fb6e4'), 'name': 'Bart Simpson', 'age': 10, 'gender': 'male', 'grades': [3.0, 4.5, 2.8], 'approved': True, 'contact': {'email': 'bart@correo.com'}}, {'_id': ObjectId('6376981b0b45d8450e5fb6e5'), 'name': 'Lisa Simpson', 'age': 8, 'g

También podemos seleccionar un valor exacto para los documentos que tengan un campo en específico, por ejemplo, si queremos todos los estudiantes cuyo campo `gender` sea `"male"`:

In [12]:
res = list(collection.find({"gender": "male"}))
print(res)

[{'_id': ObjectId('63764343f9a17ce0ef704b8e'), 'name': 'Bart Simpson', 'age': 10, 'gender': 'male', 'grades': [3.0, 4.5, 2.8], 'approved': True, 'contact': {'email': 'bart@correo.com'}}, {'_id': ObjectId('637643e7f9a17ce0ef704b90'), 'name': 'Ralph Gorgory', 'grades': [1.0, 1.5, 0.1], 'approved': False, 'age': 9, 'gender': 'male', 'contact': {'email': 'yo@koreo.com', 'phone': 'no tengo'}}, {'_id': ObjectId('6376981a0b45d8450e5fb6e4'), 'name': 'Bart Simpson', 'age': 10, 'gender': 'male', 'grades': [3.0, 4.5, 2.8], 'approved': True, 'contact': {'email': 'bart@correo.com'}}, {'_id': ObjectId('6376981b0b45d8450e5fb6e6'), 'name': 'Ralph Gorgory', 'grades': [1.0, 1.5, 0.1], 'approved': False, 'age': 9, 'gender': 'male', 'contact': {'email': 'yo@koreo.com', 'phone': 'no tengo'}}]


Si queremos extraer solo algunos campos del resultado, podemos generar una proyección. Esto consiste en el uso del segundo argumento del `find` como un diccionario que especifica qué campos deseamos extraer. Por ejemplo, si quisiéramos los nombres de los estudiantes de género masculino:

In [13]:
res = list(collection.find(
    {"gender": "male"},
    {"name": True, "_id": False}
    ))
print(res)

[{'name': 'Bart Simpson'}, {'name': 'Ralph Gorgory'}, {'name': 'Bart Simpson'}, {'name': 'Ralph Gorgory'}]


En este caso, `"_id": False` se usa para obligar a que el resultado no extraiga el identificador de documentos (lo trae por defecto).

En _MongoDB_ tenemos distintos operadores lógicos para usar sobre las consultas, entre ellos:

| Operador | Descripción |
| --- | --- |
| `$eq` | Operador de igualdad. |
| `$and` | Operador AND para unir condiciones. |
| `$or` | Operador OR para unir condiciones. |
| `$not` | Operador NOT para negar condición. |
| `$in` | Operador para validar pertenencia en una lista. |
| `$elemMatch` | Revisa si al menos un elemento de un array cumple una condición. |
| `$all` | Revisa si todos los elementos de un array cumplen una condición. |
| `$lt` | Menor que. |
| `$gt` | Mayor que. |
| `$lte` | Menor o igual que. |
| `$gte` | Mayor o igual que. |
| `$text` | Permite buscar sobre un índice texto. |
| `$search` | Específica un patrón para la búsqueda de texto. |
| `$exists` | Valida que un campo exista en el documento. |

Veamos algunos ejemplos de consultas:

* Estudiantes llamados `"Lisa Simpson"`:

Para este caso filtramos simplemente usando el nombre del campo y el valor que deseamos obtener:

In [14]:
query = {"name": "Lisa Simpson"}
res = list(collection.find(query))
print(res)

[{'_id': ObjectId('637643e7f9a17ce0ef704b8f'), 'name': 'Lisa Simpson', 'age': 8, 'grades': [5.0, 4.8, 4.9], 'approved': True, 'contact': {'email': 'lisa@correo.com', 'phone': 38888}}, {'_id': ObjectId('6376981b0b45d8450e5fb6e5'), 'name': 'Lisa Simpson', 'age': 8, 'grades': [5.0, 4.8, 4.9], 'approved': True, 'contact': {'email': 'lisa@correo.com', 'phone': 38888}}]


* Estudiantes de género masculino que aprobaron:

Para este caso, usamos el operador `$and` para unir dos condiciones:

In [15]:
query = {"$and": [{"gender": "male"}, {"approved": True}]}
res = list(collection.find(query))
print(res)

[{'_id': ObjectId('63764343f9a17ce0ef704b8e'), 'name': 'Bart Simpson', 'age': 10, 'gender': 'male', 'grades': [3.0, 4.5, 2.8], 'approved': True, 'contact': {'email': 'bart@correo.com'}}, {'_id': ObjectId('6376981a0b45d8450e5fb6e4'), 'name': 'Bart Simpson', 'age': 10, 'gender': 'male', 'grades': [3.0, 4.5, 2.8], 'approved': True, 'contact': {'email': 'bart@correo.com'}}]


* Estudiantes que tienen al menos una nota reprobada:

Podemos recorrer cada elemento del campo `grades` usando el operador `$elemMatch`. Usamos el operador `$lt` para verificar si hay alguna nota inferior a `3.0`.

In [16]:
query = {"grades": {"$elemMatch": {"$lt": 3.0}}}
res = list(collection.find(
    query,
    {"name": True, "grades": True, "_id": False})
    )
print(res)

[{'name': 'Bart Simpson', 'grades': [3.0, 4.5, 2.8]}, {'name': 'Ralph Gorgory', 'grades': [1.0, 1.5, 0.1]}, {'name': 'Bart Simpson', 'grades': [3.0, 4.5, 2.8]}, {'name': 'Ralph Gorgory', 'grades': [1.0, 1.5, 0.1]}]


* Estudiantes que tienen todas las notas reprobadas:

Al igual que el caso anterior usamos `$elemMatch` para recorrer todo el arreglo y validamos quienes aprobaron al menos una materia con el operador `$gte`. Como queremos aquellos que no aprobaron ninguna, simplemente negamos la condición con el operador `$not`.

In [17]:
query = {"grades": {"$not": {"$elemMatch": {"$gte": 3.0}}}}
res = list(collection.find(
    query,
    {"name": True, "grades": True, "_id": False})
    )
print(res)

[{'name': 'Ralph Gorgory', 'grades': [1.0, 1.5, 0.1]}, {'name': 'Maria Perez'}, {'name': 'Ralph Gorgory', 'grades': [1.0, 1.5, 0.1]}, {'name': 'Maria Perez'}]


Un caso de uso muy frecuente de _MongoDB_ es para el almacenamiento de información que contiene muchos datos textuales. Veamos un ejemplo de búsqueda de todos los nombres que tengan la palabla `"Simpson"`. Para ello, primero debemos crear un índice con las columnas de texto sobre las que deseamos hacer consultas.

El método `create_index` recibe una lista de tuplas con dos valores: el nombre del campo que va a ser índice y el tipo de índice a crear:

In [18]:
collection.create_index([("name", "text")])

'name_text'

Veamos la consulta:

In [19]:
query = {"$text": {"$search": "Simpson"}}
res = list(
        collection.find(
            query,
            {"name": True, "_id": False}
            )
        )
print(res)

[{'name': 'Lisa Simpson'}, {'name': 'Bart Simpson'}, {'name': 'Lisa Simpson'}, {'name': 'Bart Simpson'}]


También podemos hacer búsquedas usando [expresiones regulares](https://www.mongodb.com/docs/manual/reference/operator/query/regex/). Este es un tema que no cubriremos en detalle en este módulo pero que podrá encontrar en el módulo 4 de procesamiento y entendimiento de lenguaje natural del programa de formación.

Veamos un ejemplo, para encontrar todos los nombres que terminan por `Simpson`:

In [20]:
query = {"name": {"$regex": ".*Simpson$"}}
res = list(
        collection.find(
            query,
            {"name": True, "_id": False}
            )
        )
print(res)

[{'name': 'Bart Simpson'}, {'name': 'Lisa Simpson'}, {'name': 'Bart Simpson'}, {'name': 'Lisa Simpson'}]


Finalmente, si deseamos consultar sobre elementos anidados (documentos dentro de documentos o listas dentro de documentos), veamos algunos ejemplos:

* Estudiantes que perdieron la primer nota:

En este caso usamos la notación punto `grades.0` para seleccionar el primer elemento del arreglo de notas.

In [21]:
query = {"grades.0": {"$lt": 3.0}}
res = list(
        collection.find(
            query,
            {"name": True, "_id": False}
            )
        )
print(res)

[{'name': 'Ralph Gorgory'}, {'name': 'Ralph Gorgory'}]


* Estudiantes que tienen un correo electrónico incorrecto

En este caso indexamos sobre el documento anidado con la notación punto `contact.email` y usamos una expresión regular para detectar los correos que no contengan `@correo.com`:

In [22]:
query = {"contact.email": {"$not": {"$regex": r"\w+@correo.com"}}}
res = list(
        collection.find(
            query,
            {"contact.email": True, "_id": False}
            )
        )
print(res)

[{'contact': {'email': 'yo@koreo.com'}}, {'contact': {'email': 'yo@koreo.com'}}]


## 4. Actualización
---

Al igual que las operaciones anteriores, podemos actualizar valores de forma individual o por lotes:

* **Actualización individual**: permite actualizar un único documento en la colección. Se realiza por medio del método `update_one`. Veamos un ejemplo para corregir el correo electrónico que estaba mal. Para actualizar valores en _MongoDB_ usamos el operador `$set`:

In [23]:
query = {"contact.email": {"$not": {"$regex": r"\w+@correo.com"}}}
collection.update_one(
    query,
    {"$set": {"contact.email": "rafa@correo.com"}}
    )

<pymongo.results.UpdateResult at 0x7fe0dc88a6d0>

Corroboremos el resultado:

In [24]:
query = {"contact.email": {"$not": {"$regex": r"\w+@correo.com"}}}
res = list(
        collection.find(
            query,
            {"contact.email": True, "_id": False}
            )
        )
print(res)

[{'contact': {'email': 'yo@koreo.com'}}]


Note que ya no obtuvimos ningún correo que esté escrito de forma errónea.

* **Actualización en lote**: permite actualizar todos los documentos en la colección si cumplen alguna condición. Se realiza por medio del método `update_many`. Veamos un ejemplo donde creamos un nuevo campo indicando el curso de los estudiantes:

In [25]:
# consulta vacía, significa que la operación será sobre todos los documentos
query = {} 
collection.update_many(
    query,
    {"$set": {"course": "1"}}
    )

<pymongo.results.UpdateResult at 0x7fe0d9c3f690>

Corroboremos el resultado:

In [26]:
query = {}
res = list(
        collection.find(query)
        )
print(res)

[{'_id': ObjectId('63764343f9a17ce0ef704b8e'), 'name': 'Bart Simpson', 'age': 10, 'gender': 'male', 'grades': [3.0, 4.5, 2.8], 'approved': True, 'contact': {'email': 'bart@correo.com'}, 'course': '1'}, {'_id': ObjectId('637643e7f9a17ce0ef704b8f'), 'name': 'Lisa Simpson', 'age': 8, 'grades': [5.0, 4.8, 4.9], 'approved': True, 'contact': {'email': 'lisa@correo.com', 'phone': 38888}, 'course': '1'}, {'_id': ObjectId('637643e7f9a17ce0ef704b90'), 'name': 'Ralph Gorgory', 'grades': [1.0, 1.5, 0.1], 'approved': False, 'age': 9, 'gender': 'male', 'contact': {'email': 'rafa@correo.com', 'phone': 'no tengo'}, 'course': '1'}, {'_id': ObjectId('637643e7f9a17ce0ef704b91'), 'name': 'Maria Perez', 'age': 5, 'approved': False, 'contact': {'email': 'maria@correo.com', 'phone': 32323}, 'course': '1'}, {'_id': ObjectId('6376981a0b45d8450e5fb6e4'), 'name': 'Bart Simpson', 'age': 10, 'gender': 'male', 'grades': [3.0, 4.5, 2.8], 'approved': True, 'contact': {'email': 'bart@correo.com'}, 'course': '1'}, {'_i

## **5. Borrado**
---

Las operaciones de borrado también aplican a nivel individal y por lote:

* **Borrado individual**: permite borrar un único documento que cumpla una condición. Para ello usamos el método `delete_one`. Veamos un ejemplo:

In [27]:
query = {"name": "Lisa Simpson"}
collection.delete_one(query)

<pymongo.results.DeleteResult at 0x7fe0dc89c290>

Veamos que la estudiante Lisa Simpson fuese borrada:

In [28]:
query = {}
res = list(
        collection.find(query, {"name": True, "_id": False})
        )
print(res)

[{'name': 'Bart Simpson'}, {'name': 'Ralph Gorgory'}, {'name': 'Maria Perez'}, {'name': 'Bart Simpson'}, {'name': 'Lisa Simpson'}, {'name': 'Ralph Gorgory'}, {'name': 'Maria Perez'}]


* **Borrado en lote**: permite borrar varios documentos que cumplan una condición, para ello usamos el método `delete_many`. Veamos un ejemplo para borrar todos los estudiantes de género masculino:

In [29]:
query = {"gender": "male"}
collection.delete_many(query)

<pymongo.results.DeleteResult at 0x7fe0d9b91ad0>

Veamos el resultado

In [30]:
query = {}
res = list(
        collection.find(query, {"name": True, "gender": True, "_id": False})
        )
print(res)

[{'name': 'Maria Perez'}, {'name': 'Lisa Simpson'}, {'name': 'Maria Perez'}]


Por último, podemos borrar collecciones completas de la siguiente forma:

In [31]:
db.drop_collection("students")

{'nIndexesWas': 2,
 'ns': 'mlds3.students',
 'ok': 1.0,
 '$clusterTime': {'clusterTime': Timestamp(1668716747, 2),
  'signature': {'hash': b"\xe9|S\xd0\xcco\xd3 '\xcd\x1a8\x9c\xe9b}\x88\x0f\x0b\x1e",
   'keyId': 7104275683139911683}},
 'operationTime': Timestamp(1668716747, 2)}

## 6. Recursos Adicionales
---

* [The MongoDB 4.4 Manual](https://docs.mongodb.com/manual/)
* [MongoDB University - MongoDB for Python Developers](https://university.mongodb.com/courses/M220P/about)
* [Udemy - Learn How Python Works with NoSql Database MongoDB: PyMongo](https://www.udemy.com/course/learn-how-python-works-with-mongodb-pymongo-in-9hrs/)

## 7. Créditos
---

**Profesor**

- [Jorge E. Camargo, PhD](https://dis.unal.edu.co/~jecamargom/)

**Diseño, desarrollo del notebook y material audiovisual**

- [Juan S. Lara MSc](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/)

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*