# Operaciones básicas en MongoDB

In [1]:
from pymongo import MongoClient

# MongoDB connection string
MONGO_URI = "mongodb://admin:password@document-mongodb:27017/"

# Conectar el cliente y creando la base de datos
client = MongoClient(MONGO_URI)
db = client["testdb"]

En MongoDB, una colección es un grupo de documentos dentro de una base de datos, similar a una tabla en una base de datos relacional. Las colecciones no tienen un esquema fijo, es decir, los documentos dentro de una colección pueden tener diferentes estructuras.
De no utilizarse una colección a la hora de insertar la base de datos crea una por defecto.

In [3]:
collection = db["testcollection"]

Al insertar documentos en MongoDB a estos se les asigna automáticamente un `_id` global que identifica al documento en la base de datos, sin embargo, dado que no se tiene control sobre la asignación y mantenimiento de estos identificadores es recomendable emplear identificadores propios.

In [4]:
# Insertando documentos
collection.insert_one({"name": "Docker", "message": "Hello MongoDB! from Docker"})
collection.insert_one({"author": "Classic", "message": "Hello World!", "extra_field": 5})

InsertOneResult(ObjectId('67a2624c2980bf08f1b689cc'), acknowledged=True)

In [11]:
# Recuperando todos los documentos de una colección
for doc in collection.find():
    print(doc)

{'_id': ObjectId('67a2624c2980bf08f1b689cc'), 'author': 'Classic', 'message': 'Hello World!', 'extra_field': 5}


En el lenguaje de consulta de MongoDB se definen operadores análogos a los utilizados en SQL

| **Método**       | **Descripción**                                      |
|------------------|--------------------------------------------------|
| `find()`        | Recupera múltiples documentos                      |
| `findOne()`     | Recupera un solo documento                         |
| `$gt`, `$lt`, `$gte`, `$lte` | Comparaciones (mayor que, menor que, etc.) |
| `$in`, `$or`, `$and` | Condiciones avanzadas |
| `.sort()`       | Ordenar resultados                                 |
| `.limit()`      | Limitar resultados                                |
| `.skip()`       | Omitir documentos (útil para paginación)           |


In [7]:
# Recuperando utilizando filtros
for doc in collection.find({ "name": "Docker" }):
    print(doc)

for doc in collection.find({"extra_field": {"$gt":5}}):
    print(doc)

{'_id': ObjectId('67a2624c2980bf08f1b689cb'), 'name': 'Docker', 'message': 'Hello MongoDB! from Docker'}


La actualización en MongoDB funciona de forma similar a SQL, primero se define un filtro que selecciona los documentos a modificar
y luego se utiliza el operador `$set` para especificar los cambios a realizar en dichos documentos.

In [8]:
collection.update_one(
    { "name": "Docker" },  # Filtro para buscar los documentos a actualizar
    { "$set": { "message": "This is an updated message from Docker!" } }  # Actualización
)

UpdateResult({'n': 1, 'nModified': 1, 'ok': 1.0, 'updatedExisting': True}, acknowledged=True)

Para eliminar existen los métodos `deleteOne` y `deleteMany` los cuales se basan en filtros iguales a los de `find`

In [10]:
collection.delete_one({ "name": "Docker" })

DeleteResult({'n': 1, 'ok': 1.0}, acknowledged=True)

# Flexibilidad de esquema: Orientación a documentos vs SQL + JSON

Debido a la necesidad de integrar datos provenientes de distintas fuentes se han desarrollado estandares de comunicación en diferentes sectores de la actividad humana. Un ejemplo es en la economía, donde se ha desarollado el llamado _Common Standard Reporting_ para que las instituciones financieras de diferentes países puedan comunicar la información de sus clientes a instituciones de control como las agencias tributarias para impedir la evasión de impuestos o el lavado de dinero.

Se puede considerar una versión reducida de este estándar como:

`institution_id`: Identificador internacional del banco

`client_name`: El nombre del cliente

`client_taxid`: El identificador como contribuyente del cliente

`client_dob`: Fecha de nacimiento del cliente

`client_account`: Número de la cuenta bancaria del cliente

`client_account_balance`: El balance de la cuenta bancaria

Sin embargo, de acuerdo al tipo de institución o al tipo de cliente es necesaria la transmisión de datos adicionales. Por tanto se presenta el desafío de recibir todos los mensajes y ser capaces de utilizar los campos estándar para realizar análisis mientras se mantiene la capacidad de recibir mensajes de instituciones de todo el mundo que personalizan los campos del mensaje.

## Orientación a documentos

En una base de datos orientada a documentos esta tarea resulta bastante sencilla gracias a la flexibilidad de su esquema

In [12]:
reports = db["reports"]

In [13]:
reports.insert_one({"datetime": "2025-02-04 16:51:55.841416", "institution_id": "NOLADEHAL", "client_name": "Paco Perez", "client_taxid": "213352354635", "client_dob": "1999-02-24", "client_account": "1234567812345678", "client_account_balance": 1023.23, "bank1_extra": "some extra data"})
reports.insert_one({"datetime": "2025-02-03 16:51:55.841416", "institution_id": "COMERZBANK", "client_name": "Paco Perez", "client_taxid": "213352354635", "client_dob": "1999-02-24", "client_account": "4330409348509459", "client_account_balance": 3201.86, "bank2_extra1": "some extra data1", "some_extra_data2": "another extra data"})

InsertOneResult(ObjectId('67a263a12980bf08f1b689ce'), acknowledged=True)

In [15]:
import pprint
for doc in reports.find():
    pprint.pprint(doc)

{'_id': ObjectId('67a263a12980bf08f1b689cd'),
 'bank1_extra': 'some extra data',
 'client_account': '1234567812345678',
 'client_account_balance': 1023.23,
 'client_dob': '1999-02-24',
 'client_name': 'Paco Perez',
 'client_taxid': '213352354635',
 'datetime': '2025-02-04 16:51:55.841416',
 'institution_id': 'NOLADEHAL'}
{'_id': ObjectId('67a263a12980bf08f1b689ce'),
 'bank2_extra1': 'some extra data1',
 'client_account': '4330409348509459',
 'client_account_balance': 3201.86,
 'client_dob': '1999-02-24',
 'client_name': 'Paco Perez',
 'client_taxid': '213352354635',
 'datetime': '2025-02-03 16:51:55.841416',
 'institution_id': 'COMERZBANK',
 'some_extra_data2': 'another extra data'}


## SQL + JSON

In [16]:
%load_ext sql
%sql mysql://root:root@documents-mysql

In [17]:
%%sql
CREATE DATABASE reports;
USE reports;

 * mysql://root:***@documents-mysql
1 rows affected.
0 rows affected.


[]

In [18]:
%%sql
DROP TABLE IF EXISTS reports;
CREATE TABLE reports (
    message JSON,
    datetime DATETIME AS (JSON_UNQUOTE(JSON_EXTRACT(message, '$.datetime'))) STORED,
    institution_id CHAR(50) AS (JSON_UNQUOTE(JSON_EXTRACT(message, '$.institution_id'))) STORED,
    client_name CHAR(100) AS (JSON_UNQUOTE(JSON_EXTRACT(message, '$.client_name'))) STORED,
    client_taxid CHAR(50) AS (JSON_UNQUOTE(JSON_EXTRACT(message, '$.client_taxid'))) STORED,
    client_dob DATE AS (JSON_UNQUOTE(JSON_EXTRACT(message, '$.client_dob'))) STORED,
    client_account CHAR(20) AS (JSON_UNQUOTE(JSON_EXTRACT(message, '$.client_account'))) STORED,
    client_account_balance DECIMAL AS (JSON_UNQUOTE(JSON_EXTRACT(message, '$.client_account_balance'))) STORED
);

 * mysql://root:***@documents-mysql
0 rows affected.
0 rows affected.


[]

In [19]:
%%sql
INSERT INTO reports (message)
VALUES 
('{"datetime": "2025-02-04 16:51:55.841416", "institution_id": "NOLADEHAL", "client_name": "Paco Perez", "client_taxid": "213352354635", "client_dob": "1999-02-24", "client_account": "1234567812345678", "client_account_balance": 1023.23, "bank1_extra": "some extra data"}'),
('{"datetime": "2025-02-03 16:51:55.841416", "institution_id": "COMERZBANK", "client_name": "Paco Perez", "client_taxid": "213352354635", "client_dob": "1999-02-24", "client_account": "4330409348509459", "client_account_balance": 3201.86, "bank2_extra1": "some extra data1", "some_extra_data2": "another extra data"}');


 * mysql://root:***@documents-mysql
2 rows affected.


[]

In [20]:
%%sql
SELECT * FROM reports

 * mysql://root:***@documents-mysql
2 rows affected.


message,datetime,institution_id,client_name,client_taxid,client_dob,client_account,client_account_balance
"{""datetime"": ""2025-02-04 16:51:55.841416"", ""client_dob"": ""1999-02-24"", ""bank1_extra"": ""some extra data"", ""client_name"": ""Paco Perez"", ""client_taxid"": ""213352354635"", ""client_account"": ""1234567812345678"", ""institution_id"": ""NOLADEHAL"", ""client_account_balance"": 1023.23}",2025-02-04 16:51:56,NOLADEHAL,Paco Perez,213352354635,1999-02-24,1234567812345678,1023
"{""datetime"": ""2025-02-03 16:51:55.841416"", ""client_dob"": ""1999-02-24"", ""client_name"": ""Paco Perez"", ""bank2_extra1"": ""some extra data1"", ""client_taxid"": ""213352354635"", ""client_account"": ""4330409348509459"", ""institution_id"": ""COMERZBANK"", ""some_extra_data2"": ""another extra data"", ""client_account_balance"": 3201.86}",2025-02-03 16:51:56,COMERZBANK,Paco Perez,213352354635,1999-02-24,4330409348509459,3202


# Embebido de documentos

Existen casos en la representación de interrelaciones en las que SQL resulta ineficiente. Uno de estos casos
ocurre cuando se establece una cadena de interrelaciones sin un límite en el tamaño de la cadena. Por ejemplo, consideremos los directorios en un sistema operativo, donde cada directorio tiene un nombre y puede tener un directorio padre. Es un escenario bien sencillo de modelar, sin embargo, en caso de querer recuperar recursivamente todos los subdirectorios de un determinado directorio SQL empieza a ser ineficiente

In [21]:
%%sql
CREATE TABLE directories(
    id INT PRIMARY KEY AUTO_INCREMENT,
    parentid INT,
    name VARCHAR(50),
    CONSTRAINT parent_fk FOREIGN KEY (parentid) REFERENCES directories (id)
)


 * mysql://root:***@documents-mysql
0 rows affected.


[]

In [22]:
%%sql INSERT INTO directories (id, parentid, name)
VALUES 
(1, NULL, "root"),
(2, 1, "children1"),
(3, 2, "grandchildren1"),
(4, 3, "grandgrandchildren1")

 * mysql://root:***@documents-mysql
4 rows affected.


[]

In [23]:
%%sql SELECT * FROM
directories d1
INNER JOIN directories d2 ON d1.id = d2.parentid
INNER JOIN directories d3 ON d2.id = d3.parentid
INNER JOIN directories d4 ON d3.id = d4.parentid

 * mysql://root:***@documents-mysql
1 rows affected.


id,parentid,name,id_1,parentid_1,name_1,id_2,parentid_2,name_2,id_3,parentid_3,name_3
1,,root,2,1,children1,3,2,grandchildren1,4,3,grandgrandchildren1


En MongoDB, el concepto de embebido de documentos se refiere a la práctica de incluir documentos dentro de otros documentos en lugar de normalizar los datos mediante relaciones entre colecciones, como se haría en bases de datos relacionales.

Esto se hace para modelar datos jerárquicos o accesibles rápidamente sin necesidad de hacer varias consultas, aprovechando la naturaleza flexible de MongoDB para almacenar datos complejos de manera eficiente.

In [24]:
collection = db["directories"]

In [25]:
collection.insert_one({"id": 1, "parentid": None, "name": "root", "children": [
    {"id": 2, "parentid": 1, "name": "children1", "children": [
         {"id": 3, "parentid": 2, "name": "grandchildren1", "children": [
             {"id": 4, "parentid": 3, "name": "grandgrandchildren1", "children": []}
                ]}
    ]}
]});

In [26]:
# Recuperando todos los documentos de una colección
import pprint
for doc in collection.find():
    pprint.pprint(doc, compact=True)

{'_id': ObjectId('67a266ef2980bf08f1b689cf'),
 'children': [{'children': [{'children': [{'children': [],
                                           'id': 4,
                                           'name': 'grandgrandchildren1',
                                           'parentid': 3}],
                             'id': 3,
                             'name': 'grandchildren1',
                             'parentid': 2}],
               'id': 2,
               'name': 'children1',
               'parentid': 1}],
 'id': 1,
 'name': 'root',
 'parentid': None}
