![](https://raw.githubusercontent.com/matiasbattocchia/clases-aprendizaje-automatico/master/nosql/img/meli.png)

# Introducción a bases de datos NoSQL

## Primera parte: MongoDB

Mientras tanto...

1. Descargar e instalar Compass, un **cliente** con interfaz gráfica — https://docs.mongodb.com/compass/current/install

2. Conectarse al cluster del curso, un conjunto de **servidores**, deployado en la nube — `mongodb+srv://dh:1234@cluster0.qpm27.mongodb.net/`

![](https://raw.githubusercontent.com/matiasbattocchia/clases-aprendizaje-automatico/master/nosql/img/connection_uri.png)

## Base de datos de documentos

Un registro en MongoDB es un **documento**, una estructura de datos compuesta por pares de campos y valores, similares a objetos JSON. Los valores de los campos pueden incluir
* otros documentos,
* listas, y
* listas de documentos.

```js
{
    "_id": "59a47286cfa9a3a73e51e736",
    "theaterId": 1017,
    "location": {
        "address": {
            "street1": "4325 Sunset Dr",
            "city": "San Angelo",
            "state": "TX",
            "zipcode": "76904"
        },
        "geo": {
            "type": "Point",
            "coordinates": [-100.50107, 31.435648]
        }
    }
}
```

### Las ventajas de utilizar documentos
* Los documentos —objetos— se corresponden con tipos de datos nativos en muchos lenguajes de programación.
* Los documentos embebidos y las listas reducen la necesidad de *joins* costosos.
* El **esquema flexible** permite polimorfismo.

## De SQL a MongoDB

| SQL | MongoDB |
| --- | --- |
| database | database |
| table | collection |
| row | document |
| column | field |
| index | index |
| table joins | `$lookup`, embedded documents |
| primary key (unique column or column combination) | primary key (`_id` field) |
| aggregation (`group by`) | aggregation pipeline |

### El campo `_id`

En MongoDB cada documento almacenado en una colección requiere un campo `_id` que actúa como **llave primaria**. Si un documento nuevo omite este campo, se genera automáticamente.

## Create Read Update Delete — CRUD

Ver más: https://docs.mongodb.com/manual/crud

Ejemplos de queries de documentos. Asumimos que hay una colección llamada `people` que contiene documentos de esta forma:

```js
{
  _id: "509a8fb2f3f4948bd2f983a0",
  user_id: "abc123",
  age: 55,
  status: "A"
}
```

---

#### SQL

```sql
SELECT *
FROM people
```

#### Mongo Shell

```js
db.people.find()
```

---

#### SQL

```sql
SELECT id,
       user_id,
       status
FROM people
```

#### Mongo Shell

```js
db.people.find(
    { },
    { user_id: 1, status: 1 }
)
```

En Mongo la selección de campos específicos se denomina **proyección**.

---

#### SQL

```sql
SELECT user_id, status
FROM people
```

#### Mongo Shell

```js
db.people.find(
    { },
    { user_id: 1, status: 1, _id: 0 }
)
```

Si no queremos la *primary key* hay que pedirlo explícitamente.

---

#### SQL

```sql
SELECT *
FROM people
WHERE status = "A"
```

#### Mongo Shell

```js
db.people.find(
    { status: "A" }
)
```

---

#### SQL

```sql
SELECT user_id, status
FROM people
WHERE status = "A"
```

#### Mongo Shell

```js
db.people.find(
    { status: "A" },
    { user_id: 1, status: 1, _id: 0 }
)
```

---

#### SQL

```sql
SELECT *
FROM people
WHERE status <> "A"
```

#### Mongo Shell

```js
db.people.find(
    { status: { $ne: "A" } }
)
```

`$ne` es *not equal*.

---

#### SQL

```sql
SELECT *
FROM people
WHERE status = "A"
AND age = 50
```

#### Mongo Shell

```js
db.people.find(
    { status: "A", age: 50 }
)
```

---

#### SQL

```sql
SELECT *
FROM people
WHERE status = "A"
OR age = 50
```

#### Mongo Shell

```js
db.people.find(
    { $or: [ { status: "A" } , { age: 50 } ] }
)
```

---

#### SQL

```sql
SELECT *
FROM people
WHERE age > 25
```

#### Mongo Shell

```js
db.people.find(
    { age: { $gt: 25 } }
)
```

`$gt` es *greater than*. `$gte` es *greater than or equal*.

---

#### SQL

```sql
SELECT *
FROM people
WHERE age < 25
```

#### Mongo Shell

```js
db.people.find(
   { age: { $lt: 25 } }
)
```

`$lt` es *less than*. `$lte` es *less than or equal*.

---

#### SQL

```sql
SELECT *
FROM people
WHERE age > 25
AND   age <= 50
```

#### Mongo Shell

```
db.people.find(
   { age: { $gt: 25, $lte: 50 } }
)
```

---

#### SQL

```sql
SELECT *
FROM people
WHERE user_id LIKE "%bc%"
```

#### Mongo Shell

```js
db.people.find(
    { user_id: /bc/ }
)
```

o también

```js
db.people.find(
    { user_id: { $regex: /bc/ } }
)
```

`$regex` es *regular expression*.

---

#### SQL

```sql
SELECT *
FROM people
WHERE user_id LIKE "bc%"
```

#### Mongo Shell

```js
db.people.find(
    { user_id: /^bc/ }
)
```

o también

```js
db.people.find(
    { user_id: { $regex: /^bc/ } }
)
```

---

#### SQL

```sql
SELECT *
FROM people
WHERE status = "A"
ORDER BY user_id ASC
```

#### Mongo Shell

```js
db.people.find(
    { status: "A" }
).sort(
    { user_id: 1 }
)
```

---

#### SQL

```sql
SELECT *
FROM people
WHERE status = "A"
ORDER BY user_id DESC
```

#### Mongo Shell

```js
db.people.find(
    { status: "A" }
).sort(
    { user_id: -1 }
)
```

---

#### SQL

```sql
SELECT COUNT(*)
FROM people
```

#### Mongo Shell

```js
db.people.find().count()
```

o también

```js
db.people.count()
```

---

#### SQL

```sql
SELECT COUNT(user_id)
FROM people
```

#### Mongo Shell

```js
db.people.find(
    { user_id: { $exists: true } }
).count()
```

o también

```js
db.people.count(
    { user_id: { $exists: true } }
)
```

`$exists` funciona como un *is not null*.

---

#### SQL

```sql
SELECT *
FROM people
WHERE status IS NULL
```

#### Mongo Shell

```js
db.people.find(
    { status: null }
).count()
```

Funciona tanto para chequear nulos como para ver si el campo existe.

---

#### SQL

```sql
SELECT COUNT(*)
FROM people
WHERE age > 30
```

#### Mongo Shell

```js
db.people.find(
    { age: { $gt: 30 } }
).count()
```

o también

```js
db.people.count(
    { age: { $gt: 30 } }
)
```

---

#### SQL

```sql
SELECT DISTINCT(status)
FROM people
```

#### Mongo Shell

```js
db.people.distinct( "status" )
```

---

#### SQL

```sql
SELECT *
FROM people
LIMIT 1
```

#### Mongo Shell

```js
db.people.findOne()
```

o también

```js
db.people.find().limit(1)
```

---

#### SQL

```sql
SELECT *
FROM people
LIMIT 5
SKIP 10
```

#### Mongo Shell

```js
db.people.find().limit(5).skip(10)
```

## Consultas NoSQL

Ver más: https://docs.mongodb.com/manual/tutorial/query-documents

Para los siguientes ejemplos supongamos documentos como este en una colección llamada `inventory`.

```js
{
    _id: "509a8fb2f3f4948bd2f983a0",
    item: "journal",
    size: { h: 14, w: 21, uom: "cm" },
    tags: ["red", "blank"],
    instock: [
        { qty: 5, warehouse: "A" },
        { qty: 1, warehouse: "B" }
    ]
}
```

### Documentos anidados

*Match* exacto. Requiere que incluso el orden de los campos sea el mismo.

```js
db.inventory.find( 
    { size: { h: 14, w: 21, uom: "cm" } } 
)
```

#### Campos anidados

Usamos *dot notation* (`campo.campoAnidado`) para especificar condiciones en campos anidados.

```js
db.inventory.find(
    { "size.h": { $lt: 15 }, "size.uom": "cm" } 
)
```

### Listas

*Match* exacto. El orden de los elementos importa.

```js
db.inventory.find(
    { tags: ["red", "blank"] }
)
```

#### Cualquier elemento

```js
db.inventory.find(
    { tags: "blank" }
)
```

#### Elemento en posición específica

```js
db.inventory.find(
    { "tags.0": "red" }
)
```

MongoDB empieza a contar las posiciones en las listas desde 0.

#### Largo de la lista

```js
db.inventory.find(
    { tags: { $size: 3 } }
)
```

### Listas de documentos

*Match* exacto. La lista debe contener al menos un documento con mismo orden de campos y mismos valores.

```js
db.inventory.find(
    { "instock": { qty: 5, warehouse: "A" } }
)
```

#### Campos anidados

```js
db.inventory.find(
    { "instock.qty": { $lte: 20 }, "instock.warehouse": "A" }
)
```

#### Documento en posición específica

```js
db.inventory.find(
    { "instock.0.qty": { $lte: 20 } }
)
```

## Modelos de datos

Ver más: https://docs.mongodb.com/manual/core/data-modeling-introduction
        
### Esquema flexible

A diferencia de las bases de datos SQL, donde las tablas poseen un esquema predefinido, las colecciones de MongoDB —por defecto— **no requieren que sus documentos posean el mismo esquema**.
* No necesitan tener el mismo conjunto de campos ni mantener el tipo de dato en un mismo campo.
* Para agregar nuevos campos, remover existentes, o cambiar el tipo de dato de un valor, solo hay que actualizar el documento a su nueva estructura.

Esta flexibilidad facilita el mapeo de documentos a entidades u objetos.

En la práctica los documentos de una colección comparten una estructura similar y es posible de ser conveniente establecer reglas de **validación de esquemas**.

### De-normalizado

![](https://raw.githubusercontent.com/matiasbattocchia/clases-aprendizaje-automatico/master/nosql/img/model_denormalized.svg)

En general, usar **documentos embebidos** cuando
* hay relaciones uno-a-uno,
* y en relaciones uno-a-muchos si es que "los muchos" siempre hacen falta en contexto "del uno".

La lectura es más eficiente al devolver menos documentos. Asimismo hace que la escritura de datos relacionados sea atómica.

### Normalizado

![](https://raw.githubusercontent.com/matiasbattocchia/clases-aprendizaje-automatico/master/nosql/img/model_normalized.svg)

En general, **normalizar** documentos cuando
* anidarlos resulta en duplicación de los datos pero no en suficiente rendimiento de lectura como para justificar la duplicación,
* hay relaciones muchos-a-muchos,
* jerárquicas (árboles),
* complejas (redes).

## Agregaciones

Ver más: https://docs.mongodb.com/manual/aggregation

MongoDB utiliza una forma de procesamiento de datos llamada *aggregation pipeline* en la que los **documentos** atraviesan distintas etapas que los van transformando y agregando.

Colección `orders`

```js
db.orders.insertMany([
   { _id: 1, customer_id: 1, item: "almonds", price: 12, quantity: 2 },
   { _id: 2, customer_id: 1, item: "pecans",  price: 20, quantity: 1 },
   { _id: 3, customer_id: 2, item: "pecans",  price: 20, quantity: 5 }
])
```

#### SQL

```sql
SELECT customer_id AS _id,
       SUM(price * quantity) AS total
FROM orders
GROUP BY customer_id
```

#### Mongo Shell

```
db.orders.aggregate([
   { $project: { customer_id: 1, subtotal: { $multiply: [ "$price", "$quantity" ] } } },
   { $group: { _id: "$customer_id", total: { $sum: "$subtotal" } } }
])
```

#### Resultado

```js
{ _id: 1, total: 44  }
{ _id: 2, total: 100 }
```

**Primera etapa**: `$project` pasa documentos a la siguiente etapa con los campos requeridos, existentes o nuevos. 

**Segunda etapa**: `$group` es como la cláusula `GROUP BY` de SQL, agrega por los campos definidos en `_id`.

El *aggregation pipeline* es realmente flexible. Existen [etapas](https://docs.mongodb.com/manual/reference/operator/aggregation-pipeline/) para una gran cantidad de casos de uso.

`$sum` es uno de los varios [operadores de agregación](https://docs.mongodb.com/manual/reference/operator/aggregation/); dentro de `$group` se comporta como acumulador. Otros acumuladores son `$avg` (promedio), `$min` y `$max`.

## Combinaciones

Ver más: https://docs.mongodb.com/manual/reference/operator/aggregation/lookup

`$lookup` es una etapa de agregación que realiza un `left join` entre colecciones. A cada documento de la izquierda se le **agrega un nuevo campo** del tipo lista con documentos "joineados" de la derecha.

Colección `orders`

```js
db.orders.insertMany([
   { _id: 1, item: "almonds", price: 12, quantity: 2 },
   { _id: 2, item: "pecans",  price: 20, quantity: 1 },
])
```

Colección `inventory`

```js
db.inventory.insertMany([
   { _id: 1, sku: "almonds", description: "product 1", instock: 120 },
   { _id: 2, sku: "bread",   description: "product 2", instock: 80 },
])
```

#### Agregación

```js
db.orders.aggregate([
   {
     $lookup:
       {
         from: "inventory",
         localField: "item",
         foreignField: "sku",
         as: "inventory_docs"
       }
  }
])
```

#### Resultado

```js
{
   _id: 1,
   item: "almonds",
   price: 12,
   quantity: 2,
   inventory_docs: [
      { _id: 1, sku: "almonds", description: "product 1", instock: 120 }
   ]
}
```

## Transacciones / Atomicidad

Ver más: https://docs.mongodb.com/manual/core/transactions

En MongoDB una operación sobre un único documento es **atómica**. Es posible usar documentos embebidos o anidados para capturar las relaciones entre los datos **en un único documento** en vez de normalizar los datos en múltiples documentos y colecciones. Esta característica evita recurrir a transacciones multi-documento en muchos casos de uso.

En situaciones en las que se requiera atomicidad para leer y escribir múltiples documentos, sin importar si se encuentran en la misma colección o no), MongoDB soporta **transacciones multi-documento** (es una proposición *todo o nada*).

![](https://raw.githubusercontent.com/matiasbattocchia/clases-aprendizaje-automatico/master/nosql/img/transaction.png)

## Índices

Ver más: https://docs.mongodb.com/manual/indexes

Habilitan la ejecución eficiente de consultas. Sin índices el motor de MongoDB debe revisar cada documento de la colección para seleccionar aquellos que cumplen con el filtro.

En cambio, si existen índices apropiados para la consulta, el motor los puede usar para limitar la cantidad de documentos que debe inspeccionar.

![](https://raw.githubusercontent.com/matiasbattocchia/clases-aprendizaje-automatico/master/nosql/img/index_example.svg)

Los índices aceleran las consultas. Como contrapartida, son estructuras que ocupan espacio de almacenamiento.

![](https://raw.githubusercontent.com/matiasbattocchia/clases-aprendizaje-automatico/master/nosql/img/index_compass.png)

### Índice por defecto

MongoDB al crear una colección crea un índice sobre el campo `_id` que previene la inserción de dos documentos con el mismo valor. Este índice no puede ser eliminado.

### Tipos de índices

#### Simple

![](https://raw.githubusercontent.com/matiasbattocchia/clases-aprendizaje-automatico/master/nosql/img/index_single.svg)

#### Compuesto

![](img/index_compound.svg)

#### Multi-llave

Indexan elementos de listas.

![](https://raw.githubusercontent.com/matiasbattocchia/clases-aprendizaje-automatico/master/nosql/img/index_multikey.svg)

#### Geoespacial

Índices bidimensionales sobre geometria planar o esférica.

#### Texto

No repara en *stop words* y procesa las palabras para almacenar únicamente sus raíces.

#### Hash

Distribuye aleatoreamente los valores en su rango. Útil para *sharding*.

### Propiedades de los índices

* **Único**. Rechaza valores duplicados en el campo indexado.
* **Parcial**. Solo indexa documentos que cumplen con un filtro determinado.
* **Esparsos**. Solo indexa documentos que poseen el campo indexado.
* **TTL** (*time-to-live*). Remueve automáticamente documentos luego de cierto tiempo.
* **Ocultos**. No pueden ser utilizados en las consultas. Sirve para desactivarlo temporalmente.

## Práctica

Para resolver los siguientes ejercicios puede resultar útil este machete: [MongoDB Cheat Sheet](https://developer.mongodb.com/quickstart/cheat-sheet).

Vamos a usar la base de datos `sample_restaurants` que se encuentra en el cluster del curso. Conectarse a la URI `mongodb+srv://dh:1234@cluster0.qpm27.mongodb.net/` usando MongoDB Compass; las credenciales son de **solo lectura**. Una vez adentro, desplegar Mongo Shell y ejecutar

    > use sample_restaurants

😀 Todo listo para empezar.

### Calentamiento

Estas preguntas pueden responderse utilizando la interfaz gráfica de Compass.

1. ¿Cuántas colecciones tiene la base de datos?
2. ¿Cuántos documentos en cada colección? ¿Cuánto pesa cada colección?
3. ¿Cuántos índices en cada colección? ¿Cuánto espacio ocupan los índices de cada colección?
4. Traer un documento de ejemplo de cada colección. `db.collection.find(...).pretty()` nos da un formato más legible.
5. Para cada colección, listar los campos a nivel raíz (ignorar campos dentro de documentos anidados) y sus tipos de datos.

### SQL

Usando Mongo Shell. Colección `restaurants`:

1. Devolver `restaurant_id`, `name`, `borough` y `cuisine` pero excluyendo `_id` para un documento (el primero).

2. Devolver `restaurant_id`, `name`, `borough` y `cuisine` para los primeros 3 restaurantes que contengan 'Bake' en alguna parte de su nombre.

3. Contar los restaurantes de comida (`cuisine`) china (*Chinese*) o tailandesa (*Thai*) del barrio (`borough`) Bronx. Consultar [or versus in](https://docs.mongodb.com/manual/reference/operator/query/or/#-or-versus--in).

### NoSQL


1. Traer 3 restaurantes que hayan recibido al menos una calificación de `grade` 'A' con `score` mayor a 50. Una misma calificación debe cumplir con ambas condiciones simultáneamente; investigar el operador [elemMatch](https://docs.mongodb.com/manual/reference/operator/query/elemMatch/).

2. ¿A cuántos documentos les faltan las coordenadas geográficas? En otras palabras, revisar si el tamaño de `address.coord` es 0 y contar.

3. Devolver `name`, `borough`, `cuisine` y `grades` para los primeros 3 restaurantes; de cada documento **solo la última calificación**. Ver el operador [slice](https://docs.mongodb.com/manual/tutorial/project-fields-from-query-results/#project-specific-array-elements-in-the-returned-array).

### Desafiantes

1. ¿Cuál es top 3 de tipos de cocina (`cuisine`) que podemos encontrar entre los datos? *Googlear* "mongodb group by field, count it and sort it". Ver etapa [limit](https://docs.mongodb.com/manual/reference/operator/aggregation/limit/) del *pipeline* de agregación.

2. ¿Cuáles son los barrios más desarrollados gastronómicamente? Calcular el promedio (`$avg`) de puntaje (`grades.score`) por barrio; considerando restaurantes que tengan más de tres reseñas; ordenar barrios con mejor puntaje arriba. **Ayuda**:

  a. [match](https://docs.mongodb.com/manual/reference/operator/aggregation/match/#mongodb-pipeline-pipe.-match) es una etapa que filtra documentos según una condición, similar a `db.orders.find(<condición>)`.

  b. Parece necesario deconstruir las listas `grades` para producir un documento por cada puntaje utilizando la etapa [unwind](https://docs.mongodb.com/manual/reference/operator/aggregation/unwind/#mongodb-pipeline-pipe.-unwind).

3. Una persona con ganas de comer está en longitud -73.93414657 y latitud 40.82302903, ¿qué opciones tiene en 500 metros a la redonda? Consultar [geospatial tutorial](https://docs.mongodb.com/manual/tutorial/geospatial-tutorial).

## Soluciones

### SQL

1.

```js
db.restaurants.findOne(
    { },
    { restaurant_id: 1, name: 1, borough: 1, cuisine: 1, _id: 0 }
)
```

2.

```js
db.restaurants.find(
    { name: /Bake/ },
    { restaurant_id: 1, name: 1, borough: 1, cuisine: 1 }
).limit(3)
```

3.

```js
db.restaurants.count(
    { cuisine: { $in: [ "Chinese", "Thai" ] }, borough: "Bronx" }
)
```

### NoSQL

1.

```
db.restaurants.find(
    { grades: { $elemMatch: { grade: "A", score: { $gt: 50 } } }
).limit(3)
```

2.

```js
db.restaurants.count(
    { "address.coord": { $size: 0 } }
)
```

3.

```js
db.restaurants.find(
    { },
    { name: 1, borough: 1, cuisine: 1, grades: { $slice: -1 } }
).limit(3)
```