### <a name="index"></a>Index

### [Metodología para el modelado de datos](#mark_01)

### [Workload - Carga de trabajo](#mark_02)

### [Escenario del proyecto](#mark_03)

### [Construcción del Workload](#mark_04)

### [Creando Schema de la Collection](#mark_05)

### [Obtener datos del Schema "getCollectionInfos()"](#mark_06)

### [Actualizar un Schema "runCommand() + "collMod"](#mark_07)

### [Embeber vs. Referenciar](#mark_08)

   - ### [Relación 1 - 1 --> 90% Embebida](#mark_09)

   - ### [Relación 1 - 1 --> 10% Relacionada](#mark_10)
   
   - ### ["aggregate()" + "&lookup"](#mark_11) 

   - ### [Relación 1 - N Relacionada](#mark_12)

   - ### [Relación N - N Relacionada](#mark_13)

### [Relación N - N Referencia Circular o Bidireccionales](#mark_14)

### [Desnormalización](#mark_15)

### [Computed pattern](#mark_16)

### [Simplicidad vs. rendimiento](#mark_17)

**---------------------------------------------------------------------------------------------------------------------------------------------------------**

### <a name="mark_01"></a>Metodología para el modelado de datos.
### [Index](#index) 


Uno de los aspectos mas importantes a tener en cuenta al momento de modelar los datos son las restricciones que se tienen en los distintos ambientes ya que estas condicionan los recursos que tenemos disponibles.

**Restricciones**

- Cantidad de memoria RAM → a mayor cantidad de RAM, mayores son los costos

- En donde se almacena la información 
    - a. Disco mecánico → Son ideales para almacenar información a través del tiempo (históricos de datos) 
    - b. Disco de estado solido → Son ideales para información de consultas rápidas. 
    - c. RAM → Son ideales para consultas mucho mas rápidas que en un disco de estado de solido pero aumenta los costos si guardamos mucha información.
    
### Importante!!! Cada documento en MongoDB puede tener un meso máximo de 16MB.

- Latencia → En donde está ubicado el usuario y cuanto le cuesta llegar al servidor que provee la información. A esto se le conoce como un CDN (Content Delivery Network) que se encarga de generar una copia de la base de datos a través de un cluster y ver la forma más rápida hacia donde nos conectamos para que el usuario tenga la información en el menor tiempo posible. Estas replicas pueden llevarse a cabo haciendo uso de Mongo Atlas.

**Restricciones del negocio.**

Para tener todos estos aspectos en cuenta usaremos una metodología de tres fases

Metodología

- Requerimientos → Escenarios de nuestro sistema y como modelarlo.
    
    - Identificar ER

- Aplicar patrones → Consultas con mejor rendimiento y pensadas para determinados escenarios.

Cada una de estas fases tendrán ciertos aspectos que debemos evaluar los cuales se explican a continuación:

![](img_01.png)
**---------------------------------------------------------------------------------------------------------------------------------------------------------**

- Escenarios: Los distintos escenarios que se van a presentar con respecto a nuestro modelo de negocio (Como un usuario usará la app, donde podrá editar sus mensajes o como comprará un producto)

- Expertos: Incluir expertos relacionados con el tema del negocio que se está construyendo (Si se está construyendo un E-Commerce, entonces necesitamos a alguien experto en el area)

- Sistema Actual: Saber como funciona el sistema actual (si existe). Si el sistema no existe se debe evaluar como gestionan y llevan a cabo las tareas en el presente.

- DB Admin: El experto en modelado que une todas las características para llegar a un resultado.

**Ahora, hablemos de los resultados que vamos a obtener**

- Workload (carga de trabajo): Es un documento final que se construye gracias a los Escenarios, Expertos y el Sistema Actual. Este documento nos permite identificar relaciones, operaciones mas comunes, tamaño de los datos, consultas e indices y plantear hipótesis sobre posibles escenarios.

- Relaciones: Las podemos obtener juntando el Sistema Actual y al DB Admin. En este punto podremos identificar las entidades, las relaciones, los atributos, las distintas restricciones y decidir si embeber o referenciar.

- Patrones: Con el modelo ER ya podremos identificar patrones n el modelo de negocio que nos permiten realizar optimizaciones de la carga de trabajo o obtener un mejor desempeño de la misma.

### El resultado final de estos 3 aspectos nos generan a un Diseño

### <a name="mark_02"></a>Workload - Carga de trabajo.
### [Index](#index) 

- El Workload o Carga de trabajo se construye tomando en cuenta.

    - Escenarios.
    - Expertos.
    - Sistema Actual.
    
- Nos permite identificar que cosas tenemos y como se comportan para así empezar a tomar decisiones a nivel de diseño en nuestra base de datos.

- Para construir el Workload podemos usar un documento (no limitativo) que nos permita empezar a definir el modelado y saber que aspectos debemos tener en cuenta al momento de diseñar la base de datos. El documento puede tener las siguientes secciones:

    - **Casos de usos**: Describimos lo mas importante acerca del caso de negocio que se esté manejando.
    
    - **Sección principal**: Se resaltan los actores principales.

    - **Suposiciones acerca del negocio**: Establecemos ciertas declaraciones que pueden ir variando a través del tiempo.
    
    - **Operaciones**: Se detallan mas a fondo los actores que influyen en nuestro negocio y la forma en la que se relacionan con nuestra base de datos resaltando aspectos importantes como: 
        
        - Frecuencia
        - Información que se envía
        - Tipo de operación, etc.
        
    - Entidades: Creamos ciertas entidades que existen en nuestro negocio, así como suponer ciertas cosas sobre ellas gracias a la información suministrada por los expertos en el area.

  - Observaciones finales: Pueden ser acotaciones generales con respecto a la información recolectada.

📌 Mongo Atlas posee un sistema de replicación y cuando escribimos en una base de datos puede existir un delay mientras se replica la información en otros nodos.

### <a name="mark_03"></a>Escenario del proyecto.
### [Index](#index) 

![](img_02.png)
**---------------------------------------------------------------------------------------------------------------------------------------------------------**

- Información del clima --> Presión atmosférica.
- Datos de sensores que hay que conectar y publicar en una DDBB en mongoDB.

![](img_03.png)
**---------------------------------------------------------------------------------------------------------------------------------------------------------**
- Cien mil sensore que envian datos cada x cantidad de tiempo.
- Personal de Operaciones que vigila el buen funcionamiento de los sensores.
- Equipo de "Data", equipo que consume los datos, los analiza y encuentra patrones.

### <a name="mark_04"></a>Construcción del Workload.
### [Index](#index) 

**Uses Cases:**

● An organization has deployed 100M (100.000) weather sensors.

● The goal is to gather the data transmitted from all devices in one database to do
predictions, and trend analysis.
Main Data

● Number of devices (100.000.000) **cantidad de dispositivos conectados para consumir datos**.

● Analysts (10)

● Period (10 years)

**Assumptions**

● Data per hour is as good as per minute for trends

● Still need to keep the data per minute for deeper analysis

**Operations**

|Actor:| sensor device|
|------|--------------|
|Description:| send weather data to the server|
|Operation Type:| write|
|Data in Operation:| device ID, time stamp, device metrics|
|Frequency:| send metric data every minute|
|Rate:| 100.000.000 / 1 min|
|Op Type| Write|

|Actor:| Data Scientist|
|-----|---------------|
|Description:| run analytic/trend query on temperature|
|Operation Type:| read|
|Data in Operation:| temperature metrics|
|Frequency:| run ~10 analytic queries per hour|
|Rate:| 10 (Data Scientist) * 10 (queries)|

100 / 1h
Op Type Write

**Entities**

- Users

- Profile

- Devices

- Categories

- Data Devices

- airTemperature

- Pressure

- Wind (direction, speed)

**Observations**

- There is more write operators that read operations

### <a name="mark_05"></a>Creando Schema de la Collection.
### [Index](#index) 

- Si bien la flexibilidad de mongo nos permitiría ingresar otros valores distintos a los descriptos en el schema, este schema describe los campos obligatorios, el tipo de dato obligatorio para los campos "name", "last_name", "email", y "password".

- Documentación para los tipos de datos https://www.mongodb.com/docs/manual/reference/bson-types/

```json
use("store_ddbb")

//db.user.drop()

db.createCollection('user', { //se crea la collection 'user'
    validator: { //indicamos que se validaran los campos de mi schema.
        $jsonSchema: {
            bsonType: 'object', // será un objeto del tipo bson
            required: ['email', 'password'], //hay campos obligatorios
            additionalProperties: false,//No se pueden agregar atributos diferentes a los listados en "properties"
            properties:{//todos los atributos que tendrá mi documento.
                name: {
                    bsonType: 'string'
                },
                last_name:{
                    bsonType: 'string'
                },
                email: {
                    bsonType: 'string'
                },
                password: {
                    bsonType: 'string',
                    pattern: "^[A-Za-z0-9]{8,}$"//regex para password de 8 a infinitos caractéres, con Mayúsculas, minúsculas y números
                },
                age: {
                    bsonType: 'number',
                    minimum: 18,//limite inferior
                    maximum: 99//limite superior
                },
                single: {
                    bsonType: 'bool'
                },
                role: {
                    enum:['admin', 'user', 'operator']//solo se pueden ingresar los valores enumerados.
                },
                skills: {
                    bsonType: 'array',
                    minItems: 1, //almenos 1 elemento
                    uniqueItems: true, //sin duplicados
                    items: { //items dentro del array
                    enum: ['sql', 'nosql', 'back-end']
                    }
                },
                category: {//subdocumento con su propio schema
                    bsonType: 'object',
                    required: ['name', 'role'],
                    properties: {
                        name: {
                            bsonType: 'string'
                        },
                        role: {
                            bsonType: 'string'
                        }
                    }
                }
            }
        }
    }
})
```

### <a name="mark_06"></a>Obtener datos del Schema "getCollectionInfos()".
### [Index](#index) 

- Consulta:

```json
use("nombre_ddbb")

db.getCollectionInfos()
```
- Resultado:

```json
[
  {
    "name": "user",
    "type": "collection",
    "options": {
      "validator": {
        "$jsonSchema": {
          "bsonType": "object",
          "required": [
            "email",
            "password"
          ],
          "additionalProperties": false,
          "properties": {
            "name": {
              "bsonType": "string"
            },
            "last_name": {
              "bsonType": "string"
            },
            "email": {
              "bsonType": "string"
            },
            "password": {
              "bsonType": "string",
              "pattern": "^[A-Za-z0-9]{8,}$"
            },
            "age": {
              "bsonType": "number",
              "minimum": 18,
              "maximum": 99
            },
            "single": {
              "bsonType": "bool"
            },
            "role": {
              "enum": [
                "admin",
                "user",
                "operator"
              ]
            },
            "skills": {
              "bsonType": "array",
              "minItems": 1,
              "uniqueItems": true,
              "items": {
                "enum": [
                  "sql",
                  "nosql",
                  "back-end"
                ]
              }
            },
            "category": {
              "bsonType": "object",
              "required": [
                "name",
                "role"
              ],
              "properties": {
                "name": {
                  "bsonType": "string"
                },
                "role": {
                  "bsonType": "string"
                }
              }
            }
          }
        }
      }
    },
    "info": {
      "readOnly": false,
      "uuid": {
        "$binary": {
          "base64": "UvEhojZ1RV+o85IkVzP/yA==",
          "subType": "04"
        }
      }
    },
    "idIndex": {
      "v": 2,
      "key": {
        "_id": 1
      },
      "name": "_id_"
    }
  }
]
```

### <a name="mark_07"></a>Actualizar un Schema "runCommand()" + "collMod".
### [Index](#index) 

- Para poder realizar este tipo de modificaciones/ actualizaciones, el usuario debe tener los permisos correspondientes veamos...

![](img_05.png)
**---------------------------------------------------------------------------------------------------------------------------------------------------------**

![](img_06.png)
**---------------------------------------------------------------------------------------------------------------------------------------------------------**

![](img_07.png)
**---------------------------------------------------------------------------------------------------------------------------------------------------------**

- De esta forma podemos actualizar un schema sin necesidad de borrar todos los datos, utilizando runCommand() y collMod, debemos pegar "TODO" el validator con las modificaciones que necesitamos para que se sobre-escriba al anterior.

```json
use("store_ddbb")

db.runCommand({
    collMod: 'user',//Modificar la collection.
    validator: { //indicamos que se validaran los campos de mi schema.
        $jsonSchema: {
            bsonType: 'object', // será un objeto del tipo bson
            required: ['email', 'password'], //hay campos obligatorios
            additionalProperties: false,//No se pueden agregar atributos diferentes a los listados en "properties"
            properties:{//todos los atributos que tendrá mi documento.
                name: {
                    bsonType: 'string'
                },
                last_name:{
                    bsonType: 'string'
                },
                email: {
                    bsonType: 'string'
                },
                password: {
                    bsonType: 'string',
                    pattern: "^[A-Za-z0-9]{8,}$"//regex para password de 8 a infinitos caractéres, con Mayúsculas, minúsculas y números
                },
                age: {
                    bsonType: 'number',
                    minimum: 18,//limite inferior
                    maximum: 99//limite superior
                },
                single: {
                    bsonType: 'bool'
                },
                role: {
                    enum:['admin', 'user', 'operator']//solo se pueden ingresar los valores enumerados.
                },
                skills: {
                    bsonType: 'array',
                    minItems: 1, //almenos 1 elemento
                    uniqueItems: true, //sin duplicados
                    items: { //items dentro del array
                    enum: ['sql', 'nosql', 'back-end']
                    }
                },
                category: {//subdocumento con su propio schema
                    bsonType: 'object',
                    required: ['name', 'role'],
                    properties: {
                        name: {
                            bsonType: 'string'
                        },
                        role: {
                            bsonType: 'string'
                        }
                    }
                }
            }
        }
    }
})
```

### <a name="mark_08"></a>Embeber vs. Referenciar.
### [Index](#index) 

- Para decidir si nuestro schema debe ser embebido o referenciados debemos plantearnos las siguientes preguntas:

    - Qué tan frecuente es **CONSULTADA** la información?
    
    - Qué tan frecuente es **ACTUALIZADA** la información?
    
    - La información se consulta en **CONJUNTOS** o **POR PARTES**?

### <a name="mark_09"></a>Relación 1 - 1 --> 90% "Embebida".
### [Index](#index) 

![](img_08.png)
**---------------------------------------------------------------------------------------------------------------------------------------------------------**

![](img_09.png)
**---------------------------------------------------------------------------------------------------------------------------------------------------------**

- La utilizamos cuando tenemos una dependencia interna de ciertos atributos que estan relacionados o que se repiten para diferentes casos. Entonces se realizaran subdocumentos que contengan esos atributos relacionados.

**Casos recomendables de uso**

- En el 90% de los casos, cuando hay una relacion 1:1, esta suele ser embebida.

    - Cuando la informacion se consulta en conjunto

    - Los sub-documentos sean una dependencia directa
    
Por ejemplo:

Tenemos en una tienda online un usuario que tiene una direccion de su casa y otra de envio. Estas direcciones tienen varios atributos que comparten y para cada uno estan relacionados.

Entonces agrupamos estas propiedades en sub-documentos (objetos) en direccion casa y direccion de envio.

- Al momento de insertar un documento se realizaría de la siguiente forma:

```json
use("store_ddbb")

db.nombre_collection.insertOne({
    name: 'Fulano',
    address:{// primer relación embebida
        street: 'my street_01',
        city: 'my city_01',
        zip: 'my zip_code_01'    
    },
    shipping_address:{
        street: 'my street_02',
        city: 'my city_02',
        zip: 'my zip_code_02'
    }
})
```

- Y la consulta se puede realizar facilmente de la siguiente forma:

```json
use("store_ddbb")

db.nombre_collection.find({
    "ddress.city": 'my city_01'
})
```

### <a name="mark_10"></a>Relación 1 - 1 --> 10% "Relacionada".
### [Index](#index) 

- Un caso en cual, una entidad relación de 1 - 1 debe ser Relacional, se debe al tamaño del documento, cuando este se encuentra cerca de los 16MB, las consultas se vuelven pesadas y lentas.

- Como se ve a continuación se insetan 2 documento en collecciones distintas, que enlazados por la propiedad "store_id".
```json
use("nombre_ddbb")

db.nombre_collection_01.insertOne({
    store_id:'st001',
    name: 'primer store',
    address: 'primer dire',
})

db.nombre_collection_02.insertOne({
    store_id:'st001',
    description:'hay texto',
    manager:{
        email: 'manager@gmail.com',
        cellphone: '6543516876'
    }
})
```

- Con lo cual para realizan una consulta que los vincules, tendríamos que hacer 2 consultas.
```json
use("nombre_ddbb")

db.nombre_collection_01.findOne(store_id:'st001')
db.nombre_collection_02.findOne(store_id:'st001')
```

### <a name="mark_11"></a>"aggregate()" + "&lookup".
### [Index](#index) 

- Para evitar esa doble consulta utilizaremos la función "aggregate()" + "&lookup", el cual nos permite consultar a otros documentos y formar una relación.

```json
use("nombre_ddbb")

db.nombre_collection_01.aggregate([
    {
        $lookup: {
            from: 'nombre_collection_02',//The target collection
            localField: 'st001',//propiedad perteneciente a nombre_collection_01
            foreingField: 'st001',//propiedad perteneciente a nombre_collection_02
            as: 'adding_info'
            }
    }
])
```

- En conclusión la respuesta será un documento que contiene en su interior la propiedad "adding_info" con los valores de "nombre_collection_02"



### <a name="mark_12"></a>Relación 1 - N Relacionada.
### [Index](#index) 

- El ejemplo de las relaciones de un e-commerce.

![](img_04.png)
**---------------------------------------------------------------------------------------------------------------------------------------------------------**

- Observar que hay documentos embebidos --> subdocumentos.

![](img_10.png)
**---------------------------------------------------------------------------------------------------------------------------------------------------------**

- Nuevamente para vincular los documentos utilizamos "aggregate()" + "lookup", buscando todos las usuarios vinculados a sus ordenes. Aquí sumamos `$match`, con el cual podemos realizar la viculación del `$lookup` pero que se relaciones solo con el id de una solo usuario.
```json
use("nombre_ddbb")

db.User.aggregate([
    {
        $match:{
            _id:ObjectId('user_obj_id')
        }
    },
    {
        $lookup:{
            from: 'Order',
            localField: '_id',
            foreignField:'customer_id',
            as: 'orders_by_user'
        }
    }
])
```

### <a name="mark_13"></a>Relación N - N Relacionada.
### [Index](#index) 

- En la siguiente relación, muchos stores <--> muchos productos, observar la vinculación con todos los productos es a través de la propiedad `products_ids []: <ObjectId>`, un array de ids de productos.

![](img_11.png)
**---------------------------------------------------------------------------------------------------------------------------------------------------------**

- Aca nuevamente podemos utilizar `aggregate()` + `$match` + `$lookup`, buscando los productos que hay por tienda.

```json
use('nombre_ddbb')

db.Store.aggregate([
    {
        $match: {_id: ObjectId('store_obj_id')}
    },
    {
        $lookup: {
            from: 'product',
            localField: 'products_ids',//los ids en este array serán inferido.
            foreignField: '_id'
        }
    }
])
```

### <a name="mark_14"></a>Relación N - N Referencia Circular o Bidireccionales.
### [Index](#index) 

- Para el siguiente ejemplo, tenemos que los productos también tienen referencias a las tiendas a través de `stores_ids:<ObjectId>`

![](img_12.png)
**---------------------------------------------------------------------------------------------------------------------------------------------------------**

- Este schema Bidireccional, nos permite hacer consultas tiendas <--> productos simplemente agregando esa propiedad.

```json
use('nombre_ddbb')

db.Product.aggregate([
    {
        $lookup:{
            from: 'Store',
            localField: 'stores_ids',
            foreignField: '_id',
            as: 'stores_by_product'
        }
    }
])
```

### <a name="mark_15"></a>Desnormalización.
### [Index](#index) 

Es el proceso de optimizar el funcionamiento de una BD agregando datos redundantes.

Esto es hacer duplicidad de datos y agregar direcciones no essenciales para acelerar las consultas o reducir la cantidad.

Esta mal visto la duplicidad de datos en una base de datos relacional, pero en una base de datos documental puede ser un aliado. Porque nos ahorramos consultas o aceleramos esas mismas consultas por tener indexacion.

![](img_10.png)
**---------------------------------------------------------------------------------------------------------------------------------------------------------**

![](img_13.png)
**---------------------------------------------------------------------------------------------------------------------------------------------------------**

Tambien permite mantener datos historicos, datos que no queremos que cambien en una instancia, aunque tengan cambios sus origines.

Reduce los Join y simplifica las consultas.

Ejemplo
Tenemos una coleccion 'order' que esta desnormalizada, donde se hace embeding a los productos como items. Estos tendran la referencia sus productos correspondientes (product_id), datos extra como la cantidad (qty) y datos que pueden o no ser actualizados por ser una instancia de la orden (title, price) y que se quieran acceder rapidamente.



### <a name="mark_16"></a>Computed pattern.
### [Index](#index) 

Es realizar solo los computos necesarios cuando hay cambios, para no calcularlos durante las consultas.

Casos de uso

- No recalcular en cada consulta, ya que se actualiza cuando es necesario. Pre-calculo para consultas.

- Reduce las consultas necesarias y simplifica las consultas, a costa de las actualizaciones.

- Cuando necesitas calcular un valor a partir de otros campos en un documento y mostrar el resultado en una consulta o informe.

- Cuando es más frecuente la lectura que la escritura.

- Calcular el valor por cada lectura es costoso, es mejor pre calcular en cada escritura.

- No requiere hacer busquedas innecesarias de valores ya agregados, ya que puede ser incremental.

- Se puede manipular con un lenguaje de programacion.

Ejemplo

Se hara una orden de compra dinamica, en donde, al agregar productos a la orden esta actualizara el valor total que es la suma de todos los productos multiplicado su cantidad.

Creamos una nueva orden de compra
```json
db.orders.insertOne({
    user_id: ObjectId('6497b8b4affb4e4355c4f297'),
    date: '2020-12-12',
    total: 0, // nuevo campo que sera la suma de los items
    items: [] //normalmente empieza sin nada una orden de compra
})
```
Guardamos el ObjectID generado
Creamos un script para agregar items add-item.mongodb, en el que se agrega un item a la lista y se suma al precio el valor extra.
```json
db.orders.updateOne( // actualizamos la orden
    { // hacemos match con la orden que queremos actualizar
        _id: ObjectId('649cb8c89f973670e36e123f')   
    },
    {   // mostramos el cambio, agregando un nuevo elemento
        $push: { // agregar elemento
            items: { // quien se lo agrego
                name: 'Producto 1',
                qty: 2,
                price: 12,
                product_id: ObjectId('649923f457514437ac501dd4')  
            }
        },
        $inc: { // incrementador
            total: 12 * 2 // total = total + price * qty
        }
    }
)
```
- Otros patrones.

![](img_14.png)
**---------------------------------------------------------------------------------------------------------------------------------------------------------**

### <a name="mark_17"></a>Simplicidad vs. rendimiento.
### [Index](#index) 

En mongo se prefiere la simplicidad

Es mejor ir desde un modelo simple e ir agregando complejidad, que comenzar con algo complejo y remover esa complejidad

Hay que buscar un balance

**Simplicidad**

- Equipos pequeños

- Embebido > Referenciado

- Consultas frecuentes se priorizan para indexar


**Rendimiento/Complejidad**

- Equipos grandes, como pueden ser conformado por cientificos de datos

- Embebido y Referenciado segun el caso o ambos

- Consultas frecuentes se indexan y se usan patrones

**Recordar la metodologia**

1. Requerimientos (Workflow)
2. Identificar ER
3. Aplicar patrones