<img src="https://drive.google.com/uc?export=view&id=14zlrGu_mEUI0VYv0n35l4IINfiPBKMoN" width="100%"></img>

# **Map-Reduce y Operaciones de Agregación**
---

En este notebook daremos una introducción práctica al enfoque _MapReduce_ y a las estrategias de agregación desde _MongoDB_ que usan este enfoque.

Comenzamos importando las librerías necesarias:

In [1]:
import random, json
from IPython.display import IFrame
from functools import reduce

Creamos una función auxiliar para mostrar los resultados de _MongoDB_:

In [2]:
def print_result(data):
    if isinstance(data, dict):
        if "_id" in data:
            data["_id"] = str(data["_id"])
    elif isinstance(data, list):
        for document in data:
            if "_id" in document:
                document["_id"] = str(document["_id"])

    json_data = json.dumps(data, indent=4, sort_keys=True)
    print(json_data)

## **1. ¿Qué es Map-Reduce?**
---

* Map Reduce es una estrategia de procesamiento distribuido que fue propuesta en _Google_ en el año 2004.
* Se trata de un modelo programático que permite la implementación, procesamiento y generación de grandes cantidades de datos.
* Tiene un enfoque funcional y desde el punto de vista de un usuario, consiste en la definición de una función de mapeo `map` y una reducción `reduce`.

In [3]:
#@markdown **Animación: Operación de agregación y Map-Reduce con _MongoDB_**
IFrame(
        src="https://drive.google.com/file/d/1no3QSSQd4vvfwY0tkeu1UHcIfIpGGqmU/preview",
        width="768px",
        height="432px"
        )

## **2. Problema de la Baraja Incompleta**
---

Para entender el funcionamiento de Map-Reduce trataremos el problema de la baraja incompleta. Suponga un caso en el que tenemos una baraja inglesa desordenada con cartas faltantes:

<img src="https://drive.google.com/uc?export=view&id=1J2w5WZXrJ3ozw623hhrPEFsrGoKz8ZkG" width="70%">

Recuerde que una baraja inglesa completa contiene 52 cartas divididas en 4 palos (corazones, diamantes, picas, tréboles) de 13 cartas (A, 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K).

La pregunta que deseamos solucionar por medio de Map-Reduce es:

> ¿Cuántas cartas faltan por cada palo?

Comenzaremos definiendo una función para generar una baraja incompleta de forma aleatoria:

In [4]:
def generate_data(missing=10, seed=0):
    random.seed(seed)
    colors = ["corazon", "diamante", "trebol", "picas"]
    letters = ["A", *[str(i) for i in range(2, 11)], "J", "Q", "K"]
    combs = [{"suit": col, "number": let} for col in colors for let in letters]
    random.shuffle(combs)
    return combs[:-missing] if missing else combs

Generamos un conjunto de datos con 10 cartas faltantes y con una semilla aleatoria:

In [5]:
data = generate_data()

Veamos el número de cartas que tenemos en el conjunto de datos:

In [6]:
print(len(data))

42


También podemos ver las primeras 10 cartas del conjunto de datos:

In [7]:
print_result(data[:10])

[
    {
        "number": "3",
        "suit": "trebol"
    },
    {
        "number": "K",
        "suit": "corazon"
    },
    {
        "number": "7",
        "suit": "picas"
    },
    {
        "number": "3",
        "suit": "picas"
    },
    {
        "number": "K",
        "suit": "trebol"
    },
    {
        "number": "8",
        "suit": "corazon"
    },
    {
        "number": "6",
        "suit": "corazon"
    },
    {
        "number": "J",
        "suit": "trebol"
    },
    {
        "number": "2",
        "suit": "corazon"
    },
    {
        "number": "J",
        "suit": "picas"
    }
]


Un enfoque de _MapReduce_ permite solucionar este tipo de problemas, tal y como se muestra en la siguiente figura:

<img src="https://drive.google.com/uc?export=view&id=1ksnGnucjHqeoqpnhtQKjdGrkG97l0y5K" width="80%">

Veamos el detalle de qué son las funciones `map` y `reduce` con el ejemplo de la baraja.

## **3. Función map**
---

_Python_ tiene la función `map` que puede ser usada para una implementación sencilla del enfoque de _MapReduce_. De forma estricta, una función `map` para _MapReduce_ debe ser una función pura y seguir las siguientes condiciones:

* La función `map` se aplica elemento a elemento a cada uno de los documentos en una colección. 
* La función `map`, únicamente debe tomar datos del registro sobre el que está trabajando, es decir, no debe accceder a otros documentos de la colección.
* La función `map` debe ser autocontenida, es decir, únicamente debe tomar datos como argumentos de la función y no debe tener efectos externos (usar variables globales, ficheros, mecanismos de memoria).

Vamos a definir la función `map_fn` que toma un documento de la colección y genera un valor de uno por cada `suit` que encuentra:

In [8]:
def map_fn(document):
    return {document["suit"]: 1}

En este caso, la función `map_fn` toma el valor correspondiente al campo `suit` y emite un valor de `1`. Si cada uno de los valores únicos de `suit` realiza este proceso, obtener un recuento de `suit` será tan sencillo como una suma.

## **4. Función reduce**
---

Una función `reduce` debe convertir múltiples valores asociados a una llave en un único valor, esta tiene las siguientes consideraciones:

* La función `reduce` **NO** debe acceder a la base de datos en ningún momento.
* La función `reduce` **NO** debe afectar el sistema exterior.
* La función puede llamarse varias veces para una misma clave, trabajando sobre valores acumulados.
* La función `reduce` debe ser **asociativa**:

  `reduce(key, [ C, reduce(key, [ A, B ]) ] ) == reduce( key, [ C, A, B ] )`

* La función reduce debe ser **idemponente**:

  `reduce( key, [ reduce(key, valuesArray) ] ) == reduce( key, valuesArray )`

* La función reduce debe ser **conmutativa**:

  `reduce( key, [ A, B ] ) == reduce( key, [ B, A ] )`

Vamos a definir la función `reduce_fn` que toma varios valores asociados a una clave y genera un único valor para cada clave. En este caso lo pensamos como una función que recibe dos parámetros y retorna un único valor de estos:

In [9]:
def reduce_fn(value1, value2):
    return value1 + value2

Finalmente, podemos implementar _MapReduce_ con las funciones `map` y `reduce` de _Python_, veamos cómo:

In [10]:
maps = list(map(map_fn, data))
print_result(maps)

[
    {
        "trebol": 1
    },
    {
        "corazon": 1
    },
    {
        "picas": 1
    },
    {
        "picas": 1
    },
    {
        "trebol": 1
    },
    {
        "corazon": 1
    },
    {
        "corazon": 1
    },
    {
        "trebol": 1
    },
    {
        "corazon": 1
    },
    {
        "picas": 1
    },
    {
        "trebol": 1
    },
    {
        "corazon": 1
    },
    {
        "corazon": 1
    },
    {
        "trebol": 1
    },
    {
        "diamante": 1
    },
    {
        "diamante": 1
    },
    {
        "picas": 1
    },
    {
        "trebol": 1
    },
    {
        "trebol": 1
    },
    {
        "picas": 1
    },
    {
        "picas": 1
    },
    {
        "corazon": 1
    },
    {
        "picas": 1
    },
    {
        "diamante": 1
    },
    {
        "diamante": 1
    },
    {
        "corazon": 1
    },
    {
        "diamante": 1
    },
    {
        "trebol": 1
    },
    {
        "picas": 1
    },
    {
        "diamante": 1
   

Ahora, debemos calcular los valores únicos por cada `suit`:

In [11]:
uniques = list(set(card["suit"] for card in data))
print_result(uniques)

[
    "corazon",
    "trebol",
    "diamante",
    "picas"
]


Con esto, podemos extraer todos los valores asociados a cada llave dentro de los mappings:

In [12]:
groups = {
        suit: list(
            list(mapping.values())[0]
            for mapping in filter(
                lambda mapping: list(mapping.keys())[0] == suit,
                maps
                )
            )
        for suit in uniques
        }
print_result(groups)

{
    "corazon": [
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1
    ],
    "diamante": [
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1
    ],
    "picas": [
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1
    ],
    "trebol": [
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1,
        1
    ]
}


Finalmente, aplicamos la función `reduce_fn` sobre cada grupo:

In [13]:
result = {suit: reduce(reduce_fn, group) for suit, group in groups.items()}
print_result(result)

{
    "corazon": 12,
    "diamante": 9,
    "picas": 12,
    "trebol": 9
}


El enfoque de _MapReduce_ resulta ser muy programático y en muchas oportunidades abstracto. Las funciones `map` y `reduce` por sus consideraciones son altamente escalables (aplican en grandes cantidades de datos) y se pueden distribuir o paralelizar fácilmente. No obstante, diseñar de forma correcta estas funciones para un problema en específico no es una tarea sencilla.

Es por esto, que motores de bases de datos como _MongoDB_ utilizan este enfoque por detrás, veremos un ejemplo de cómo podemos solucionar el mismo problema usando las operaciones de agregación de _MongoDB_.

Primero debemos generar la conexión:

In [15]:
from pymongo import MongoClient
# agregue su string de conexión
connection_str = "mongodb+srv://mlds3user:RudkYN1xsGz8OSUZ@mlds3.jipkxtc.mongodb.net/?retryWrites=true&w=majority"
client = MongoClient(connection_str)

Ahora, especificamos el nombre de la base de la base de datos y colección que usaremos.

El siguiente código valida si ya existe una colección llamada `baraja`. En caso de existir la elimina:

In [16]:
db = client["mlds3"]
if "baraja" in db.list_collection_names():
    db.drop_collection("baraja")
collection = db["baraja"]

Insertamos los valores:

In [17]:
collection.insert_many(data)

<pymongo.results.InsertManyResult at 0x7f959774ce50>

## **5. Operaciones de Agregación**
---

_MongoDB_ usa operaciones de agregación como una alternativa a programar manualmente funciones _MapReduce_ (por debajo utiliza este modelo programático, pero no nos toca escribir el código directamente si no es necesario). La sintaxis general para ejecutar una operación de agregación en _MongoDB_ es la siguiente:

```python
res = collection.aggregate([
   {"$match": {}},
   {"$group": {"_id": "$group_key", "aggregated_column": {"$opperation": "field"}}}
   ])
```

Donde `collection` representa una colección sobre la que deseamos trabajar, `group_key` es una llave sobre la que agruparemos, `aggregated_column` es el nombre de la columna sobre la que calcularemos los resultados agregados, `operation` es una operación de agregación y `field` es el campo sobre el que se realiza la operación.

Veamos el ejemplo de la baraja incompleta con la operación de agregación:

In [18]:
res = collection.aggregate([
    {"$match": {}},
    {"$group": {"_id": "$suit", "aggregated_column": {"$sum": 1}}}
    ])
print_result(list(res))

[
    {
        "_id": "picas",
        "aggregated_column": 12
    },
    {
        "_id": "corazon",
        "aggregated_column": 12
    },
    {
        "_id": "diamante",
        "aggregated_column": 9
    },
    {
        "_id": "trebol",
        "aggregated_column": 9
    }
]


Veamos otro ejemplo con un conjunto de dato ficticio que trata de simular calificaciones dadas a distintos restaurantes. Lo generaremos con `pandas`:

In [19]:
import pandas as pd
import numpy as np

In [20]:
restaurantes = pd.DataFrame({
    "restaurante": [random.choice(["A", "B", "C", "D"]) for _ in range(500)],
    "estrellas": np.random.randint(0, 5, size=(500,)).astype("float64"),
    "bebidas": np.random.randint(0, 2, size=(500)) == 1
    })
print(restaurantes)

    restaurante  estrellas  bebidas
0             A        0.0     True
1             B        3.0    False
2             B        3.0    False
3             B        3.0    False
4             B        2.0     True
..          ...        ...      ...
495           B        3.0     True
496           C        4.0     True
497           C        0.0    False
498           D        3.0    False
499           A        3.0    False

[500 rows x 3 columns]


Vamos a agregar este conjunto de datos como una colección en _MongoDB_. Primero lo convertimos a un diccionario:

In [21]:
data = restaurantes.to_dict(orient = "records")

Validamos si existe una colección con el nombre `restaurantes` en la base de datos que creamos, en caso de que exista borramos la colección:

In [22]:
if "restaurantes" in db.list_collection_names():
    db.drop_collection("restaurantes")
collection = db["restaurantes"]

Insertamos los valores:

In [23]:
collection.insert_many(data)

<pymongo.results.InsertManyResult at 0x7f958d9393d0>

Veamos un ejemplo de cómo podemos calcular el promedio de estrellas por restaurante:

In [24]:
res = collection.aggregate([
    {"$match": {}},
    {"$group": {"_id": "$restaurante", "estrellas": {"$avg": "$estrellas"}}}
    ])
print_result(list(res))

[
    {
        "_id": "B",
        "estrellas": 1.9830508474576272
    },
    {
        "_id": "C",
        "estrellas": 1.8739495798319328
    },
    {
        "_id": "A",
        "estrellas": 1.8231292517006803
    },
    {
        "_id": "D",
        "estrellas": 2.0775862068965516
    }
]


También es posible agrupar por múltiples campos, por ejemplo, podemos extraer el promedio de estrellas por restaurante y sobre la columna que indica si la evaluación fue sobre bebidas:

In [25]:
res = collection.aggregate([
    {"$match": {}},
    {"$group": {"_id": {
        "restaurante": "$restaurante",
        "bebidas": "$bebidas"
        }, "estrellas": {"$avg": "$estrellas"}}}
    ])
print_result(list(res))

[
    {
        "_id": "{'restaurante': 'A', 'bebidas': False}",
        "estrellas": 1.951219512195122
    },
    {
        "_id": "{'restaurante': 'C', 'bebidas': True}",
        "estrellas": 1.8269230769230769
    },
    {
        "_id": "{'restaurante': 'D', 'bebidas': False}",
        "estrellas": 1.9848484848484849
    },
    {
        "_id": "{'restaurante': 'B', 'bebidas': False}",
        "estrellas": 1.9047619047619047
    },
    {
        "_id": "{'restaurante': 'D', 'bebidas': True}",
        "estrellas": 2.2
    },
    {
        "_id": "{'restaurante': 'A', 'bebidas': True}",
        "estrellas": 1.6615384615384616
    },
    {
        "_id": "{'restaurante': 'B', 'bebidas': True}",
        "estrellas": 2.0727272727272728
    },
    {
        "_id": "{'restaurante': 'C', 'bebidas': False}",
        "estrellas": 1.9104477611940298
    }
]


De la misma forma, podemos filtrar antes de agrupar, por ejemplo, podemos filtrar únicamente los restaurantes `["A", "B"]` en la operación anterior:

In [26]:
res = collection.aggregate([
    {"$match": {"restaurante": {"$in": ["A", "B"]}}},
    {"$group": {"_id": {
        "restaurante": "$restaurante",
        "bebidas": "$bebidas"
        }, "estrellas": {"$avg": "$estrellas"}}}
    ])
print_result(list(res))

[
    {
        "_id": "{'restaurante': 'A', 'bebidas': False}",
        "estrellas": 1.951219512195122
    },
    {
        "_id": "{'restaurante': 'A', 'bebidas': True}",
        "estrellas": 1.6615384615384616
    },
    {
        "_id": "{'restaurante': 'B', 'bebidas': False}",
        "estrellas": 1.9047619047619047
    },
    {
        "_id": "{'restaurante': 'B', 'bebidas': True}",
        "estrellas": 2.0727272727272728
    }
]


Adicionalmente, _MongoDB_ nos permite usar cualquier función de agregación que queramos, por ejemplo, podemos multiplicar por 10 las estrellas de todos los restaurantes definiendo una función personalizada en _JavaScript_, para ello, usaremos el módulo `bson` y crearemos una función que realice la operación:

> **Nota**: desde el tier gratuito de ATLAS no es posible usar funciones personalizadas, por lo que el siguiente código sólo podrá ejecutarlo si tiene una base de datos en _MongoDB_ o con un plan pago.

In [27]:
import bson
func = bson.Code(
"""
let product = function (estrellas) {
    return estrellas * 10
    }
"""
)

Veamos cómo aplicar esta función con una operación de agregación sobre cada documento de la colección:

In [28]:
res = collection.aggregate([
    {"$match": {}},
    {
        "$group": {
            "_id": "$_id",
            "producto": {
                "$function": {
                    "body": func,
                    "args": ["$estrellas"],
                    "lang": "js"
                    }
                }
            }
        }
    ])
print_result(list(res))

OperationFailure: ignored

En este caso la operación de agregación es `$function` la cual recibe un documento especificando la función `body`, los campos que usará `args` y el lenguaje `lang` (por el momento sólo se soporta _JavaScript_.

## **6. Recursos Adicionales**
---

* [The MongoDB 4.4 Manual](https://docs.mongodb.com/manual/)
* [Aggregation Operations](https://www.mongodb.com/docs/manual/aggregation/)

## **7. Créditos**
---

**Profesor**

- [Jorge E. Camargo, PhD](https://dis.unal.edu.co/~jecamargom/)

**Diseño, desarrollo del notebook y material audiovisual**

- [Juan S. Lara MSc](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/)

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*