# Framework de Agregación

En este notebook vamos ha profundizar en las operaciones del framework de agregación de MongoDB.

Antes de nada vamos ha prepara el entorno importando las librerías que vamos a utilizar, crear la conexión a MongoDB y borrar la colección del notebook para limpiar el entorno de anteriores ejecuciones.

A continución crearmos de nuevo la base de datos para los ejercicios del notebook.

In [None]:
import pymongo
from pymongo import MongoClient

In [None]:
client = MongoClient('mongodb://nosql:nosql@localhost:27017/')

client.drop_database("notebook_tres")

In [None]:
db = client["notebook_tres"]

# 0. Preparar los datos para el notebook

Antes de empezar a ver el framework de agregación, vamos a preparar las colecciones para poder trabajar.

En la carptea data/mongoDB hay tres ficheros con datos para este notebook: 

* zips.json Datos con los códigos postalse (zip codes) de todas las ciudades de Estados Unidos
* grades.json Datos con las notas de los alumnos de un instituto.
* post.json Datos con los post de un blog.

Para insertar los datos utilizamos los mismos métodos que utilizamos en el notebook de ejercicios find.

In [None]:
def insert_document(collection, document):
    try:
        collection.insert_one(document)
    except:
        pass

In [None]:
import sys
import json
from bson.json_util import loads

def import_file(file_path, collection):
    document_file = open(file_path, "r")

    for line in document_file:
        document = loads(line)
        insert_document(collection, document)

In [None]:
zips_path = '../data/mongoDB/zips.json'
grades_path = '../data/mongoDB/grades.json'
posts_path = '../data/mongoDB/posts.json'

import_file(zips_path, db.zips)
import_file(grades_path, db.grades)
import_file(posts_path, db.posts)


In [None]:
all_zips = db.zips.find({}).limit(10)

for zip in all_zips:
    print(zip)

In [None]:
all_grades = db.grades.find({}).limit(10)

for grade in all_grades:
    print(grade)

In [None]:
all_posts = db.posts.find({}).limit(10)

for post in all_posts:
    print(post)

In [None]:
db.products.insert_one({'name':'iPad 16GB Wifi', 'manufacturer':"Apple", 'category':'Tablets', 'price':499.00})
db.products.insert_one({'name':'iPad 32GB Wifi', 'category':'Tablets', 'manufacturer':"Apple", 'price':599.00})
db.products.insert_one({'name':'iPad 64GB Wifi', 'category':'Tablets', 'manufacturer':"Apple", 'price':699.00})
db.products.insert_one({'name':'Galaxy S3', 'category':'Cell Phones', 'manufacturer':'Samsung', 'price':563.99})
db.products.insert_one({'name':'Galaxy Tab 10', 'category':'Tablets', 'manufacturer':'Samsung', 'price':450.99})
db.products.insert_one({'name':'Vaio', 'category':'Laptops', 'manufacturer':"Sony", 'price':499.00})
db.products.insert_one({'name':'Macbook Air 13inch', 'category':'Laptops', 'manufacturer':"Apple", 'price':499.00})
db.products.insert_one({'name':'Nexus 7', 'category':'Tablets', 'manufacturer':"Google", 'price':199.00})
db.products.insert_one({'name':'Kindle Paper White', 'category':'Tablets', 'manufacturer':"Amazon", 'price':129.00})
db.products.insert_one({'name':'Kindle Fire', 'category':'Tablets', 'manufacturer':"Amazon", 'price':199.00})

In [None]:
all_products = db.products.find({}).limit(10)

for product in all_products:
    print(product)

# 1. $match

Permite filtrar datos como si de una operación find() se tratara.

In [None]:
# Match
ny_zips = db.zips.aggregate([ { "$match": { "state": "NY" } } ])

for zip in ny_zips:
    print(zip)

## Ejercicio 1:

* Encuentra todos los códigos zip del estado de Massachusetts (MA).
* Encuentra todos los códigos zip que tengan una población menor a 1000.


# 2. $project

Permite transformar los documentos de salida un stage del pipeline quitando, añadiendo o renombrando campos. También permite operar sobre los valoes de los campos para transformalos.

Los operadores que podemos usar sobre los campos son:

* Aritméticos: https://docs.mongodb.com/manual/reference/operator/aggregation/#arithmetic-expression-operators
* Fechas: https://docs.mongodb.com/manual/reference/operator/aggregation/#date-expression-operators
* Cadenas: https://docs.mongodb.com/manual/reference/operator/aggregation/#string-expression-operators

Podemos eliminar el campo _id

In [None]:
products_projected = db.products.aggregate([
    {"$project": { 
        "_id": 0
    }}
])

for product in products_projected:
    print(product)

O renombrar campos. La siguiente sentencia transforma el documento de entrada en otro que sólo contiene el campo make que contiene el valor del cmapo manufacturer del documento original.

In [None]:
products_projected = db.products.aggregate([
    {"$project": { 
        "make": "$manufacturer"
    }}
])

for product in products_projected:
    print(product)

Otra opción es operar sobre los campos de los documentos de entrada.

La siguiente sentencia transforma el documento en otro que sólo contiene el campo name_maker que contiene el valor del cmapo manufacturer concatenado con el campo name del original.

In [None]:
products_projected = db.products.aggregate([
    {"$project": { 
        "name_maker": { "$concat": ["$name", " ", "$manufacturer"] }
    }}
])

for product in products_projected:
    print(product)

Podemos combinar todas estas técnicas para transformar los documentos de entrada.

In [None]:
products_projected = db.products.aggregate([
    {"$project": { 
        "_id": 0, # Elimina el identificador del resultado
        'maker': {"$toLower": "$manufacturer"}, # Convierte a minúsculas el campo manufacturer del documento original y renombra el campo a maker
        'details': {'category': "$category", 'price' : {"$multiply":["$price",10]} }, # Crea un nuevo documento embebido bajo el campo details y al crearlo muoltipicla por 10 el precio del porducto
        'item':'$name' # Renombra el campo name por item
    }}
])

for product in products_projected:
    print(product)

### Ejercicio 2: 

Sobre la colección de codigos zip:

* Crea una proyección que transforme los documentos de entrada a otro documento de salida con los siguientes campos:
    * Eliminar el campo _id.
    * Añadir un campo zip que contenga el valor del campo _id del original.
    * Mantener el campo pop del original.
    * Mantener el campo state del original.
    * Tranformar el campo city a mayúsculas.

# 3. $group

Permite agrupar y agregar posteriormente los datos agrupados. Recibe varios parámetros:

* El primero indica los parámetros por los que agrupar y genera el accumulator object que siempre se representa con el campo _id
* Los siguientes, las operaciones que se quieren hacer sobre los datos agrupados y el campo del nuevo documento donde se va ha dejar el valor calculado.

Vamos a ver un ejemplo. La siguiente sentencia agrupa los productos por el campo manufacturer y para cada fabricante suma los precios de sus productos. 

Como todo stage de un pipeline genera una nueva colección de salida con los resultados de la agregación. Para cada fabricante genera un documento nuevo con un campo __id que es el conjunto de campos por el que se ha agregado, en este caso maker que contiene el nombre del fabricante y un campo sum_prices con el resultado de la agregación.


In [None]:
total_price_by_maker = db.products.aggregate([
    {"$group": { 
        "_id": { "maker":"$manufacturer" },
        "sum_prices": { "$sum":"$price" }
    }}
])

for maker in total_price_by_maker:
    print(maker)

La variable $$ROOT contiene el documento original del stage anterior y lo podemos utilizar para pasralo tal cual al siguietne stage.

In [None]:
total_price_by_maker = db.products.aggregate([
    {"$group": { 
        "_id": { "maker":"$manufacturer" },
        "sum_prices": { "$sum":"$price" },
        "entries": { "$push": "$$ROOT" }
    }}
])

for maker in total_price_by_maker:
    print(maker)

Si queremos contar el número de documentos que hay por grupo podemos utilizar el operdor sum. Por ejemplo si queremos contar cuantos producto tiene cada fabricante haríamos la siguiente consulta:

In [None]:
products_by_maker = db.products.aggregate([
    { "$group": {
        "_id": {"manufacturer":"$manufacturer" },
        "num_products": { "$sum": 1 }
     }}
])

for maker in products_by_maker:
    print(maker)

El operador group lo podemos combinar con el operador match. El siguiente ejemplo la agregación tiene dos stages, el primero filtra los códigos zip del la colección original y el segundo stage toma como colección de entrada estos valores filtrados y los agrupa por ciudad para realizar la suma de la población de los habitantes que hay por cada código zip de cada ciudad y además añade los codigos zip de esa ciudad a una colección en el campo zip_codes.

In [None]:
ny_zips = db.zips.aggregate([
    { "$match": { "state": "NY" }},
    { "$group": { 
        "_id": "$city", 
        "population": {"$sum": "$pop"}, 
        "zip_codes": {"$addToSet": "$_id"} } 
    }
])

for zip in ny_zips:
    print(zip)

A la sentcia anterior podemos ademas añadirle un nuevo stage que tome los documentos resultantes del stage de agregación para cambiar su proyección, eliminando el camo _id y añadiendo el camp city con el valor del campo _id.  

In [None]:
ny_zips =  db.zips.aggregate([
    { "$match": { "state": "NY" } },
    { "$group": { "_id": "$city", "population": {"$sum":"$pop"}, "zip_codes": {"$addToSet": "$_id"} } },
    { "$project": { "_id": 0, "city": "$_id", "population": 1, "zip_codes": 1 } }
])

for zip in ny_zips:
    print(zip)

Vamos a ver más opearadores de agregación.

In [None]:
max_products = db.products.aggregate([
    {"$group":{
        "_id": { "maker":"$manufacturer"},
         "maxprice": {"$max":"$price"}
    }}
])

for product in max_products:
    print(product)

1. ¿Qué crees que hace la sentencia anterior?

In [None]:
avg_products = db.products.aggregate([
    {"$group": {
        "_id": { "category":"$category" },
        "avg_price": {"$avg":"$price"}
     }}
])

for product in avg_products:
    print(product)

1. ¿Qué crees que hace la sentencia anterior?

In [None]:
set_products = db.products.aggregate([
    {"$group": { 
        "_id": { "maker":"$manufacturer" },
        "categories": { "$addToSet":"$category" }
     }}
])

for product in set_products:
    print(product)

1. ¿Qué crees que hace la sentencia anterior?

In [None]:
list_products = db.products.aggregate([
    {"$group": {
        "_id": { "maker": "$manufacturer" },
        "categories": { "$push": "$category"}
    }}
])

for product in list_products:
    print(product)

1. ¿Qué crees que hace la sentencia anterior?
2. ¿Qué diferencia hay entre addToSet y push?

Puedes entrar en esta página de la documentación de mongo para ver que más operadores puedes utilizar:
https://docs.mongodb.com/manual/reference/operator/aggregation/

## Ejercicio 3: 

Sobre la colección de códigos zip.

* Obten el total de población por estado.
* Obten el total de población por estado y por ciudad.
* Cuenta el número de ciudades que hay por estado.
* Obten por estado una lista con sus ciudades y su media de población.

# 4. sort, first & limit

Sort permite ordenar por cualquier campo igual que con el método sort() del método find()

`{ "$sort": {"price": 1} }` Ordena ascendentemente.

`{ "$sort": {"price": -1} }` Ordena desscendentemente.

La siguietne sentencia ordena los podcutos de la colección products de más caros a mas baratos.

In [None]:
sorted_products = db.products.aggregate([
    { "$sort": { "price": -1 } },
    { "$project": {"_id": 0 } }
])

for product in sorted_products:
    print(product)

Limit permite indicar el número de elemntos que queremos devolver en un stage.

In [None]:
sorted_products = db.products.aggregate([
    { "$sort": { "price": -1 } },
    { "$limit": 2},
    { "$project": {"_id": 0 } }
])

for product in sorted_products:
    print(product)

First obtiene el primer elemento del resultado de un stage. 

La siguiente sentencia obtiene el primer producto de cada fabricante.

In [None]:
first_product = db.products.aggregate([
    { "$group": { 
        "_id": { "maker": "$manufacturer" }, 
        "first": { "$first": "$name" } } 
    }  
])

for product in first_product:
    print(product)

## Ejercicio 4:

Sobre la colección de códigos zip:

* Obten la población de cada ciudad de cada estado y ordena el resultado para obtener primero las ciudades con más población.
* Para el estado de Nuva York (NY), obten las cudades ordenadas por población.
* Obten la ciudad con mas población por cada estado. Ayuda: utiliza varios stages de agrupación.

# 5. Unwind

Se utiliza sobre campos de tipo array. Transforma un el campo de tipo array del documento de entrada en una lisa de documentos. Cada documento de salida, es el documento de entrada con el campo de tipo array reemplazado por el elemento de la lista.

Para ver un ejemplo vamos a crear una colección items e insertamos algunos documentos de prueba. Estos documentos tienen un campo "attributes" cuyo valor es un array de strings.


In [None]:
db.items.drop()

db.items.insert_many([{'_id':'nail', 'attributes':['hard', 'shiny', 'pointy', 'thin']},
                     {'_id':'hammer', 'attributes':['heavy', 'black', 'blunt']},
                     {'_id':'screwdriver', 'attributes':['long', 'black', 'flat']},
                     {'_id':'rock', 'attributes':['heavy', 'rough', 'roundish']}])

In [None]:
unwinded_items = db.items.aggregate([ { "$unwind": "$attributes" } ]);

for item in unwinded_items:
    print(item)

Podemos concatenar tantos unwind como necesitemos en diferentes stages del pipeline de agregación. 

Para ver un ejemplo vamos a crear la siguiente colección:

In [None]:
db.inventory.drop();
db.inventory.insert_many([
    {'name':"Polo Shirt", 'sizes':["Small", "Medium", "Large"], 'colors':['navy', 'white', 'orange', 'red']},
    {'name':"T-Shirt", 'sizes':["Small", "Medium", "Large", "X-Large"], 'colors':['navy', "black",  'orange', 'red']},
    {'name':"Chino Pants", 'sizes':["32x32", "31x30", "36x32"], 'colors':['navy', 'white', 'orange', 'violet']}
])


In [None]:
items = db.inventory.aggregate([
    { "$unwind": "$sizes" },
    { "$unwind": "$colors" },
    { "$group": {
        '_id': { 'size':'$sizes', 'color':'$colors' },
        'count' : { '$sum':1 } }
    }
])

for item in items:
    print(item)

Vamos a ver como revertir un unwind:

In [None]:
items = db.inventory.aggregate([
    { "$unwind": "$sizes" },
    { "$unwind": "$colors" },
    { "$group": {
        '_id': "$name",
        'sizes': { "$addToSet": "$sizes" },
        'colors': { "$addToSet": "$colors" },
     }
    }
])

for item in items:
    print(item)

## Ejercicio 5:

Sobre la colección de codigos zips realiza las siguientes sentencias:
* Suma la población de todas las ciudades cuyo nombre es un número.
* Obten la media de población por ciudad y estado para las ciudades de los estados de California (CA) y Nueva York (NY) que tengan una población mayor a 25000 habitantes.


## Ejercicio 6:

La coleción grades que creamos al principio del notebook hacer referencia a las notas de estudiantes de un curso.

Vamoas a ver que campos tienen los documentos insertados:

In [None]:
grades = db.grades.find({}).limit(1)

for grade in grades:
    print(grade)

Se pide realizar las siguientes sentencias:
* La media de cada estudiante por asignatura.
* La media de cada esturiante por asignatura teniendo en cuenta sólo las notas de exámenes y deberes, ordenadas por media.

## Ejercicio 7:

La coleción de posts guarda información sobre los posts de un blog. 

Vamos a ver campos tiene los docuemtos insertados:

In [None]:
posts = db.posts.find({}).limit(1)

for post in posts:
    print(post)

Se piden realizar las siguientes consultas:
* El autor que más comentarios a realizado. Ayuda: utiliza unwind, group, sum, sort y limit.
* Los 10 tags más populares. No mostrar el id en el resultado y mostrarlo bajo el campo tag Ayuda: utiliza unwind, group, sum, sort, limit y project.