# MongoDB y Python

Para manejar MongoDB desde Python usamos la librería `PyMongo`, que podemos instalar yendo al Anaconda Prompt y escribiendo
```
conda install pymongo
```

In [1]:
import pymongo
client = pymongo.MongoClient()

In [2]:
client

MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True)

In [4]:
client.list_database_names()

['Futbol',
 'admin',
 'business',
 'clase',
 'cocina',
 'config',
 'contactos',
 'inventory',
 'local',
 'record_company',
 'snake_bnb',
 'test']

Si no están creadas las bases de datos o las colecciones nos las crea automáticamente:

In [5]:
inventario = client.inventario

In [6]:
inventario.list_collection_names()

[]

In [7]:
inventario2015 = inventario.inventario2015

In [8]:
inventario

Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'inventario')

In [9]:
inventario2015

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'inventario'), 'inventario2015')

In [10]:
client.list_database_names()

['Futbol',
 'admin',
 'business',
 'clase',
 'cocina',
 'config',
 'contactos',
 'inventory',
 'local',
 'record_company',
 'snake_bnb',
 'test']

In [11]:
inventario.list_collection_names()

[]

In [12]:
inventario2015.insert_one({"producto":"vaca", "precio":2})

<pymongo.results.InsertOneResult at 0x7f2dd1f24748>

In [13]:
inventario.list_collection_names()

['inventario2015']

In [14]:
client.list_database_names()

['Futbol',
 'admin',
 'business',
 'clase',
 'cocina',
 'config',
 'contactos',
 'inventario',
 'inventory',
 'local',
 'record_company',
 'snake_bnb',
 'test']

In [15]:
inventario2015.find()

<pymongo.cursor.Cursor at 0x7f2dd0c88048>

In [16]:
for doc in inventario2015.find():
    print(doc)

{'_id': ObjectId('5d6cc6ac6dac063a3a9216dd'), 'producto': 'vaca', 'precio': 2}


In [17]:
inventario2015.insert_many([{"producto":"cabra", "precio": 6, 
                             "aaa": "bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb"},
                           {"prod":"caca", "num": 23}])

<pymongo.results.InsertManyResult at 0x7f2de0107748>

In [18]:
for doc in inventario2015.find():
    print(doc)

{'_id': ObjectId('5d6cc6ac6dac063a3a9216dd'), 'producto': 'vaca', 'precio': 2}
{'_id': ObjectId('5d6cc79a6dac063a3a9216de'), 'producto': 'cabra', 'precio': 6, 'aaa': 'bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb'}
{'_id': ObjectId('5d6cc79a6dac063a3a9216df'), 'prod': 'caca', 'num': 23}


Para que nos lo saque "bonito" (como el `pretty` del cliente):

In [19]:
import pprint

In [20]:
for doc in inventario2015.find():
    pprint.pprint(doc)

{'_id': ObjectId('5d6cc6ac6dac063a3a9216dd'), 'precio': 2, 'producto': 'vaca'}
{'_id': ObjectId('5d6cc79a6dac063a3a9216de'),
 'aaa': 'bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb',
 'precio': 6,
 'producto': 'cabra'}
{'_id': ObjectId('5d6cc79a6dac063a3a9216df'), 'num': 23, 'prod': 'caca'}


In [22]:
inventario2015.delete_one({"prod":"caca"})
for doc in inventario2015.find():
    pprint.pprint(doc)

{'_id': ObjectId('5d6cc6ac6dac063a3a9216dd'), 'precio': 2, 'producto': 'vaca'}
{'_id': ObjectId('5d6cc79a6dac063a3a9216de'),
 'aaa': 'bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb',
 'precio': 6,
 'producto': 'cabra'}


In [23]:
inventario2015.insert_one({"producto":"vaca", "precio":3, "peso": 400})

<pymongo.results.InsertOneResult at 0x7f2dd0c8a3c8>

In [24]:
for doc in inventario2015.find():
    pprint.pprint(doc)

{'_id': ObjectId('5d6cc6ac6dac063a3a9216dd'), 'precio': 2, 'producto': 'vaca'}
{'_id': ObjectId('5d6cc79a6dac063a3a9216de'),
 'aaa': 'bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb',
 'precio': 6,
 'producto': 'cabra'}
{'_id': ObjectId('5d6cc87c6dac063a3a9216e0'),
 'peso': 400,
 'precio': 3,
 'producto': 'vaca'}


In [25]:
inventario2015.delete_many({"producto":"vaca"})
for doc in inventario2015.find():
    pprint.pprint(doc)

{'_id': ObjectId('5d6cc79a6dac063a3a9216de'),
 'aaa': 'bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb',
 'precio': 6,
 'producto': 'cabra'}


In [28]:
inventario2015.count_documents({})

1

## CRUD

### Create

Vamos a crear una colección llamada `futbolistas` en nuestra base de datos, en la que guardaremos datos sobre futbolistas.

Para ello creamos una clase:

In [30]:
class Futbolista:
    def __init__(self,nombre,apellidos, edad, posicion, internacional):
        self.nombre = nombre
        self.apellidos = apellidos
        self.edad = edad
        self.posicion = posicion
        self.internacional = internacional

Me creo una lista de objetos de la clase `Futbolista`

In [33]:
futbolistas = [
    Futbolista('Cristiano', 'Ronaldo', 35, ['Delantero'], True),
    Futbolista('Antoine', 'Griezmann', 28, ['Delantero'], True),
    Futbolista('Pepito', 'Pérez', 23, ['Lateral', 'Central'], False)
]

In [34]:
futbolistas

[<__main__.Futbolista at 0x7f2dd0c094a8>,
 <__main__.Futbolista at 0x7f2dd0c094e0>,
 <__main__.Futbolista at 0x7f2dd0c09518>]

Me defino la base de datos `futbol`

In [35]:
db_futbol = client.futbol

In [36]:
db_futbol

Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'futbol')

In [38]:
col_futbolistas = db_futbol.futbolistas

In [39]:
col_futbolistas

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'futbol'), 'futbolistas')

Voy a insertar los datos de los futbolistas:

Para poder darle la información a Mongo, voy a definir en la clase `Futbolista` un método que nos de la información de un objeto como un JSON (como un diccionario):

In [41]:
class Futbolista:
    def __init__(self,nombre,apellidos, edad, posicion, internacional):
        self.nombre = nombre
        self.apellidos = apellidos
        self.edad = edad
        self.posicion = posicion
        self.internacional = internacional
    
    def toJSON(self):
        documento = {
            "nombre": self.nombre,
            "apellidos": self.apellidos,
            "edad": self.edad,
            "posicion": self.posicion,
            "internacional": self.internacional
        }
        return documento

In [44]:
messi = Futbolista('Leo','Messi', 32, ['Delantero'], True)
messi

<__main__.Futbolista at 0x7f2dd0c1da20>

In [45]:
messi.toJSON()

{'nombre': 'Leo',
 'apellidos': 'Messi',
 'edad': 32,
 'posicion': ['Delantero'],
 'internacional': True}

In [46]:
col_futbolistas

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'futbol'), 'futbolistas')

In [49]:
col_futbolistas.insert_one(messi.toJSON())

<pymongo.results.InsertOneResult at 0x7f2dd1f3b288>

In [42]:
futbolistas = [
    Futbolista('Cristiano', 'Ronaldo', 35, ['Delantero'], True),
    Futbolista('Antoine', 'Griezmann', 28, ['Delantero'], True),
    Futbolista('Pepito', 'Pérez', 23, ['Lateral', 'Central'], False)
]

Puedo insertar varios documentos a la vez con `insert_many`, pero como en este caso previamente los tengo que convertir, lo haré con un bucle:

In [50]:
for futbolista in futbolistas:
    col_futbolistas.insert_one(futbolista.toJSON())

### Read

Hagamos una consulta de la base de datos:

In [51]:
cursor = col_futbolistas.find()
for doc in cursor:
    pprint.pprint(doc)

{'_id': ObjectId('5d6ccbd56dac063a3a9216e2'),
 'apellidos': 'Messi',
 'edad': 32,
 'internacional': True,
 'nombre': 'Leo',
 'posicion': ['Delantero']}
{'_id': ObjectId('5d6ccc566dac063a3a9216e3'),
 'apellidos': 'Ronaldo',
 'edad': 35,
 'internacional': True,
 'nombre': 'Cristiano',
 'posicion': ['Delantero']}
{'_id': ObjectId('5d6ccc566dac063a3a9216e4'),
 'apellidos': 'Griezmann',
 'edad': 28,
 'internacional': True,
 'nombre': 'Antoine',
 'posicion': ['Delantero']}
{'_id': ObjectId('5d6ccc566dac063a3a9216e5'),
 'apellidos': 'Pérez',
 'edad': 23,
 'internacional': False,
 'nombre': 'Pepito',
 'posicion': ['Lateral', 'Central']}


En este caso, como los campos de los distintos documentos de la colección coinciden, tiene sentido sacarlo como una tabla:

In [52]:
from tabulate import tabulate
cursor = col_futbolistas.find()
consulta=[]
for doc in cursor:
    consulta.append([doc['nombre'],doc['apellidos'],doc['edad'],doc['posicion'],doc['internacional']])
    
print(tabulate(consulta, headers=['Nombre','Apellidos','Edad', 'Posición', 'Internacional']))

Nombre     Apellidos      Edad  Posición                Internacional
---------  -----------  ------  ----------------------  ---------------
Leo        Messi            32  ['Delantero']           True
Cristiano  Ronaldo          35  ['Delantero']           True
Antoine    Griezmann        28  ['Delantero']           True
Pepito     Pérez            23  ['Lateral', 'Central']  False


### Update

A los que tengan más de 30 años les voy a añadir 100:

In [53]:
# update_one solo se lo hace a uno
col_futbolistas.update_one({"edad":{"$gt":30}},{"$inc":{"edad":100}}, upsert=False)

<pymongo.results.UpdateResult at 0x7f2dd0c6dd48>

In [54]:
from tabulate import tabulate
cursor = col_futbolistas.find()
consulta=[]
for doc in cursor:
    consulta.append([doc['nombre'],doc['apellidos'],doc['edad'],doc['posicion'],doc['internacional']])
    
print(tabulate(consulta, headers=['Nombre','Apellidos','Edad', 'Posición', 'Internacional']))

Nombre     Apellidos      Edad  Posición                Internacional
---------  -----------  ------  ----------------------  ---------------
Leo        Messi           132  ['Delantero']           True
Cristiano  Ronaldo          35  ['Delantero']           True
Antoine    Griezmann        28  ['Delantero']           True
Pepito     Pérez            23  ['Lateral', 'Central']  False


In [55]:
# update_many se lo hace a todos los que cumplen la condición
col_futbolistas.update_many({"edad":{"$gt":30}},{"$inc":{"edad":100}}, upsert=False)

<pymongo.results.UpdateResult at 0x7f2dd0c0bd88>

In [56]:
from tabulate import tabulate
cursor = col_futbolistas.find()
consulta=[]
for doc in cursor:
    consulta.append([doc['nombre'],doc['apellidos'],doc['edad'],doc['posicion'],doc['internacional']])
    
print(tabulate(consulta, headers=['Nombre','Apellidos','Edad', 'Posición', 'Internacional']))

Nombre     Apellidos      Edad  Posición                Internacional
---------  -----------  ------  ----------------------  ---------------
Leo        Messi           232  ['Delantero']           True
Cristiano  Ronaldo         135  ['Delantero']           True
Antoine    Griezmann        28  ['Delantero']           True
Pepito     Pérez            23  ['Lateral', 'Central']  False


### Delete

Borramos los futbolistas no internacionales

In [59]:
col_futbolistas.delete_one({"internacional":False}) 
# delete_one solo quita uno

<pymongo.results.DeleteResult at 0x7f2dd0b8ae48>

In [60]:
from tabulate import tabulate
cursor = col_futbolistas.find()
consulta=[]
for doc in cursor:
    consulta.append([doc['nombre'],doc['apellidos'],doc['edad'],doc['posicion'],doc['internacional']])
    
print(tabulate(consulta, headers=['Nombre','Apellidos','Edad', 'Posición', 'Internacional']))

Nombre     Apellidos      Edad  Posición       Internacional
---------  -----------  ------  -------------  ---------------
Leo        Messi           232  ['Delantero']  True
Cristiano  Ronaldo         135  ['Delantero']  True
Antoine    Griezmann        28  ['Delantero']  True


Si queremos borrar todos los que cumplen cierta condición usamos `delete_many`

## Otro ejemplo (consultas avanzadas)
Vamos a hacer una base de datos de recetas:

In [63]:
recetas = client.cocina.recetas
recetas.insert_one({"titulo": "Tortilla de patatas",
 "tiempo": 45,
 "seccion": "Principales",
 "dificultad": 6,
 "ingredientes": ["patatas", "cebolla", "huevo", "sal", "aceite olive"], 
 "subrecetas": {},
 "receta": {"Paso 1": "Cocer en aceita las patatas y cebollas peladas y cortadas",
            "Paso 2": "Mezclar con el huevo",
            "Paso 3": "Cuajarlo todo a fuego bajo"}
})

recetas.insert_one({"titulo": "Tortilla de patatas2",
 "tiempo": 45,
 "seccion": "Principales",
 "dificultad": 6,
 "ingredientes": ["patatas", "cebolla", "huevo", "sal", "aceite olive"], 
 "receta": {"Paso 1": "Cocer en aceita las patatas y cebollas peladas y cortadas",
            "Paso 2": "Mezclar con el huevo",}
})

recetas.insert_one({"titulo": "Pasta boloñesa",
 "tiempo": 20,
 "seccion": "Principales",
 "dificultad": 3,
 "ingredientes": ["pasta", "tomate triturado", "cebolla", "carne picada"], 
 "subrecetas": {"Pasta": {"ingredientes": ["pasta"],
                          "receta": {"Paso 1": "Hervir la pasta 10 minutos", 
                                     "Paso 2": "Escurrir y reservar"}}},
 "receta": {"Paso 1": "Cortar y freir la cebolla e incorporar al carne picada",
            "Paso 2": "Incorporar el tomate triturado y cocinarlo todo junto",
            "Paso 3": "Una vez cocinado, mezclar con la pasta (subreceta)"},
 })

<pymongo.results.InsertOneResult at 0x7f2dd0ba0b48>

In [64]:
for doc in recetas.find():
    pprint.pprint(doc)

{'_id': ObjectId('5d6cd04e6dac063a3a9216e9'),
 'dificultad': 6,
 'ingredientes': ['patatas', 'cebolla', 'huevo', 'sal', 'aceite olive'],
 'receta': {'Paso 1': 'Cocer en aceita las patatas y cebollas peladas y '
                      'cortadas',
            'Paso 2': 'Mezclar con el huevo',
            'Paso 3': 'Cuajarlo todo a fuego bajo'},
 'seccion': 'Principales',
 'subrecetas': {},
 'tiempo': 45,
 'titulo': 'Tortilla de patatas'}
{'_id': ObjectId('5d6cd04e6dac063a3a9216ea'),
 'dificultad': 6,
 'ingredientes': ['patatas', 'cebolla', 'huevo', 'sal', 'aceite olive'],
 'receta': {'Paso 1': 'Cocer en aceita las patatas y cebollas peladas y '
                      'cortadas',
            'Paso 2': 'Mezclar con el huevo'},
 'seccion': 'Principales',
 'tiempo': 45,
 'titulo': 'Tortilla de patatas2'}
{'_id': ObjectId('5d6cd04e6dac063a3a9216eb'),
 'dificultad': 3,
 'ingredientes': ['pasta', 'tomate triturado', 'cebolla', 'carne picada'],
 'receta': {'Paso 1': 'Cortar y freir la cebolla e in

Las consultas van como en la terminal:
https://docs.mongodb.com/manual/reference/operator/query/

In [65]:
cursor = recetas.find({"tiempo": {"$lt":45}})
for doc in cursor:
    pprint.pprint(doc)

{'_id': ObjectId('5d6cd04e6dac063a3a9216eb'),
 'dificultad': 3,
 'ingredientes': ['pasta', 'tomate triturado', 'cebolla', 'carne picada'],
 'receta': {'Paso 1': 'Cortar y freir la cebolla e incorporar al carne picada',
            'Paso 2': 'Incorporar el tomate triturado y cocinarlo todo junto',
            'Paso 3': 'Una vez cocinado, mezclar con la pasta (subreceta)'},
 'seccion': 'Principales',
 'subrecetas': {'Pasta': {'ingredientes': ['pasta'],
                          'receta': {'Paso 1': 'Hervir la pasta 10 minutos',
                                     'Paso 2': 'Escurrir y reservar'}}},
 'tiempo': 20,
 'titulo': 'Pasta boloñesa'}


In [66]:
# Si quisiera que solo me sacase el _id y un campo concreto
cursor = recetas.find({"tiempo": {"$lt":45}},{"titulo":True})
for doc in cursor:
    pprint.pprint(doc)

{'_id': ObjectId('5d6cd04e6dac063a3a9216eb'), 'titulo': 'Pasta boloñesa'}


In [67]:
# Si quisiera que solo me sacase el _id y un campo concreto
cursor = recetas.find({"tiempo": {"$lt":45}},{"titulo":True})
for doc in cursor:
    print(doc['titulo'])

Pasta boloñesa


In [68]:
cursor = recetas.find({"dificultad": {"$gt":5}},{"titulo":True})
for doc in cursor:
    pprint.pprint(doc)

{'_id': ObjectId('5d6cd04e6dac063a3a9216e9'), 'titulo': 'Tortilla de patatas'}
{'_id': ObjectId('5d6cd04e6dac063a3a9216ea'), 'titulo': 'Tortilla de patatas2'}


In [69]:
cursor = recetas.find({"seccion": {"$in":["Postres","Principales"]}},{"titulo":True})
for doc in cursor:
    pprint.pprint(doc)

{'_id': ObjectId('5d6cd04e6dac063a3a9216e9'), 'titulo': 'Tortilla de patatas'}
{'_id': ObjectId('5d6cd04e6dac063a3a9216ea'), 'titulo': 'Tortilla de patatas2'}
{'_id': ObjectId('5d6cd04e6dac063a3a9216eb'), 'titulo': 'Pasta boloñesa'}


In [70]:
# Buscar un ingrediente
cursor = recetas.find({"ingredientes": "patatas"},{"titulo":True})
for doc in cursor:
    pprint.pprint(doc)

{'_id': ObjectId('5d6cd04e6dac063a3a9216e9'), 'titulo': 'Tortilla de patatas'}
{'_id': ObjectId('5d6cd04e6dac063a3a9216ea'), 'titulo': 'Tortilla de patatas2'}


In [71]:
# Puedo buscar las que no tengan subrecetas (campo no definido)
cursor = recetas.find({"subrecetas": None},{"titulo":True})
for doc in cursor:
    pprint.pprint(doc)

{'_id': ObjectId('5d6cd04e6dac063a3a9216ea'), 'titulo': 'Tortilla de patatas2'}


In [72]:
# Puedo buscar las que no tengan subrecetas (campo no definido o vacío)
cursor = recetas.find({'$or':[{"subrecetas": None},{"subrecetas":{}}]},{"titulo":True})
for doc in cursor:
    pprint.pprint(doc)

{'_id': ObjectId('5d6cd04e6dac063a3a9216e9'), 'titulo': 'Tortilla de patatas'}
{'_id': ObjectId('5d6cd04e6dac063a3a9216ea'), 'titulo': 'Tortilla de patatas2'}


In [73]:
# Empiezan por T
cursor = recetas.find({'titulo':{"$regex":"T.*"}},{"titulo":True})
for doc in cursor:
    pprint.pprint(doc)

{'_id': ObjectId('5d6cd04e6dac063a3a9216e9'), 'titulo': 'Tortilla de patatas'}
{'_id': ObjectId('5d6cd04e6dac063a3a9216ea'), 'titulo': 'Tortilla de patatas2'}


In [75]:
# Contienen la P
cursor = recetas.find({'titulo':{"$regex":".*P.*"}},{"titulo":True})
for doc in cursor:
    pprint.pprint(doc)

{'_id': ObjectId('5d6cd04e6dac063a3a9216eb'), 'titulo': 'Pasta boloñesa'}


In [76]:
# Contienen la p
cursor = recetas.find({'titulo':{"$regex":".*p.*"}},{"titulo":True})
for doc in cursor:
    pprint.pprint(doc)

{'_id': ObjectId('5d6cd04e6dac063a3a9216e9'), 'titulo': 'Tortilla de patatas'}
{'_id': ObjectId('5d6cd04e6dac063a3a9216ea'), 'titulo': 'Tortilla de patatas2'}


In [77]:
# Contienen un paso 3
cursor = recetas.find({'receta.Paso 3':{"$exists":True}},{"titulo":True})
for doc in cursor:
    pprint.pprint(doc)

{'_id': ObjectId('5d6cd04e6dac063a3a9216e9'), 'titulo': 'Tortilla de patatas'}
{'_id': ObjectId('5d6cd04e6dac063a3a9216eb'), 'titulo': 'Pasta boloñesa'}


## Generar una BD aleatoria

In [78]:
from random import randint
db=client.business
#Step 1: Create sample data
names = ['Kitchen','Animal','State', 'Tastey', 'Big','City','Fish', 'Pizza','Goat', 'Salty','Sandwich','Lazy', 'Fun']
company_type = ['LLC','Inc','Company','Corporation']
company_cuisine = ['Pizza', 'Bar Food', 'Fast Food', 'Italian', 'Mexican', 'American', 'Sushi Bar', 'Vegetarian']
for x in range(1, 501):
    business = {
        'name' : names[randint(0, (len(names)-1))] + ' ' + names[randint(0, (len(names)-1))]  + ' ' + company_type[randint(0, (len(company_type)-1))],
        'rating' : randint(1, 5),
        'cuisine' : company_cuisine[randint(0, (len(company_cuisine)-1))] 
    }
    #Step 1: Insert business object directly into MongoDB via insert_one
    result=db.reviews.insert_one(business)
    #Step 1: Print to the console the ObjectID of the new document
    print('Created {0} of 500 as {1}'.format(x,result.inserted_id))
#Step 1: Tell us that you are done
print('finished creating 500 business reviews')

Created 1 of 500 as 5d6cd49a6dac063a3a9216ec
Created 2 of 500 as 5d6cd49a6dac063a3a9216ed
Created 3 of 500 as 5d6cd49a6dac063a3a9216ee
Created 4 of 500 as 5d6cd49a6dac063a3a9216ef
Created 5 of 500 as 5d6cd49a6dac063a3a9216f0
Created 6 of 500 as 5d6cd49a6dac063a3a9216f1
Created 7 of 500 as 5d6cd49a6dac063a3a9216f2
Created 8 of 500 as 5d6cd49a6dac063a3a9216f3
Created 9 of 500 as 5d6cd49a6dac063a3a9216f4
Created 10 of 500 as 5d6cd49a6dac063a3a9216f5
Created 11 of 500 as 5d6cd49a6dac063a3a9216f6
Created 12 of 500 as 5d6cd49a6dac063a3a9216f7
Created 13 of 500 as 5d6cd49a6dac063a3a9216f8
Created 14 of 500 as 5d6cd49a6dac063a3a9216f9
Created 15 of 500 as 5d6cd49a6dac063a3a9216fa
Created 16 of 500 as 5d6cd49a6dac063a3a9216fb
Created 17 of 500 as 5d6cd49a6dac063a3a9216fc
Created 18 of 500 as 5d6cd49a6dac063a3a9216fd
Created 19 of 500 as 5d6cd49a6dac063a3a9216fe
Created 20 of 500 as 5d6cd49a6dac063a3a9216ff
Created 21 of 500 as 5d6cd49a6dac063a3a921700
Created 22 of 500 as 5d6cd49a6dac063a3a9217

Created 356 of 500 as 5d6cd49a6dac063a3a92184f
Created 357 of 500 as 5d6cd49a6dac063a3a921850
Created 358 of 500 as 5d6cd49a6dac063a3a921851
Created 359 of 500 as 5d6cd49a6dac063a3a921852
Created 360 of 500 as 5d6cd49a6dac063a3a921853
Created 361 of 500 as 5d6cd49a6dac063a3a921854
Created 362 of 500 as 5d6cd49a6dac063a3a921855
Created 363 of 500 as 5d6cd49a6dac063a3a921856
Created 364 of 500 as 5d6cd49a6dac063a3a921857
Created 365 of 500 as 5d6cd49a6dac063a3a921858
Created 366 of 500 as 5d6cd49a6dac063a3a921859
Created 367 of 500 as 5d6cd49a6dac063a3a92185a
Created 368 of 500 as 5d6cd49a6dac063a3a92185b
Created 369 of 500 as 5d6cd49a6dac063a3a92185c
Created 370 of 500 as 5d6cd49a6dac063a3a92185d
Created 371 of 500 as 5d6cd49a6dac063a3a92185e
Created 372 of 500 as 5d6cd49a6dac063a3a92185f
Created 373 of 500 as 5d6cd49a6dac063a3a921860
Created 374 of 500 as 5d6cd49a6dac063a3a921861
Created 375 of 500 as 5d6cd49a6dac063a3a921862
Created 376 of 500 as 5d6cd49a6dac063a3a921863
Created 377 o

In [79]:
cursor = db.reviews.find()
consulta=[]
for doc in cursor:
    consulta.append([doc['name'], doc['rating'], doc['cuisine']])
    
print(tabulate(consulta,headers=["Name", "Rating", "Cuisine"]))

Name                           Rating  Cuisine
---------------------------  --------  ----------
Kitchen Lazy LLC                    5  Fast Food
Sandwich State Inc                  4  Sushi Bar
Pizza Sandwich LLC                  5  Vegetarian
Big Tastey LLC                      3  Bar Food
Goat Fish Inc                       4  Fast Food
Lazy City Corporation               5  Fast Food
Pizza State LLC                     1  American
Pizza Pizza Company                 3  Vegetarian
Kitchen Goat Corporation            1  Pizza
Salty Tastey LLC                    2  American
City Sandwich Inc                   2  Italian
Pizza Animal Inc                    3  Mexican
State State Inc                     4  Vegetarian
Goat Pizza Company                  5  Fast Food
Goat State Inc                      3  Bar Food
Sandwich City Corporation           1  Mexican
Pizza Pizza Company                 4  Bar Food
Tastey Lazy Company                 2  American
Goat Goat Corporation             

# Agregación (en más profundidad)
Formas de hacer consultas de agregación en MongoDB:
 + **MapReduce**: Modelo muy potente, utilizado por Google y está en la base de Hadoop (veremos más en su momento)
 + *Aggregation pipeline*: Más parecido a SQL y más sencillo.

Formato de una consulta de agregación es:
```
db.coleccion.aggregate([<pipeline>])
```

Pipeline:

Comando 1 $\to$ Comando 2 $\to$ Comando 3 $\to$ ...

Etapas de la pipeline:
 + `$project` - Selecciona campos específicos de una colección (`SELECT`)
 + `$match` - Define un filtro (similar `find` / `WHERE` en SQL)
 + `$group` - Agrupa los documentos según una determinada condición (`GROUP BY`)
 + `$sort` - Ordena los documentos
 + `$skip`, `$limit` - Acotan el número de documentos que saca (`$skip` dice donde empieza y `$limit` cuántos saca).
 + `$unwind` - Separa un array en documentos ("deshace el `JOIN`")
 
https://docs.mongodb.com/manual/reference/operator/aggregation-pipeline/

## Ejemplo:

In [80]:
documentos= [{ "_id": 1, "cust_id": "abc1", "status": "A", "amount": 50 },
{ "_id": 2, "cust_id": "xyz1", "status": "A", "amount": 100 },
{ "_id": 3, "cust_id": "xyz1", "status": "D", "amount": 25 },
{ "_id": 4, "cust_id": "xyz1", "status": "D", "amount": 125 },
{ "_id": 5, "cust_id": "abc1", "status": "A", "amount": 25 }]

In [81]:
db = client.inventario

In [82]:
db.orders.insert_many(documentos)

<pymongo.results.InsertManyResult at 0x7f2dd0ac0ec8>

In [83]:
cursor = db.orders.find()
consulta = []
for doc in cursor:
    consulta.append([doc['_id'],doc['cust_id'],doc['status'],doc['amount']])

print(tabulate(consulta,headers = ["ID", "Customer ID", "Status", "Amount"]))

  ID  Customer ID    Status      Amount
----  -------------  --------  --------
   1  abc1           A               50
   2  xyz1           A              100
   3  xyz1           D               25
   4  xyz1           D              125
   5  abc1           A               25


### Agrupar y sumar

Vamos a seleccionar documentos con status "A", los agrupamos por el Customer ID y los sacamos en orden descendente.

In [84]:
db.orders.aggregate([
    { "$match": {"status": "A"}},
    {"$group": {"_id": "$cust_id", "total": {"$sum": "$amount"}}},
    {"$sort": {"total": -1}}
])

<pymongo.command_cursor.CommandCursor at 0x7f2dd0a91e48>

In [85]:
cursor = db.orders.aggregate([
    { "$match": {"status": "A"}},
    {"$group": {"_id": "$cust_id", "total": {"$sum": "$amount"}}},
    {"$sort": {"total": -1}}
])

In [86]:
for doc in cursor:
    pprint.pprint(doc)

{'_id': 'xyz1', 'total': 100}
{'_id': 'abc1', 'total': 75}
