# MongoDB

[MongoDB](https://www.mongodb.com/) es un sistema gestor de ase de datos no relacional (no tabular) orientada a documentos. Cuando hablamos de documentos, hablamos de información estructurada y anotada tal y como suele ser habitual en el contexto web. 

Las bases de datos orientadas a objetos usaban originalmente documentos XML:

```xml
<books>
    <book>
        <title>The three body problem</title>
        <author>Cixin Liu</author>
    </book>
    <book>
        <title>Foundation</title>
        <author>Isaac Asimov</author>
    </book>
</books>
```

pero MongoDB pertenece a la nueva generación donde las estructuras de objetos Javascript (JSON) son las predominantes, siendo esa la estructura de los documentos que nos encontraremos.

```json
{
    'books' : [
        {
            'title' : "The three body problem",
            'author' : "Cixin Liu"
        },
        {
            'title' : "Foundation",
            'author' : "Isaac Asimov"
        }
    ]
}
```

Disponer de una base de datos MongoDB resultaría algo más complejo de instalar pero hoy día nos podemos beneficiar de la oferta nube gratuita de MongoDB Atlas: https://www.mongodb.com/cloud/atlas/register 

Una vez registrados podréis ver la pantalla central donde crear vuestra primera base de datos:

![home](./img/atlas-home.png)

**NOTA: Prestad atención a seleccionar la capacidad M0 que es la gratuita**

![m0](./img/atlas-free.png)

Cread vuestro usuario y contraseña y veréis que os habilita la opción para poder conectaros desde vuestra conexión actual (habilitar IP).

![auth](./img/mongo-auth.png)

Con esto ya os indica distintas formas de conectarnos, nosotros seleccionaremos la opción de drivers:

![driver](./img/mongo-drivers.png)

Y si hemos indicado Python como nuestra lenguaje de preferencia, nos mostrará directamente la información relevante para realizar la conexión.

![python](./img/mongo-python.png)

In [1]:
pip install "pymongo[srv]"

Collecting pymongo[srv]
  Downloading pymongo-4.7.3-cp312-cp312-win_amd64.whl.metadata (22 kB)
Collecting dnspython<3.0.0,>=1.16.0 (from pymongo[srv])
  Downloading dnspython-2.6.1-py3-none-any.whl.metadata (5.8 kB)
Downloading dnspython-2.6.1-py3-none-any.whl (307 kB)
   ---------------------------------------- 0.0/307.7 kB ? eta -:--:--
   ----- --------------------------------- 41.0/307.7 kB 991.0 kB/s eta 0:00:01
   ------------------ --------------------- 143.4/307.7 kB 2.1 MB/s eta 0:00:01
   ---------------------------------------- 307.7/307.7 kB 2.4 MB/s eta 0:00:00
Downloading pymongo-4.7.3-cp312-cp312-win_amd64.whl (484 kB)
   ---------------------------------------- 0.0/484.2 kB ? eta -:--:--
   -------- ------------------------------- 102.4/484.2 kB 5.8 MB/s eta 0:00:01
   ------------------ --------------------- 225.3/484.2 kB 2.8 MB/s eta 0:00:01
   ------------------------------ --------- 368.6/484.2 kB 2.9 MB/s eta 0:00:01
   -------------------------------- ------- 399

In [2]:
connection_string = "mongodb+srv://rodrigomezaortiz:TAwhpuAmtG8LBym6  @cluster0.rmvbjey.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"

In [3]:
from pymongo import MongoClient

client = MongoClient(connection_string)

Una vez conectados, podemos acceder a ciertos datos de prueba que nos deja ver MongoDB:

* Base de datos: sample_mflix
* Colección: movies

In [4]:
sample_mflix = client.get_database("sample_mflix")

In [5]:
movies = sample_mflix.get_collection("movies")

En gran medida las operaciones que realizaremos con MongoDB son de búsqueda y filtrado de documentos.

In [16]:
data = collection.find()

for row in data:
    print(row) 

OperationFailure: bad auth : authentication failed, full error: {'ok': 0, 'errmsg': 'bad auth : authentication failed', 'code': 8000, 'codeName': 'AtlasError'}

Por defecto, las preguntas nos devuelven un cursor. Una especie de apuntador a los datos que nos irá dando los datos según los vayamos pidiendo para no desbordar nuestra máquina. 

In [17]:
type(movies_data)

pymongo.cursor.Cursor

Si conocemos algún campo de los documentos, podemos pedir aquellos que por ejemplo tengan como título _Back to the future_

In [18]:
from pprint import pprint

# Query for a movie that has the title 'Back to the Future'
query = { "title": "Back to the Future" }

movies_data = movies.find(query)

for movie in movies_data:
    pprint(movie)

OperationFailure: bad auth : authentication failed, full error: {'ok': 0, 'errmsg': 'bad auth : authentication failed', 'code': 8000, 'codeName': 'AtlasError'}

## CRUD

Operaciones de creación, actualización y borrado (CUD). Veremos la lectura (filtrado) más en detalle, que será la versión mongodb de las _SELECT FROM WHERE_ que veníamos usando en bases de datos SQL.

In [20]:
database = client.get_database("thebridge")
collection = database.get_collection("datascience")
collection.insert_one({"nombre": "Rodrigo", "apellido" : "Meza"})

OperationFailure: bad auth : authentication failed, full error: {'ok': 0, 'errmsg': 'bad auth : authentication failed', 'code': 8000, 'codeName': 'AtlasError'}

No existe la base de datos, no existe la colección y hemos podido insertar el dato ¿Cómo puede ser?

In [19]:
data = collection.find()

for row in data:
    pprint(row)

OperationFailure: bad auth : authentication failed, full error: {'ok': 0, 'errmsg': 'bad auth : authentication failed', 'code': 8000, 'codeName': 'AtlasError'}

Para actualizar deberemos seleccionar en base al filtrado (primer campo) a qué documentos les queremos aplicar la actualización. Las funciones disponen de dos versiones:

* Insertar: `insert_one` o `insert_many`
* Actualizar: `update_one` o `update_many`
* Borrado: `delete_one`o `delete_many` 

In [21]:
collection.update_one({}, {'$set' : {"apellido": "Montalbán"}})

OperationFailure: bad auth : authentication failed, full error: {'ok': 0, 'errmsg': 'bad auth : authentication failed', 'code': 8000, 'codeName': 'AtlasError'}

In [11]:
collection.delete_one({"nombre" : "Iraitz"})

DeleteResult({'n': 1, 'electionId': ObjectId('7fffffff0000000000000012'), 'opTime': {'ts': Timestamp(1718529640, 5), 't': 18}, 'ok': 1.0, '$clusterTime': {'clusterTime': Timestamp(1718529640, 5), 'signature': {'hash': b':\x99\xbdcL\x87\x89\x84a \x92mQ\x19\xbfU\x84z"\xa6', 'keyId': 7322183778070167558}}, 'operationTime': Timestamp(1718529640, 5)}, acknowledged=True)

In [12]:
collection.delete_many({"nombre" : "Iraitz"})

DeleteResult({'n': 0, 'electionId': ObjectId('7fffffff0000000000000012'), 'opTime': {'ts': Timestamp(1718529640, 6), 't': 18}, 'ok': 1.0, '$clusterTime': {'clusterTime': Timestamp(1718529640, 6), 'signature': {'hash': b':\x99\xbdcL\x87\x89\x84a \x92mQ\x19\xbfU\x84z"\xa6', 'keyId': 7322183778070167558}}, 'operationTime': Timestamp(1718529640, 6)}, acknowledged=True)

### Filtrado

Es la función primordial de MongoDB, poder filtrar el contenido en base a criterios que nos sean relevantes. Por defecto MongoDB busca la igualdad en los campos.

In [13]:
query = { "title": "Back to the Future" }

movies_data = movies.find(query)

for movie in movies_data:
    pprint(movie)

{'_id': ObjectId('573a1398f29313caabce9682'),
 'awards': {'nominations': 24,
            'text': 'Won 1 Oscar. Another 18 wins & 24 nominations.',
            'wins': 19},
 'cast': ['Michael J. Fox',
          'Christopher Lloyd',
          'Lea Thompson',
          'Crispin Glover'],
 'countries': ['USA'],
 'directors': ['Robert Zemeckis'],
 'fullplot': 'Marty McFly, a typical American teenager of the Eighties, is '
             'accidentally sent back to 1955 in a plutonium-powered DeLorean '
             '"time machine" invented by slightly mad scientist. During his '
             'often hysterical, always amazing trip back in time, Marty must '
             'make certain his teenage parents-to-be meet and fall in love - '
             'so he can get back to the future.',
 'genres': ['Adventure', 'Comedy', 'Sci-Fi'],
 'imdb': {'id': 88763, 'rating': 8.5, 'votes': 636511},
 'languages': ['English'],
 'lastupdated': '2015-09-12 00:29:36.890000000',
 'metacritic': 86,
 'num_mflix_comme

Aunque cuando el campo contiene una lista, veréis que hace algo distinto.

In [14]:
query = { "writers": "Robert Zemeckis" }

movies_data = []

for movie in movies.find(query):
    movies_data.append(movie)

for movie in movies_data:
    print(movie["title"])

Used Cars
Back to the Future


In [15]:
pprint(movies_data[0])

{'_id': ObjectId('573a1397f29313caabce7bd2'),
 'awards': {'nominations': 1, 'text': '1 nomination.', 'wins': 0},
 'cast': ['Kurt Russell', 'Jack Warden', 'Gerrit Graham', 'Frank McRae'],
 'countries': ['USA'],
 'directors': ['Robert Zemeckis'],
 'fullplot': 'Used car salesman Rudy Russo needs money to run for State '
             'Senate, so he approaches his boss Luke. Luke agrees to front him '
             'the $10,000 he needs, but then encounters an "accident" '
             'orchestrated by his brother Roy, who runs the car lot across the '
             "street. Roy is hoping to claim title to his brother's property "
             "because Roy's paying off the mayor to put the new interstate "
             "through the area. After Luke disappears, it's all out war "
             'between the competing car shops, and no nasty trick is off '
             "limits as Rudy and his gang fight to keep Roy from taking Luke's "
             "property. Then Luke's daughter shows up.",
 'ge

In [16]:
query = { "directors": "Robert Zemeckis" }

movies_data = []

for movie in movies.find(query):
    movies_data.append(movie)

for movie in movies_data:
    print(movie["title"])

Used Cars
Romancing the Stone
Back to the Future
Who Framed Roger Rabbit
Back to the Future Part II
Back to the Future Part III
Death Becomes Her
Forrest Gump
Contact
What Lies Beneath
Cast Away
Cast Away
The Polar Express
Beowulf
A Christmas Carol
Flight


Las proyecciones nos permiten obtener solo la parte de la información que nos interesa de los documentos (es como el `SELECT campo1, campo2`).

In [17]:
query = { "directors": "Robert Zemeckis" }
proyeccion = {"title": True}

for movie in movies.find(query, proyeccion):
    pprint(movie)

{'_id': ObjectId('573a1397f29313caabce7bd2'), 'title': 'Used Cars'}
{'_id': ObjectId('573a1398f29313caabce93b5'), 'title': 'Romancing the Stone'}
{'_id': ObjectId('573a1398f29313caabce9682'), 'title': 'Back to the Future'}
{'_id': ObjectId('573a1398f29313caabceb35c'),
 'title': 'Who Framed Roger Rabbit'}
{'_id': ObjectId('573a1398f29313caabceb500'),
 'title': 'Back to the Future Part II'}
{'_id': ObjectId('573a1398f29313caabcebd41'),
 'title': 'Back to the Future Part III'}
{'_id': ObjectId('573a1399f29313caabced02d'), 'title': 'Death Becomes Her'}
{'_id': ObjectId('573a1399f29313caabcee607'), 'title': 'Forrest Gump'}
{'_id': ObjectId('573a139af29313caabcf082a'), 'title': 'Contact'}
{'_id': ObjectId('573a139df29313caabcfa665'), 'title': 'What Lies Beneath'}
{'_id': ObjectId('573a139df29313caabcfaaab'), 'title': 'Cast Away'}
{'_id': ObjectId('573a13a0f29313caabd04333'), 'title': 'Cast Away'}
{'_id': ObjectId('573a13abf29313caabd2418b'), 'title': 'The Polar Express'}
{'_id': ObjectId('57

Si no queremos ver el `_id` del documento tendremos que expresarlo estrictamente.

In [18]:
query = { "directors": "Robert Zemeckis" }
proyeccion = {"_id": 0 }

for movie in movies.find(query, proyeccion):
    pprint(movie)

{'awards': {'nominations': 1, 'text': '1 nomination.', 'wins': 0},
 'cast': ['Kurt Russell', 'Jack Warden', 'Gerrit Graham', 'Frank McRae'],
 'countries': ['USA'],
 'directors': ['Robert Zemeckis'],
 'fullplot': 'Used car salesman Rudy Russo needs money to run for State '
             'Senate, so he approaches his boss Luke. Luke agrees to front him '
             'the $10,000 he needs, but then encounters an "accident" '
             'orchestrated by his brother Roy, who runs the car lot across the '
             "street. Roy is hoping to claim title to his brother's property "
             "because Roy's paying off the mayor to put the new interstate "
             "through the area. After Luke disappears, it's all out war "
             'between the competing car shops, and no nasty trick is off '
             "limits as Rudy and his gang fight to keep Roy from taking Luke's "
             "property. Then Luke's daughter shows up.",
 'genres': ['Comedy'],
 'imdb': {'id': 81698, 'rat

In [19]:
query = { "directors": "Robert Zemeckis" }
proyeccion = {"_id": 0, "title" : True }

for movie in movies.find(query, proyeccion):
    pprint(movie)

{'title': 'Used Cars'}
{'title': 'Romancing the Stone'}
{'title': 'Back to the Future'}
{'title': 'Who Framed Roger Rabbit'}
{'title': 'Back to the Future Part II'}
{'title': 'Back to the Future Part III'}
{'title': 'Death Becomes Her'}
{'title': 'Forrest Gump'}
{'title': 'Contact'}
{'title': 'What Lies Beneath'}
{'title': 'Cast Away'}
{'title': 'Cast Away'}
{'title': 'The Polar Express'}
{'title': 'Beowulf'}
{'title': 'A Christmas Carol'}
{'title': 'Flight'}


### Comparadores

Si quisiéramos rangos o desigualdades a la hora de filtrar deberemos utilizar operadores:

* Comparación: https://www.mongodb.com/docs/manual/reference/operator/query-comparison/
* Lógicos: https://www.mongodb.com/docs/manual/reference/operator/query-logical/
* Elementos: https://www.mongodb.com/docs/manual/reference/operator/query-element/
* Texto y evaluaciones: https://www.mongodb.com/docs/manual/reference/operator/query-evaluation/

In [20]:
query = { "directors": "Robert Zemeckis", "year" : {"$gt" : 2008 }}
proyeccion = {"_id": 0, "title" : True, "year": 1}

for movie in movies.find(query, proyeccion):
    pprint(movie)

{'title': 'A Christmas Carol', 'year': 2009}
{'title': 'Flight', 'year': 2012}


In [21]:
query = { "$and" : [{"directors": "Robert Zemeckis"},{"year" : {"$gt" : 2008 }}]}
proyeccion = {"_id": 0, "title" : True, "year": 1}

for movie in movies.find(query, proyeccion):
    pprint(movie)

{'title': 'A Christmas Carol', 'year': 2009}
{'title': 'Flight', 'year': 2012}


In [22]:
query = { "$or" : [{"directors": "Robert Zemeckis"},{"year" : {"$gt" : 2008 }}]}
proyeccion = {"_id": 0, "title" : True, "year": 1}

for movie in movies.find(query, proyeccion):
    pprint(movie)

{'title': 'Used Cars', 'year': 1980}
{'title': 'Romancing the Stone', 'year': 1984}
{'title': 'Back to the Future', 'year': 1985}
{'title': 'Who Framed Roger Rabbit', 'year': 1988}
{'title': 'Back to the Future Part II', 'year': 1989}
{'title': 'Back to the Future Part III', 'year': 1990}
{'title': 'Death Becomes Her', 'year': 1992}
{'title': 'Forrest Gump', 'year': 1994}
{'title': 'Contact', 'year': 1997}
{'title': 'Pèl Adrienn', 'year': 2010}
{'title': 'What Lies Beneath', 'year': 2000}
{'title': 'Cast Away', 'year': 2000}
{'title': 'Cast Away', 'year': 2000}
{'title': 'In My Sleep', 'year': 2010}
{'title': 'Coraline', 'year': 2009}
{'title': 'On the Road', 'year': 2012}
{'title': 'The Polar Express', 'year': 2004}
{'title': 'The Secret Life of Walter Mitty', 'year': 2013}
{'title': 'Inglourious Basterds', 'year': 2009}
{'title': 'The Box', 'year': 2009}
{'title': 'Jurassic World', 'year': 2015}
{'title': 'The Pacific', 'year': 2010}
{'title': 'Astro Boy', 'year': 2009}
{'title': 'Th

In [23]:
query = { "directors" : {"$exists" : False}} # No tienen director informado.. "exists" ES UN OPERADOR QUE SE UTILIZA PARA FILTRAR LA EXISTENCIA DE UN CAMPO 

proyeccion = {"_id": 0, "title" : True, "year": 1, "directors" : True}

for movie in movies.find(query, proyeccion):
    pprint(movie)

{'title': 'The Forsyte Saga', 'year': 1967}
{'title': 'Scenes from a Marriage', 'year': 1973}
{'title': 'Ironiya sudby, ili S legkim parom!', 'year': 1975}
{'title': 'Sybil', 'year': 1976}
{'title': 'Jesus of Nazareth', 'year': 1977}
{'title': 'Roots', 'year': 1977}
{'title': 'Centennial', 'year': 1978}
{'title': 'Holocaust', 'year': 1978}
{'title': 'Pennies from Heaven', 'year': 1978}
{'title': 'Pride and Prejudice', 'year': 1980}
{'title': 'Hollywood', 'year': 1980}
{'title': 'Tinker Tailor Soldier Spy', 'year': 1979}
{'title': 'Cosmos', 'year': 1980}
{'title': 'The Hitch Hikers Guide to the Galaxy', 'year': '1981è'}
{'title': 'The Blue and the Gray', 'year': 1982}
{'title': "Smiley's People", 'year': 1982}
{'title': 'Jane Eyre', 'year': 1983}
{'title': 'Reilly: Ace of Spies', 'year': 1983}
{'title': 'The Thorn Birds', 'year': 1983}
{'title': 'The Barchester Chronicles', 'year': 1982}
{'title': 'The Far Pavilions', 'year': 1984}
{'title': 'The First Olympics: Athens 1896', 'year': 19

### Indices

Para hacer búsquedas más complejas podemos utilizar expresiones regulares mediante el operador `$expr` o crear un índice de texto para así poder usar el operador `$text`. En nuestro caso ya contamos con uno creado.

In [24]:
pprint(movies.index_information())

{'_id_': {'key': [('_id', 1)], 'v': 2},
 'cast_text_fullplot_text_genres_text_title_text': {'default_language': 'english',
                                                    'key': [('_fts', 'text'),
                                                            ('_ftsx', 1)],
                                                    'language_override': 'language',
                                                    'textIndexVersion': 3,
                                                    'v': 2,
                                                    'weights': SON([('cast', 1), ('fullplot', 1), ('genres', 1), ('title', 1)])}}


In [25]:
query = { "$text" : { "$search": "future", "$caseSensitive": False }} # Que contengan la palabra future, "$caseSensitive" ES UN OPERADOR 
     # UTILIZADO PARA ESPECIFICAR SI LA PALABRA QUE TIENE QUE BUSCAR SE DEBE AJUSTAR O NO A COMO ESTÁ ESCRITA (MAY, MINUS, ETC ...)
proyeccion = {"_id": 0, "title" : True, "year": 1, "plot" : 1}

for movie in movies.find(query, proyeccion):
    pprint(movie)

{'plot': 'After visiting 2015, Marty McFly must repeat his visit to 1955 to '
         'prevent disastrous changes to 1985... without interfering with his '
         'first trip.',
 'title': 'Back to the Future Part II',
 'year': 1989}
{'plot': 'A young man is accidentally sent 30 years into the past in a '
         'time-traveling DeLorean invented by his friend, Dr. Emmett Brown, '
         'and must make sure his high-school-age parents unite in order to '
         'save his own existence.',
 'title': 'Back to the Future',
 'year': 1985}
{'plot': 'The possibly exaggerated origin story of the real life alien '
         'bluegrass band, Future Folk, that has been playing for NYC audiences '
         'for the better part of a decade.',
 'title': 'The History of Future Folk',
 'year': 2012}
{'plot': 'Enjoying a peaceable existence in 1885, Doctor Emmet Brown is about '
         'to be killed by Buford "Mad Dog" Tannen. Marty McFly travels back in '
         'time to save his friend.',
 

## Restaurantes

Cargaremos información del json restaurantes que encontraréis en la carpeta.

In [22]:
import json

restaurantes = []
with open("./data/restaurants.json", "r") as json_file:
    for line in json_file:
        restaurantes.append(json.loads(line))

rest_collection = database.get_collection("restaurantes")
rest_collection.insert_many(restaurantes)

OperationFailure: bad auth : authentication failed, full error: {'ok': 0, 'errmsg': 'bad auth : authentication failed', 'code': 8000, 'codeName': 'AtlasError'}

Acabamos de crear una nueva colección con información de restaurantes.

In [28]:
rest_collection.count_documents({})

25359

Podemos ver qué pinta parecen tener.

In [29]:
pprint(rest_collection.find_one())

{'_id': ObjectId('666eae8cefae68146ff0ef56'),
 'address': {'building': '1007',
             'coord': [-73.856077, 40.848447],
             'street': 'Morris Park Ave',
             'zipcode': '10462'},
 'borough': 'Bronx',
 'cuisine': 'Bakery',
 'grades': [{'date': {'$date': 1393804800000}, 'grade': 'A', 'score': 2},
            {'date': {'$date': 1378857600000}, 'grade': 'A', 'score': 6},
            {'date': {'$date': 1358985600000}, 'grade': 'A', 'score': 10},
            {'date': {'$date': 1322006400000}, 'grade': 'A', 'score': 9},
            {'date': {'$date': 1299715200000}, 'grade': 'B', 'score': 14}],
 'name': 'Morris Park Bake Shop',
 'restaurant_id': '30075445'}


#### ¿Cuantos restaurantes hay en manhattan?

#### ¿Cuantos de cocina china o japonesa?

In [None]:
# Aquí va vuestro código 

#### ¿Cuantos restaurantes por distrito?

In [None]:
# Aquí va vuestro código

### Agregaciones

MongoDB permite hacer ciertas agregaciones aunque la sintaxis es un tanto compleja... se conoce como el _pipeline de agregación_.

![agregacion](./img/aggpipeline.png)

Tenéis información sobre las distintas etapas y operadores específicos en la documentación oficial: https://www.mongodb.com/docs/languages/python/pymongo-driver/current/aggregation/aggregation-tutorials/

El operador `$match` hace lo mismo que nuestra función find. Usaremos una segunda etapa con el operador `$limit` para solo mostrar un elemento.

In [30]:
resultado = rest_collection.aggregate([
    {"$match" : {"borough" : "Manhattan"}},
    {"$limit" : 1}
])

for elemento in resultado:
    pprint(elemento)

{'_id': ObjectId('666eae8cefae68146ff0ef58'),
 'address': {'building': '351',
             'coord': [-73.98513559999999, 40.7676919],
             'street': 'West   57 Street',
             'zipcode': '10019'},
 'borough': 'Manhattan',
 'cuisine': 'Irish',
 'grades': [{'date': {'$date': 1409961600000}, 'grade': 'A', 'score': 2},
            {'date': {'$date': 1374451200000}, 'grade': 'A', 'score': 11},
            {'date': {'$date': 1343692800000}, 'grade': 'A', 'score': 12},
            {'date': {'$date': 1325116800000}, 'grade': 'A', 'score': 12}],
 'name': 'Dj Reynolds Pub And Restaurant',
 'restaurant_id': '30191841'}


Podemos agregar la información seleccionado un campo a contener el `_id` (sería el campo por el que agrupamos). Para indicar que agruparemos por el valor de un campo usaremos el `$` en este caso sobre el campo.

In [31]:
resultado = rest_collection.aggregate([ # INTENTAR NO UTILIZAR ESTE COMANDO DE AGREGACIÓN 
    {"$group" : { "_id" : "$borough", "cuantos": {"$sum" : 1}} } # "$borough" TIENE $ PORQUE LO QUE INTERESA ES EL VALOR QUE ALMACENA 
])

for elemento in resultado:
    pprint(elemento)

{'_id': 'Brooklyn', 'cuantos': 6086}
{'_id': 'Staten Island', 'cuantos': 969}
{'_id': 'Queens', 'cuantos': 5656}
{'_id': 'Bronx', 'cuantos': 2338}
{'_id': 'Missing', 'cuantos': 51}
{'_id': 'Manhattan', 'cuantos': 10259}


Agregar la información que esté en un elemento tipo `array` requiere que primero saquemos cada elemento del array a un documento individual. Para ello usaremos el operador `$unwind` en indicaremos el valor de un campo, que se hace empleando el símbolo del dolar (`$`).

In [32]:
resultado = rest_collection.aggregate([
    {"$match" : {"borough" : "Manhattan"}},
    {"$unwind" : "$grades"},
    {"$limit" : 1}
])

for elemento in resultado:
    pprint(elemento)

{'_id': ObjectId('666eae8cefae68146ff0ef58'),
 'address': {'building': '351',
             'coord': [-73.98513559999999, 40.7676919],
             'street': 'West   57 Street',
             'zipcode': '10019'},
 'borough': 'Manhattan',
 'cuisine': 'Irish',
 'grades': {'date': {'$date': 1409961600000}, 'grade': 'A', 'score': 2},
 'name': 'Dj Reynolds Pub And Restaurant',
 'restaurant_id': '30191841'}


Y posterior realizar el agrupado y las operaciones de agregación necesarias. Cuando dispongamos de campos anidados usaremos la puntuación `.` como signo de anidamiento (`campo_primer_nivel.campo_segundo_nivel`). Fijaros en el caso de _grades.score_

In [33]:
resultado = rest_collection.aggregate([
    {"$match" : {"borough" : "Manhattan"}},
    {"$unwind" : "$grades"}, # AVERIGUAR QUE HACE EL OPERADOR "$unwind"  
    {"$group": {"_id": "$name", "nota_promedio" : {"$avg" : "$grades.score"}}}
])

for elemento in resultado:
    pprint(elemento)

{'_id': 'Qi', 'nota_promedio': 11.142857142857142}
{'_id': 'The Canal Park Playhouse, Inc', 'nota_promedio': 7.5}
{'_id': 'Ai Zhen Foo Chow Restaurant', 'nota_promedio': 20.333333333333332}
{'_id': 'Great China', 'nota_promedio': 12.2}
{'_id': 'Kukaramakara Restaurant', 'nota_promedio': 15.8}
{'_id': 'Morso', 'nota_promedio': 11.0}
{'_id': "Lil Frankie'S Pizza", 'nota_promedio': 14.25}
{'_id': 'Delizia  Ristorante', 'nota_promedio': 11.2}
{'_id': 'Cafe Gitane', 'nota_promedio': 10.9}
{'_id': 'Hearst Corporation Edr', 'nota_promedio': 3.6666666666666665}
{'_id': 'Jaiya Thai Oriental Restaurant', 'nota_promedio': 10.5}
{'_id': 'Barnes & Noble Booksellers', 'nota_promedio': 8.0}
{'_id': 'Moonstruck East', 'nota_promedio': 17.285714285714285}
{'_id': 'The Summit', 'nota_promedio': 14.166666666666666}
{'_id': 'The Carnegie Cigar Club And Lounge', 'nota_promedio': 11.0}
{'_id': 'Masala Times', 'nota_promedio': 12.166666666666666}
{'_id': 'Cafe G', 'nota_promedio': 11.0}
{'_id': 'Albion', 'no

Y podemos ordenar los resultados empleando el operador `$sort`.

In [34]:
resultado = rest_collection.aggregate([
    {"$match" : {"borough" : "Manhattan"}},
    {"$unwind" : "$grades"},
    {"$group": {"_id": "$name", "nota_promedio" : {"$avg" : "$grades.score"}}},
    {"$sort": {"nota_promedio": -1}}, # "-1" INDICA QUE SE DEBE ORDENAR EN ORDEN DESCENDENTE  
    {"$limit": 10}
])

for elemento in resultado:
    pprint(elemento)

{'_id': 'Ivory D O S  Inc', 'nota_promedio': 60.0}
{'_id': 'Matcha Cafe Wabi', 'nota_promedio': 56.0}
{'_id': 'Espace', 'nota_promedio': 56.0}
{'_id': 'Savour Sichuan', 'nota_promedio': 56.0}
{'_id': 'Kikka At Whole Foods Chelsea', 'nota_promedio': 56.0}
{'_id': 'Savory', 'nota_promedio': 54.0}
{'_id': 'Homewood Suites By Hilton New York Midtown Manhattan Times Square',
 'nota_promedio': 52.0}
{'_id': "Luzzo'S La Mtp", 'nota_promedio': 47.0}
{'_id': 'The Derby', 'nota_promedio': 47.0}
{'_id': 'Cheri', 'nota_promedio': 46.0}


### Indices

Existen dos índices especialmente útiles en MongoDB. Los índices textuales que nos permiten búsquedas semánticas sobre el texto y las geo-espaciales que no permiten preguntas del tipo _cerca de mi_.

In [35]:
rest_collection.create_index({ "$**" : "text"})

'$**_text'

In [36]:
query = { "$text": { "$search": "cafe" } }
proyeccion = {"_id": 0, "name" : True, "cuisine": 1}

for elemento in rest_collection.find(query, proyeccion):
    pprint(elemento)

{'cuisine': 'Café/Coffee/Tea', 'name': 'A Cafe'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Locus Cafe'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Zoni Cafe'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Brompton Cafe'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Off To Start Cafe'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Burly Cafe'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Bruffin Cafe'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Cafe Grumpy'}
{'cuisine': 'Café/Coffee/Tea', 'name': '19 Cafe'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Harmony Cafe'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Cafe Edna'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Cafe Grumpy'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Cafe Bene'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Cafe Jax'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Oval Cafe'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Currant Cafe'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Creffle Cafe'}
{'cuisine': 'Café/Coffee/Tea', 'name': 'Fafa Cafe'}
{'cuisine': 'Café/Coffee/Tea', 'name': '

In [37]:
query = { "$text": { "$search": "cafe -tea" } } # QUE NO CONTENGA LA PALABRA "tea" 
proyeccion = {"_id": 0, "name" : True, "cuisine": 1}

for elemento in rest_collection.find(query, proyeccion):
    pprint(elemento)

{'cuisine': 'Delicatessen', 'name': 'Breadsoul Cafe/ Lincoln Cafe'}
{'cuisine': 'Latin (Cuban, Dominican, Puerto Rican, South & Central American)',
 'name': 'Cafe Habana/Cafe Habana To Go'}
{'cuisine': 'American', 'name': 'Cafe Kitchen (Centerplate Cafe And Kitchen)'}
{'cuisine': 'American', 'name': 'Noumura Cafe ( 5Th Floor Noumura Cafe)'}
{'cuisine': 'Caribbean', 'name': 'A Cafe'}
{'cuisine': 'Chinese', 'name': 'Him & Her Cafe'}
{'cuisine': 'American',
 'name': 'New York Botanical Gardens Terrace Cafe ( Garden Cafe )'}
{'cuisine': 'American',
 'name': "Brooklyn Children'S Museum Cafe/Forest City Ratner Cafe"}
{'cuisine': 'Other', 'name': 'Ciminna Cafe'}
{'cuisine': 'Other', 'name': 'Cafe Bari'}
{'cuisine': 'American', 'name': "''W'' Cafe"}
{'cuisine': 'Other', 'name': 'Cafe R'}
{'cuisine': 'Japanese', 'name': 'Maid Cafe'}
{'cuisine': 'Other', 'name': 'Cafe Clover'}
{'cuisine': 'Other', 'name': 'Cafe Wha'}
{'cuisine': 'American', 'name': 'Cafe Islan'}
{'cuisine': 'Other', 'name': 'Ny 

In [38]:
rest_collection.create_index({ "address.coord" : "2d" })

'address.coord_2d'

In [79]:
import folium

mi_ubicación = [40.74, -74]

my_map = folium.Map(location=mi_ubicación,
                 zoom_start=14,
                 control_scale=True)

# add marker to map
folium.Marker(mi_ubicación,
             popup = "You are here",
             tooltip = 'click').add_to(my_map)

# display map
display(my_map)

In [76]:
# NOTA: En este caso la información de latitud y longitud está invertida

# "$and" INDICA QUE SE DEBEN CUMPLIR DOS CONDICIONES  

query = {"$and" : [
    { "address.coord" : { "$geoWithin" : { "$center" : [ [mi_ubicación[1], mi_ubicación[0]] , 0.01 ] } } }, 
    { "$text": { "$search": "cafe -tea" } }
]}

proyeccion = {"name" : True, "_id" : 0, "address.coord" : True}

restaurantes_cerca = []
for elemento in rest_collection.find(query, proyeccion):
    restaurantes_cerca.append(elemento)

In [77]:
elemento

{'address': {'coord': [-74.00057799999999, 40.730204]},
 'name': 'Olive Tree Cafe & Comedy Cellar'}

In [80]:
folium.Marker(elemento["address"]["coord"][::-1], tooltip = 'click', icon=folium.Icon(color='green'), popup=elemento["name"]).add_to(my_map)

my_map

In [81]:
icon = folium.Icon(color='green')

feature_group = folium.FeatureGroup("Locations")

for rest in restaurantes_cerca:
    feature_group.add_child(folium.Marker(location=rest["address"]["coord"][::-1], icon=folium.Icon(color='green'), tooltip = 'click', popup=rest["name"]))

my_map.add_child(feature_group)

# display map
my_map

In [82]:
map.save(outfile = "test.html")

¿Seríais capaces de encontrar los restaurantes Chinos o Japoneses cerca de mi?

In [None]:
# Aquí va vuestro código

Finalmente podremos cerrar la conexión.

In [83]:
client.close()