# Mongo en la nube
### NoSQL - RafaCR

MongoDB ofrece un servicio en la nube, Mongo Atlas. Las ventajas de alojar los datos en la nube son muchas y bien conocidas, citemos solo dos:

* *Tamaño*: podemos disponer de clústers de gran tamaño sin preocuparnos de su gestión y pagar solo por el tiempo en el que se utilicen

* *Conectividad*: tener la base de datos en la nube nos permite compartir su contenido de forma sencilla. Desde un móvil a una tablet, nuestra aplicación podrá conectarse y compartir información en cualquier momento.

A cambio, lógicamente, tendremos que pagar por utilizar el servicio.

Afortunadamente, Atlas nos permite crear una cuenta gratuita; os animo a hacerlo desde 

https://www.mongodb.com/cloud/atlas


Para conectarnos dentro de clústers podemos elegir el botón *connect*:

![image.png](attachment:image.png)

Allí podemos elegir `Connect your application` y dentro seleccionar por ejemplo Python. El contenido sera una URI de conexión.

Además debemos crear un usuario en `Database Access`. 

El siguiente código es un ejemplo de conexión a mi clúster que debe funcionar:

In [1]:
# Además de pymongo puede que haya que instalar el paquete
# dnspython cerrar jupyter y 
# volver a abrirlo

# conexión mongo
import pymongo
from pymongo import MongoClient 

client = MongoClient('mongodb+srv://herminia:gominolas@cluster0-nubot.mongodb.net/test?retryWrites=true&w=majority')


El código permite conectar con usuario `herminia` y palabra `gominolas`. 

**Ejercicio 1** Crear vuestra propia cuenta en Atlas y cambiar desde Atlas la URI por la de vuestro cluster. Recordad que hará falta instalar (`pip install paquete` desde la consola de Anaconda) los paquetes:

* pymongo 
* dnspython


In [2]:
# Solución
#client = pymongo.MongoClient("mongodb+srv://arturo:123@arturocluster-z0dix.mongodb.net/test?retryWrites=true&w=majority")


In [3]:
list(client.list_databases())

[{'name': 'elections', 'sizeOnDisk': 131072.0, 'empty': False},
 {'name': 'pruebas', 'sizeOnDisk': 106496.0, 'empty': False},
 {'name': 'sample_airbnb', 'sizeOnDisk': 55537664.0, 'empty': False},
 {'name': 'sample_analytics', 'sizeOnDisk': 9244672.0, 'empty': False},
 {'name': 'sample_geospatial', 'sizeOnDisk': 1073152.0, 'empty': False},
 {'name': 'sample_mflix', 'sizeOnDisk': 33828864.0, 'empty': False},
 {'name': 'sample_supplies', 'sizeOnDisk': 983040.0, 'empty': False},
 {'name': 'sample_training', 'sizeOnDisk': 70635520.0, 'empty': False},
 {'name': 'sample_weatherdata', 'sizeOnDisk': 2543616.0, 'empty': False},
 {'name': 'admin', 'sizeOnDisk': 352256.0, 'empty': False},
 {'name': 'local', 'sizeOnDisk': 6865674240.0, 'empty': False}]

Desde Atlas podemos añadir bases de datos de prueba pulsando en  `...` a la derecha de connect y eligiendo 'load_sample_set' del menú que se despliega. Los detalles de las colecciones cargadas están en:

https://docs.atlas.mongodb.com/sample-data/available-sample-datasets/

**Ejercicio 2** En pymongo:

* `client.list_databases()` devuelve un cursor con todas las bases de datos disponibles. Cada elemento del cursor es un diccionario Python de la forma:

```
{'name': 'elections', 'sizeOnDisk': 131072.0, 'empty': False}
```

Es decir, el nombre de la base de datos, lo que ocupa en bytes y si está vacía

* Si db es la base de datos actual, `db.list_collection_names()` devuelve una lista con todas las colecciones. 

* `db.coleccion.count_documents({})` devuelve el número total de documentos de una colección

Escribir código para mostrar los nombres de todas las bases de datos de nuestro clúster, y para cada una cada colección con su número de elementos.

La salida esperada será del estilo:

```
*** Database:  sample_airbnb
listingsAndReviews 5555
*** Database:  sample_analytics
accounts 1746
customers 500
transactions 1746
*** Database:  sample_geospatial
shipwrecks 11095
*** Database:  sample_mflix
comments 50304
sessions 1
```

Ayuda: Sabemos que `db = client.hola` nos permite acceder a la base de datos hola. Sin embargo, si el nombre de la base de datos está en una variable, digamos `x='hola'` lógicamente no podemos acceder haciendo `db = client.x`, que lo que haría es emplear la base de datos `x`. En su lugar, podemos hacer `db = client[x]`. Igual pasa para las colecciones: `db.coleccion.find()` accede a la `coleccion` pero si el nombre está en una variable `y`usaremos `db[y].find()`.

Esta forma de acceso es válida en pymongo, pero también en la shell de MongoDB y se utiliza mucho en scripts.



In [4]:
# Solución
'''databases = list(client.list_databases())
for i in range(0, len(databases)):
    print("*** Database: " + databases[i]["name"])
    db = client[databases[i]["name"]]
    collections = db.list_collection_names()
    for j in range(0, len(collections)):
        print(collections[j] + " " + str(db[collections[j]].count_documents({})))'''
        


# Descomentar la siguiente línea si se sigue queriendo utilizar mi conexión
# client = MongoClient('mongodb+srv://herminia:gominolas@cluster0-nubot.mongodb.net/test?retryWrites=true&w=majority')





'databases = list(client.list_databases())\nfor i in range(0, len(databases)):\n    print("*** Database: " + databases[i]["name"])\n    db = client[databases[i]["name"]]\n    collections = db.list_collection_names()\n    for j in range(0, len(collections)):\n        print(collections[j] + " " + str(db[collections[j]].count_documents({})))'

Nosotros vamos a utilizar preferentemente MongoDB desde Python, pero Atlas permite realizar desde el navegador consultas. Para más detalles:

https://docs.atlas.mongodb.com/data-explorer/cloud-agg-pipeline/


**Ejercicio 3**

Vamos a hacer alguna consulta sobre la base de datos de prueba de películas, en particular la colección `movies` de
la base de datos `sample_mflix`. Un ejemplo de documento se puede ver en:

https://docs.atlas.mongodb.com/sample-data/sample-mflix/#mflix-movies

Veamos el aspecto de los documentos:

In [5]:
import pprint
pp = pprint.PrettyPrinter(indent=4)

client = MongoClient('mongodb+srv://herminia:gominolas@cluster0-nubot.mongodb.net/test?retryWrites=true&w=majority')
db = client.sample_mflix
rs = db.movies.find({}).limit(5)
for doc in rs:
    pp.pprint(doc)

{   '_id': ObjectId('573a1390f29313caabcd42e8'),
    'awards': {'nominations': 0, 'text': '1 win.', 'wins': 1},
    'cast': [   'A.C. Abadie',
                "Gilbert M. 'Broncho Billy' Anderson",
                'George Barnes',
                'Justus D. Barnes'],
    'countries': ['USA'],
    'directors': ['Edwin S. Porter'],
    'fullplot': 'Among the earliest existing films in American cinema - '
                'notable as the first film that presented a narrative story to '
                'tell - it depicts a group of cowboy outlaws who hold up a '
                'train and rob the passengers. They are then pursued by a '
                "Sheriff's posse. Several scenes have color included - all "
                'hand tinted.',
    'genres': ['Short', 'Western'],
    'imdb': {'id': 439, 'rating': 7.4, 'votes': 9847},
    'languages': ['English'],
    'lastupdated': '2015-08-13 00:27:59.177000000',
    'plot': 'A group of bandits stage a brazen train hold-up, only to find a '

**Ejercicio 4** 
Obtener una lista de géneros diferentes (clave "genres). Luego por cada elemento de la lista mostrar cuántas películas hay de cada uno de esos géneros.

Usar `distinct` y `count_document`

In [6]:
#Solución
genres = list(db.movies.distinct("genres"))
for gen in genres:
    print(gen + " " + str(db.movies.count_documents({"genres":gen})))

Action 2539
Adventure 2045
Animation 971
Biography 1404
Comedy 7024
Crime 2678
Documentary 2129
Drama 13789
Family 1311
Fantasy 1153
Film-Noir 105
History 999
Horror 1703
Music 840
Musical 487
Mystery 1259
News 51
Romance 3665
Sci-Fi 1034
Short 478
Sport 390
Talk-Show 1
Thriller 2658
War 794
Western 274


**5**.- Lo mismo, pero ordenado de mayor a menor por número de películas con ese género. La salida debe ser del estilo:

    Drama 13789
    Comedy 7024
    Romance 3665
    ...

In [7]:
#solución
cursor = db.movies.aggregate([{"$unwind":{"path":"$genres"}
                              },
                              {"$group":
                               {"_id":"$genres", "total":{"$sum":1}}
                                },
                             {"$sort": {"total":-1} }])
for doc in cursor:
    print(doc["_id"],doc["total"])

Drama 13789
Comedy 7024
Romance 3665
Crime 2678
Thriller 2658
Action 2539
Documentary 2129
Adventure 2045
Horror 1703
Biography 1404
Family 1311
Mystery 1259
Fantasy 1153
Sci-Fi 1034
History 999
Animation 971
Music 840
War 794
Musical 487
Short 478
Sport 390
Western 274
Film-Noir 105
News 51
Talk-Show 1


**6** Dentro  de las películas que son a la vez de tipo 'Comedy', 'Romance' y 'Crime', mostrar los títulos de las 10 que obtienen mejor 'rating' por el público (`viewer`) dentro de la crítica realizada por la web 'rotten tomatoes',  que puede encontrarse bajo la clave `tomatoes`

No utilizar el operador $and. Tampoco hace falta usar aggregate

*Nota*: La sintaxis que permite ordenar (sort) en `pymongo`, es un poco diferente de la que hemos visto en la shell. Sort tiene como argumento una lista de parejas: 


      db.col.find(...).sort([(k1,d1),(k2,d2) ])
      
donde cada k es una clave de mongo (por ejemplo "direcccion.CP" y cada d puede ser pymongo.DESCENDING o pymongo.ASCENDING
   
   
La salida será de la forma

    Trouble in Paradise 4.2
    How to Steal a Million 4.0
    Johnny Stecchino 3.8

In [8]:
## solución

cursor = db.movies.find( {"genres":{"$all":["Comedy", "Romance", "Crime"]}}, {"_id":0, "title":1, "tomatoes.viewer.rating":1} )\
.sort([("tomatoes.viewer.rating", pymongo.DESCENDING)])\
.limit(10)


for doc in cursor:
    print(doc["title"], doc["tomatoes"]["viewer"]["rating"])

Trouble in Paradise 4.2
How to Steal a Million 4.0
Johnny Stecchino 3.8
Pretty Poison 3.7
Operation 'Y' & Other Shurik's Adventures 3.6
Grosse Pointe Blank 3.6
Shooting Fish 3.5
Greenfingers 3.5
The Black Marble 3.3
You Kill Me 3.3


**Ejercicio 7** Ahora queremos optimizar consultas. Veamos primero una consulta, y calculemos cuánto tarda (ojo que esto depende de nuestra conexión, si tarda demasiado -más de 45 segundos- pararlo y disminuir el valor de `veces`)

Nota: si habéis creado vuestra cuenta en atlas, es conveniente que la utilicéis, y no la mia, porque si coincidís varios los resultados pueden desvirtuarse.


In [9]:
#borramos los índices
db.movies.drop_indexes()
rs = db.movies.find({"imdb.votes":{"$gt":450}},{"title":1,"_id":0}).sort([("imdb.rating",pymongo.DESCENDING)])
plan = rs.explain() 
plan


{'queryPlanner': {'plannerVersion': 1,
  'namespace': 'sample_mflix.movies',
  'indexFilterSet': False,
  'parsedQuery': {'imdb.votes': {'$gt': 450}},
  'winningPlan': {'stage': 'PROJECTION_SIMPLE',
   'transformBy': {'title': 1, '_id': 0},
   'inputStage': {'stage': 'SORT',
    'sortPattern': {'imdb.rating': -1},
    'inputStage': {'stage': 'SORT_KEY_GENERATOR',
     'inputStage': {'stage': 'COLLSCAN',
      'filter': {'imdb.votes': {'$gt': 450}},
      'direction': 'forward'}}}},
  'rejectedPlans': []},
 'executionStats': {'executionSuccess': True,
  'nReturned': 18522,
  'executionTimeMillis': 96,
  'totalKeysExamined': 0,
  'totalDocsExamined': 23539,
  'executionStages': {'stage': 'PROJECTION_SIMPLE',
   'nReturned': 18522,
   'executionTimeMillisEstimate': 19,
   'works': 42065,
   'advanced': 18522,
   'needTime': 23542,
   'needYield': 0,
   'saveState': 328,
   'restoreState': 328,
   'isEOF': 1,
   'transformBy': {'title': 1, '_id': 0},
   'inputStage': {'stage': 'SORT',
    

El plan es un diccionario. En particular nos interesa la clave 'winningPlan'

    'winningPlan': {'stage': 'PROJECTION_SIMPLE',
           'transformBy': {'title': 1, '_id': 0},
           'inputStage': {'stage': 'SORT',
            'sortPattern': {'imdb.rating': -1},
            'inputStage': {'stage': 'SORT_KEY_GENERATOR',
             'inputStage': {'stage': 'COLLSCAN',
              'filter': {'imdb.votes': {'$gt': 450}},
              'direction': 'forward'}}}}
          
 El diccionario está anidado. En cada nivel nos interesa la clave `stage` que indica el tipo de operación, y la clave    `inputStage` que indica el paso anterior. A su vez ese `inputStage` vuelve a tener su `stage` y, si el nivel actual no es el primero, un `inputStage`... una estructura recursiva
 
 Escribir una función `etapas_explain` que, a partir del contenido de una clave `winningPlan` del documento devuelto por explain() devuelva la lista de etapas `stage`, con la más interior la primera
 

In [10]:
# Solución

def etapas_explain(dictionary):
    if "inputStage" in dictionary:
        etapas_explain(dictionary["inputStage"])
        
    print(dictionary["stage"])

In [11]:

# para probar. Con esta consulta debe salir: ['COLLSCAN', 'PROJECTION_SIMPLE']
db.movies.drop_indexes()
rs = db.movies.find({"imdb.votes":{"$gt":450}},{"title":1,"_id":0})
plan = rs.explain()
etapas_explain(plan['queryPlanner']['winningPlan'])

COLLSCAN
PROJECTION_SIMPLE


**Ejercicio 8** Crear un índice para mejorar la eficiencia de la consulta anterior

In [12]:
#solución
db.movies.create_index([ ("imdb.votes", 1), ("title", 1) ])

'imdb.votes_1_title_1'

In [13]:
# Para probar
rs = db.movies.find({"imdb.votes":{"$gt":450}},{"title":1,"_id":0})
plan = rs.explain() 
etapas_explain(plan['queryPlanner']['winningPlan'])

IXSCAN
PROJECTION_COVERED


Si se crea bien el índice tendremos un plan de la forma: ['IXSCAN', 'PROJECTION_COVERED']

Fijaos que IXSCAN utiliza el índice, en luga de 'COLLSCAN' que se recorría toda la colección. Además, 'PROJECTION_COVERED' indica que no hace falta consultar ningún documento, porque los datos necesarios ya están en el índice