# ¡Antes de comenzar!
Para poder ejecutar el código presente en este colab, es necesario que ya tengas creado tu clúster en Mongo Atlas, de lo contrario, no podrás conectarte. Para saber cómo crear tu primer clúster en Mongo Atlas, dirígete a [Campus](https://campus.devf.la) y consulta el video **"Tutorial Preparando nuestra base de datos con MongoDB"** dentro la **Kata Data Wranling**

## Importamos nuestros paquetes

In [None]:
# Si quieres ejecutar este notebook localmente o te lanza error colab,
# puedes instalar las dependencias manualmente con los siguientes comandos
!pip install dnspython
# !pip install pymongo[srv]
import dns
from pymongo import MongoClient
import pandas as pd
# Para obtener archivos json desde URL
from urllib.request import urlopen
import json



## Vamos a conectarnos con nuestra base de datos

Cuando realizamos una conexión con una base de datos, sea relacional o no, esta conexión se hace a través de algo llamado "cliente". Esto, siguiendo la arquitectura cliente-servidor, donde el cliente se conecta y hace peticiones, mientras el servidor las resuelve y retorna respuestas a esas peticiones.

En el caso de Mongo, solo necesitaremos nuestra cadena de conexión, recuerda que es la misma que utilizaste para conectarte mediante Mongo Compass

In [None]:
# Creamos una conexión con Mongo
client = MongoClient('mongodb+srv://omar:5dam6bAH4qW5dB3m@cluster0.ivgnl.mongodb.net/test')

In [None]:
client

MongoClient(host=['cluster0-shard-00-00.ivgnl.mongodb.net:27017', 'cluster0-shard-00-02.ivgnl.mongodb.net:27017', 'cluster0-shard-00-01.ivgnl.mongodb.net:27017'], document_class=dict, tz_aware=False, connect=True, authsource='admin', replicaset='atlas-bb3rar-shard-0', ssl=True)

Ya tenemos hecha nuestra colección. Comenzaremos con la C del CRUD, es decir, la creación de nuevos datos en nuestra base de datos.

# CRUD

## Crear

### Explorando las bases de datos y colecciones disponibles

Antes de comenzar a crear, debemos saber con qué contamos.

In [None]:
# Primero, conseguiremos un listado de las bases de datos existentes:

print(client.list_database_names()) # Análogo a SHOW DATABASES

['_____Amazon', 'master-data', 'admin', 'local']


Por defecto, en Mongo siempre contaremos con las bases de datos **admin** y **local**, las demás podemos decir que son bases de datos creadas por nosotros.

Echemos un vistazo a la base de datos "master-data". *Recuerda que en tu caso puede llamarse de otra manera.*

In [None]:
# Echamos un vistazo a las colecciones de master-data
db = client.list_database_names()[1] # Según lo que vimos en la casilla anterior,
                                     # master-data es el primer elemento de la lista

client[db].list_collection_names() # Análogo a USE basededatos

['spotify', 'amazon']

In [None]:
# También podemos realizar lo anterior para todas las bases de datos mediante un ciclo
for item in client.list_database_names():
    tempDB = client[item]
    print(f'Database: {item:<20}, Collections: {tempDB.list_collection_names()}')

Database: _____Amazon         , Collections: ['exampleReviews']
Database: master-data         , Collections: ['spotify', 'amazon']
Database: admin               , Collections: []
Database: local               , Collections: ['replset.initialSyncId', 'clustermanager', 'startup_log', 'replset.minvalid', 'oplog.rs', 'replset.oplogTruncateAfterPoint', 'replset.election']


### Crear bases de datos y colecciones

En Mongo, es importante mencionar dos cosas al intentar crear una nueva base de datos:

1. **Toda nueva base de datos requiere de al menos una colección**. Contrario a lo que pasa en SQL, no es posible crear una base de datos sin crear al mismo tiempo su primer colección.
2. Mongo crear tanto la base como la primera colección de forma "lazy", esto quiere decir que **no existirán realmente hasta que hayamos insertado el primer documento** en la colección.

Dicho lo anterior, el siguiente código nos permite crear dos apuntadores a una base de datos y una colección que aún no existen.

In [None]:
# Sustituye ____ por tu nombre y primera letra de apellido paterno
# Así evitamos que todos intentemos crear la misma BD
nueva_bd = "gonzalopAmazon"
# "Apuntador" una base de datos
db = client[nueva_bd]

# "Apuntador" una colección
coll = db["exampleReviews"]

# RECUERDA: Esta base de datos y su colección no existirán hasta que se inserte
# al menos un documento

### Insertando documentos

Hay dos métodos de PyMongo para insertar datos, y esas mismas dos formas son las únicas que existen para MongoDB


*   **insert_one**: Equivalente a **insertOne** de MongoDB, permite insertar únicamente un documento a una colección dada.
*   **insert_many**: Equivalente a **insertMany** de MongoDB, permite insertar múltiples documentos a una colección dada. Puede fallar si alguno de los documentos tiene errores.



In [None]:
# Obtenemos datos de una versión simplificada del dataset de Amazon
url = 'https://raw.githubusercontent.com/Krax7/master-data-ai/main/Kata%20Data%20Wrangling/Amazon_Musical_Instruments_5_minified.json'
json_url = urlopen(url)
amazonData = json.loads(json_url.read())
print(amazonData[0])

{'reviewerID': 'A2IBPI20UZIR0U', 'asin': '1384719342', 'reviewerName': 'cassandra tu "Yeah, well, that\'s just like, u...', 'helpful': [0, 0], 'reviewText': "Not much to write about here, but it does exactly what it's supposed to. filters out the pop sounds. now my recordings are much more crisp. it is one of the lowest prices pop filters on amazon so might as well buy it, they honestly work the same despite their pricing,", 'overall': 5.0, 'summary': 'good', 'unixReviewTime': 1393545600, 'reviewTime': '02 28, 2014'}


In [None]:
print(amazonData[1])

{'reviewerID': 'A14VAT5EAX3D9S', 'asin': '1384719342', 'reviewerName': 'Jake', 'helpful': [13, 14], 'reviewText': "The product does exactly as it should and is quite affordable.I did not realized it was double screened until it arrived, so it was even better than I had expected.As an added bonus, one of the screens carries a small hint of the smell of an old grape candy I used to buy, so for reminiscent's sake, I cannot stop putting the pop filter next to my nose and smelling it after recording. :DIf you needed a pop filter, this will work just as well as the expensive ones, and it may even come with a pleasing aroma like mine did!Buy this product! :]", 'overall': 3.0, 'summary': 'Jake', 'unixReviewTime': 1363392000, 'reviewTime': '03 16, 2013'}


In [None]:
# Creamos un solo documento
one_document = amazonData[0]
coll.insert_one(one_document)

# Creamos los demás documentos incluidos en el archivo, excepto el primero que
# ya insertamos en la línea anterior.
all_records = amazonData[1:]
all_records

[{'asin': '1384719342',
  'helpful': [13, 14],
  'overall': 3.0,
  'reviewText': "The product does exactly as it should and is quite affordable.I did not realized it was double screened until it arrived, so it was even better than I had expected.As an added bonus, one of the screens carries a small hint of the smell of an old grape candy I used to buy, so for reminiscent's sake, I cannot stop putting the pop filter next to my nose and smelling it after recording. :DIf you needed a pop filter, this will work just as well as the expensive ones, and it may even come with a pleasing aroma like mine did!Buy this product! :]",
  'reviewTime': '03 16, 2013',
  'reviewerID': 'A14VAT5EAX3D9S',
  'reviewerName': 'Jake',
  'summary': 'Jake',
  'unixReviewTime': 1363392000},
 {'asin': '1384719342',
  'helpful': [1, 1],
  'overall': 1.0,
  'reviewText': 'The primary job of this device is to block the breath that would otherwise produce a popping sound, while allowing your voice to pass through with

In [None]:
coll.insert_many(all_records)

<pymongo.results.InsertManyResult at 0x7f57a476e910>

Cabe resaltar que los documentos son equivalentes a los diccionarios en Python respecto a su estructura.

Por lo tanto, si creamos un diccionario directamente con Python, también podemos insertarlo en la colección:

In [None]:
# Nuevamente creamos un solo documento
coll.insert_one({'reviewerID': 'A2IBPI20UZXXXX',
                 'asin': '12122343',
                 'reviewerName': 'Alumno del Master G9',
                 'helpful': [0, 0],
                 'reviewText': "Me encanta construir diccionarios. No tiene nada que ver con la review pero tenía que decirlo",
                 'overall': 5.0,
                 'summary': 'good',
                 'unixReviewTime': 1393545600,
                 'reviewTime': '02 28, 2014'})

<pymongo.results.InsertOneResult at 0x7f57a4802f50>

## Consultar

### Fabricando consultas a la base de datos

Para esta sección consultaremos la base de datos de **spotify**

In [None]:
# Apuntamos a la base de datos 'master-data'
db = client['master-data']
# Apuntamos a la colección 'spotify'
coll = db['spotify']

De nuevo, tenemos dos formas de hallar datos dentro de la colección:


*   **find_one**: Retorna el primer documento que encuentre en la colección que coincida con los criterios de búsqueda. Si utilizas este método, siempre obtendrás un único diccionario.
*   **find**: Retorna todos los documentos en la colección que coincidan con los criterios de búsqueda. Si utilizas este método, siempre obtendrás una lista de diccionarios, tendrás que iterar para obtenerlos individualmente. 

Es muy importante tomar en cuenta que el argumento para cualquiera de las dos será siempre un diccionario.


In [None]:
# Hallar todos los documentos que coincidan con los criterios de búsqueda
results = coll.find({'name':'Lady of the Evening'})
for result in results:
    print(result)

{'_id': ObjectId('60ac3cc3a0f98161601311e5'), 'name': 'Lady of the Evening', 'popularity': 0, 'duration_ms': 163080, 'explicit': 0, 'artists': "['Dick Haymes']", 'id_artists': "['3BiJGZsyX9sJchTqcSA7Su']", 'release_date': datetime.datetime(1922, 1, 1, 0, 0), 'danceability': 0.402, 'energy': 0.158, 'key': 3, 'loudness': -16.9, 'mode': 0, 'speechiness': 0.039, 'acousticness': 0.989, 'instrumentalness': 0.13, 'liveness': 0.311, 'valence': 0.196, 'tempo': 103.22, 'time_signature': 4}


Existen operadores que nos permiten refinar la búsqueda como:


*   **\$gte** y **\$gt**: greater than or equal y greater than respectivamente, sirven para buscar aquellos valores que sean más grandes que el valor condicional. En el primer caso, más grande o igual.
*   **\$lte** y **\$lt**: less than or equal y less than respectivamente, sirven para buscar aquellos valores que sean más pequeños que el valor condicional. En el primer caso, más pequeño o igual.
*   **\$eq**: equal, sirve para hallar coincidencia total con el valor condicional dado.
*   **\$ne**: not equal, sirve para hallar diferencia total con el valor condicional dado.


In [None]:
# Encontrar todas aquellas canciones cuyo energy sea mayor o igual que 0.263
energy_gte = coll.find({"energy": 
                        {"$gte": 0.263}
                        },
                       {'_id':False}).limit(10)

In [None]:
for recs in energy_gte:
    print(recs)

{'name': "Elle Prend L'boulevard Magenta", 'popularity': 0, 'duration_ms': 172027, 'explicit': 0, 'artists': "['Félix Mayol']", 'id_artists': "['7DIlOK9L8d0IQ7Xk8aJxDW']", 'release_date': datetime.datetime(1922, 1, 1, 0, 0), 'danceability': 0.709, 'energy': 0.289, 'key': 2, 'loudness': -14.978, 'mode': 1, 'speechiness': 0.18, 'acousticness': 0.967, 'instrumentalness': 0, 'liveness': 0.119, 'valence': 0.84, 'tempo': 107.515, 'time_signature': 4}
{'name': 'Ta Bouche', 'popularity': 0, 'duration_ms': 180933, 'explicit': 0, 'artists': "['Jeanne Saint Bonnet']", 'id_artists': "['4ZACxcKyd37u9WSxCAvLP2']", 'release_date': datetime.datetime(1922, 1, 1, 0, 0), 'danceability': 0.335, 'energy': 0.304, 'key': 7, 'loudness': -14.062, 'mode': 1, 'speechiness': 0.0506, 'acousticness': 0.996, 'instrumentalness': 0.0832, 'liveness': 0.102, 'valence': 0.215, 'tempo': 76.576, 'time_signature': 3}
{'name': 'Tus Suspiros - Remasterizado', 'popularity': 0, 'duration_ms': 168107, 'explicit': 0, 'artists': "

In [None]:
# Encontrar todas aquellas canciones cuyo energy sea menor que 0.263
energy_lt = coll.find({"energy": {"$lt": 0.263}},{'_id':False}).limit(10)
for recs in energy_lt:
    print(recs)

{'name': 'El Prisionero - Remasterizado', 'popularity': 0, 'duration_ms': 176907, 'explicit': 0, 'artists': "['Ignacio Corsini']", 'id_artists': "['5LiOoJbxVSAMkBS2fUm3X2']", 'release_date': datetime.datetime(1922, 3, 21, 0, 0), 'danceability': 0.321, 'energy': 0.0946, 'key': 7, 'loudness': -27.961, 'mode': 1, 'speechiness': 0.0504, 'acousticness': 0.995, 'instrumentalness': 0.918, 'liveness': 0.104, 'valence': 0.397, 'tempo': 169.98, 'time_signature': 3}
{'name': 'Martín Fierro - Remasterizado', 'popularity': 0, 'duration_ms': 181173, 'explicit': 0, 'artists': "['Ignacio Corsini']", 'id_artists': "['5LiOoJbxVSAMkBS2fUm3X2']", 'release_date': datetime.datetime(1922, 3, 29, 0, 0), 'danceability': 0.548, 'energy': 0.0391, 'key': 6, 'loudness': -23.228, 'mode': 1, 'speechiness': 0.153, 'acousticness': 0.996, 'instrumentalness': 0.933, 'liveness': 0.148, 'valence': 0.612, 'tempo': 75.595, 'time_signature': 3}
{'name': 'Capítulo 2.8 - Banquero Anarquista', 'popularity': 0, 'duration_ms': 99

In [None]:
# Encontrar todas aquellas canciones cuyo energy sea menor que 0.263
# y danceability sea mayor o igual que 0.6
# y su duración sea menor o igual que 98200
energy_all = coll.find({"energy": {"$lt": 0.263},
                    "danceability":{"$gte":0.6},
                    "duration_ms":{"$lte":98200}},
                    {'_id':False}).limit(10)
for recs in energy_all:
    print(recs)

{'name': 'Capítulo 1.10 - Banquero Anarquista', 'popularity': 0, 'duration_ms': 95800, 'explicit': 0, 'artists': "['Fernando Pessoa']", 'id_artists': "['14jtPCOoNZwquk5wd9DxrY']", 'release_date': datetime.datetime(1922, 6, 1, 0, 0), 'danceability': 0.7, 'energy': 0.208, 'key': 2, 'loudness': -23.874, 'mode': 1, 'speechiness': 0.956, 'acousticness': 0.691, 'instrumentalness': 0, 'liveness': 0.441, 'valence': 0.613, 'tempo': 85.739, 'time_signature': 1}
{'name': 'Capítulo 1.13 - Banquero Anarquista', 'popularity': 0, 'duration_ms': 97600, 'explicit': 0, 'artists': "['Fernando Pessoa']", 'id_artists': "['14jtPCOoNZwquk5wd9DxrY']", 'release_date': datetime.datetime(1922, 6, 1, 0, 0), 'danceability': 0.721, 'energy': 0.127, 'key': 0, 'loudness': -23.639, 'mode': 1, 'speechiness': 0.95, 'acousticness': 0.817, 'instrumentalness': 0, 'liveness': 0.178, 'valence': 0.628, 'tempo': 118.159, 'time_signature': 5}
{'name': 'Capítulo 2.7 - Banquero Anarquista', 'popularity': 0, 'duration_ms': 96100, 

In [None]:
# Encontrar todas las canciones con contenido explícito
explicit = coll.find({"explicit": {"$eq": 1}},{'_id':False}).limit(10)
for recs in explicit:
    print(recs)

{'name': 'The C00L Song', 'popularity': 0, 'duration_ms': 120309, 'explicit': 1, 'artists': "['Dampfwalzi']", 'id_artists': "['41GUFwc0gpqt495qHXpxFB']", 'release_date': datetime.datetime(1923, 2, 26, 0, 0), 'danceability': 0.503, 'energy': 0.823, 'key': 9, 'loudness': -12.871, 'mode': 0, 'speechiness': 0.064, 'acousticness': 0.000243, 'instrumentalness': 0.64, 'liveness': 0.473, 'valence': 0.401, 'tempo': 97.019, 'time_signature': 4}
{'name': 'En Concreto', 'popularity': 0, 'duration_ms': 185481, 'explicit': 1, 'artists': "['Hot Doggo']", 'id_artists': "['5oHqWQeXiITZ7NP1MSN79N']", 'release_date': datetime.datetime(1924, 3, 3, 0, 0), 'danceability': 0.739, 'energy': 0.789, 'key': 7, 'loudness': -7.272, 'mode': 1, 'speechiness': 0.178, 'acousticness': 0.382, 'instrumentalness': 0.00107, 'liveness': 0.116, 'valence': 0.657, 'tempo': 90.04, 'time_signature': 4}
{'name': 'Higher Power Part Duece', 'popularity': 0, 'duration_ms': 231863, 'explicit': 1, 'artists': "['Numba 9']", 'id_artists

In [None]:
# Encontrar todas las canciones con contenido no explícito
not_explicit = coll.find({"explicit": {"$ne": 1}},{'_id':False}).limit(10)
for recs in not_explicit:
    print(recs)

{'name': 'El Prisionero - Remasterizado', 'popularity': 0, 'duration_ms': 176907, 'explicit': 0, 'artists': "['Ignacio Corsini']", 'id_artists': "['5LiOoJbxVSAMkBS2fUm3X2']", 'release_date': datetime.datetime(1922, 3, 21, 0, 0), 'danceability': 0.321, 'energy': 0.0946, 'key': 7, 'loudness': -27.961, 'mode': 1, 'speechiness': 0.0504, 'acousticness': 0.995, 'instrumentalness': 0.918, 'liveness': 0.104, 'valence': 0.397, 'tempo': 169.98, 'time_signature': 3}
{'name': 'Martín Fierro - Remasterizado', 'popularity': 0, 'duration_ms': 181173, 'explicit': 0, 'artists': "['Ignacio Corsini']", 'id_artists': "['5LiOoJbxVSAMkBS2fUm3X2']", 'release_date': datetime.datetime(1922, 3, 29, 0, 0), 'danceability': 0.548, 'energy': 0.0391, 'key': 6, 'loudness': -23.228, 'mode': 1, 'speechiness': 0.153, 'acousticness': 0.996, 'instrumentalness': 0.933, 'liveness': 0.148, 'valence': 0.612, 'tempo': 75.595, 'time_signature': 3}
{'name': 'Capítulo 2.8 - Banquero Anarquista', 'popularity': 0, 'duration_ms': 99

In [None]:
# Encontrar todas las canciones con contenido no explícito
not_explicit = coll.find({"explicit": {"$ne": 1}},{'_id': 0, 'name':1, 'explicit':1}).limit(10)
for recs in not_explicit:
    print(recs)

{'name': 'El Prisionero - Remasterizado', 'explicit': 0}
{'name': 'Martín Fierro - Remasterizado', 'explicit': 0}
{'name': 'Capítulo 2.8 - Banquero Anarquista', 'explicit': 0}
{'name': 'Capítulo 2.25 - Banquero Anarquista', 'explicit': 0}
{'name': "Elle Prend L'boulevard Magenta", 'explicit': 0}
{'name': 'Capítulo 1.18 - Banquero Anarquista', 'explicit': 0}
{'name': 'Capítulo 1.10 - Banquero Anarquista', 'explicit': 0}
{'name': 'Ta Bouche', 'explicit': 0}
{'name': 'Capítulo 1.22 - Banquero Anarquista', 'explicit': 0}
{'name': "J'ai Vendu Mon Âme", 'explicit': 0}


### Consultas con Regex

Las expresiones regulares o "regex" son un gran aliado para hallar registros que sigue un patrón particular en sus cadenas de texto.

El potencial de regex es enorme. Puedes encontrar todo lo que puedes hacer con expresiones regulares [aquí](https://docs.mongodb.com/manual/reference/operator/query/regex/)

In [None]:
# Find all the documents which belong to the pop genre
# Capítulo
# Remasterizado$
# Blue
banquero_songs = coll.find({"name": {"$regex": "Blue"}},{'_id':False}).limit(10)
for recs in banquero_songs:
    print(recs['name'])

Young Woman's Blues
Work House Blues
Blue Again
Between The Devil And The Deep Blue Sea
St. Louis Blues (with Louis Armstrong)
Gut Bucket Blues
Basin Street Blues - rec. 1928
Potato Head Blues
Empty Bed Blues, Pt. 1
Blue Yodel No. 9


### Aggregations

Las agregaciones en Mongo son formas de construir queries muy complejas utilizando un sistema de "etapas" (stages), donde cada stage efectúa una operación y el resultado de dicha operación funge como entrada para la siguiente etapa.

Al verlo desde esta perspectiva la consulta luce como si fuera una tubería que conecta un stage con otro de inicio a fin, es por eso que al conjunto de stages se le llama **pipeline**.


In [None]:
thumbs_up_total = [2]
helpful_reviews = db.amazon.aggregate(
    [
      {
          '$match': {
              'overall': 1, 
              'helpful': {
                  '$in': thumbs_up_total
              }
          }
      }, {
          '$addFields': {
              'helpful_thumbs_up': {
                  '$first': '$helpful'
              }
          }
      }, {
          '$unwind': {
              'path': '$helpful', 
              'preserveNullAndEmptyArrays': False
          }
      }, {
          '$match': {
              '$and': [
                  {
                      'helpful': {
                          '$ne': 4
                      }
                  }, {
                      'helpful': {
                          '$ne': 1
                      }
                  }, {
                      'helpful': {
                          '$ne': 2
                      }
                  }, {
                      'helpful': {
                          '$ne': 3
                      }
                  }
              ]
          }
      }, {
          '$project': {
              '_id': 0,
              'reviewerName': 1, 
              'helpful': 1, 
              'overall': 1, 
              'summary': 1
          }
      }
  ]
)

In [None]:
# Lo que tenemos aquí es un cursor de Mongo
print(helpful_reviews)

<pymongo.command_cursor.CommandCursor object at 0x7f57a475eed0>


In [None]:
thumbs_up_total = [2]
query = [
      {
          '$match': {
              'overall': 1, 
              'helpful': {
                  '$in': thumbs_up_total
              }
          }
      }, {
          '$addFields': {
              'helpful_thumbs_up': {
                  '$first': '$helpful'
              }
          }
      }, {
          '$unwind': {
              'path': '$helpful', 
              'preserveNullAndEmptyArrays': False
          }
      }, {
          '$match': {
              '$and': [
                  {
                      'helpful': {
                          '$ne': 4
                      }
                  }, {
                      'helpful': {
                          '$ne': 1
                      }
                  }, {
                      'helpful': {
                          '$ne': 2
                      }
                  }, {
                      'helpful': {
                          '$ne': 3
                      }
                  }
              ]
          }
      }, {
          '$project': {
              '_id': 0,
              'reviewerName': 1, 
              'helpful': 1, 
              'overall': 1, 
              'summary': 1
          }
      }
  ]

In [None]:
# Explore aggregation by steps
thumbs_up_total = [2]
helpful_reviews = db.amazon.aggregate(query[:])
#print(list(helpful_reviews)[1])

### Transformar a data frame con Pandas

In [None]:
# No podemos convertir un cursor a Data Frame directamente, primero debemos
# convertirlo en una lista de diccionarios
results_list = list(helpful_reviews)

In [None]:
results_list

[{'helpful': 30,
  'overall': 1,
  'reviewerName': 'James Moulton',
  'summary': 'It distorts'},
 {'helpful': 0,
  'overall': 1,
  'reviewerName': 'Jerry',
  'summary': 'Got this for my Boss Loop Station.'},
 {'helpful': 0,
  'overall': 1,
  'reviewerName': 'Ana Pendragon',
  'summary': 'Must have done something wrong...'},
 {'helpful': 0,
  'overall': 1,
  'reviewerName': 'Kevin "k"',
  'summary': 'Total bust'},
 {'helpful': 5,
  'overall': 1,
  'reviewerName': 'Mr. GrvThang',
  'summary': 'Save your money! A cheaper alternative...'},
 {'helpful': 0,
  'overall': 1,
  'reviewerName': 'A. perez "mr right"',
  'summary': 'best deal cheap cables'},
 {'helpful': 7,
  'overall': 1,
  'reviewerName': 'synthezatory',
  'summary': 'Crackling & cutted out signals'},
 {'helpful': 0,
  'overall': 1,
  'reviewerName': 'Paul Kacprzak',
  'summary': 'I hate it.'},
 {'helpful': 17, 'overall': 1, 'reviewerName': 'Brian F.', 'summary': 'Dull'},
 {'helpful': 5,
  'overall': 1,
  'reviewerName': 'Kevin 

In [None]:
# Por último, convertimos a Data Frame
df = pd.DataFrame(results_list)
df.head()

Unnamed: 0,reviewerName,helpful,overall,summary
0,James Moulton,30,1,It distorts
1,Jerry,0,1,Got this for my Boss Loop Station.
2,Ana Pendragon,0,1,Must have done something wrong...
3,"Kevin ""k""",0,1,Total bust
4,Mr. GrvThang,5,1,Save your money! A cheaper alternative...


## Actualizar

### Actualizar un campo

En el diseño original de la base de datos, el dato overall corresponde a la valoración del instrumento en una escala del 1 al 5.

Imagina que ahora queremos conocer esos datos pero en términos de porcentaje. ¿Cómo podríamos actualizar los datos para que esto suceda?

In [None]:
""" Vamos a utilizar nuestra base de muestra que creamos anteriormente para
evitar alterar la original """
# Apuntamos a la base de datos
db = client[nueva_bd]
# Apuntamos a la colección 'spotify'
coll = db['exampleReviews']

In [None]:
# Actualizar overall
allReviewsMult = coll.update_many(# Criterio de filtrado
                            {},
                            # Criterio de actualización
                            { "$mul": {"overall": 100} })


In [None]:
allReviewsPct = coll.aggregate([
      {
          '$addFields': {
              'overall_pct': { '$divide': ['$overall', 5] }
          }
      }
])

In [None]:
for recs in allReviewsPct:
    print(recs)

{'_id': ObjectId('6178a13957b1ec54b805d612'), 'reviewerID': 'A2IBPI20UZIR0U', 'asin': '1384719342', 'reviewerName': 'cassandra tu "Yeah, well, that\'s just like, u...', 'helpful': [0, 0], 'reviewText': "Not much to write about here, but it does exactly what it's supposed to. filters out the pop sounds. now my recordings are much more crisp. it is one of the lowest prices pop filters on amazon so might as well buy it, they honestly work the same despite their pricing,", 'overall': 500.0, 'summary': 'good', 'unixReviewTime': 1393545600, 'reviewTime': '02 28, 2014', 'overall_pct': 100.0}
{'_id': ObjectId('6178a16757b1ec54b805d613'), 'reviewerID': 'A14VAT5EAX3D9S', 'asin': '1384719342', 'reviewerName': 'Jake', 'helpful': [13, 14], 'reviewText': "The product does exactly as it should and is quite affordable.I did not realized it was double screened until it arrived, so it was even better than I had expected.As an added bonus, one of the screens carries a small hint of the smell of an old gr

In [None]:

result = coll.update_many({"reviewerName": 'RustyBill "Sunday Rocker"'},
                          {"$set": {"reviewerName": "Duplicated Sunday Rocker"}},
                          upsert = False)

print(f"Matched: {result.matched_count}, Modified: {result.modified_count}")

Matched: 2, Modified: 2


## Borrar

In [None]:
# Delete all reviews for Duplicated Sunday Rocker
result = coll.delete_many({"reviewerName": "Duplicated Sunday Rocker"})
print(f"Deleted: {result.deleted_count}")

Deleted: 2


In [None]:

# Delete all the songs having popularity less than 4
result = coll.delete_many({"overall": {"$lte": 100000}})
print(f"Deleted: {result.deleted_count}")

Deleted: 4
