4# Challenge: Análisis de reseñas de Amazon

¡Hola científica/científico de datos! Aquí tienes el challenge de esta clase.

Planteamiento del problema:
Imagina que trabajas en Amazon. Te han asignado a la división de análisis de datos de producto.

El trabajo de esta división es crucial, una de sus labores principales es recopilar los datos necesarios para implementar un sistema de recomendación de productos.

El equipo que implementará el modelo necesita que generemos el código para realizar 5 tareas de consulta. Prepara el código para que puedan realizar esas tareas:

1. Obtener el año en el que tuvimos más reseñas (tip: las fechas están como tipo texto, puedes utilizar `regex`).
2. Obtener únicamente las reseñas del año obtenido en el punto 1.
3. Filtrar las reseñas para quedarnos únicamente con las calificaciones más altas (overall: 5) y las más bajas (overall: 1).
4. Mediante un aggregation, obtener las reseñas "neutrales" (overall: 3) y añadir un campo extra al resultado con el formato: `label: "neutral"`. **NO ESCRIBAS EL VALOR EN LA BASE DE DATOS, SOLO DEBE APARECER EN EL RESULTADO DE LA CONSULTA**
5. Obtener el título (summary) y el nombre del autor (reviewerName), de las reseñas con mejores calificaciones (overall: 5).

## Instrucciones:

- Escribe el código para las tareas antes mencionadas.
- Utiliza la base de datos `master-data` presente en nuestro cluster y la colección `amazon`.
- Realiza cada tarea en un bloque diferente de código, es decir, no es necesario obtener un solo resultado, más bien, obtendrás un resultado distinto en cada tarea.

# Paquetes a utilizar

In [None]:
"""Mongo & Utilities"""
# Si quieres ejecutar este notebook localmente o te lanza error colab,
# puedes instalar las dependencias manualmente con los siguientes comandos
!pip install dnspython
# !pip install pymongo[srv]
import dns
from pymongo import MongoClient
import pandas as pd
import json
from urllib.request import urlopen
from pandas import json_normalize

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
# Conexión con Mongo
client = MongoClient('mongodb+srv://Sabris13:--------.@cluster0.op0o2jw.mongodb.net/test')

In [None]:
#Creación de una nueva base de datos"
nueva_bd = "amazon_review"
db = client[nueva_bd]
#Colección creada
coll = db["Reviews"]

In [None]:
# Subir dataset de Amazon a la colección de Reviews
with open('amazon.json','r') as amazon:
  data=json.load(amazon)

In [None]:
for i in range(len(data)):
  id_o=data[i]['_id']
  id_o['oid']=id_o['$oid']
  del id_o['$oid']
data[0]

{'_id': {'oid': '60ac3be5a0f981616012e9cc'},
 'reviewerID': 'A2IBPI20UZIR0U',
 'asin': '1384719342',
 'reviewerName': 'cassandra tu "Yeah, well, that\'s just like, u...',
 'helpful': [0, 0],
 'reviewText': "Not much to write about here, but it does exactly what it's supposed to. filters out the pop sounds. now my recordings are much more crisp. it is one of the lowest prices pop filters on amazon so might as well buy it, they honestly work the same despite their pricing,",
 'overall': 5,
 'summary': 'good',
 'unixReviewTime': 1393545600,
 'reviewTime': '02 28, 2014'}

In [None]:
coll.insert_many(data)

<pymongo.results.InsertManyResult at 0x7f682e0e2b90>

# Obtener el año en el que tuvimos más reseñas.



In [143]:
# Tu código aquí
years={}  #Diccionario que indique el año y la cantidad de reviews en el mismo

time= 1990  #Se empezará en el año de 1990 por conveniencia
for i in range(30): #La iteración llegará hasta 2020
  filtro=str(time)   #Convierte el año a string, ya que la fecha es una cadena de carácteres
  year=coll.find({'reviewTime':{'$regex':filtro}});  #Busca todos las reviews del año indicado
  cuenta=[]
  for y in year:
    cuenta.append(y)
    num=len(cuenta)   #Cantidad de reviews
    years[filtro]=num
  time+=1   #Aumento de año

years  #Listado creado para los años que cuentan con reviewes


{'2004': 7,
 '2005': 4,
 '2006': 10,
 '2007': 22,
 '2008': 63,
 '2009': 128,
 '2010': 350,
 '2011': 1007,
 '2012': 1936,
 '2013': 4055,
 '2014': 2679}

De lo anterior podemos ver que el año que tuvo mayor cantidad de reviews fue el **2013**.

In [144]:
year_max_review=coll.find({'reviewTime':{'$regex':"2013"}})   #Comprobación de la cantidad de reviews del año 2013
num_review=[]
for y in year_max_review:
  num_review.append(y)
len(num_review)

4055

# Obtener únicamente las reseñas del año con más reseñas.



In [158]:
# Tu código aquí
year_2013=coll.find({'reviewTime':{'$regex':"2013"}},{'reviewText':1,'_id':0}).limit(10) #Se indica un 1 para que solo aparezacan las reseñas, y en el _id un 0 para que no se visualice

for year in year_2013:
  print(year)


{'reviewText': "The product does exactly as it should and is quite affordable.I did not realized it was double screened until it arrived, so it was even better than I had expected.As an added bonus, one of the screens carries a small hint of the smell of an old grape candy I used to buy, so for reminiscent's sake, I cannot stop putting the pop filter next to my nose and smelling it after recording. :DIf you needed a pop filter, this will work just as well as the expensive ones, and it may even come with a pleasing aroma like mine did!Buy this product! :]"}
{'reviewText': 'The primary job of this device is to block the breath that would otherwise produce a popping sound, while allowing your voice to pass through with no noticeable reduction of volume or high frequencies. The double cloth filter blocks the pops and lets the voice through with no coloration. The metal clamp mount attaches to the mike stand secure enough to keep it attached. The goose neck needs a little coaxing to stay wh

# Filtrar las reseñas para quedarnos únicamente con las calificaciones más altas y las más bajas.

In [157]:
# Tu código aquí
#Reseñas con overall de 5
overall_max = coll.find({"overall": 
                        {"$eq": 5},
                        }).limit(10)
for max in overall_max:
    print(max)

{'_id': {'oid': '60ac3be5a0f981616012e9cc'}, 'reviewerID': 'A2IBPI20UZIR0U', 'asin': '1384719342', 'reviewerName': 'cassandra tu "Yeah, well, that\'s just like, u...', 'helpful': [0, 0], 'reviewText': "Not much to write about here, but it does exactly what it's supposed to. filters out the pop sounds. now my recordings are much more crisp. it is one of the lowest prices pop filters on amazon so might as well buy it, they honestly work the same despite their pricing,", 'overall': 5, 'summary': 'good', 'unixReviewTime': 1393545600, 'reviewTime': '02 28, 2014'}
{'_id': {'oid': '60ac3be5a0f981616012e9cd'}, 'reviewerID': 'A14VAT5EAX3D9S', 'asin': '1384719342', 'reviewerName': 'Jake', 'helpful': [13, 14], 'reviewText': "The product does exactly as it should and is quite affordable.I did not realized it was double screened until it arrived, so it was even better than I had expected.As an added bonus, one of the screens carries a small hint of the smell of an old grape candy I used to buy, so 

In [156]:
#Reseñas con overall de 5
overall_min = coll.find({"overall": 
                        {"$eq": 1}
                        }).limit(10)
for min in overall_min:
    print(min)

{'_id': {'oid': '60ac3be5a0f981616012ea00'}, 'reviewerID': 'A1L7M2JXN4EZCR', 'asin': 'B000068NW5', 'reviewerName': 'David G', 'helpful': [0, 0], 'reviewText': "It hums, crackles, and I think I'm having problems with my equipment.  As soon as I use any of my other cords then the problem is gone.  Hosa makes some other products that have good value.  But based on my experience I don't recommend this one.", 'overall': 1, 'summary': 'I have bought many cables and this one is the only one that gives me problems', 'unixReviewTime': 1391904000, 'reviewTime': '02 9, 2014'}
{'_id': {'oid': '60ac3be5a0f981616012ea25'}, 'reviewerID': 'A3UD50M7M72150', 'asin': 'B000068NW5', 'reviewerName': 'synthezatory', 'helpful': [0, 0], 'reviewText': "I'm a pro-cheapo and I hated this thing. They're noisy, and the cables feel really cheap, gummy-like. Drop few more bucks and get something else!", 'overall': 1, 'summary': 'Crap', 'unixReviewTime': 1394755200, 'reviewTime': '03 14, 2014'}
{'_id': {'oid': '60ac3b

# Mediante un aggregation, obtener las reseñas "neutrales" y etiquetarlas como "neutral" en el resultado de la consulta.

In [None]:
# Tu código aquí
neutral_reviews=coll.aggregate([{'$match': {'overall':{'$eq':3}}},{'$addFields':{'label':'neutral'}}])

for neu in neutral_reviews:
  print(neu['overall'],neu['label'])

# Obtener el título y el nombre del autor, de las reseñas con mejores calificaciones.

In [159]:
# Tu código aquí
overall_max = coll.find({"overall": 
                        {"$eq": 5},
                        },
                        {'summary':1,'reviewerName':1,'_id':0}).limit(10)
for max in overall_max:
    print(max)

{'reviewerName': 'cassandra tu "Yeah, well, that\'s just like, u...', 'summary': 'good'}
{'reviewerName': 'Jake', 'summary': 'Jake'}
{'reviewerName': 'Rick Bennette "Rick Bennette"', 'summary': 'It Does The Job Well'}
{'reviewerName': 'RustyBill "Sunday Rocker"', 'summary': 'GOOD WINDSCREEN FOR THE MONEY'}
{'reviewerName': 'SEAN MASLANKA', 'summary': 'No more pops when I record my vocals.'}
{'reviewerName': 'Bill Lewey "blewey"', 'summary': 'The Best Cable'}
{'reviewerName': 'Brian', 'summary': "Monster Standard 100 - 21' Instrument Cable"}
{'reviewerName': 'G. Thomas "Tom"', 'summary': 'Great cable'}
{'reviewerName': 'Kurt Robair', 'summary': 'Best Instrument Cables On The Market'}
{'reviewerName': 'Mike Tarrani "Jazz Drummer"', 'summary': 'One of the best instrument cables within the brand'}
