# Tratamiento de datos masivos

## Práctica 2 
## Tratamiento de datos masivos - Facultad de Informática - Pablo C. Cañizares

- Se valorará la claridad del código y evitar redundancias o código poco eficiente; en particular se valorará lograr el resultado de las consultas mediante MongoDB minimizando el uso de Python. En particular en el caso de usar `find` se valorará que se pidan justo los documentos que se necesitan (primer argumento) y justo de ellos la información que se requiere (segundo argumento)
- Además de las funciones que se piden se pueden añadir otras auxiliares si se necesitan, y también otros imports
- El código debe funcionar correctamente no solo con las pruebas que vienen de ejemplo sino con cualquier otra prueba

Se requiere tener acceso a un servidor, ya sea arrancado en local o en la nube. Comprobar con el siguiento código si se puede acceder a él:

In [4]:
# cambiar si hace falta, ahora está para servidor local
url_servidor = "mongodb://127.0.0.1:27017/"

import sys

# comprobar si pymongo está instalado, y hacerlo en otro caso
try:
    import pymongo

    print("pymongo está en el sistema!")
except ImportError as e:
    !{sys.executable} -m pip install --upgrade --user pymongo
    import pymongo

try:
    import pprint

    print("pprint está en el sistema!")
except ImportError as e:
    !{sys.executable} -m pip install --upgrade --user pprint
    import pprint

try:
    import urllib

    print("urllib está en el sistema!")
except ImportError as e:
    !{sys.executable} -m pip install --upgrade --user urllib
    import urllib

from pprint import pprint  # para mostrar los json bonitos
from pymongo import MongoClient

# Atlas:
# client = MongoClient("mongodb+srv://aniceto:castañas@cluster0.nubot.mongodb.net/test?retryWrites=true&w=majority")
client = MongoClient(url_servidor)

# código para ver si se ha conectado bien
try:
    s = client.server_info()  # si hay error tendremos una excepción
    print("Conectado a MongoDB, versión", s["version"])
except:
    print("Error de conexión ¿está arrancado el servidor?")

pymongo está en el sistema!
pprint está en el sistema!
urllib está en el sistema!
Conectado a MongoDB, versión 7.0.14


Ahora cargamos datos al servidor desde la red

In [5]:
import json  # para transformar la línea leida (string) a json
import urllib.request  # para leer de la URL línea a línea


def carga_desde_fichero(db, fichero, coleccion):
    db[coleccion].drop()  # la borramos
    exito, error = 0, 0
    # cargamos los datos desde el fichero
    try:
        with urllib.request.urlopen(fichero) as f:
            for line in f:
                line2 = line.decode("UTF-8").replace("$", "")
                res = db[coleccion].insert_one(json.loads(line2))
                if res.acknowledged:
                    exito += 1
                else:
                    error += 1
        print(
            f"Colección {coleccion}: {exito} documentos cargados con éxito y {error} errores"
        )
    except urllib.error.URLError as e:
        print(e.reason)


db = client.practica2
fichero_tweets = (
    "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/ctweet.json"
)
carga_desde_fichero(db, fichero_tweets, "tweet")


Colección tweet: 3022 documentos cargados con éxito y 0 errores


Veamos qué aspecto tienen los ducumentos que hemos cargado

In [6]:
for doc in list(db.tweet.find().limit(100)):
    pprint(doc)
    print("*" * 80)

{'RT': False,
 '_id': '1188094205299703809',
 'created_at': {'date': '2019-10-26T14:05:06Z'},
 'hashtags': [],
 'lang': 'und',
 'nRTin': 0,
 'nquotein': 35,
 'nreplyin': 0,
 'reply': False,
 'screen_name': 'DanScavino',
 'symbols': [],
 'text': 'https://t.co/iAbQ5Ip3bW https://t.co/GHMeQQqw1x',
 'user_mentions': [],
 'userid': '620571475'}
********************************************************************************
{'RT': False,
 '_id': '1188453559391666178',
 'coordinates': {'coordinates': [-75.04539574, 40.16216216], 'type': 'Point'},
 'created_at': {'date': '2019-10-27T13:53:03Z'},
 'hashtags': [{'indices': [45, 52], 'text': 'judges'},
              {'indices': [91, 97], 'text': 'Trump'},
              {'indices': [102, 114], 'text': 'evangelical'}],
 'lang': 'en',
 'nRTin': 0,
 'nquotein': 1,
 'nreplyin': 0,
 'reply': False,
 'screen_name': 'PhillyPartTwo',
 'symbols': [],
 'text': 'Unqualified ultra-conservative young federal #judges that serve no '
         'purpose but to pu

**Ejercicio 0** Escribir una función `lenguajes` que devuelva cuántos tweets están escritos en un idioma 
(clave `lang`) concreto.

- *Nombre*: `lenguajes`
- *Parámetros de entrada*: 
    - `db`: el acceso a una base de datos que se asume incluye una colección `tweet`de tweets
    - `lenguaje`: código en twitter indicando el lenguaje
   
- *Devuelve*: número de tweets que son réplicas al usuario (un entero mayor o igual que 0)

In [7]:
# solución
def lenguajes(db, lenguaje):
    return db.tweet.count_documents({"lang": lenguaje})


### para probar el código
print(lenguajes(db, "en"), " tweets en inglés")
print(lenguajes(db, "es"), " tweets en castellano")

3015  tweets en inglés
0  tweets en castellano


**Ejercicio 1** Escribir una función `num_replicas` que devuelva cuántos tweets son respuestas, o réplicas (clave `in_reply_to_screen_name`) a un usuario.

- *Nombre*: `num_replicas`
- *Parámetros de entrada*: 
    - `db`: el acceso a una base de datos que se asume incluye una colección `tweet`de tweets
    - `usuario`: screen_name de un usuario
   
- *Devuelve*: número de tweets que son réplicas al usuario (un entero mayor o igual que 0)

Salida esperada:

        25 réplicas a JoeBiden
        204 réplicas a realDonaldTrump


In [8]:
# solución
def num_replicas(db, usuario):
    return db.tweet.count_documents({"in_reply_to_screen_name": usuario})


### para probar el código
print(num_replicas(db, "JoeBiden"), "réplicas a JoeBiden")
print(num_replicas(db, "realDonaldTrump"), "réplicas a realDonaldTrump")

25 réplicas a JoeBiden
204 réplicas a realDonaldTrump


**Ejercicio 2** Escribir una función `num_menciones` para conocer el número de tweets que nombran (examinar `user_mentions`) a un usuario dado su `screen_name`
- *Nombre*: `num_menciones`
- *Parámetros de entrada*: 
    - `db`: el acceso a una base de datos que se asume incluye una colección `tweet`de tweets
    - `usuario`: screen_name de un usuario
   
- *Devuelve*: número de tweets que mencionan al usuario (un entero mayor o igual a 0)

Salida esperada:

    453 menciones a JoeBiden
    1479 menciones a realDonaldTrump


In [9]:
# solución
def num_menciones(db, usuario):
    return db.tweet.count_documents({"user_mentions.screen_name": usuario})


### para probar el código
print(num_menciones(db, "JoeBiden"), "menciones a JoeBiden")
print(num_menciones(db, "realDonaldTrump"), "menciones a realDonaldTrump")

453 menciones a JoeBiden
1479 menciones a realDonaldTrump


**Ejercicio 3** Escribir una función `citas_posteriores_a` que muestre el número de tweets que son citas (clave `quote` a True), y que se hayan emitido con posterioridad a una fecha dada

- *Nombre*: `citas_posteriores_a`
- *Parámetros de entrada*: 
    - `db`: el acceso a una base de datos que se asume incluye una colección `tweet`de tweets
    - `fecha`: un string con la fecha en el formato que se usa en este dataset
   
- *Devuelve*: Número de tweets con `quote` a True emitidos con fecha posterior a la indicada

- Obs:  Para verificar que la fecha es posterior no hay que hacer ninguna conversión ni nada similar, solo comparar la fecha de creación del tweet (clave `date` de `created_at`) con el operador la representación en Mongo del operador >.

Salida esperada: 300

In [30]:
def citas_posteriores_a(db, fecha):
    return db.tweet.count_documents({"quote": True, "created_at.date": {"$gt": fecha}})


citas_posteriores_a(db, "2020-09-24T12:49:01Z")

300

**Ejercicio 4** Escribir una función `prop_clave` para conocer la proporción de documentos que contienen una cierta clave a primer nivel en la colección tweets
- *Nombre*: `prop_clave`
- *Parámetros de entrada*: 
    - `db`: el acceso a una base de datos que se asume incluye una colección `tweet`de tweets
    - `clave`: clave a comprobar
   
- *Devuelve*: proporción sobre 1 (número entre 0 y 1) de tweets que incluyen la clave
- Obs: se puede usar python para hacer la operación aritmética que da la proporción, no tiene sentido usar MongoDB para eso

En el ejemplo se prueba la prop. de tweets que tienen coordenadas (esto es incluyen la clave 'coordinates')

Ayuda: consultar información del operador [$exists](https://docs.mongodb.com/manual/reference/operator/query/exists/) (recordar que en pymongo hay que poner el nombre entre comillas)

Salida esperada:

        Proporción de tweets con coordenadas 0.6


In [36]:
def prop_clave(db, clave):
    return db.tweet.count_documents(
        {clave: {"$exists": True}}
    ) / db.tweet.count_documents({})


print("Proporción de tweets con coordenadas", round(prop_clave(db, "coordinates"), 2))

Proporción de tweets con coordenadas 0.6


**Ejercicio 5** Escribir una función `retuiteados` que crea una lista con los `screen_name` de los usuarios que han enviado tweets que tienen al menos un cierto número de retweets (clave nRTin mayor que un valor). 

- *Nombre*: `retuiteados`
- *Parámetros de entrada*: 
    - `db`: el acceso a una base de datos que se asume incluye una colección `tweet`de tweets
    - `total`: Número mínimo que debe tomar la clave "nRTin" para que el screen_name se a incluya en la salida
- *Devuelve*: Una lista Python con los screen_name de los usuarios con tweets tales que `nRTin>=total` (puede haber `screen_name` repetidos porque un mismo usuario tenga más de un tweet con estas características)




In [60]:
def retuiteados(db, total):
    return list(
        db.tweet.find({"nRTin": {"$gte": total}}, {"_id": False, "screen_name": True})
    )


retuiteados(db, 1000)

[{'screen_name': 'LionelMedia'},
 {'screen_name': 'realDonaldTrump'},
 {'screen_name': 'TiffanyATrump'},
 {'screen_name': 'realDonaldTrump'}]

**Ejercicio 6**  Escribir una función `mas_replicado_que_citado` que devuelva el número de tweets en los que el número de citas recibidas (`nquotein`) es menor que el número de réplicas recibidas (`nreplyin`), 

- *Nombre*: `mas_replicado_que_citado`
- *Parámetros de entrada*: 
    - `db`: el acceso a una base de datos que se asume incluye una colección `tweet`de tweets
- *Devuelve*: Una lista Python con los screen_name de los usuarios con tweets tales que `nRTin>=total` (puede haber `screen_name` repetidos porque un mismo usuario tenga más de un tweet con estas características)
- *Obs*: Para comparar dos claves se debe usar el operador [$expr](https://docs.mongodb.com/manual/reference/operator/query/expr/). Observar en la ayuda que al formar parte de una expresión a las se les añade el operador `$` al principio 


In [49]:
def mas_replicado_que_citado(db):
    return db.tweet.count_documents({"$expr": {"$lt": ["$nquotein", "nreplyin"]}})


mas_replicado_que_citado(db)

3022

**Ejercicio 7** Queremos generalizar el ejercicio 2 escribiendo una función `num_menciones_todos` 
para conocer el número de tweets que nombran (examinar `user_mentions`) en el mismo tweet a un grupo de usuarios 
dado su `screen_name`
- *Nombre*: `num_menciones_todos`
- *Parámetros de entrada*: 
    - `db`: el acceso a una base de datos que se asume incluye una colección `tweet`de tweets
    - `usuarios`: lista con screen_name de algunos usuarios
   
- *Devuelve*: número de tweets que mencionan a todos los usuarios.

Pista: buscar entre los operadores para arrays de MongoDB


In [52]:
# solución
def num_menciones_todos(db, usuarios):
    return db.tweet.count_documents({"user_mentions.screen_name": {"$all": usuarios}})


### para probar el código
print(
    num_menciones_todos(db, ["JoeBiden", "realDonaldTrump"]),
    "menciones a JoeBiden y a realDonalTrump en el mismo tweet",
)
print(
    num_menciones_todos(db, ["JoeBiden", "realDonaldTrump", "CNN"]),
    "menciones a JoeBiden, realDonaldTrump y a la CNN en el mismo tweet",
)

53 menciones a JoeBiden y a realDonalTrump en el mismo tweet
4 menciones a JoeBiden, realDonaldTrump y a la CNN en el mismo tweet


**Ejercicio 8** Queremos generalizar `retuiteados` para que no repita el nombre de un usuario (`screen_name`) aunque tengan más de un tweet con la cantidad indicada de retweets (clave `nRTin` mayor que un valor). 

- *Nombre*: `retuiteados_sinrep`
- *Parámetros de entrada*: 
    - `db`: el acceso a una base de datos que se asume incluye una colección `tweet`de tweets
    - `total`: Número mínimo que debe tomar la clave "nRTin" para que el screen_name se a incluya en la salida
- *Devuelve*: Una estructura  Python con los `screen_name` de los usuarios con tweets tales que `nRTin>=total` (NO puede haber `screen_name` repetidos porque un mismo usuario aunque tenga más de un tweet con estas características)

Ayuda: esta pregunta es más de Python que de MongoDB



In [59]:
def retuiteados_sinrep(db, total):
    return list(db.tweet.distinct("screen_name", {"nRTin": {"$gte": total}}))


retuiteados_sinrep(db, 1000)

['LionelMedia', 'TiffanyATrump', 'realDonaldTrump']

**Ejercicio 9 [2 puntos]** El siguiente código añade ahora datos de usuarios, y muestra alguno de sus documentos

In [61]:
db = client.practica2
fichero_users = (
    "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/cuser.json"
)
carga_desde_fichero(db, fichero_users, "user")
for doc in list(db.user.find().limit(1000)):
    pprint(doc)
    print("*" * 80)

Colección user: 619 documentos cargados con éxito y 0 errores
{'_id': '24515539',
 'created_at': {'date': '2009-03-15T12:17:44Z'},
 'followers': 197,
 'friends_count': 979,
 'geo_enabled': True,
 'location': 'StJohn usvi,Boston,NYC,Jamaica',
 'nOriginal': 94,
 'nRT': 5,
 'nRTin': 1,
 'nTotal': 99,
 'name': 'John SchiffBLM!',
 'nquotein': 0,
 'nreplyin': 2,
 'ntweets': 4892,
 'screen_name': 'shiffy64',
 'verified': False}
********************************************************************************
{'_id': '343613163',
 'created_at': {'date': '2011-07-27T20:44:31Z'},
 'followers': 42,
 'friends_count': 197,
 'geo_enabled': True,
 'location': None,
 'nOriginal': 1,
 'nRT': 0,
 'nRTin': 0,
 'nTotal': 1,
 'name': 'usafa93',
 'nquotein': 0,
 'nreplyin': 0,
 'ntweets': 324,
 'screen_name': 'usafa1993',
 'verified': False}
********************************************************************************
{'_id': '250948559',
 'created_at': {'date': '2011-02-12T03:56:33Z'},
 'followers': 274,

Queremos escribir un código que nos muestre los tweets de un usuario a partir de su nombre (`name` en `user`). Para ello primero deberemos buscar en `user` el `nombre` en la clave `name`, quedarnos con el `_id` de ese usuario, y consultar `tweet` buscando documentos cuyo `userid` sea ese valor

- *Nombre*: `retuiteados_sinrep`
- *Parámetros de entrada*: 
    - `db`: el acceso a una base de datos que se asume incluye una colección `tweet`de tweets
    - `nombre`: Nombre del usuario. Lo buscaremos en la clave `name` de `user`
- *Devuelve*: Una lista con las claves  `text` de los documentos en tweet tales que `userid` sea igual al identificador (`_id`) correspondiente al `name`, que habremos obtenido previamente de `user` 
- *Obs*: Si el nombre de usuario no existe debe delvolver la lista vacía; igualmente si un tweet de ese usuario no tiene clave `text` simplemente no se incluira nada en la lista

In [109]:
def tweets_por_nombre(db, nombre):
    return list(
        db.tweet.find(
            {"userid": {"$in": db.user.distinct("_id", {"name": nombre})}},
            {"_id": False, "text": True},
        )
    )


print("Tweets de Michael Grant ", tweets_por_nombre(db, "Michael Grant"))
print("Tweets de Marky", tweets_por_nombre(db, "Marky"))

Tweets de Michael Grant  [{'text': '@realDonaldTrump Wall will be finished right after ‘great’ health plan is finished. Oh wait.'}, {'text': 'Next to watching @realDonaldTrump face as Biden’s hand comes off the Bible, my next wish is random phone video of @JasonMillerinDC when he internalizes defeat.'}]
Tweets de Marky [{'text': '🎤 drop #boutthatlife #bidenharris2020 #253 #tacoma #voteblue2020 #inthatorder @kamalaharris @joebiden @ Tacoma, Washington https://t.co/cxdyRNCzvq'}]
