#  Practica 2: NoSQL con MongoDB

In [92]:
# Curso: TDM - 2023/24
# Nombre: Daniel Mihai  
# Apellidos: Rece
# Fecha: 10-10-2022


- Se valorará la claridad del código y ausencia de redundancias o código poco eficiente; en particular se valorará lograr el resultado de las consultas mediante MongoDB minimizando el uso de Python. En particular en el caso de usar `find` se valorará que se pidan justo los documentos que se necesitan (primer argumento) y justo de ellos la información que se requiere (segundo argumento)
- Además de las funciones que se piden, se pueden añadir otras auxiliares si se necesitan, y también otros imports.
- El código debe funcionar correctamente, no solo con las pruebas que vienen de ejemplo, sino con cualquier otra prueba.


## Primera parte: MongoDB

Librerías necesarias:

* `pymongo`: para la conexión a MongoDB desde Python
* `pprint`:  para hacer "un print más bonito2 de los documentos json

Se requiere tener acceso a un servidor, ya sea arrancado en local o en la nube.
Para levantar el servidor local escribimos en la terminal:
```
mongod -dbpath c:\hlocal\datos  # si estás en los equipos del laboratorio
```

```
mongod   # si estás en tu equipo
```
El servidor arranca en el puerto TCP por defecto: 27017.

Comprobar con el siguiente código si se puede acceder a él:

In [93]:
# cambiar si hace falta, ahora está para servidor local
url_servidor = 'mongodb://127.0.0.1:27017/'

from pprint import pprint # para mostrar los json bonitos
from pymongo import MongoClient


# La cadena de conexión la copio de Atlas
#client = MongoClient(f"mongodb+srv://ygarciar:{password}@cluster0.eeaqltb.mongodb.net/?retryWrites=true&w=majority")
client = MongoClient(url_servidor)

# código para ver si se ha conectado bien
try:
    s = client.server_info() # si hay error tendremos una excepción
    print("Conectado a MongoDB, versión",s["version"])
except:
    print ("Error de conexión ¿está levantado el servidor?")
       

Conectado a MongoDB, versión 7.0.2


## Creación de Base de datos y colecciones

Ahora creamos una base de datos nueva y dos colecciones nuevas con un conjunto de documentos. Los datos se encuentran en:

* Los datos de tweets se encuentran en la red. 
```
url:"https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/ctweet.json" (no hay que descargarlo)
```

* Los datos de usuarios se encuentran en local.
```
relative_path: "./data/cuser.json"
```

In [94]:
  
import json                # para transformar la línea leida (string) a json
import urllib.request      # para leer de la URL línea a línea

def carga_desde_local(db_name, path, coleccion):
    db_name[coleccion].drop() # borramos la colección en caso de que exista
    exito,error = 0,0
    # cargamos los datos desde el fichero local
    try:
        with open(path, encoding="utf8") as f:        
            for line in f:
                line2 = line.replace("$","")
                res = db_name[coleccion].insert_one(json.loads(line2))
                if res.acknowledged:
                    exito+=1
                else:
                    error+=1
        print(f"Colección {coleccion}: {exito} documentos cargados con éxito y {error} errores")
    except urllib.error.URLError as e:
        print(e.reason)

def carga_desde_red(db_name, url, coleccion):
    db_name[coleccion].drop() # la borramos
    exito,error = 0,0
    # cargamos los datos desde el fichero
    try:
        with urllib.request.urlopen(url) as f:        
            for line in f:
                line2 = line.decode("UTF-8").replace("$","")
                res = db_name[coleccion].insert_one(json.loads(line2))
                if res.acknowledged:
                    exito+=1
                else:
                    error+=1
        print(f"Colección {coleccion}: {exito} documentos cargados con éxito y {error} errores")
    except urllib.error.URLError as e:
        print(e.reason)


In [95]:
# La base de datos se llamará práctica 2
db = client.practica2
url_tweets = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/ctweet.json"
carga_desde_red(db, url_tweets,"tweet")
path_usuarios = "./data/cuser.json"
carga_desde_local(db, path_usuarios, "users")

Colección tweet: 3022 documentos cargados con éxito y 0 errores
Colección users: 619 documentos cargados con éxito y 0 errores


## Explorar los documentos cargados

Usamos la operación `find` para seleccionar documentos de la colección `tweet`. Selecciona solo 10 tweets. Recuerda que la operación `find()` devuelve un cursor.

In [96]:
cursor = db.tweet.find().limit(10)
for i, doc in enumerate(cursor):
    print(f'Documento: {i+1}')
    print("-------------------------------")
    pprint(doc)    

Documento: 1
-------------------------------
{'RT': False,
 '_id': '1188094205299703809',
 'created_at': {'date': '2019-10-26T14:05:06Z'},
 'hashtags': [],
 'lang': 'und',
 'nRTin': 0,
 'nquotein': 35,
 'nreplyin': 0,
 'reply': False,
 'screen_name': 'DanScavino',
 'symbols': [],
 'text': 'https://t.co/iAbQ5Ip3bW https://t.co/GHMeQQqw1x',
 'user_mentions': [],
 'userid': '620571475'}
Documento: 2
-------------------------------
{'RT': False,
 '_id': '1188453559391666178',
 'coordinates': {'coordinates': [-75.04539574, 40.16216216], 'type': 'Point'},
 'created_at': {'date': '2019-10-27T13:53:03Z'},
 'hashtags': [{'indices': [45, 52], 'text': 'judges'},
              {'indices': [91, 97], 'text': 'Trump'},
              {'indices': [102, 114], 'text': 'evangelical'}],
 'lang': 'en',
 'nRTin': 0,
 'nquotein': 1,
 'nreplyin': 0,
 'reply': False,
 'screen_name': 'PhillyPartTwo',
 'symbols': [],
 'text': 'Unqualified ultra-conservative young federal #judges that serve no '
         'purpose 

## Ejercicios

### Selección de idiomas

Escribir una función llamada `idiomas` que devuelva los diferentes idiomas (clave `lang`) en los que están escritos los tweets del dataset. Debes usar la operación [`distinct`](https://www.mongodb.com/docs/manual/reference/method/db.collection.distinct/). 

- Name: `idiomas`
- Input parameters: 
    - `db`: nombre de la base de datos
    - `col`: nombre de la colección
- Return:  lista de idiomas

In [97]:
# solución: ['en', 'pt', 'und']
def idiomas(db, col):
        collection = db[col]
        resultado = collection.distinct("lang")
        return resultado



### Selección por idioma

Escribir una función llamada `tweets_byLang` que devuelva el número de tweets existente en un idioma concreto (clave `lang`).

- Name: `tweets_byLang`
- Input parameters: 
    - `db`: nombre de la base de datos
    - `col`: nombre de la colección
    - `idioma`: código en twitter indicando el idioma
- Return:  número de tweets escritos en `idioma`

In [98]:
# solución
#    3015  tweets en inglés
#    0  tweets en castellano
#    1  tweets en portugués

def tweets_byLang(db,col,idioma):
    collection = db[col]
    resultado = collection.count_documents({"lang": {"$eq": idioma}})
    return resultado

### para probar el código
#print(tweets_byLang(db, "tweet","en")," tweets en inglés")
#print(tweets_byLang(db,"tweet", "es")," tweets en castellano")
#print(tweets_byLang(db,"tweet", "pt")," tweets en portugués")

### Contar las réplicas

Escribir una función `contador_replicas` que devuelva cuántos tweets son réplicas (clave `in_reply_to_screen_name`) hacia un usuario.

- Name: `contador_replicas`
- Input parameters: 
    - `db`: nombre de la base de datos
    - `col`: nombre de la colección
    - `user`: screen_name de un usuario
- Return:  número de tweets que son réplicas al usuario `user`.




In [99]:
# solución
# 2 réplicas a BernardKerik
# 5 réplicas a DonaldJTrumpJr

def contador_replicas(db, col, user):
    collection = db[col]
    resultado = collection.count_documents({"in_reply_to_screen_name": {"$eq": user}})
    return resultado

### para probar el código
#print(contador_replicas(db,"tweet","BernardKerik"),"réplicas a BernardKerik")
#print(contador_replicas(db,"tweet","DonaldJTrumpJr"),"réplicas a DonaldJTrumpJr")

### Contar las menciones de un determiando usuario
Escribir una función `contar_menciones` para conocer el número de tweets que nombran (examinar `user_mentions`) a un usuario dado su `screen_name`.

- Name: `contar_menciones`
- Input parameters: 
    - `db`: nombre de la base de datos
    - `col`: nombre de la colección
    - `user`: screen_name de un usuario
- Return:  número de tweets que mencionan al usuario `user`(un entero mayor o igual a 0).

In [100]:
# solución (453 menciones a JoeBiden, 1479 menciones a realDonaldTrump)

def contar_menciones(db, col, user):
    collection = db[col]
    resultado = collection.count_documents({"user_mentions.screen_name": user})
    return resultado    
    
### para probar el código
#print(contar_menciones(db,"tweet","JoeBiden"),"menciones a JoeBiden")
#print(contar_menciones(db,"tweet","realDonaldTrump"),"menciones a realDonaldTrump")    

### Citas posteriores a una fecha

Escribir una función `citas_posteriores_a` que muestre el número de tweets que son citas (clave `quote` a True), y que se hayan emitido con posterioridad a una fecha dada.

- Name: `citas_posteriores_a`
- Input parameters: 
    - `db`: nombre de la base de datos
    - `col`: nombre de la colección
    - `date`: un string con la fecha en el formato que se usa en este dataset
- Return:  Número de tweets con `quote` a True emitidos con fecha posterior a la indicada.

Para verificar que la fecha es posterior no hay que hacer ninguna conversión ni nada similar, solo comparar la fecha de creación del tweet (clave `date` de `created_at`) usando la representación en Mongo del operador >.

In [101]:
# Sol: 300 citas posteriores a "2020-09-24T12:49:01Z"

def citas_posteriores_a(db, col, date):
    collection = db[col]
    resultado = collection.count_documents({"created_at.date": {"$gt": date}, "quote" :{"$eq": True}})
    return resultado    

### para probar el código
#citas_posteriores_a(db, "tweet","2020-09-24T12:49:01Z")

### Tweets con localización

Escribir una función `localizacion` para conocer la proporción de documentos que tienen la clave `coordinates` a primer nivel. Consultar información del operador [$exists](https://docs.mongodb.com/manual/reference/operator/query/exists/) (recordar que en pymongo hay que poner el nombre entre comillas)

- Name: `localizacion`
- Input parameters: 
    - `db`: nombre de la base de datos
    - `col`: nombre de la colección
- Return:  proporción sobre 1 (número entre 0 y 1) de tweets que incluyen la clave `localización`.


Se puede usar python para hacer la operación aritmética que da la proporción, no tiene sentido usar MongoDB para eso.



In [102]:
# Sol: Proporción de tweets con coordenadas 0.6035737921906023

def localizacion(db,col):
    collection = db[col]
    resultado = collection.count_documents({"coordinates": {"$exists": True}})/collection.count_documents({"_id": {"$exists": True}})
    return resultado

#print("Proporción de tweets con coordenadas", localizacion(db,"tweet"))

### Retweets

Escribir una función `retuiteados` que calcule la lista de usuarios (`screen_name`)  que tienen un número de retweets (clave `nRTin`) mayor que un determinado valor). 


- Name: `retuiteados`
- Input parameters: 
    - `db`: nombre de la base de datos
    - `col`: nombre de la colección
    - `total`: Número mínimo que debe tomar la clave "nRTin" para que el screen_name se incluya en la salida
- Return:  lista con los screen_name de los usuarios con tweets tales que `nRTin>=total` (puede haber `screen_name` repetidos porque un mismo usuario tenga más de un tweet con estas características)

In [103]:
### Sol:
#           [{'screen_name': 'LionelMedia'},
#            {'screen_name': 'realDonaldTrump'},
#            {'screen_name': 'TiffanyATrump'},
#            {'screen_name': 'realDonaldTrump'}]

def retuiteados(db, col, total):
    collection = db[col]
    resultado = collection.find({"nRTin": {"$gte": total}}, {"_id" : 0, "screen_name":1})
    return list(resultado)

### para probar el código
#retuiteados(db,"tweet", 1000)

### Menciones

Escribir una función `contador_mencionados` 
para conocer el número de tweets que nombran (examinar `user_mentions`) en el mismo tweet a un grupo de usuarios dado su `screen_name`.

- Name: `contador_mencionados`
- Input parameters: 
    - `db`: nombre de la base de datos
    - `col`: nombre de la colección
    - `usuarios`: lista con screen_name de algunos usuarios
- Return:  número de tweets que mencionan a todos los usuarios.

Buscar el operador apropiado entre los operadores para arrays de MongoDB.

In [104]:
# solución
#  53 menciones a JoeBiden y a realDonalTrump en el mismo tweet
#   4 menciones a JoeBiden, realDonaldTrump y a la CNN en el mismo tweet

    
def contador_mencionados(db, col, usuarios):
    collection = db[col]
    resultado = collection.count_documents({"user_mentions.screen_name": {"$all": usuarios}})
    return resultado

### para probar el código
#print(contador_mencionados(db,"tweet",["JoeBiden","realDonaldTrump"]),"menciones a JoeBiden y a realDonalTrump en el mismo tweet")
#print(contador_mencionados(db,"tweet",["JoeBiden","realDonaldTrump","CNN"]),"menciones a JoeBiden, realDonaldTrump y a la CNN en el mismo tweet")    

### Sin repeticiones

Queremos generalizar la función  `retuiteados` para que no repita el nombre de un usuario (`screen_name`) aunque tengan más de un tweet con la cantidad indicada de retweets (clave `nRTin` mayor que un valor). 

- Name: `retuiteados_sinRep`
- Input parameters: 
    - `db`: nombre de la base de datos
    - `col`: nombre de la colección
    - `total`: Número mínimo que debe tomar la clave "nRTin" para que el screen_name se incluya en la salida
- Return:  lista con los screen_name de los usuarios con tweets tales que `nRTin>=total`. (NO puede haber `screen_name` repetidos porque un mismo usuario aunque tenga más de un tweet con estas características)

Esta pregunta es más de Python que de MongoDB



In [105]:
# Sol: {'LionelMedia', 'TiffanyATrump', 'realDonaldTrump'}

def retuiteados_sinRep(db, col, total):
    collection = db[col]
    resultado = collection.find({"nRTin": {"$gte": total}}).distinct("screen_name")
    return list(resultado)

### para probar el código
#retuiteados_sinRep(db,"tweet", 1000)

### Amigos vs. seguidores

El siguiente código muestra alguno de los documentos en la colección `users`.

In [106]:
cursor = db.users.find().limit(10)
for doc in cursor:
    pprint(doc)
    print("----------------------")

{'_id': '24515539',
 'created_at': {'date': '2009-03-15T12:17:44Z'},
 'followers': 197,
 'friends_count': 979,
 'geo_enabled': True,
 'location': 'StJohn usvi,Boston,NYC,Jamaica',
 'nOriginal': 94,
 'nRT': 5,
 'nRTin': 1,
 'nTotal': 99,
 'name': 'John SchiffBLM!',
 'nquotein': 0,
 'nreplyin': 2,
 'ntweets': 4892,
 'screen_name': 'shiffy64',
 'verified': False}
----------------------
{'_id': '343613163',
 'created_at': {'date': '2011-07-27T20:44:31Z'},
 'followers': 42,
 'friends_count': 197,
 'geo_enabled': True,
 'location': None,
 'nOriginal': 1,
 'nRT': 0,
 'nRTin': 0,
 'nTotal': 1,
 'name': 'usafa93',
 'nquotein': 0,
 'nreplyin': 0,
 'ntweets': 324,
 'screen_name': 'usafa1993',
 'verified': False}
----------------------
{'_id': '250948559',
 'created_at': {'date': '2011-02-12T03:56:33Z'},
 'followers': 274,
 'friends_count': 1323,
 'geo_enabled': True,
 'location': 'The Global Village',
 'nOriginal': 1,
 'nRT': 0,
 'nRTin': 0,
 'nTotal': 1,
 'name': 'Christoff Smyth',
 'nquotein': 


Escribir una función `mas_amigos_que_seguidores` que devuelva el número de tweets en los que el número de amigos (`friends_count`) es mayor que el número de seguidores (`followers`).

- Name: `mas_amigos_que_seguidores`
- Input parameters: 
    - `db`: nombre de la base de datos
    - `col`: nombre de la colección
- Return:  lista con los nombres de los usuarios  tales que  `friends_count>=followers`.

Para comparar dos claves se debe usar el operador [$expr](https://docs.mongodb.com/manual/reference/operator/query/expr/). Observar en la ayuda que al formar parte de una expresión, a las claves se les añade el operador `$` al principio.


In [107]:
# Sol: 425

def mas_amigos_que_seguidores(bd, col):
    collection = db[col]
    resultado = collection.count_documents({"$expr":{"$gt":["$friends_count","$followers"]}})
    return resultado

### para probar el código
#mas_amigos_que_seguidores(db, "users")

### Tweets de un usuario
Escribir una función que muestre los tweets de un usuario a partir de su nombre (`name` en la colección `user`). Para ello primero deberemos buscar en `user` el `nombre` en la clave `name`, quedarnos con el `_id` de ese usuario, y consultar la colección  `tweet` buscando documentos cuyo `userid` sea ese valor.

- Name: `user_tweets`
- Input parameters: 
    - `db`: nombre de la base de datos
    - `col1`: nombre de la colección de los tweets
    - `col2`: nombre de la colección de los usuarios
    - `user`: Nombre del usuario. Lo buscaremos en la clave `name` de `user`
- Return:  lista con las claves  `text` de los documentos en `col1` tales que `userid` sea igual al identificador (`_id`) correspondiente al `name`, que habremos obtenido previamente de `col2`.

Si el nombre de usuario no existe debe delvolver la lista vacía; igualmente si un tweet de ese usuario no tiene clave `text` simplemente no se incluye en la lista.

In [108]:
# Sol
def user_tweets(db, col1, col2, user):
    resultado = db[col1].aggregate([{
        "$lookup": {
            "from":col2,
            "localField":"userid",
            "foreignField":"_id",
            "as":"combinado"
        }
    },
    {
        "$match": {
            "combinado":{"$ne":[]},
            "text": {"$exists": True},
            "combinado.name":{"$eq":user}
        }
    },
    {
        "$project": {
            "_id":0,
            "text":1
        }
    }
    ])   
    return list(resultado)

### para probar el código
#user_tweets(db,"tweet","users", "unusuarioinexistenteespero")
#user_tweets(db,"tweet","users", "usafa93")

> No te olvides de subir el notebook a la entrega en el Campus Virtual.