Nombre del estudiante: Manuel Guerrero Moñús

![](https://informatica.ucm.es/themes/ucm16/media/img/logo.png)

# Máster en Ingeniería Informática


### SGDI

#### Práctica 2

Partimos de dos ficheros de tweets:

 - [minitweet](https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/minitweet.json): muestra de tweets de las elecciones USA 2020
 - [miniuser](https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/miniuser.json): datos de usuarios que han emitido esos tweets
 
 Conviene descargarlos y dejarlos en una carpeta, por ejemplo c:/hlocal/sgdi y luego desde la consola (en el laboratorio elegir la consola de Mongo)
 
         mongoimport  -d usa -c tweet --drop --file c:\hlocal\sgdi\minitweet.json
         mongoimport  -d usa -c user --drop --file c:\hlocal\sgdi\miniuser.json

 
 que debe importar, respectivamente, 3820 y 3789 documentos. Otra posibilidad es utilizar MongoCompass para la importación.
 
 Recordar que antes hay que tener inicializado un servidor. Si es en local lo normal es hacer desde un terminal
 
     mongod -dbpath datos 
     
 con datos una carpeta nueva. Este terminal lo dejaremos aparte, podemos minimizarlo pero no cerrarlo.
 
 También interesa tener otro terminal con una shell de MongoDB
 
     mongo usa
     
Por ejemplo, para ver el aspecto de los tweets:

    > db.tweet.find().pretty()
 
 Nota: en los laboratorios iniciar la consola que sale con nombre "entorno MongoDB" o similar para Mongo.

### Bibliotecas Python

Este código carga las librerías y debería instalarlas si no existen; si las tiene que instalar quizás haya que reiniciar el notebook (Kernel + Restart)

In [1]:
import warnings
warnings.filterwarnings('ignore')

# pymongo
try:
    import pymongo
    print("Pymongo está en el sistema!")
except ImportError as e:
    !{sys.executable} -m pip install --upgrade --user pymongo
    
# pprint
try:
    import pprint
    from pprint import pprint
    print("pprint está en el sistema!")

except ImportError as e:
    !{sys.executable} -m pip install --upgrade --user pprint

# ibm-watson
try:
    import ibm_watson
    print("ibm_watson está en el sistema!")
except ImportError as e:
    !{sys.executable} -m pip install --upgrade --user ibm-watson
    
# redis
try:
    import redis
    print("redis está en el sistema!")
except ImportError as e:
    !{sys.executable} -m pip install --upgrade --user redis
    

Pymongo está en el sistema!
pprint está en el sistema!
ibm_watson está en el sistema!
redis está en el sistema!


### Cadena de conexión para MongoDB

Si tenemos el servidor en local en el puerto por defecto, no habrá que tocar nada. Si no habrá que poner la cadena correcta (por ejemplo las que nos de Atlas, si tenemos ahí el servidor)

In [11]:
from pymongo import MongoClient

# Atlas (reemplazar)
#conexion = "mongodb+srv://usuario:passwd@cluster0.nubot.mongodb.net/<dbname>?retryWrites=true&w=majority"

# local
conexion = 'mongodb://127.0.0.1:27017/'

client = MongoClient(conexion)

# código para ver si se ha conectado bien
try:
    s = client.server_info() # si hay error tendremos una excepción
    print("Conectado a MongoDB, versión",s["version"])
    db = client.usa
    colecciones = db.list_collection_names()
    for col in colecciones:
        print('Colección ',col,'. Total documentos: ',db[col].count_documents({})) 
except:
    print ("connection error")

Conectado a MongoDB, versión 4.4.1
Colección  tweet . Total documentos:  3820
Colección  user . Total documentos:  3789


#### Cadena de conexión con Redis

Completar los datos para conectar a Redis

In [12]:
#### Cambiar los datos para  poner los de nuestra conexión Redis
redisconexion = 'localhost' 
redispuerto = 6379 # Default
# passwd = 
import redis
r = redis.Redis(host=redisconexion, port=redispuerto, charset="utf-8", decode_responses=True, db=0) # password=passwd,
r.ping() # debe mostrar True

True

#### Conexión con Watson

Poner la clavesAPI de la cuenta Watson

In [4]:
claveAPI = '_f9D239WFkmgESZGKJbMXm2TrGs4gXbWSojyEGlq1mxw'
url = 'https://api.eu-gb.natural-language-understanding.watson.cloud.ibm.com/instances/0852f6b5-7c99-4142-baf0-35ba7d4fa0c3'

import json
from ibm_watson import NaturalLanguageUnderstandingV1
from ibm_watson.natural_language_understanding_v1 import Features, EntitiesOptions, KeywordsOptions
from ibm_cloud_sdk_core.authenticators import IAMAuthenticator
from pprint import pprint # para mostrar los json bonitos

# Authentication via IAM
def conexion_watson(claveAPI,url):
    authenticator = IAMAuthenticator(claveAPI)
    service = NaturalLanguageUnderstandingV1(
         version='2020-10-09',
         authenticator=authenticator)
    service.set_service_url(url)
    return service


def analisis_sentimiento(service,texto,lang,targets):
    return service.analyze(
                        text=texto,
                        language= lang,
                        features= {
                            "sentiment": {
                              "targets": targets
                            },
                            "emotion": {
                              "targets": targets
                            }                          }
                            ).get_result()

service = conexion_watson(claveAPI,url)

texto = """I absolutely love this place and would recommend it to anybody under one condition: the level of the service needs to be the same by all members of the staff. There are two waiters, who are the nicest guys ever, especially the guy with the glasses (shame I don't know his name) but there are a few waiters who seem to be hating their jobs, no smile, no nothing, it literally makes you feel uncomfortable to be served by them.
Patatas Lia with egg yolk and truffle is a must, the place is very well priced, the tapas offered with the drinks are diverse and of good quality, the restaurant overall has a nice feel to it."""
salida = analisis_sentimiento(service,texto,"en",["place","waiters"])
pprint(salida)

{'emotion': {'document': {'emotion': {'anger': 0.112791,
                                      'disgust': 0.214052,
                                      'fear': 0.009007,
                                      'joy': 0.609512,
                                      'sadness': 0.125144}},
             'targets': [{'emotion': {'anger': 0.059561,
                                      'disgust': 0.070374,
                                      'fear': 0.013004,
                                      'joy': 0.68538,
                                      'sadness': 0.067148},
                          'text': 'place'},
                         {'emotion': {'anger': 0.369894,
                                      'disgust': 0.092936,
                                      'fear': 0.118517,
                                      'joy': 0.072837,
                                      'sadness': 0.48603},
                          'text': 'waiters'}]},
 'language': 'en',
 'sentiment': {'document': {'

#### Pregunta 1  [1 punto]

Escribir una función tweets(s) que dado un `screen_name` devuelva el número de tweets que ha emitido el usuario s.

In [5]:
def tweets(s):
    return db["tweet"].find({"screen_name":s}).count()

In [6]:
# para probar
print(tweets("VLovesAnimals"))
print(tweets("SecondHandRocks"))
print(tweets("Bertoldo"))

3
2
0


#### Pregunta 2 (1.5 puntos)

Supongamos que hemos descubierto que se llama muy a menudo a la función `tweets`, y a menudo para los mismos usuarios. Para evitar recalcular el número de tweets decidimos emplear Redis como caché. 

Escribir una función `tweets_cache(s)` que:

* Si el valor `s` existe ya como clave en Redis, escriba el valor  `s` seguido de "en caché" devuelva su número asociado. Además, la función debe incrementar el contador de accesos a esta clave y mostrar el número tras el incremento. Además hace que su vida vuelva a ser de 3 segundos.

* Si el valor s no existe como clave, muestre por pantalla escriba el valor  `s` seguido de "nuevo", llame a tweets(s), añada s como clave con una vida de 3 segundos y como valor el devuelto por tweets, y apunte también que el número de accesos a esta clave en caché momento es 0

Recordar que la variable `r` es nuestro acceso a Redis

In [23]:
def tweets_cache(s):

    resultAccesses = r.mget([s + ':result', s + ':accesses'])

    if resultAccesses[0] == None or resultAccesses[1] == None:
        # Según la documentación todas las claves se establecen a la vez.
        r.msetnx({s + ':result': tweets(s), s + ':accesses': -1}) # Atómico

    # La primera vez se establecerá en 0 (sin accesos), luego ya serán significativos.
    accesses = r.incr(s + ':accesses', amount=1) # Atómico
    
    # Mensajes por pantalla.
    print(s, "en caché\naccesos " + str(accesses) if accesses > 0 else "nuevo")

    # Establecemos el tiempo de vida en 3 segundos.
    r.expire(s + ':result', 3)
    r.expire(s + ':accesses', 3)

    # Devolvemos el resultado.
    return r.get(s + ':result') # No atómico.

Para probar. La salida esperada es:

    VLovesAnimals  nuevo
    3
    VLovesAnimals  en caché 
    accesos  1
    3
    SecondHandRocks  nuevo
    2
    Bertoldo  nuevo
    0
    SecondHandRocks  en caché 
    accesos  1
    2
    Bertoldo  en caché 
    accesos  1
    0
    2 segundos más....
    SecondHandRocks  en caché 
    accesos  2
    2
    VLovesAnimals  nuevo
    3
    Bertoldo  en caché 
    accesos  2
    0


In [24]:
import time
print(tweets_cache("VLovesAnimals"))
print(tweets_cache("VLovesAnimals"))
time.sleep(2)
print(tweets_cache("SecondHandRocks"))
print(tweets_cache("Bertoldo"))
print(tweets_cache("SecondHandRocks"))
print(tweets_cache("Bertoldo"))
print("2 segundos más....")
time.sleep(2)
print(tweets_cache("SecondHandRocks"))
print(tweets_cache("VLovesAnimals"))
print(tweets_cache("Bertoldo"))

VLovesAnimals nuevo
3
VLovesAnimals en caché
accesos 1
3
SecondHandRocks nuevo
2
Bertoldo nuevo
0
SecondHandRocks en caché
accesos 1
2
Bertoldo en caché
accesos 1
0
2 segundos más....
SecondHandRocks en caché
accesos 2
2
VLovesAnimals nuevo
3
Bertoldo en caché
accesos 2
0


#### Pregunta 3 [3 puntos]

Para cada uno de los tweets que verifiquen todas las condiciones siguientes:

* Estár escritos en inglés (examinar la clave lang)
* No ser retweets (clave RT a False)
* Tener al menos 2 retweets en el conjunto (clave nRT)

se pide: 

1.- Aplicar el método análisis de sentimiento a la clave `text` con las claves correspondientes y como targets
['@JoeBiden', '@realDonaldTrump'] (recordar que la variable `service` ya ha sido creada en la prueba de Watson).

2.- Añadir al documento tweet correspondiente dos campos, uno 'sentiment' con el campo 'sentiment' devuelto por Watson y otro 'emotion' con el campo 'emotion'

Nota 1: Solo hacerlo si el text incluye alguno de los strings en el array targets. Si no debe escribir 
"No continene ningún target" por pantalla

Nota 2: Aunque incluye alguno de los targets, Watson puede devolver una excepción por no encontrarlos en un sitio que tenga sentido; encargarse de capturar esta excepción. Si esto sucede no se modificará el documento y se escribirá "Fallo de Watson". No importa que la biblioteca muestre algún warning por pantalla

Nota 3: si la respuesta solo incluye emotion, solo se incluirá una nueva clave emotion, si solo incluye sentiment solo la clave sentiment, si incluye ambs se incluirán ambas, y si no incluye ninguna, ninguna

Nota 4: se puede asumir que todos los tweets que verifican las condiciones anteriores incluyen la clave `text`

Nota 5: el código debería funcionar al cambiar la variable targets por otros valores (incluyendo más o menos valores)

In [9]:
# esta instrucción elimina las claves sentiment y emotion, 
# de forma que se puede ejecutar varias veces este código comenzando siempre con el mismo estado de la base de datos
result = db.tweet.update_many({},{"$unset":{"sentiment":True,"emotion":True}})
print("Encajan ",result.matched_count,  " Modificados: ",result.modified_count)

targets = ['@JoeBiden', '@realDonaldTrump']

# solución

if len(targets) > 0:

    for doc in db["tweet"].find({"lang": "en", "RT": False, "nRT": {"$gte": 2}}):
        
        i = 0
        makeAnalysis = False
        while i < len(targets) and not makeAnalysis:
            if targets[i] in doc['text']:
                makeAnalysis = True
            i += 1

        if makeAnalysis:

            try:

                analisis = analisis_sentimiento(service,doc['text'],"en",targets)
                
                if "emotion" in analisis and "sentiment" in analisis:
                    db["tweet"].update({"_id": doc["_id"]},{"$set":{"emotion":analisis["emotion"],"sentiment":analisis["sentiment"]}})
                elif "emotion" in analisis:
                    db["tweet"].update({"_id": doc["_id"]},{"$set":{"emotion":analisis["emotion"]}})
                elif "sentiment" in analisis:
                    db["tweet"].update({"_id": doc["_id"]},{"$set":{"sentiment":analisis["sentiment"]}})

            except Exception as ex:
                print("Fallo de Watson")

        else:
            print("No continene ningún target")


Encajan  3820  Modificados:  43
ERROR:root:target(s) not found
Traceback (most recent call last):
  File "/home/manuelgms/.local/lib/python3.8/site-packages/ibm_cloud_sdk_core/base_service.py", line 224, in send
    raise ApiException(
ibm_cloud_sdk_core.api_exception.ApiException: Error: target(s) not found, Code: 400 , X-global-transaction-id: 98b9c5df0a1fa40494a1744dc9a78107
Fallo de Watson


#### Pregunta 4 [1.5 puntos]

Nos interesa el número de retweets que ha recibido cada usuario. Por tanto, se pide:

- Para cada documento de la colección user, modificar su documento añadiendo una clave `nretweets` que indique cuántos retweets en total ha recibido cada usuario en la colección tweet. 
 
Nota: esto se haría mejor con una función de agregación, pero aquí se pide hacerlo en Python (podemos decir hacerlo "mal"), sin usar aggregate, esto es: 

- Recorrer la colección de usuarios. Para cada usuario 
- sumar la clave `nRT` de los todos documentos de la colección `tweet` que tengan `RT` a `False` y cuyo `userid` coincida con el `_id` del usuario
- Esa sumase añade al documento del usuario, como valor de la nueva clave `nretweets` 
- El documento modificado se graba en Mongo.

In [10]:
# esta instrucción elimina la clave nretweets, 
# de forma que se puede ejecutar varias veces este código comenzando siemple del mismo estado de la base de datos
result = db.user.update_many({},{"$unset":{"nretweets":True}})
print("Encajan ",result.matched_count,  " Modificados: ",result.modified_count)

# solución

for userDoc in db["user"].find():
    totalRt = 0
    for tweetDoc in db["tweet"].find({"RT":False,"userid":userDoc["_id"]}):
        totalRt += tweetDoc["nRT"]
    db["user"].update({"_id":userDoc["_id"]},{"$set":{"nretweets":totalRt}})

Encajan  3789  Modificados:  3789


#### Pregunta 5 [1 punto]

Mostrar el `screen_name`, el valor `nretweets` y número de seguidores (followers) de los 10 usuarios con  mayor valor en `nretweets`, ordenados por este valor de mayor a menor. Dentro de estos, para los que tengan el mismo valor en `nretweets`, ordenar por `followers`, también de mayor a menor.

Pista para ordenar:
https://stackoverflow.com/questions/8109122/how-to-sort-mongodb-with-pymongo



In [11]:
for doc in db["user"].find({},{"_id":0,"screen_name":1,"nretweets":1,"followers":1}).sort([("nretweets", pymongo.DESCENDING), ("followers", pymongo.DESCENDING)]).limit(10):
    pprint(doc)

{'followers': 440010, 'nretweets': 1193, 'screen_name': 'TheRightMelissa'}
{'followers': 206121, 'nretweets': 107, 'screen_name': 'davidmweissman'}
{'followers': 146213, 'nretweets': 50, 'screen_name': 'toddstarnes'}
{'followers': 22845, 'nretweets': 38, 'screen_name': 'the_resistor'}
{'followers': 19469, 'nretweets': 33, 'screen_name': 'AgustinBerrios'}
{'followers': 15, 'nretweets': 31, 'screen_name': 'AtleLarsen6'}
{'followers': 435634, 'nretweets': 28, 'screen_name': 'RealMattCouch'}
{'followers': 1449, 'nretweets': 20, 'screen_name': 'napmasters'}
{'followers': 5028, 'nretweets': 18, 'screen_name': 'DianaWr48476186'}
{'followers': 5081, 'nretweets': 15, 'screen_name': 'FamilyTruckster'}


##### Pregunta 6 [1 punto]

Calcular el sentimiento medio de todos los targets considerados. 
No hay que utilizar la librería Watson, solo recorrer la colección tweet y busca dentro de la clave sentiment sus target y dentro sus (array targets), calculando para cada valor de "text" la media de sus scores. Se valorará hacerlo utilizando agregaciones.


In [12]:
for result in db["tweet"].aggregate(
                        [
                            { "$match": { "sentiment.targets": {"$exists": True} } },
                            { "$project": { "_id": 0 , "target": "$sentiment.targets" } },
                            { "$unwind": { "path": "$target" } },
                            { "$group": { "_id": "$target.text" , "media": {"$avg": "$target.score"} } }
                        ]
                    ):
    print("target:",result["_id"], ", media:", result["media"])

target: @JoeBiden , media: -0.304133
target: @realDonaldTrump , media: -0.4348416470588235


Ejecutar esto para no dejar accesos abiertos en redis, si se ponen demasiados al final da un error y se bloquea hasta horas después

In [13]:
r.close()
client.close()

### Neo4j

Esta parte no se hace desde anaconda, sino desde el web browser de neo4j. Solo se pide copair aquí las respuestas para tener todo en un mismo fichero

##### Pregunta 7 (1 punto)

a) Escribir una consulta en Cypher que muestre los nodos que retuitean al Usuario con nombre 'TeamTrump'

In [14]:
# solución

'''
MATCH (A:Usuario)-[:RT]->(B:Usuario{nombre:"TeamTrump"}) RETURN A
'''

'\nMATCH (A:Usuario)-[:RT]->(B:Usuario{nombre:"TeamTrump"}) RETURN A\n'

b) Usuarios que no retuitean, ni directa ni indirectamente a TeamTrump (no hay camino de retweets desde ellos a TeamTrump)


In [15]:
# solución

'''
MATCH (A:Usuario), (B:Usuario{nombre: "TeamTrump"})
WHERE NOT (A)-[:RT*]->(B)
RETURN A.nombre
'''

'\nMATCH (A:Usuario), (B:Usuario{nombre: "TeamTrump"})\nWHERE NOT (A)-[:RT*]->(B)\nRETURN A.nombre\n'

c) Número de usuarios retuiteados por el usuario con nombre 'ErinMPerrine', que a su vez retuitean a este usuario (caminos de ida y vuelta con dos nodos)


In [16]:
# solución

'''
MATCH (A:Usuario{nombre:"ErinMPerrine"})-[:RT]->(B:Usuario)
WHERE (B)-[:RT]->(A)
RETURN COUNT(B)
'''

'\nMATCH (A:Usuario{nombre:"ErinMPerrine"})-[:RT]->(B:Usuario)\nWHERE (B)-[:RT]->(A)\nRETURN COUNT(B)\n'

d) Camino con 5 nodos en total (4 retweets) que lleve desde 'KatrinaPierson' hasta 'JasonMillerinDC', pero que no incluya a 'TeamTrump' entre sus nodos


In [17]:
# solución

'''
MATCH PATH=(A:Usuario{nombre:"KatrinaPierson"})-[:RT*4]->(B:Usuario{nombre:"JasonMillerinDC"})
WHERE ALL(N IN NODES(PATH) WHERE N.nombre <> "TeamTrump")
RETURN PATH
'''

'\nMATCH PATH=(A:Usuario{nombre:"KatrinaPierson"})-[:RT*4]->(B:Usuario{nombre:"JasonMillerinDC"})\nWHERE ALL(N IN NODES(PATH) WHERE N.nombre <> "TeamTrump")\nRETURN PATH\n'

Al terminar, grabar el notebook y subirlo al campus virtual