Nombre1: García Sánchez, Sergio

Nombre2: Ruiz Nieto, Miguel Emilio

# Sistemas de Gestión de Datos y de la Información 

## Práctica 2

- Se valorará la claridad del código y evitar redundancias o código poco eficiente; en particular se valorará lograr el resultado de las consultas mediante MongoDB minimizando el uso de Python 
- Además de las funciones que se piden se pueden añadir otras auxiliares si se necesitan, y también otros imports
- El código debe funcionar correctamente no solo con las pruebas que vienen de ejemplo sino con cualquier otra prueba


### Primera parte: MongoDB

Se requiere tener acceso a un servidor, ya sea arrancado en local o en la nube. Comprobar con el siguiento código si se puede acceder a él:

In [1]:

# cambiar si hace falta, ahora está para servidor local
#url_servidor = 'mongodb://127.0.0.1:27017/'
url_servidor = 'mongodb://mongoadmin:secret@127.0.0.1:27017/'

# si es en atlas será algo como
#url_servidor= "mongodb+srv://aniceto:castañas@cluster0.nubot.mongodb.net/test?retryWrites=true&w=majority"

import sys
# comprobar si pymongo está instalado, y hacerlo en otro caso
try:
    import pymongo
    print("pymongo está en el sistema!")
except ImportError as e:
    !{sys.executable} -m pip install --upgrade --user pymongo
    import pymongo

try:
    import pprint
    print("pprint está en el sistema!")
except ImportError as e:
    !{sys.executable} -m pip install --upgrade --user pprint
    import pprint

from pprint import pprint # para mostrar los json bonitos
from pymongo import MongoClient

# Atlas: 
#client = MongoClient("mongodb+srv://aniceto:castañas@cluster0.nubot.mongodb.net/test?retryWrites=true&w=majority")
client = MongoClient(url_servidor)

# código para ver si se ha conectado bien
try:
    s = client.server_info() # si hay error tendremos una excepción
    print("Conectado a MongoDB, versión",s["version"])
except:
    print ("Error de conexión ¿está arrancado el servidor?")
       

pymongo está en el sistema!
pprint está en el sistema!
Conectado a MongoDB, versión 5.0.3


El siguiente paso es importar los datos. Una posibilidad es bajarse el fichero de JSON e importarlo con mongoimport, pero aquí vamos a ver otra forma de hacerlo que presenta la ventaja de que nos permite trabajar con ficheros realmente grandes (no es el caso) porque hace carga "perezosa" , documento a documento, sin llegar a tener todos los documentos en memoria en ningún momento.

**Ojo**: este código borrará la colección tweet de la base de datos practica2, antes de cargar el contenido, para evitar que el código sea acumulativo (un matemático diría que para que el código sea idempotente)

La salida esperada

    Colección tweet: 3022 documentos cargados con éxito y 0 errores
   

In [2]:
import json # para transformar la línea leida (string) a json
import urllib.request # para leer de la URL línea a línea

def carga_desde_fichero(db,fichero,coleccion):
    db[coleccion].drop() # la borramos
    exito,error = 0,0
    # cargamos los datos desde el fichero
    try:
        with urllib.request.urlopen(fichero) as f:
        
            for line in f:
                line2 = line.decode("UTF-8").replace("$","")
                res = db[coleccion].insert_one(json.loads(line2))
                if res.acknowledged:
                    exito+=1
                else:
                    error+=1
        print(f"Colección {coleccion}: {exito} documentos cargados con éxito y {error} errores")
    except urllib.error.URLError as e:
        print(e.reason)
   
            
db = client.practica2
fichero_tweets = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/ctweet.json"
carga_desde_fichero(db,fichero_tweets,"tweet")


Colección tweet: 3022 documentos cargados con éxito y 0 errores


**Ejercicio 1** Escribir una función `num_replicas` que devuelva cuántos tweets son réplicas (clave `in_reply_to_screen_name`) a un usuario.

- *Nombre*: `num_replicas`
- *Parámetros de entrada*: 
    - `db`: el acceso a una base de datos que se asume incluye una colección `tweet`de tweets
    - `usuario`: screen_name de un usuario
   
- *Devuelve*: número de tweets que son réplicas al usuario (un entero mayor o igual que 0)


In [10]:
# solución
def num_replicas(db,usuario):
  return db.tweet.count_documents({"in_reply_to_screen_name": usuario})

### para probar el código 
print(num_replicas(db,"JoeBiden"),"réplicas a JoeBiden")
print(num_replicas(db,"realDonaldTrump"),"réplicas a realDonaldTrump")

25 réplicas a JoeBiden
204 réplicas a realDonaldTrump


**Ejercicio 2** Escribir una función `num_menciones` para conocer el número de tweets que nombran (examinar `user_mentions`) a un usuario dado su screen_name 
- *Nombre*: `num_menciones`
- *Parámetros de entrada*: 
    - `db`: el acceso a una base de datos que se asume incluye una colección `tweet`de tweets
    - `usuario`: screen_name de un usuario
   
- *Devuelve*: número de tweets que mencionan al usuario (un entero mayor o igual a 0)


In [14]:
# solución
def num_menciones(db,usuario):
  return db.tweet.count_documents({"user_mentions.screen_name": usuario})
### para probar el código
print(num_menciones(db,"JoeBiden"),"menciones a JoeBiden")
print(num_menciones(db,"realDonaldTrump"),"menciones a realDonaldTrump")


453 menciones a JoeBiden
1479 menciones a realDonaldTrump


**Ejericicio 3** Escribir una función `prop_clave` para conocer la proporción de documentos que contienen una cierta clave a primer nivel en la colección tweets
- *Nombre*: `prop_clave`
- *Parámetros de entrada*: 
    - `db`: el acceso a una base de datos que se asume incluye una colección `tweet`de tweets
    - `clave`: clave a comprobar
   
- *Devuelve*: proporción sobre 1 (número entre 0 y 1) de tweets que incluyen la clave
- Obs: se puede usar python para hacer la operación aritmética que da la proporción, no tiene sentido usar MongoDB para eso

En el ejemplo se prueba la prop. de tweets que tienen coordenadas (esto es incluyen la clave 'coordinates')

In [22]:
# solución
def prop_clave(db,clave):
  total_tweets = db.tweet.count_documents({})
  total_prop_clave = db.tweet.count_documents({clave: {"$exists":"true"}})
  return total_prop_clave / total_tweets
print("Proporción de tweets con coordenadas",prop_clave(db,"coordinates"))

Proporción de tweets con coordenadas 0.6035737921906023


**Ejericicio 4** Escribir una función `muestra_NY(db)` que internamente utilice una consulta Mongo para obtener los tweets que se han generado entre la longitud -74.5 y -73.5 (primera coordenada), y la latitud 40.5 y 41 (segunda coordenada), con los valores extremos no incluídos, y muestre, usando folium, un mapa centrado en las coordenadas 40.75 (lat) y -74(long), con un zoom_start de 9 (lo que corresponde al área de NY), tal que al hacer click en cada tweet muestre su texto

- *Nombre*: `muestra_NY(db)` 
- *Parámetros de entrada*: 

    - db el acceso a la base de datos
    
- *Devuelve*: Un map de folium con la representación de los tweets en su coordenada. Al hacer click sobre un tweet se mostrará su text

Debe mostrar algo parecido a esto (en el ejemplo tras hacer click en un tweet)
![](http://gpd.sip.ucm.es/rafa/docencia/nosql/images/ny.png)

In [5]:
import folium

# solución
def muestra_NY(db):
    


In [6]:
# para probar 
muestra_NY(db)

**Ejercicio 5** La librería para el tratamiento de lenguaje natural `flair` incorpora, entre otras muchas utilidades una sencilla forma de hacer análisis de sentimiento.

Primero, si no hemos intalado la librería debemos hacerlo

In [83]:
!pip install --user --upgrade flair

Requirement already up-to-date: flair in c:\users\rafa\appdata\roaming\python\python38\site-packages (0.9)


Aquí un pequeño ejemplo; la función `sentimiento` (que podemos usar en el ejercicio) para cada texto nos devuelve el sentimiento general y el grado de confianza en su estimación. La función recibie el clasificador (que no debemos cambiar) y la frase, y devuelve el valor y la confianza en forma de diccionario.

In [7]:
from flair.models import TextClassifier
from flair.data import Sentence
from flair.models import SequenceTagger

classifier = TextClassifier.load('en-sentiment')

def sentimiento(classifier, s):
    # make a sentence
    sentence = Sentence(s)
    classifier.predict(sentence)
    return sentence.labels[0].to_dict()
frase = '''Since 2016, the SEC/FBI has used 10 tax payer funded lawyers to shake me down over a 35,000 civil trade 
       dispute, all because I support @realDonaldTrump. 
       While ignoring @JoeBiden family schemes to bring billions from China, UKR &amp; Russia. 
       If I was a @TheDemocrats I’d blame RACISM! https://t.co/5rwMrGihcl'''

s = sentimiento(classifier,frase)
print("Sentimiento ",s["value"]," confianza ",s["confidence"])

2021-09-19 18:20:28,351 loading file C:\Users\Rafa\.flair\models\sentiment-en-mix-distillbert_4.pt
Sentimiento  NEGATIVE  confianza  0.9916785955429077


Escribir una función `añade_sentimiento(db,classifier,screen_name)` que modifique los tweets del usuario indicado que tengan una clave text añadiendo el sentiemiento que indica flair en una nueva clave `flair`. Además, función devolverá el sentimiento medio del usuario sumando todas las "confidences" pero con valor negativo para las que tengan "value" "NEGATIVE", con valor positivo para las que lo tengan "POSITIVE", y con valor 0 para los que devuelvan "NEUTRAL", y dividiendo finalmente esta suma por el total de valores sumados.


- *Nombre*: `añade_sentimiento(db,classifier,screen_name)` 
- *Parámetros de entrada*: 

    - db el acceso a la base de datos
    - classifier: el clasificador flair
    - screen_name: el screen_name de un usuario
    
- *Devuelve*: Modifica la colección tweet añadiendo a cada documento del usuario que contenga la clave 'text' el sentimiento devuelto por flair. Además devuelve la media de las "confidences" considerando las negativas con un -, las positivas como valores positivas y las neutrales como 0

Nota: la media se puede calcular sobre la marcha en Python, ya que va obteniendo cada "confidence"

In [103]:
# solución
def añade_sentimiento(db,classifier,screen_name):
 

In [106]:
# para probar
db.tweet.update_many({},{"$unset":{"flair":""}})
print(añade_sentimiento(db,classifier,"realDonaldTrump"))
print(añade_sentimiento(db,classifier,"jon_kinsley"))

-0.2596050142378047
0.9064595213642826


**Ejercicio 6** Escribir una función `num_tweets(db,n)`para mostrar por pantalla el número de tweets de cada usuario de mayor a menor para todo usuario que haya escrito al menos n tweets

- *Nombre*: `num_tweets(db,n)` 
- *Parámetros de entrada*: 

    - db el acceso a la base de datos
    - n el número mínimo de tweets para que un usuario aparezca en e resultado
    
- *Devuelve*: nada, solo muestra el resultado por pantalla

Nota: se valorará hacerlo usando agregaciones (ver notebook pymongo-aggregaciones)

In [56]:
# ejercicio 6
def num_tweets(db,n):

num_tweets(db,50)        

{'_id': 'LumberjackHill', 'num_tweets': 336}
{'_id': 'DaysLeft4Trump', 'num_tweets': 173}
{'_id': 'realDonaldTrump', 'num_tweets': 138}
{'_id': 'shiffy64', 'num_tweets': 90}
{'_id': 'pidybi', 'num_tweets': 69}
{'_id': 'jon_kinsley', 'num_tweets': 55}


**Ejericicio 7**   **Difícil** 
Definir una función `cercanos(db,long,lat,maxKm)` que permite obtener una lista de los screen_name de los usuarios que se han enviado algún tweet a una distancia máxima `maxKm`de ese punto

- *Nombre*: `cercanos(db,long,lat,maxKm)` 
- *Parámetros de entrada*: 

    - db el acceso a la base de datos
    - long,lat: coordenadas de un punto (en el mismo formato que se usa en los tweets)
    - Distancia máxima en la que buscar tweets
    
    
- *Devuelve*: Una lista Python con los screen_names de los usuarios que emitieron tweets a una distancia máxima maxKM. Si algún usuario ha emitido más de un tweet con coordenadas desde menos de esa distancia, aparecerá repetido

Nota: se debe hacer utilizando funciones de Mongo y aprovechando el índice de tipo GEOSPHERE

In [57]:
# No borrar esto; si se pueden añadir funciones auxiliares u otros import que hagan falta a continuación
db.tweet.create_index([( "coordinates", pymongo.GEOSPHERE)])

def cercanos(db,long,lat,maxKm):
        

print(cercanos(db,-117,0,5))
print(cercanos(db,-74,40.75,2.3))

['HW_TRK']
['Brian_Atwood', 'trafficgifs', 'TimEBrutus', 'LionelMedia', 'ngalai', 'TheatreChat', 'sailorboyj', 'realDonaldTrump', 'realDonaldTrump', 'realDonaldTrump', 'realDonaldTrump', 'realDonaldTrump', 'realDonaldTrump', 'realDonaldTrump']


## Parte 2 - Neo4j

Estos ejercicios no los ejecutaremos en el Notebook sino en Neo4j, aquí copiaremos solo la solución

Para comenzar, copiar y pegar las instrucciones para crear un [grafo de ejemplo](https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/usa2020neo4j.txt) con usuarios que han retuiteado a otros. El grafo tendrá un aspecto similar a este:

![](http://gpd.sip.ucm.es/rafa/docencia/nosql/images/usa2020neo4j.png)

Todos los nodos son de tipo Usuario, solo que algunos son además de tipo BP (Biden positivo) o TN (Trump negativo) o ambos. Las relaciones pueden ser de cualquiera de los 4 tipos que se indican en la gráfica, y van de la persona que retuitea al autor del mensaje. Es decir, si A reuitea a B se tendra una relación de la forma (A)-->(B)


**Ejercicio 1** Obtener todos los usuarios que han retuiteado  al usuario con atributo `id` "MichaelCohen212" (salen 5)

Copiar aquí la solución



**Ejercicio 2** Encontrar un camino de longitud 4 (4 relaciones, 5 nodos) entre los usuarios con id "CaslerNoel" y "mmpadellan". El orden de las flechas no importa, pero todas las relaciones deben ser de tipo TNegBNeu  (Trump negativo, Biden neutro)

Copiar aquí la solución



**Ejercicio 3**  id del usuario con más followers

Copiar aquí la solución


**Ejercicio 4** Encontrar un ciclo de longitud 4 (4 relaciones, 4 nodos ya que el primero y el último son el mismo) entre el usuario id:"DHStokyo" y el mismo, de forma que los 4 nodos tengan diferentes `id`

Copiar aquí la solución
