# Ejercicio: Twitter Graph

En este ejercicio vamos a modelar la red social de Twitter en Neo4j.

* Un usuario genera tweets, por lo tanto es su autor.
* Los tweets contienen un texto y este texto puede tener hashtags.
* Un usuario puede mencionar a otro usuario en un tweet.
* Un usuario puede retweetear un tweet de otro usuario en un nuevo tweet.

El grafo que quermos generar es el siguiente:

![png](../images/neo4j/twitter1.png)

Antes de empezar con el ejercico, vamos a importar las librerías necesarias para trabajar sobre Neo4j

Como hacemos siempre, borramos todos los nodos y relaciones que existen en la base de datos para partir de un entorno limpio.

In [None]:
from pprintpp import pprint as pp
from py2neo import Graph, Relationship, Node
import json

graph = Graph("http://neo4j:1234@neo4j:7474/db/data")

In [None]:
graph.run("MATCH (n) DETACH DELETE n").evaluate()

Antes de empezar a insertar nodos y relaciones, queremos crear una serie de ídices y constraints

### Ejercicio1: La propiedad id de los nodos etiquetados como Tweet debe ser único:

In [None]:
graph.run("DROP CONSTRAINT ON (tweet:Tweet) ASSERT tweet.id IS UNIQUE").evaluate()

In [None]:
graph.run("CREATE CONSTRAINT ON (tweet:Tweet) ASSERT tweet.id IS UNIQUE").evaluate()

Borrar el CONSTRAINT: graph.run("DROP CONSTRAINT ON (tweet:Tweet) ASSERT tweet.id IS UNIQUE").evaluate()

### Ejercicio2: La propiedad username de los nodos etiquetados como User debe ser único.

In [None]:
graph.run("DROP CONSTRAINT ON (user:User) ASSERT user.username IS UNIQUE").evaluate()

In [None]:
graph.run("CREATE CONSTRAINT ON (user:User) ASSERT user.username IS UNIQUE").evaluate()

### Ejercicio3: La propiedad hashtag de los nodos etiquetados como HashTag debe ser único.

In [None]:
graph.run("DROP CONSTRAINT ON (hashtag:HashTag) ASSERT hashtag.hashtag IS UNIQUE").evaluate()

In [None]:
graph.run("CREATE CONSTRAINT ON (hashtag:HashTag) ASSERT hashtag.hashtag IS UNIQUE").evaluate()

Antes de realizar las búsquedas, vamos a insertar unos cuantos datos en el grafo con la estructura que hemos definido.



In [None]:
# Recibe un usuario en formato JSON y crea un nodo con los datos de ese usuario.
# Como resultado devuelve el nodo creaado.
def parse_user(user_json):
    
    # Crea el nodo con la etiqueta "User" y le asigna el valor a la propiedad "username" que es única.
    user = Node("User", username = user_json['screen_name'])
    
    # Para el resto de propiedades del usuario, si el dato existe en el JSON la añade al nodo con el metodo update()
    if 'created_at' in user_json:
        user.update(created_at = user_json['created_at'])
    if 'description' in user_json:
        user.update(description = user_json['description'])
    if 'favourites_count' in user_json:
        user.update(favourites_count = user_json['favourites_count'])
    if 'followers_count' in user_json:
        user.update(followers_count = user_json['followers_count'])
    if 'friends_count' in user_json:
        user.update(friends_count = user_json['friends_count'])
    if 'statuses_count' in user_json:
        user.update(statuses_count = user_json['statuses_count'])
    if 'time_zone' in user_json:
        user.update(time_zone = user_json['time_zone'])
    if 'name' in user_json:
        user.update(name = user_json['name'])
    if 'profile_image_url' in user_json:
        user.update(profile_image_url = user_json['profile_image_url'])
    
    try:
        # Crea el nodo 'user' en neo4j
        graph.create(user)
    except:
        # Si existe lanza una excepción ya que el nombre de usuario es único.
        # Buscamos el nodo que ya existe por nombe de usuario y lo devolvemos.
        # Utilizamos el método run que permite ejecutar cualquier sentencia.
        user = graph.run("MATCH (user:User {username : '%s'}) RETURN user" % (user_json['screen_name'])).evaluate()
        pass

    # Devolvemos el nodo creado
    return user

In [None]:
#Parsea el tweet y crea tanto el Nodo Tweet, como el Nodo User que crea el tweet más los nodos User de sus menciones
#Además crea lo nodos #HashTag con los hashtag que contiene el tweet.
#Por último crea todas las relacciones entre los nodos creados, TWEETED, MENCIONED, HASHTAG y RETWEET_OF
def parse_tweet(tweet_json):
    
    #Cogemos el campo user del json y lo pasamos al método anterior que parsea e inserta el usuario.
    user = parse_user(tweet_json['user'])
    
    #Creamos el Nodo con el label Tweet que contien los datos del tweet que stamos parseando
    tweet = Node("Tweet",
                 id = tweet_json['id'],
                 created_at = tweet_json['created_at'],
                 lang = tweet_json['lang'],
                 retweet_count = tweet_json['retweet_count'],
                 source = tweet_json['source'],
                 text = tweet_json['text']
                )
    
    try:
        # Crea el nodo 'tweet' en neo4j
        graph.create(tweet)
    except:
        # Si el tweet ya existe lanza una excepción, por lo que lo buscamos y lo asignamos a la variable tweet.
        tweet = graph.run("MATCH (t:Tweet {id : %s}) RETURN t" % (tweet_json['id'])).evaluate()
        pass
    
    # Creamos la relacción TWEETED entre el Nodo de tipo User y el Nodo de tipo Tweet que hemos insertado
    user_tweeted_tweet = Relationship(user, "TWEETED", tweet)
    graph.create(user_tweeted_tweet)
    
    # Comprobamos si tiene menciones y añadimos los nodos de tipo User con los datos del usuario mencionado
    # Creamos la relacción MENCIONED entre el tweet y el usuario mencionado.
    if 'user_mentions' in tweet_json:
        for user_mention_json in tweet_json['user_mentions']:
            user_mencioned = parse_user(user_mention_json)
            tweet_mencioned_user = Relationship(tweet, "MENCIONED", user_mencioned)
            graph.create(tweet_mencioned_user)
 
    # Comprobamos si el tweet contiene hashtags y si es así creamos los nodos de tipo HashTag y las relacciones
    # HASHTAG ente el hashtag y el tweet que lo contiene.
    if 'entities' in tweet_json:
        for entity in tweet_json['entities']:
            hashtag = Node("HashTag", hashtag = entity)
            try:
                graph.create(hashtag)
            except:
                hashtag = graph.run("MATCH (h:HashTag {hashtag : '%s'}) RETURN h" % (entity)).evaluate()
                pass
            tweet_HashTag_hashtag = Relationship(tweet, "HASHTAG", hashtag)
            graph.create(tweet_HashTag_hashtag)

    # Por último comprobamos si se trata de un retweet y si es así creamos la relacción RETWEET_OF entre el 
    # tweet y el usuario que lo retweetea
    if 'retweeted_status' in tweet_json:
        user_retweeted = parse_user(tweet_json['retweeted_status']['user'])
        tweet_retweetOf_user = Relationship(tweet, "RETWEET_OF", user_retweeted)
        graph.create(tweet_retweetOf_user)
        
        parse_tweet(tweet_json['retweeted_status'])

In [None]:
# Este método lee el fichero indicado por parámetro. 
# Parsea cada linea en formato JSON. Cada línea representa un tweet.
def load_file(tweets_data_path):
    tweets_file = open(tweets_data_path, "r")
    for tweet in tweets_file:
        parse_tweet(json.loads(tweet))

In [None]:
#Carga el fichero con los tweets.
load_file('../data/mongoDB/tweets.json')

In [None]:
# Imprimir todos los tweets existentes:
query = """
MATCH (tweet:Tweet)
RETURN COUNT(tweet) AS totalTweets;
"""

result = graph.run(query)

for record in result:
    print("Total de Tweets:", record["totalTweets"])

In [None]:
graph.run("""
    MATCH (tweet:Tweet)
    RETURN COUNT(tweet) AS Total_Tweets;
""").to_table()

### Ejercicio 4: Obten para cada usuario el total de tweets que ha generado

In [None]:
graph.run("""
    MATCH (user:User)-[:TWEETED]->(tweet:Tweet)
    RETURN user.username AS username, COUNT(tweet) AS totalTweets
    ORDER BY totalTweets DESC;
""").to_table()

### Ejercicio 5: Obten los 10 primeros tweets que ha generado el usuario con nombre de usuario 'couchbase'

In [None]:
graph.run("""
    MATCH (user:User {username: 'couchbase'})-[:TWEETED]->(tweet:Tweet)
    RETURN tweet.text AS Tweet_Text
    LIMIT 10
""").to_table()

### Ejercicio 6: Obten los 10 hashtags que más aparecen en un tweet

In [None]:
graph.run('''
    MATCH (tweet:Tweet)-[:HASHTAG]->(hashtag:HashTag)
    RETURN hashtag.hashtag, count(*) AS hashtagCount
    ORDER BY hashtagCount DESC
    LIMIT 10
''').to_table()

### Ejercicio 7: Obten los 10 hashtags que más aparecen junto al hashtag 'neo4j'

In [None]:
MATCH (:HashTag {hashtag: 'neo4j'})<-[:HASHTAG]-(tweet:Tweet)-[:HASHTAG]->(otherHashtag:HashTag)
RETURN otherHashtag.hashtag AS hashtag, COUNT(*) AS hashtagCount
ORDER BY hashtagCount DESC
LIMIT 10;


In [None]:
graph.run('''
    MATCH (tweet:Tweet)-[:HASHTAG]->(hashtag: {hashtag: 'neo4j'})
    RETURN hashtag.hashtag, count(*) AS hashtagCount
    ORDER BY hashtagCount DESC
    LIMIT 10
''').to_table()

In [None]:
# Consulta:
query = """
MATCH (targetHashtag:HashTag {hashtag: 'neo4j'})<-[:HASHTAG]-(tweet:Tweet)-[:HASHTAG]->(relatedHashtag:HashTag)
RETURN relatedHashtag.hashtag AS hashtag, COUNT(tweet) AS count
ORDER BY count DESC
LIMIT 10;
"""
# Ejecutar consulta:
result = graph.run(query)

# Imprimir resultado:
for record in result:
    print(record["hashtag"], record["count"])

### Ejercicio 8: Obten los 10 usuarios con más seguidores

In [None]:
# Consulta:
query = """
MATCH (user:User)
WHERE user.followers_count IS NOT NULL
RETURN user.username AS username, user.followers_count AS followersCount
ORDER BY followersCount DESC
LIMIT 10;
"""

# Ejecutar consulta:
result = graph.run(query)

# Imprimir resultado:
for record in result:
    print(record["username"], record["followersCount"])