# Twitter Graph

En este ejercicio vamos a modelar la red social de Twitter en Neo4j.

* Un usuario genera tweets, por lo tanto es su autor.
* Los tweets contienen un texto y este texto puede tener hashtags.
* Un usuario puede mencionar a otro usuario en un tweet.
* Un usuario puede retweetear un tweet de otro usuario en un nuevo tweet.

El grafo que quermos generar es el siguiente:

![png](../images/neo4j/twitter1.png)

Antes de empezar con el ejercico, vamos a importar las librerías necesarias para trabajar sobre Neo4j

In [None]:
%load_ext cypher

Como hacemos siempre, borramos todos los nodos y relaciones que existen en la base de datos para partir de un entorno limpio.

In [None]:
%%cypher  http://neo4j:1234@127.0.0.1:7474/db/data
MATCH (n)
OPTIONAL MATCH (n)-[r]-()
DELETE n,r

Antes de empezar a insertar nodos y relaciones, queremos crear una serie de ídices y constraints

### Ejercicio1: La propiedad id de los nodos etiquetados como Tweet debe ser único:

In [None]:
%%cypher http://neo4j:1234@127.0.0.1:7474/db/data
CREATE CONSTRAINT ON (t:Tweet) ASSERT t.id IS UNIQUE

### Ejercicio2: La propiedad username de los nodos etiquetados como User debe ser único.

In [None]:
%%cypher http://neo4j:1234@127.0.0.1:7474/db/data
CREATE CONSTRAINT ON (u:User) ASSERT u.username IS UNIQUE

### Ejercicio3: La propiedad hashtag de los nodos etiquetados como HashTag debe ser único.

In [None]:
%%cypher http://neo4j:1234@127.0.0.1:7474/db/data
CREATE CONSTRAINT ON (h:HashTag) ASSERT h.hashtag IS UNIQUE

Antes de realizar las búsquedas, vamos a isnertar unos cuantos datos en el grafo con la estructura que hemos definido.

Para trabajar con neo4j desde python vamos a utilizar la librerúa py2neo. Puedes encontrar la documentación en su página web: https://py2neo.org/v4/index.html

In [None]:
# Como instalar py2neo
#!pip install pprintpp
#!pip install py2neo

In [None]:
from pprintpp import pprint as pp


In [None]:
from py2neo import Graph, Relationship, Node
import json

# Crea una conexión a la base de datos. Le pasamos la URI en formato JDBC con usuario y contraseña.
graph = Graph("http://neo4j:1234@127.0.0.1:7474/db/data")

In [None]:
# Recibe un usuario en formato JSON y crea un nodo con los datos de ese usuario.
# Como resultado devuelve el nodo creaado.
def parse_user(user_json):
    
    # Crea el nodo con la etiqueta "User" y le asigna el valor a la propiedad "username" que es única.
    user = Node("User", username = user_json['screen_name'])
    
    # Para el resto de propiedades del usuario, si el dato existe en el JSON la añade al nodo con el metodo update()
    if 'created_at' in user_json:
        user.update(created_at = user_json['created_at'])
    if 'description' in user_json:
        user.update(description = user_json['description'])
    if 'favourites_count' in user_json:
        user.update(favourites_count = user_json['favourites_count'])
    if 'followers_count' in user_json:
        user.update(followers_count = user_json['followers_count'])
    if 'friends_count' in user_json:
        user.update(friends_count = user_json['friends_count'])
    if 'statuses_count' in user_json:
        user.update(statuses_count = user_json['statuses_count'])
    if 'time_zone' in user_json:
        user.update(time_zone = user_json['time_zone'])
    if 'name' in user_json:
        user.update(name = user_json['name'])
    if 'profile_image_url' in user_json:
        user.update(profile_image_url = user_json['profile_image_url'])
    
    try:
        # Crea el nodo en neo4j
        graph.create(user)
    except:
        # Si existe lanza una excepción ya que el nombre de usuario es único.
        # Buscamos el nodo que ya existe por nombe de usuario y lo devolvemos.
        # Utilizamos el método run que permite ejecutar cualquier sentencia.
        user = graph.run("MATCH (user:User {username : '%s'}) RETURN user" % (user_json['screen_name'])).evaluate()
        pass

    # Devolvemos el nodo creado
    return user

In [None]:
#Parsea el tweet y crea tanto el Nodo Tweet, como el Nodo User que crea el tweet más los nodos User de sus menciones
#Además crea lo nodos #HashTag con los hashtag que contiene el tweet.
#Por último crea todas las relacciones entre los nodos creados, TWEETED, MENCIONED, HASHTAG y RETWEET_OF
def parse_tweet(tweet_json):
    
    #Cogemos el campo user del json y lo pasamos al método anterior que parsea e inserta el usuario.
    user = parse_user(tweet_json['user'])
    
    #Creamos el Nodo con el label Tweet que contien los datos del tweet que stamos parseando
    tweet = Node("Tweet",
                 id = tweet_json['id'],
                 created_at = tweet_json['created_at'],
                 lang = tweet_json['lang'],
                 retweet_count = tweet_json['retweet_count'],
                 source = tweet_json['source'],
                 text = tweet_json['text']
                )
    
    try:
        # Crea el tweet en neo4j
        graph.create(tweet)
    except:
        # Si el tweet ya existe lanza una excepción, por lo que lo buscamos y lo asignamos a la variable tweet.
        tweet = graph.run("MATCH (t:Tweet {id : %s}) RETURN t" % (tweet_json['id'])).evaluate()
        pass
    
    # Creamos la relacción TWEETED entre el Nodo de tipo User y el Nodo de tipo Tweet que hemos insertado
    user_tweeted_tweet = Relationship(user, "TWEETED", tweet)
    graph.create(user_tweeted_tweet)
    
    # Comprobamos si tiene menciones y añadimos los nodos de tipo User con los datos del usuario mencionado
    # Creamos la relacción MENCIONED entre el tweet y el usuario mencionado.
    if 'user_mentions' in tweet_json:
        for user_mention_json in tweet_json['user_mentions']:
            user_mencioned = parse_user(user_mention_json)
            tweet_mencioned_user = Relationship(tweet, "MENCIONED", user_mencioned)
            graph.create(tweet_mencioned_user)
 
    # Comprobamos si el tweet contiene hashtags y si es así creamos los nodos de tipo HashTag y las relacciones
    # HASHTAG ente el hashtag y el tweet que lo contiene.
    if 'entities' in tweet_json:
        for entity in tweet_json['entities']:
            hashtag = Node("HashTag", hashtag = entity)
            try:
                graph.create(hashtag)
            except:
                hashtag = graph.run("MATCH (h:HashTag {hashtag : '%s'}) RETURN h" % (entity)).evaluate()
                pass
            tweet_HashTag_hashtag = Relationship(tweet, "HASHTAG", hashtag)
            graph.create(tweet_HashTag_hashtag)

    # Por último comprobamos si se trata de un retweet y si es así creamos la relacción RETWEET_OF entre el 
    # tweet y el usuario que lo retweetea
    if 'retweeted_status' in tweet_json:
        user_retweeted = parse_user(tweet_json['retweeted_status']['user'])
        tweet_retweetOf_user = Relationship(tweet, "RETWEET_OF", user_retweeted)
        graph.create(tweet_retweetOf_user)
        
        parse_tweet(tweet_json['retweeted_status'])

In [None]:
# Este método lee el fichero indicado por parámetro. 
# Parsea cada linea en formato JSON. Cada línea representa un tweet.
def load_file(tweets_data_path):
    tweets_file = open(tweets_data_path, "r")
    for tweet in tweets_file:
        parse_tweet(json.loads(tweet))

In [None]:
#Carga el fichero con los tweets.
load_file('../data/mongoDB/tweets.json')

### Ejercicio 4: Obten para cada usuario el total de tweets que ha generado

In [None]:
%%cypher http://neo4j:1234@127.0.0.1:7474/db/data
MATCH (u:User) - [r:TWEETED] -> (t:Tweet)
RETURN u.username, count(r)

### Ejercicio 5: Obten los 10 primeros tweets que ha generado el usuario con nombre de usuario 'couchbase'

In [None]:
%%cypher http://neo4j:1234@127.0.0.1:7474/db/data
MATCH (u:User {username : 'couchbase'})-[r:TWEETED]->(t)
RETURN u.username, t.text, type(r)
LIMIT 10

### Ejercicio 6: Obten los 10 hashtags que más aparecen en un tweet

In [None]:
%%cypher http://neo4j:1234@127.0.0.1:7474/db/data
match (n:HashTag)-[r]-() 
return n.hashtag, count(r) as degree 
order by degree desc
limit 10

In [None]:
%matplotlib inline

Antes de continuar, vamos a ver como trabajar con el resultado de una query y pandas.

Para ello vamos a utilizar el resultado de de la query que has hecho en el ejercicio anterior que recogemos en la variable results.

In [None]:
results = %%cypher http://neo4j:1234@127.0.0.1:7474/db/data \
            MATCH (n:HashTag)<-[r:HASHTAG]-() \
            RETURN n.hashtag, count(r) AS degree \
            ORDER BY degree desc \
            LIMIT 10

Si vemos de que tipo es el objeto devuelto vemos que es de tipo cypher.run.ResultSet. Si vemos los métodos que tiene, encontramos un get_dataframe() que devuelve el resultado en un dataframe de pandas.

In [None]:
type(results)

In [None]:
results.get_dataframe()

Vamos a ver que más métodos tiene, antes de continuar, entra en la página del driver para ver que nos permite hacer con la integración entre pandas y IPyChypher: https://ipython-cypher.readthedocs.io/en/latest/introduction.html#pandas-networkx

In [None]:
results.pie()

In [None]:
results.plot()

In [None]:
results.bar()

In [None]:
results = %cypher http://neo4j:1234@127.0.0.1:7474/db/data match (n)-[r]-() return n, r limit 10
results.draw()

### Ejercicio 7: Obten los 10 hashtags que más aparecen junto al hashtag 'neo4j'

In [None]:
query = """
    MATCH (h:HashTag)<-[:HASHTAG]-(:Tweet)-[:HASHTAG]->(HashTag {hashtag:"neo4j"}) 
    WHERE h.hashtag <> "neo4j"
    RETURN h.hashtag AS hashtag, count(*) AS count
    ORDER BY count DESC
    LIMIT 10
"""

results = graph.run(query)
for r in results:
    print("%s: %s" % (r['hashtag'], r['count']))


### Ejercicio 8: Obten los 10 usuarios con más seguidores

In [None]:
results = graph.run(
"""
    MATCH (u:User)
    WHERE exists(u.followers_count)
    return distinct u.username, u.followers_count
    order by u.followers_count DESC LIMIT 10
""")

for r in results:
    print("%s: %s" % (r['u.username'], r['u.followers_count']))