# Ejercicio: Shakespeare / Twitter Graph

En este ejercicio vamos a modelar la obra de Shakespeare como si fuese red social de Twitter en Neo4j.

* Un 'personaje' 'dice' unas 'líneas de texto', por lo tanto es su 'autor'.
* Las 'líneas de  texto' contienen un 'texto' y este 'texto' puede tener 'lugares'.
* Un 'personaje' puede 'mencionar' a otro 'personaje' en una 'línea de texto'.
* Un 'personaje' puede 'repetir' una 'línea de texto' de otro 'personaje' en una nueva 'línea de texto'.

El dataset usado tiene el siguiente formato:

`
{
    "type": "String", --> (act, scene or line)
    "line_id": INT,
    "play_name": "String",
    "speech_number": INT,
    "line_number": "String",
    "speaker": "String",
    "text_entry": "String"
}
`

El grafo que queremos generar (basado en twitter) es el siguiente:

![png](../images/neo4j/shakespeare_twitter.png)

Antes de empezar con el ejercico, vamos a importar las librerías necesarias para trabajar sobre Neo4j.

Como hacemos siempre, borramos todos los nodos y relaciones que existen en la base de datos para partir de un entorno limpio.

In [None]:
from pprintpp import pprint as pp
from py2neo import Graph, Relationship, Node
import json

graph = Graph("http://neo4j:1234@neo4j:7474/db/data")

In [None]:
graph.run("MATCH (n) DETACH DELETE n").evaluate()

In [None]:
# Comprobar ídices y constraints
graph.run("""
CALL db.indexes()
""").to_table()

La propiedad 'line_id' de los nodos etiquetados como 'TEXT' debe ser única:

In [None]:
graph.run("CREATE CONSTRAINT ON (text:Text) ASSERT text.line_id IS UNIQUE").evaluate()

La propiedad 'name' de los nodos etiquetados como 'Chararter' debe ser única:

In [None]:
graph.run("CREATE CONSTRAINT ON (chararter:Chararter) ASSERT chararter.name IS UNIQUE").evaluate()

La propiedad 'place' de los nodos etiquetados como 'Place' debe ser única:

In [None]:
graph.run("CREATE CONSTRAINT ON (place:Place) ASSERT place.place IS UNIQUE").evaluate()

Antes de realizar las búsquedas, vamos a insertar unos cuantos datos en el grafo con la estructura que hemos definido.

In [None]:
# PRUEBA!!
# El dataset del 'TEXT' está en formato JSON y crea un nodo con los datos de ese 'personaje'.
# Como resultado devuelve el nodo creado.
def parse_chararter(chararter_json):
    
    # Crea el nodo con la etiqueta "Chararter" y le asigna el valor a la propiedad "name" que es única.
    # 'speaker' es la propiedad dentro de cada documento json del dataset
    chararter = Node("Chararter", name = chararter_json['speaker'])
    
    # Para el resto de propiedades del personaje, si el dato existe en el JSON lo añade al nodo con el metodo update()
    if 'play_name' in chararter_json:
        chararter.update(play_name = chararter_json['play_name'])
    if 'speech_number' in chararter_json:
        chararter.update(speech_number = chararter_json['speech_number'])
    if 'line_number' in chararter_json:
        chararter.update(line_number = chararter_json['line_number'])
    if 'text_entry' in chararter_json:
        chararter.update(text_entry = chararter_json['text_entry'])
    
    try:
        # Crea el nodo 'chararter' en neo4j
        graph.create(chararter)
    except:
        # Si existe lanza una excepción ya que el nombre de personaje debe ser único en la  obra (¿lo será?).
        # Buscamos el nodo que ya existe por nombe de personaje y lo devolvemos.
        # Utilizamos el método run que permite ejecutar cualquier sentencia.
        chararter = graph.run("MATCH (chararter:Chararter {name : '%s'}) RETURN chararter" % (chararter_json['speaker'])).evaluate()
        pass

    # Devolvemos el nodo creado
    return chararter

In [None]:
#Parsea cada documento del dataset y crea tanto el Nodo TEXT, como el Nodo CHARARTER que crea el testo más los nodos CHARARTER de sus menciones
#Además crea lo nodos 'PLACE' con los lugares que contiene el texto.
#Por último crea todas las relacciones entre los nodos creados, SAY, MENTION, REPEATED y HAS
def parse_text(text_json):
    
    #Cogemos el campo 'chararter' del json y lo pasamos al método anterior que parsea e inserta el personaje.
    chararter = parse_chararter(text_json['speaker'])
    
    #Creamos el Nodo con el label 'Text' que contien los datos del texto que estamos parseando
    text = Node("Text",
                 id = text_json['line_id'],
                 type = text_json['type'],
                 play_name = text_json['play_name'],
                 speech_number = text_json['speech_number'],
                 line_number = text_json['line_number'],
                 text_entry = text_json['text_entry']
                )
    
    try:
        # Crea el nodo 'TEXT' en neo4j
        graph.create(text)
    except:
        # Si el texto ya existe lanza una excepción, por lo que lo buscamos y lo asignamos a la variable 'text'.
        text = graph.run("MATCH (t:Text {id : %s}) RETURN t" % (text_json['line_id'])).evaluate()
        pass
    
    # Creamos la relacción SAY entre el Nodo de tipo 'Chararter' y el Nodo de tipo 'Text' que hemos insertado
    chararter_say_text = Relationship(chararter, "SAY", text)
    graph.create(chararter_say_text)
    
    # Comprobamos si tiene menciones y añadimos los nodos de tipo Chararter con los datos del personaje mencionado
    # Creamos la relacción MENTION entre el texto y el personaje mencionado.
    if 'chararter_mention' in text_json:
        for chararter_mention_json in text_json['chararter_mention']:
            chararter_mentioned = parse_chararter(chararter_mention_json)
            text_mentioned_chararter = Relationship(text, "MENTION", chararter_mencioned)
            graph.create(text_mentioned_)
 
    # Comprobamos si el texto contiene lugares y si es así creamos los nodos de tipo 'PLACE' y las relacciones 'HAS' ente el lugar y el texto que lo contiene.
    if 'text_entry' in text_json:
        for place in text_json['text_entry']:
            place = Node("Place", place = text_entry)
            try:
                graph.create(place)
            except:
                place = graph.run("MATCH (p:Place {place : '%s'}) RETURN p" % (text_entry)).evaluate()
                pass
            text_Place_place = Relationship(text, "HAS", place)
            graph.create(text_Place_place)

    # Por último comprobamos si se trata de un texto repetido y si es así creamos la relacción REPEATED entre el 
    # texto y el personaje que lo ha repetido
    if 'repeated_status' in text_json:
        chararter_repeated = parse_chararter(text_json['repeated_status']['chararter'])
        text_repeaterOf_chararter = Relationship(text, "REPEATED", chararter_repeated)
        graph.create(tweet_retweetOf_user)
        
        parse_text(text_json['repeated_status'])

In [None]:
# Este método lee el fichero indicado por parámetro. 
# Parsea cada linea en formato JSON. Cada línea representa un texto.
def load_file(text_data_path):
    text_file = open(text_data_path, "r")
    for text in text_file:
        parse_text(json.loads(text))

In [None]:
#Carga el fichero con los textos.
load_file('../data/neo4j/data_shakespeare.json')