# PRÁCTICA NOSQL (NEO4J) - SHAKESPEARE


## Dataset elegido:

### Obras completas de Wiliam Sakespeare

Este dataset contiene los diálogos de todas la obras de Wiliam Sakespeare. Cada línea representa una fráse de un diálogo expresada por algún personaje de la obra.

Enlace de descarga: https://github.com/rafaelgarrote/datahack-nosql/raw/nosql-especial/workespecial/practica/data/shakespeare.json

Formato: json

Cada diálogo contiene los siguientes campos:

* **line_id**: Identificador único de la línea de diálogo. Tipo entero.
* **play_name**: Nombre de la obra.
* **speach_number**: Número del diálogo.
* **line_number**: Número de línea del diálogo en la obra.
* **speaker**: Personaje que dice el texto.
* **text_entry**: Texto dicho por el personaje en el diálogo.

Este dataset tiene el siguiente formato:

`
{
    "type": "String", --> (act, scene or line)
    "line_id": INT,
    "play_name": "String",
    "speech_number": INT,
    "line_number": "String",
    "speaker": "String",
    "text_entry": "String"
}
`

Ejemplo:

`
{
    "type":"act",
    "line_id":110469,
    "play_name":"A Winters Tale",
    "speech_number":163,
    "line_number":"4.4.674",
    "speaker":"CAMILLO",
    "text_entry":"Do all lie there: it shall be so my care"
}

{
  "type": "scene", --> Cuando es una  escena, se especifica un lugar.
  "line_id": 2,
  "play_name": "Henry IV",
  "speech_number": "",
  "line_number": "",
  "speaker": "", 
  "text_entry": "SCENE I. London. The palace." --> Lugar donde se representa la escena
}
`

### Caso de uso: EMPRESA DE VISITAS TEATRALIZADAS

Una empresa afincada en Londres quiere hacer visitas teatralizadas por la ciudad basadas en la obra de Shakespeare.

Para poder hacer el plan de trabajo de cada representación necesitan saber:

1. Obras de Shakespeare ambientadas en Londres y sus localizaciones.
2. Listado con los ambientes que tiene cada una de las localizaciones de Londres de la obra de Shakespeare.
3. De las obras en Londres, saber las escenas de cada obra.
4. De las obras en Londres, saber los personajes que aparecen en cada obra.
5. Cuantas veces aparece un personaje en un ambiente y en qué ambiente.

Nota:
* Localización: Lugar donde se representa una secuencia.
* Ambiente: Espacio dentro de una localización (cuando se especifica).

A parte de estas consultas, facilito otras más genéricas que me han resultado interesantes.

### Elección Neo4j

He elegido Neo4j en vez de mongodb por:

* Modelo de Datos Gráfico: 
Neo4j está basado en un modelo de datos gráfico, por lo que es muy sencillo para representar y consultar relaciones complejas entre entidades. Al necesitar bastantes relaciones y conexiones entre datos, consideré que ofrecería un rendimiento más eficiente a mongo para las consultas necesarias.

* Consultas de Relaciones:
Neo4j proporciona el lenguaje Cypher que facilita la expresión y ejecución de consultas que involucran relaciones entre nodos de forma más sencilla que mongo. Es muy intuitivo de usar no sólo por el Cypher sino también por el apartado visual que ofrece el 'Browser', mostrando los nodos y sus relaciones graficamente.

SOBRE MONGO:

Las pruebas que he realizado para consultas que implican recopilación de "texto completo", por ejemplo, "Mostrar el texto completo de una secuencia concreta de una obra concreta" Neo4j no ofrecía un rendimiento ópticmo. Las consultas y creación de nodos era MUY larga. Para este tipo de consultas he probado mongodb y funciona MUCHO mejor que Neo4j ofreciendo un rendimiento muchísimo mejor.

* Adjunto también el Notebook con las pruebas en mongo.

El diagrama del modelo de datos (extraído del Browser) es:

<img src="images/shakespeare_schema.jpg" alt="shakespeare" style="width: 800px; PADDING-LEFT: 5px"/>

#### Conclusiones:
* ¿Qué te parece la base de datos seleccionada como data store?

Neo4j me ha gustado especialmente porque la considero más creativa e intuitiva. Permite un modelado visualmente muy atractivo y sencillo en el uso de nodos y sus relaciones para (casi) todo tipo de  consultas.

Como he comprobado en las pruebas realizadas previamente, mongo supera a meo4j en las consultas que requieren recopilación de información de multitud de nodos. En el caso del dataset de Shakespeare, para la recolilación de textos completos de las obras, mongo funciona mucho mejor que neo4j.

También me encantan las herramientas que ofrece Neo4j para la visualización y creación de proyectos. A parte del Browser, he 'trasteado' con sus otras herramientas (data importer, arrows, Aura/Workspace y Bloom) y me han parecido muy intuitivas, sencillas de usar y visualmente muy atractivas.
* ¿Qué te ha parecido el ejercicio?

Muy interesante al poder elegir entre distintos datasets en el que cada uno ofrece posibilidades muy distintas. Poder elegir el dataset que más te motive creo que es esencial para disfrutar haciendo el ejercicio. Yo lo he disfrutado mucho.
* ¿Qué has aprendido?

No sólo a manejar mongodb y sobretodo Neo4j sino a entender la importancia de estudiar el dataset y el caso de uso concreto antes de 'lanzarte' a modelar y hacer consultas sin un objetivo concreto.
* ¿Qué has hechado de menos?

En la práctica nada. Tal vez algún otro dataset para trastear o tener más opciones. En clase, ver en casos de uso reales de cada una de las bases de datos más importantes que hemos visto para entender mejor cuando elegir una u otra y qué se puede hacer con ellas.
* ¿Cómo mejorarías la prática?

Creo que hay personas que les cuesta encontrar un caso de uso, se necesita algo de creatividad que no tenemos porque tenerla, bien por falta de tiempo bien  por ner una  persona más 'técnica'. Sería útil poner varios casos de uso genéricos para aquellas personas que lo puedan necesitar.


## Preparación del entorno

In [1]:
# Instalar librerías pprintpp y py2neo
# pprintpp -  (pretty-print) mejora la legibilidad al mostrar estructuras de datos complejas.
# py2neo - facilita la creación y ejecución de consultas en Neo4j usando Python

!pip install pprintpp
!pip install py2neo



In [2]:
# Importación de clases de py2neo:
    # Graph, para representar la conexión con la base de datos.
    # Relationship, para modelar relaciones entre nodos en la base de datos.
    # Node, para representar nodos en la base de datos.

from py2neo import Graph, Relationship, Node

graph = Graph("http://neo4j:1234@neo4j:7474/db/data")

In [3]:
# Resetear notebook tras ejecuciones anteriores borrando los nodos y realaciones existentes en la base de datos.

graph.run("MATCH (n) DETACH DELETE n").evaluate()

## Creación de índices y constraints


In [4]:
# Comprobar ÍNDICES Y CONSTRAINTS creados:
graph.run("""
CALL db.indexes()
""").to_table()

# Eliminar constraint:
# graph.run("DROP CONSTRAINT const_name")
# Crear constraint:
# graph.run("""CREATE CONSTRAINT new_const_name ON (new_atrib:new_const_name) ASSERT new_atrib.new_prop IS UNIQUE""")

id,name,state,populationPercent,uniqueness,type,entityType,labelsOrTypes,properties,provider
4,Ambience,ONLINE,100.0,UNIQUE,BTREE,NODE,['Ambience'],['name'],native-btree-1.0
16,Character,ONLINE,100.0,UNIQUE,BTREE,NODE,['Character'],['name'],native-btree-1.0
1,Location,ONLINE,100.0,UNIQUE,BTREE,NODE,['Location'],['name'],native-btree-1.0
10,Play,ONLINE,100.0,UNIQUE,BTREE,NODE,['Play'],['name'],native-btree-1.0
8,Scene,ONLINE,100.0,UNIQUE,BTREE,NODE,['Scene'],['number'],native-btree-1.0


In [5]:
import json
import requests
from py2neo import Graph, Node, Relationship

# URL del conjunto de datos
url = "https://raw.githubusercontent.com/rafaelgarrote/datahack-nosql/nosql-especial/workespecial/practica/data/shakespeare.json"

# Ruta del archivo local
local_file = "dataset_shakespeare.json"

# Realizar la solicitud HTTP
response = requests.get(url)

# Verificar si la solicitud fue exitosa (código de estado 200)
if response.status_code == 200:
    # Guardar los datos en un archivo local en modo "escritura"
    with open(local_file, "w") as file:
        file.write(response.text)  
    print("Datos descargados exitosamente.")

    # Dividir cada línea del dataset y cargarlas como un objeto JSON
    data_list = [json.loads(line) for line in response.text.split('\n') if line]

    # Verificar si los índices ya existen antes de intentar crearlos
    if not graph.schema.get_indexes("Location"):
        graph.run("CREATE INDEX ON :Location(name)")

    if not graph.schema.get_indexes("Ambience"):
        graph.run("CREATE INDEX ON :Ambience(name)")

    if not graph.schema.get_indexes("Play"):
        graph.run("CREATE INDEX ON :Play(name)")
        
    if not graph.schema.get_indexes("Character"):
        graph.run("CREATE INDEX ON :Character(name)")
    
    if not graph.schema.get_indexes("Scene"):
        graph.run("CREATE INDEX ON :Scene(number)")
        
    # Agregar restricciones de unicidad si no existen (las elimina y luego las vuelve a crear)
    if not graph.schema.get_uniqueness_constraints("Location"):
        graph.run("DROP INDEX ON :Location(name)")
        graph.run("CREATE CONSTRAINT Location ON (location:Location) ASSERT location.name IS UNIQUE")
        
    if not graph.schema.get_uniqueness_constraints("Ambience"):
        graph.run("DROP INDEX ON :Ambience(name)")
        graph.run("CREATE CONSTRAINT Ambience ON (ambience:Ambience) ASSERT ambience.name IS UNIQUE")
        
    if not graph.schema.get_uniqueness_constraints("Play"):
        graph.run("DROP INDEX ON :Play(name)")
        graph.run("CREATE CONSTRAINT Play ON (play:Play) ASSERT play.name IS UNIQUE")
        
    if not graph.schema.get_uniqueness_constraints("Character"):
        graph.run("DROP INDEX ON :Character(name)")
        graph.run("CREATE CONSTRAINT Character ON (character:Character) ASSERT character.name IS UNIQUE")
        
    if not graph.schema.get_uniqueness_constraints("Scene"):
        graph.run("DROP INDEX ON :Scene(number)")
        graph.run("CREATE CONSTRAINT Scene ON (scene:Scene) ASSERT scene.number IS UNIQUE")

    print("\nÍndices y restricciones de unicidad creados exitosamente.")
    
else:
    print(f"Error al obtener datos. Código de estado: {response.status_code}")
    
# Imprimir los primeros documentos JSON
print("\nPrimeros documentos JSON:")
for i, entry in enumerate(data_list[:3], 1):
    print(f"\nDocumento {i}:\n{json.dumps(entry, indent=2)}")

Datos descargados exitosamente.

Índices y restricciones de unicidad creados exitosamente.

Primeros documentos JSON:

Documento 1:
{
  "type": "act",
  "line_id": 1,
  "play_name": "Henry IV",
  "speech_number": "",
  "line_number": "",
  "speaker": "",
  "text_entry": "ACT I"
}

Documento 2:
{
  "type": "scene",
  "line_id": 2,
  "play_name": "Henry IV",
  "speech_number": "",
  "line_number": "",
  "speaker": "",
  "text_entry": "SCENE I. London. The palace."
}

Documento 3:
{
  "type": "line",
  "line_id": 3,
  "play_name": "Henry IV",
  "speech_number": "",
  "line_number": "",
  "speaker": "",
  "text_entry": "Enter KING HENRY, LORD JOHN OF LANCASTER, the EARL of WESTMORELAND, SIR WALTER BLUNT, and others"
}


### MODELADO DE DATOS

Tras varias pruebas en donde creaba un nodo por cada documento json y para mejorar los tiempos de carga, he importado sólo los documentos con 'type'='scene' ya  que con ellos se disponía de los datos necesarios para el caso de  uso. De esta forma se ha reducido el tiempo de carga de 30 min a 2 min.

Según indica el dataset, hay secuencias de la obra que tienen una única localización: 'SCENE III. Warkworth castle' y hay otras que se especifica, dentro de esa localización, otro 'ambiente': 'SCENE IV. York. The ARCHBISHOPS palace.' (en 'York', 'The ARCHBISHOPS palace.'

Por ello he creído necesario dividir en dos nodos distintos 'Location' y 'Ambience' para poder hacer las consultas más  precisas. Paro ello he tenido que importar los documentos dividiendo la frase en sus '.' para obtener cada parte y asignarla a su nodo correspondiente.

Para el nodo 'Scene' he dejado el texto completo de la propiedad 'text_entry' ya que veía útil en ciertos casos que se indicase el nº de secuencia con su localización para facilitar las consultas.

Para el resto de nodos se ha usado la propiedad que  indicaba el json del dataset:
* Play --> 'play_name'
* Character --> 'speaker'

In [6]:
# Crear grafo con nodos y relaciones

for entry in data_list:
    if entry["type"] == "scene":
        location_split = entry["text_entry"].split(". ", 1)
        if len(location_split) == 2:
            location_and_ambience = location_split[1].split(". ", 1)
            if len(location_and_ambience) == 2:
                location, ambience = location_and_ambience
            
            # Crear nodos con etiquetas y claves principales
            location_node = Node("Location", name=location)
            ambience_node = Node("Ambience", name=ambience)
            play_node = Node("Play", name=entry["play_name"])
            character_node = Node("Character", name=entry["speaker"])
            scene_node = Node("Scene", number=entry["text_entry"])

            graph.merge(location_node, "Location", "name")
            graph.merge(ambience_node, "Ambience", "name")
            graph.merge(play_node, "Play", "name")
            graph.merge(character_node, "Character", "name")
            graph.merge(scene_node, "Scene", "number")
            
            # Crear relaciones entre los nodos
            play_location_rel = Relationship(play_node, "REPRESENTED_IN", location_node)
            location_ambience_rel = Relationship(location_node, "HAS_A", ambience_node)
            ambience_play_rel = Relationship(ambience_node, "BELONGS_TO", play_node)
            character_play_rel = Relationship(character_node, "APPEARS_IN", play_node)
            character_ambience_rel =Relationship(character_node, "IS_IN", ambience_node)
            play_scene_rel = Relationship(play_node, "DIVIDED_BY", scene_node)
                
            graph.merge(play_location_rel)
            graph.merge(location_ambience_rel)
            graph.merge(ambience_play_rel)
            graph.merge(character_ambience_rel)
            graph.merge(character_play_rel)
            graph.merge(play_scene_rel)

print("Grafo creado exitosamente.")

Grafo creado exitosamente.


In [7]:
# Nodos y relaciones existentes
graph.run("""
MATCH (n)
RETURN DISTINCT labels(n) AS Labels, keys(n) AS Keys, n
""").to_table()

Labels,Keys,n
['Location'],['name'],(_2460:Location {name: 'London'})
['Ambience'],['name'],(_2461:Ambience {name: 'The palace.'})
['Play'],['name'],(_2462:Play {name: 'Henry IV'})
['Character'],['name'],(_2463:Character {name: ''})
['Scene'],['number'],(_2464:Scene {number: 'SCENE I. London. The palace.'})
['Ambience'],['name'],(_2465:Ambience {name: 'An apartment of the Princes.'})
['Character'],['name'],(_2466:Character {name: 'WESTMORELAND'})
['Scene'],['number'],(_2467:Scene {number: 'SCENE II. London. An apartment of the Princes.'})
['Character'],['name'],(_2468:Character {name: 'PRINCE HENRY'})
['Scene'],['number'],(_2469:Scene {number: 'SCENE III. London. The palace.'})


In [8]:
# Relaciones existentes entre los nodos:

graph.run("""
    MATCH (n)-[r]-(m)
    RETURN DISTINCT TYPE(r) AS RelationshipType
""").to_table()

# Eliminar relaciones:
# graph.run(""" MATCH (:City)-[r:BELONGS_TO]->(:Play) DELETE r """)

RelationshipType
REPRESENTED_IN
HAS_A
IS_IN
BELONGS_TO
DIVIDED_BY
APPEARS_IN


#### El resultado del grafo y sus nodos desde la herramienta Bloom de Neo4j se ve así:

<img src="images/grafo2.png" alt="grafo1" style="width: 800px; PADDING-LEFT: 5px"/>
<img src="images/grafo1.png" alt="grafo1" style="width: 800px; PADDING-LEFT: 5px"/>
<img src="images/grafo3.png" alt="grafo1" style="width: 800px; PADDING-LEFT: 5px"/>
<img src="images/grafo4.png" alt="grafo1" style="width: 800px; PADDING-LEFT: 5px"/>

### CONSULTAS CASO DE USO

In [None]:
# Consulta 1: Obras de Shakespeare ambientadas en Londres y sus localizaciones
graph.run("""
    MATCH (ambience:Ambience)<-[:HAS_LOCATION]-(locatioin:Location {name: 'London'})<-[:REPRESENTED_IN]-(play:Play)
    RETURN play.name AS Play, COLLECT(ambience.name) AS Ambience
""").to_table()

In [None]:
# Consulta 2: Listado con los ambientes que tiene cada una de las localizaciones de Londres de la obra de Shakespeare

graph.run("""
    MATCH (location:Location {name: 'London'})-[:HAS_LOCATION]->(ambience:Ambience)
    RETURN location.name AS Location, COLLECT(ambience.name) AS Ambience
    ORDER BY location.name
""").to_table()


In [None]:
# Consulta 3: De las obras en Londres, saber las escenas de cada obra.
graph.run("""
    MATCH (location:Location {name:'London'})<-[:REPRESENTED_IN]-(play:Play)-[:DIVIDED_BY]->(scene:Scene)
    RETURN play.name AS Play, COLLECT(scene.number) AS Scene
    ORDER BY Scene
""").to_table()

In [None]:
# Consulta 4: De las obras en Londres, saber los personajes que aparecen en cada obra.
graph.run("""
    MATCH (location:Location {name:'London'})<-[:REPRESENTED_IN]-(play:Play)<-[:APPEARS_IN]-(character:Character)
    RETURN play.name AS Play, COLLECT(character.name) AS Character
""").to_table()

In [None]:
# Consulta 5: Cuantas veces aparece un personaje en un ambiente y en qué ambiente.

graph.run("""
    MATCH (ambience:Ambience)<-[HAS_LOCATION]-(location:Location {name:'London'})<-[:REPRESENTED_IN]-(play:Play)<-[:APPEARS_IN]-(character:Character)
    RETURN character.name AS Character, COUNT(*) AS Appearances, COLLECT(ambience.name) As Ambience
    ORDER BY Appearances DESC
""").to_table()

### CONSULTAS GENÉRICAS

In [None]:
# Consulta: Listado con las localizaciones que aparecen en cada obra de Shakespeare

graph.run("""
    MATCH (play:Play)-[:REPRESENTED_IN]->(location:Location)
    RETURN play.name AS Play, COLLECT(location.name) AS Locations
    ORDER BY play.name
""").to_table()

In [None]:
# Consulta: Listado con los ambientes que tiene cada una de las localizaciones de la obra de Shakespeare

graph.run("""
    MATCH (location:Location)-[:HAS_LOCATION]->(ambience:Ambience)
    RETURN location.name AS Location, COLLECT(ambience.name) AS Ambience
    ORDER BY location.name
""").to_table()


In [None]:
# Consulta: Personajes que actuan en cada obra de Shakespeare
graph.run("""
    MATCH (play:Play)<-[:APPEARS_IN]-(character:Character)
    RETURN play.name AS Play, COLLECT(character.name) AS Character
    ORDER BY play.name
""").to_table()


In [None]:
# Consulta: ¿Cuántos personajes hay en cada obra de Shakespeare?
graph.run("""
    MATCH (play:Play)<-[:APPEARS_IN]-(character:Character)
    RETURN play.name AS Play, COUNT(character) AS NumberOfCharacters
    ORDER BY NumberOfCharacters DESC
""").to_table()


In [None]:
# Consulta: Número de personajes en toda la obra de Shakespeare.
graph.run("""
    MATCH (play:Play)<-[:APPEARS_IN]-(character:Character)
    RETURN COUNT(DISTINCT character) AS TotalCharacters 
    ORDER BY TotalCharacters DESC
""").to_table()


In [None]:
# Consulta: Lista de las escenas en las que está dividida cada obra de Shakespeare.

graph.run("""
MATCH (play:Play)-[:DIVIDED_BY]->(scene:Scene)
RETURN play.name AS Play, COLLECT(scene.number) AS Scenes
ORDER BY Play
""").to_table()