# PRÁCTICA NOSQL - SHAKESPEARE

Selección :

* **MongoDB**, utilizar el framework de agregación e indexar correctamente las colecciones para agilizar las búsquedas (crear los índices necesarios y jutificarlos).
* **Neo4j**, realizar búsquedas basadas en patrones.


Para ello habra que realizar los siguientes ejercicios:

* Pensar un caso de uso acorde al conjunto de datos seleccionado.
* Crear el modelo de datos acorde al caso de uso que se ha pensado y el datastore seleccionado.
* Crear las estructuras de datos necesarias para implementar el caso de uso.
* Tratar e insertar los datos en el modelo de datos creado.
* Realizar las consultas necesarias para el caso de uso pensado.

Qué hay que entregar:

* Descripción del caso de uso y justificación de por qué es adecuado para realizarlo con el data store seleccionado.
* Diagrama del modelo de datos.
* Un notebook de Jupyter que contenga:
    * Todas las sentencias para crear las tablas
    * El código necesario para tratar los datos e insertarlos en el datastore seleccionado.
    * Las sentencias de consulta
* Conclusiones:
    * ¿Qué te parece la base de datos seleccionada como data store?
    * ¿Qué te ha parecido el ejercicio?
    * ¿Qué has aprendido?
    * ¿Qué has hechado de menos?
    * ¿Cómo mejorarías la prática?

## Dataset elegido:

### Obras completas de Wiliam Sakespeare

Este dataset contiene los diálogos de todas la obras de Wiliam Sakespeare. Cada línea representa una fráse de un diálogo expresada por algún personaje de la obra.

Enlace de descarga: https://github.com/rafaelgarrote/datahack-nosql/raw/nosql-especial/workespecial/practica/data/shakespeare.json

Formato: json

Cada diálogo contiene los siguientes campos:

* **line_id**: Identificador único de la línea de diálogo. Tipo entero.
* **play_name**: Nombre de la obra.
* **speach_number**: Número del diálogo.
* **line_number**: Número de línea del diálogo en la obra.
* **speaker**: Personaje que dice el texto.
* **text_entry**: Texto dicho por el personaje en el diálogo.

Este data set tiene el siguiente formato:

`
{
    "line_id": INT,
    "play_name": "String",
    "speech_number": INT,
    "line_number": "String",
    "speaker": "String",
    "text_entry": "String",
}
`

Ejemplo:

`
{
    "line_id":110469,
    "play_name":"A Winters Tale",
    "speech_number":163,
    "line_number":"4.4.674",
    "speaker":"CAMILLO",
    "text_entry":"Do all lie there: it shall be so my care"
}
`

## Instalar librerías y conectarse a neo4j

In [1]:
# Instalar librerías pprintpp y py2neo
# pprintpp -  (pretty-print) mejora la legibilidad al mostrar estructuras de datos complejas.
# py2neo - facilita la creación y ejecución de consultas en Neo4j usando Python

!pip install pprintpp
!pip install py2neo



In [2]:
# Importación de clases de py2neo:
# Graph, para representar la conexión con la base de datos Neo4j.
# Relationship, para modelar relaciones entre nodos en la base de datos.
# Node, para representar nodos en la base de datos.

from py2neo import Graph, Relationship, Node

graph = Graph("http://neo4j:1234@neo4j:7474/db/data")

In [3]:
# Resetear notebook tras ejecuciones anteriores borrando los nodos y realaciones existentes en la base de datos.
graph.run("MATCH (n) DETACH DELETE n").evaluate()

## Cargar dataset

load_file('../data/neo4j/shakespeare.json')

In [None]:
# Descargar datos
import requests

# URL del conjunto de datos
url = "https://raw.githubusercontent.com/rafaelgarrote/datahack-nosql/nosql-especial/workespecial/practica/data/shakespeare.json"

# Realizar la solicitud HTTP
response = requests.get(url)

# Verificar si la solicitud fue exitosa (código de estado 200)
if response.status_code == 200:
    # Guardar los datos en un archivo local (opcional)
    with open("datos_shakespeare.json", "w") as file:
        file.write(response.text)

    # Cargar los datos en formato JSON
    data = response.json()

    # Ahora puedes trabajar con 'data' según tus necesidades
else:
    print(f"Error al obtener datos. Código de estado: {response.status_code}")


In [4]:
# Acceso a la url con los datos:
# Módulo json para trabajar con datos JSON (JavaScript Object Notation)
import json

# Biblioteca 'requests' para realizar solicitudes HTTP y obtener los datos directamente en Jupyter.
import requests

url = "https://raw.githubusercontent.com/rafaelgarrote/datahack-nosql/nosql-especial/workespecial/practica/data/shakespeare.json"
response = requests.get(url)

# Si la lectura es correcta, imprimir los 10 primeros objetos, sino imprimir código de error:
if response.status_code == 200:
    # Los objetos no están divididos por ',' y cada línea es uno distinto.
    # Dividir las líneas y cargar cada línea como un objeto JSON
    data_list = [json.loads(line) for line in response.text.split('\n') if line]
    # Ahora 'data_list' contiene una lista de objetos JSON
    for data in data_list[:5]:
        # Impresión 'pretty' de cada objeto con dumps
        print(json.dumps(data, indent=2))
else:
    print(f"Error al obtener datos. Código de estado: {response.status_code}")

{
  "type": "act",
  "line_id": 1,
  "play_name": "Henry IV",
  "speech_number": "",
  "line_number": "",
  "speaker": "",
  "text_entry": "ACT I"
}
{
  "type": "scene",
  "line_id": 2,
  "play_name": "Henry IV",
  "speech_number": "",
  "line_number": "",
  "speaker": "",
  "text_entry": "SCENE I. London. The palace."
}
{
  "type": "line",
  "line_id": 3,
  "play_name": "Henry IV",
  "speech_number": "",
  "line_number": "",
  "speaker": "",
  "text_entry": "Enter KING HENRY, LORD JOHN OF LANCASTER, the EARL of WESTMORELAND, SIR WALTER BLUNT, and others"
}
{
  "type": "line",
  "line_id": 4,
  "play_name": "Henry IV",
  "speech_number": 1,
  "line_number": "1.1.1",
  "speaker": "KING HENRY IV",
  "text_entry": "So shaken as we are, so wan with care,"
}
{
  "type": "line",
  "line_id": 5,
  "play_name": "Henry IV",
  "speech_number": 1,
  "line_number": "1.1.2",
  "speaker": "KING HENRY IV",
  "text_entry": "Find we a time for frighted peace to pant,"
}


In [17]:
# Comprobar índices (antes de crearlos)
graph.run("""
CALL db.indexes()
""").to_table()

id,name,state,populationPercent,uniqueness,type,entityType,labelsOrTypes,properties,provider
10,constraint_5f75e2f6,ONLINE,100.0,UNIQUE,BTREE,NODE,['Tweet'],['id'],native-btree-1.0
12,constraint_9b77979a,ONLINE,100.0,UNIQUE,BTREE,NODE,['HashTag'],['hashtag'],native-btree-1.0
1,index_343aff4e,ONLINE,100.0,NONUNIQUE,LOOKUP,NODE,[],[],token-lookup-1.0
14,index_84c36a3d,ONLINE,100.0,NONUNIQUE,BTREE,NODE,['Data'],['play_name'],native-btree-1.0
3,index_ad47116a,ONLINE,100.0,NONUNIQUE,BTREE,NODE,['Actor'],['name'],native-btree-1.0
2,index_f7700477,ONLINE,100.0,NONUNIQUE,LOOKUP,RELATIONSHIP,[],[],token-lookup-1.0


In [20]:
# Crear índices en cada OBRA para que las consultas sean más rápidas (Eliminar por si ya estuviese creado):

#graph.run("DROP INDEX ON :Data(play_name)").evaluate()
graph.run("CREATE INDEX ON :Data(play_name)").evaluate()
print("Índice creado con éxito.")

Índice creado con éxito.


In [22]:
# Crear índices de cada PERSONAJE para que las consultas sean más rápidas (Eliminar si ya estuviese creado):

#graph.run("DROP INDEX ON :Data(speaker)").evaluate()
graph.run("CREATE INDEX ON :Data(speaker)").evaluate()
print("Índice creado con éxito.")

Índice creado con éxito.


In [23]:
# Crear índices de cada TEXTO para que las consultas sean más rápidas (Eliminar si ya estuviese creado):

#graph.run("DROP INDEX ON :Data(text_entry)").evaluate()
graph.run("CREATE INDEX ON :Data(text_entry)").evaluate()
print("Índice creado con éxito.")

Índice creado con éxito.


In [None]:
# MODELADO (opción 1):
# Creación de  nodos (uno por cada objeto json) 

if response.status_code == 200:
    # Dividir las líneas y cargar cada línea como un objeto JSON
    data_list = [json.loads(line) for line in response.text.split('\n') if line]

    # Crear nodos en Neo4j para cada objeto JSON
    for data in data_list:
        node = Node("Data", **data)
        graph.create(node)

    print("Datos insertados en la base de datos Neo4j.")
else:
    print(f"Error al obtener datos. Código de estado: {response.status_code}")


In [None]:
# MODELADO (opción 2):
# Creación de  nodos por cada obra y línea de texto (o escena) y texto

# Crear nodos para cada obra, líneas y escenas
for obra in data_list:
    play_name = obra.get("play_name", "")
    type = obra.get("type", "")
    text_entry = obra.get("text_entry", "")
    
    # Crear un nodo de obra (si no existe)
    query = f"MERGE (p:Play {{play_name: '{play_name}'}})"
    graph.run(query).evaluate()

    # Crear un nodo de línea o escena
    if type == "line":
        # Si es una línea, usar text_entry como identificador único
        query = f"MERGE (l:Line {{text_entry: '{text_entry}'}}) SET l.type = '{type}'"
    elif type == "scene":
        # Si es una escena, usar text_entry como identificador único
        query = f"MERGE (s:Scene {{text_entry: '{text_entry}'}}) SET s.type = '{type}'"

    # Crear relación entre la obra y la línea o escena
    query += f" MERGE (p)-[:CONTAINS]->(n)"
    graph.run(query).evaluate()


In [None]:
# Mostrar los 10  primeros nodos:

graph.run("""
    MATCH (n:Data)
    RETURN n
    LIMIT 10;
""").to_table()

In [None]:
# Crear un nodo en Neo4j por cada obra de Shakespeare
for data in data_list:
    obra_name = data.get("play_name", "")
    node = Node("Obra", nombre=obra_name, **data)
    graph.create(node)

print("Nodos creados en la base de datos Neo4j para cada obra de Shakespeare.")

In [None]:
# Mostrar las obras del dataset:

result = graph.run("""
    MATCH (n:Data)
    RETURN DISTINCT n.play_name as obra, COUNT(n.play_name) as total_nodos
""")

for record in result:
    obra_name = record["obra"]
    total_nodos = record["total_nodos"]
    print(f"Obra: {obra_name}, Nodos: {total_nodos}")

In [None]:
# Mostrar los nodos con las  obras:
graph.run("""
    MATCH (n:Data)
    RETURN n
""")

In [None]:
# Mostrar  cantidad de nodos:

graph.run("""
    MATCH (n:Data)
    RETURN DISTINCT n.play_name as obra, COUNT(n.play_name) as total_nodos
""").to_table()