# PRÁCTICA NOSQL - SHAKESPEARE - CHARARTERS

Selección :

* **MongoDB**, utilizar el framework de agregación e indexar correctamente las colecciones para agilizar las búsquedas (crear los índices necesarios y jutificarlos).
* **Neo4j**, realizar búsquedas basadas en patrones.


Para ello habra que realizar los siguientes ejercicios:

* Pensar un caso de uso acorde al conjunto de datos seleccionado.
* Crear el modelo de datos acorde al caso de uso que se ha pensado y el datastore seleccionado.
* Crear las estructuras de datos necesarias para implementar el caso de uso.
* Tratar e insertar los datos en el modelo de datos creado.
* Realizar las consultas necesarias para el caso de uso pensado.

Qué hay que entregar:

* Descripción del caso de uso y justificación de por qué es adecuado para realizarlo con el data store seleccionado.
* Diagrama del modelo de datos.
* Un notebook de Jupyter que contenga:
    * Todas las sentencias para crear las tablas
    * El código necesario para tratar los datos e insertarlos en el datastore seleccionado.
    * Las sentencias de consulta
* Conclusiones:
    * ¿Qué te parece la base de datos seleccionada como data store?
    * ¿Qué te ha parecido el ejercicio?
    * ¿Qué has aprendido?
    * ¿Qué has hechado de menos?
    * ¿Cómo mejorarías la prática?

## Dataset elegido:

### Obras completas de Wiliam Sakespeare

Este dataset contiene los diálogos de todas la obras de Wiliam Sakespeare. Cada línea representa una fráse de un diálogo expresada por algún personaje de la obra.

Enlace de descarga: https://github.com/rafaelgarrote/datahack-nosql/raw/nosql-especial/workespecial/practica/data/shakespeare.json

Formato: json

Cada diálogo contiene los siguientes campos:

* **line_id**: Identificador único de la línea de diálogo. Tipo entero.
* **play_name**: Nombre de la obra.
* **speach_number**: Número del diálogo.
* **line_number**: Número de línea del diálogo en la obra.
* **speaker**: Personaje que dice el texto.
* **text_entry**: Texto dicho por el personaje en el diálogo.

Este dataset tiene el siguiente formato:

`
{
    "type": "String", --> (act, scene or line)
    "line_id": INT,
    "play_name": "String",
    "speech_number": INT,
    "line_number": "String",
    "speaker": "String",
    "text_entry": "String"
}
`

Ejemplo:

`
{
    "type":"act",
    "line_id":110469,
    "play_name":"A Winters Tale",
    "speech_number":163,
    "line_number":"4.4.674",
    "speaker":"CAMILLO",
    "text_entry":"Do all lie there: it shall be so my care"
}

{
  "type": "scene", --> Cuando es una  escena, se especifica un lugar.
  "line_id": 2,
  "play_name": "Henry IV",
  "speech_number": "",
  "line_number": "",
  "speaker": "", 
  "text_entry": "SCENE I. London. The palace." --> Lugar donde se representa la escena
}
`

## Instalar librerías y conectarse a neo4j

In [None]:
# Instalar librerías pprintpp y py2neo
# pprintpp -  (pretty-print) mejora la legibilidad al mostrar estructuras de datos complejas.
# py2neo - facilita la creación y ejecución de consultas en Neo4j usando Python

!pip install pprintpp
!pip install py2neo

In [None]:
# Importación de clases de py2neo:
    # Graph, para representar la conexión con la base de datos.
    # Relationship, para modelar relaciones entre nodos en la base de datos.
    # Node, para representar nodos en la base de datos.

from py2neo import Graph, Relationship, Node

graph = Graph("http://neo4j:1234@neo4j:7474/db/data")

In [None]:
# Resetear notebook tras ejecuciones anteriores borrando los nodos y realaciones existentes en la base de datos.
graph.run("MATCH (n) DETACH DELETE n").evaluate()

## Crear índices y constraints

La razón principal para crear un índice es la de encontrar el nodo inical de una búsqueda por recorrido del grafo.

Los constraints o reestricciones se utilizan para asegurarnos de que los datos que se insertan cumplen las reglas del dominio que se está modelando.

Al no insertar datos en este ejercicio no haré CONSTRAINTS

* Crear índice/constraint: CREATE INDEX/CONSTRAINT
* Borrar índice/constraint: DROP INDEX/ CONSTRAINT

In [None]:
# Comprobar ÍNDICES Y CONSTRAINTS creados:
graph.run("""
CALL db.indexes()
""").to_table()

#otra opción: graph.run("CALL db.indexes YIELD *").to_table()

In [None]:
# Mostrar información de CONSTRAINTS
graph.run("""
CALL db.constraints()
""")

In [None]:
# Crear índices en cada OBRA (si ya está creado dará error)

graph.run("CREATE INDEX ON :Data(play_name)").evaluate()

In [None]:
# Crear índices de cada PERSONAJE  (si ya está creado dará error)

graph.run("CREATE INDEX ON :Data(speaker)").evaluate()

In [None]:
# Crear índices de cada TEXTO (si ya está creado dará error)

graph.run("CREATE INDEX ON :Data(text_entry)").evaluate()

## Cargar dataset

In [None]:
# PRUEBA CARGAR DESDE ARCHIVO (HAY QUE CREAR EL MÉTODO 'PARSE_DATA')
# Este método lee el fichero indicado por parámetro. 
# Parsea cada linea en formato JSON. Cada línea representa un documento con una línea de texto de cada obra.
def load_file(data_path):
    file = open(data_path, "r")
    for data in file:
        parse_data(json.loads(data))
        
#Carga el fichero con los tweets.
load_file('../data/neo4j/data_shakespeare.json')

In [None]:
# CARGAR DATASET Y GUARDARLO (Opción 1)
# Descarga de datos en local dividiendo las líneas para trabajar con cada objeto JSON por separado.
# Cargando el dataset desde local se mejora el rendimiento.

import json
import requests

# URL del conjunto de datos
url = "https://raw.githubusercontent.com/rafaelgarrote/datahack-nosql/nosql-especial/workespecial/practica/data/shakespeare.json"

# Realizar la solicitud HTTP
response = requests.get(url)

# Verificar si la solicitud fue exitosa (código de estado 200)
if response.status_code == 200:
    # Guardar los datos en un archivo local en modo "escritura"
    with open("datos_shakespeare.json", "w") as file:
        file.write(response.text)
    
    print("Datos descargados exitosamente.")

    # Dividir las líneas y cargar cada línea como un objeto JSON
    data_list = [json.loads(line) for line in response.text.split('\n') if line]

    # Ahora 'data_list' contiene una lista de objetos JSON
    for data in data_list:
        print(json.dumps(data, indent=2))  # Imprimir los datos de manera legible
else:
    print(f"Error al obtener datos. Código de estado: {response.status_code}")


In [None]:
# CARGAR DATASET DESDE URL (Opción 2)
# Acceso a la url con los datos:
# Módulo json para trabajar con datos JSON (JavaScript Object Notation)
import json

# Biblioteca 'requests' para realizar solicitudes HTTP y obtener los datos directamente en Jupyter.
import requests

url = "https://raw.githubusercontent.com/rafaelgarrote/datahack-nosql/nosql-especial/workespecial/practica/data/shakespeare.json"
response = requests.get(url)

# Si la lectura es correcta, imprimir los 10 primeros objetos, sino imprimir código de error:
if response.status_code == 200:
    # Los objetos no están divididos por ',' y cada línea es uno distinto.
    # Dividir las líneas y cargar cada línea como un objeto JSON
    data_list = [json.loads(line) for line in response.text.split('\n') if line]
    
    # Ahora 'data_list' contiene una lista de objetos JSON (se imprimen solo 5)
    for data in data_list[:5]:
        # Impresión 'pretty' de cada objeto con dumps
        print(json.dumps(data, indent=2))
else:
    print(f"Error al obtener datos. Código de estado: {response.status_code}")

In [None]:
# MODELADO (opción 1):
# Creación de  nodos (uno por cada objeto json) 

if response.status_code == 200:
    # Dividir las líneas y cargar cada línea como un objeto JSON
    data_list = [json.loads(line) for line in response.text.split('\n') if line]

    # Crear nodos en Neo4j para cada objeto JSON
    for data in data_list:
        node = Node("Data", **data)
        graph.create(node)

    print("Datos insertados en la base de datos Neo4j.")
else:
    print(f"Error al obtener datos. Código de estado: {response.status_code}")


In [None]:
# MODELADO (opción 2):
# Creación de  nodos por cada obra y línea de texto (o escena) y texto

# Crear nodos para cada obra, líneas y escenas
for obra in data_list:
    play_name = obra.get("play_name", "")
    type = obra.get("type", "")
    text_entry = obra.get("text_entry", "")
    
    # Crear un nodo de obra (si no existe)
    query = f"MERGE (p:Play {{play_name: '{play_name}'}})"
    graph.run(query).evaluate()

    # Crear un nodo de línea o escena
    if type == "line":
        # Si es una línea, usar text_entry como identificador único
        query = f"MERGE (l:Line {{text_entry: '{text_entry}'}}) SET l.type = '{type}'"
    elif type == "scene":
        # Si es una escena, usar text_entry como identificador único
        query = f"MERGE (s:Scene {{text_entry: '{text_entry}'}}) SET s.type = '{type}'"

    # Crear relación entre la obra y la línea o escena
    query += f" MERGE (p)-[:CONTAINS]->(n)"
    graph.run(query).evaluate()


In [None]:
# Mostrar los 10  primeros nodos:

graph.run("""
    MATCH (n:Data)
    RETURN n
    LIMIT 10;
""").to_table()

In [None]:
# Crear un nodo en Neo4j por cada obra de Shakespeare
for data in data_list:
    obra_name = data.get("play_name", "")
    node = Node("Obra", nombre=obra_name, **data)
    graph.create(node)

print("Nodos creados en la base de datos Neo4j para cada obra de Shakespeare.")

In [None]:
# Mostrar las obras del dataset:

result = graph.run("""
    MATCH (n:Data)
    RETURN DISTINCT n.play_name as obra, COUNT(n.play_name) as total_nodos
""")

for record in result:
    obra_name = record["obra"]
    total_nodos = record["total_nodos"]
    print(f"Obra: {obra_name}, Nodos: {total_nodos}")

In [None]:
# Mostrar los nodos con las  obras:
graph.run("""
    MATCH (n:Data)
    RETURN n
""")

In [None]:
# Mostrar  cantidad de nodos:

graph.run("""
    MATCH (n:Data)
    RETURN DISTINCT n.play_name as obra, COUNT(n.play_name) as total_nodos
""").to_table()