# PRÁCTICA NOSQL (MONGODB) - SHAKESPEARE


He  querido probar el dataset de Shakespeare con mongodb para testear la diferencia con Neo4j.

En mis pruebas he comprobado que Mongo es mucho más eficiente que neo4j para ciertas consultas.

En este Notebook he realizado consultas en Mongo para unir textos completos y ha demostrado funcionar mucho mejor que Neo4j. Con Neo4j el tiempo para estas consultas era 'desesperante' y con mongo las consultas se realizan 'instantaneamente'.

La idea era probar si con Mongodb, las consultas de recopilación de texto (en cada documento json hay una línea de texto de las obras de Shakespeare) era más rápida que con Neo4j. Aunque en mi caso de uso con Neo4j no tenía planteado estos casos, pensé que en un caso real, la empresa podría solicitarlo, ¿qué haría entonces?. Tras realizar varias pruebas con Neo4j y no mostrar un rendimiento eficiente, decidí probarlo con mongodb. El resultado fue mucho mejor.

Por otro lado, para las consultas planteadas en el caso de uso de Neo4j, sin recopilar los datos pensando en esas consultas, las consultas son mucho más complejas que en Neo4j. Suponngo que haciendo una recopilación de datos pensando en dichas consultas, estas serán más sencillas, pero me ha resultado que en mongodb la petición de consultas con CRUD es mucho menos intuitivo que con CYPHER.

##### Al NO ser este mi base de datos elegida sino Neo4j, no he utilizado ni el framework de agregación ni e indexado en las colecciones que se solicitaba. He usado Mongodb como prueba (y aprendizaje) y como complemento a mi práctica. Entiendo que haciéndolo y preparado el modelado de datos según las necesidades, las consultas podrían mejorar.

### Dataset: Obras completas de Wiliam Sakespeare

Este dataset contiene los diálogos de todas la obras de Wiliam Sakespeare. Cada línea representa una fráse de un diálogo expresada por algún personaje de la obra.

Enlace de descarga: https://github.com/rafaelgarrote/datahack-nosql/raw/nosql-especial/workespecial/practica/data/shakespeare.json

Formato: json

Cada diálogo contiene los siguientes campos:

* **line_id**: Identificador único de la línea de diálogo. Tipo entero.
* **play_name**: Nombre de la obra.
* **speach_number**: Número del diálogo.
* **line_number**: Número de línea del diálogo en la obra.
* **speaker**: Personaje que dice el texto.
* **text_entry**: Texto dicho por el personaje en el diálogo.

Este dataset tiene el siguiente formato:

`
{
    "type": "String", --> (act, scene or line)
    "line_id": INT,
    "play_name": "String",
    "speech_number": INT,
    "line_number": "String",
    "speaker": "String",
    "text_entry": "String"
}
`

Ejemplo:

`
{
    "type":"act",
    "line_id":110469,
    "play_name":"A Winters Tale",
    "speech_number":163,
    "line_number":"4.4.674",
    "speaker":"CAMILLO",
    "text_entry":"Do all lie there: it shall be so my care"
}

{
  "type": "scene", --> Cuando es una  escena, se especifica un lugar.
  "line_id": 2,
  "play_name": "Henry IV",
  "speech_number": "",
  "line_number": "",
  "speaker": "", 
  "text_entry": "SCENE I. London. The palace." --> Lugar donde se representa la escena
}
`

## Preparación del entorno

In [1]:
import pymongo
import requests
from pymongo import MongoClient
from pprint import pprint
import json

In [2]:
# Descargar el archivo JSON desde el enlace
url = "https://raw.githubusercontent.com/rafaelgarrote/datahack-nosql/nosql-especial/workespecial/practica/data/shakespeare.json"
response = requests.get(url)
data_lines = response.text.splitlines()

# Conectar a MongoDB
client = pymongo.MongoClient("mongodb://nosql:nosql@mongo:27017/")
db = client["shakespeare"]

# Insertar los documentos en la colección
for line in data_lines:
    # Cargar cada línea como un objeto JSON
    try:
        data = json.loads(line)
        db.ShakespeareWorks.insert_one(data)
    except json.JSONDecodeError:
        print(f"Error al cargar la línea: {line}")

In [3]:
# Consultar bases de datos existentes:

# Seleccionar la base de datos admin
admin_db = client.admin

# Obtener la lista de bases de datos
database_list = admin_db.command("listDatabases")["databases"]

# Mostrar la lista de bases de datos
print("Bases de datos disponibles:")
for db in database_list:
    print(db["name"])

Bases de datos disponibles:
admin
config
local
shakespeare


In [4]:
# Consultar colecciones dentro de una base de datos concreta:

# Seleccionar la base de datos admin
db = client["shakespeare"]

# Obtener la lista de colecciones
collection_names = db.list_collection_names()

# Mostrar la lista de colecciones
print("Colecciones disponibles:")
for collection_name in collection_names:
    print(collection_name)

Colecciones disponibles:
ShakespeareWorks


### CONSULTAS GENÉRICAS

In [5]:
# Consulta 1: Mostrar todas las obras de Shakespeare

plays = db.ShakespeareWorks.distinct("play_name")
print("Obras de Shakespeare:\n")
pprint(plays)

Obras de Shakespeare:

['A Comedy of Errors',
 'A Midsummer nights dream',
 'A Winters Tale',
 'Alls well that ends well',
 'Antony and Cleopatra',
 'As you like it',
 'Coriolanus',
 'Cymbeline',
 'Hamlet',
 'Henry IV',
 'Henry V',
 'Henry VI Part 1',
 'Henry VI Part 2',
 'Henry VI Part 3',
 'Henry VIII',
 'Julius Caesar',
 'King John',
 'King Lear',
 'Loves Labours Lost',
 'Measure for measure',
 'Merchant of Venice',
 'Merry Wives of Windsor',
 'Much Ado about nothing',
 'Othello',
 'Pericles',
 'Richard II',
 'Richard III',
 'Romeo and Juliet',
 'Taming of the Shrew',
 'The Tempest',
 'Timon of Athens',
 'Titus Andronicus',
 'Troilus and Cressida',
 'Twelfth Night',
 'Two Gentlemen of Verona',
 'macbeth']


In [11]:
# Consulta 2: Mostrar los actos y secuencias de una obra concreta (por ejemplo 'Othello')

play = "Othello"
view = {"_id": 0, "line_id": 0, "line_number": 0, "play_name": 0, "speaker": 0, "speech_number": 0, "type": 0}

play_info = db.ShakespeareWorks.find(
    {"play_name": play, "type": {"$in": ["act", "scene"]}},
    view
)
print(f"Secuencias y actos de {play}:\n")
for entry in play_info:
    text_entry = entry.get("text_entry")
    if text_entry:
        print(text_entry)


Secuencias y actos de Othello:

ACT I
SCENE I. Venice. A street.
SCENE II. Another street.
SCENE III. A council-chamber.
ACT II
SCENE I. A Sea-port in Cyprus. An open place near the quay.
SCENE II. A street.
SCENE III. A hall in the castle.
ACT III
SCENE I. Before the castle.
SCENE II. A room in the castle.
SCENE III. The garden of the castle.
SCENE IV. Before the castle.
ACT IV
SCENE I. Cyprus. Before the castle.
SCENE II. A room in the castle.
SCENE III. Another room In the castle.
ACT V
SCENE I. Cyprus. A street.
SCENE II. A bedchamber in the castle: DESDEMONA in bed asleep;
ACT I
SCENE I. Venice. A street.
SCENE II. Another street.
SCENE III. A council-chamber.
ACT II
SCENE I. A Sea-port in Cyprus. An open place near the quay.
SCENE II. A street.
SCENE III. A hall in the castle.
ACT III
SCENE I. Before the castle.
SCENE II. A room in the castle.
SCENE III. The garden of the castle.
SCENE IV. Before the castle.
ACT IV
SCENE I. Cyprus. Before the castle.
SCENE II. A room in the castl

### CONSULTAS RECOPILACIÓN DE TEXTO

In [14]:
# Consulta 1: Texto completo de un ACTO concreto en una obra concreta (por ejemplo 'Hamlet') y los personajes.

play = "Hamlet"
act = 1
view = {"_id": 0, "line_id": 0, "line_number": 0, "play_name": 0, "speech_number": 0, "type": 0}
text = db.ShakespeareWorks.find(
    {"play_name": play, "type": "line", "line_number": {"$regex": f"{act}\..*"}},
    view
)
print(f"Texto completo del Acto {act} de {play}:\n")
for line in text:
    print(f"{line.get('speaker')}: {line.get('text_entry')}")

Texto completo del Acto 1 de Hamlet:

BERNARDO: Whos there?
FRANCISCO: Nay, answer me: stand, and unfold yourself.
BERNARDO: Long live the king!
FRANCISCO: Bernardo?
BERNARDO: He.
FRANCISCO: You come most carefully upon your hour.
BERNARDO: Tis now struck twelve; get thee to bed, Francisco.
FRANCISCO: For this relief much thanks: tis bitter cold,
FRANCISCO: And I am sick at heart.
BERNARDO: Have you had quiet guard?
FRANCISCO: Not a mouse stirring.
BERNARDO: Well, good night.
BERNARDO: If you do meet Horatio and Marcellus,
BERNARDO: The rivals of my watch, bid them make haste.
FRANCISCO: I think I hear them. Stand, ho! Whos there?
HORATIO: Friends to this ground.
MARCELLUS: And liegemen to the Dane.
FRANCISCO: Give you good night.
MARCELLUS: O, farewell, honest soldier:
MARCELLUS: Who hath relieved you?
FRANCISCO: Bernardo has my place.
FRANCISCO: Give you good night.
MARCELLUS: Holla! Bernardo!
BERNARDO: Say,
BERNARDO: What, is Horatio there?
HORATIO: A piece of him.
BERNARDO: Welcome

LORD POLONIUS: And he beseechd me to entreat your majesties
LORD POLONIUS: To hear and see the matter.
KING CLAUDIUS: With all my heart; and it doth much content me
KING CLAUDIUS: To hear him so inclined.
KING CLAUDIUS: Good gentlemen, give him a further edge,
KING CLAUDIUS: And drive his purpose on to these delights.
ROSENCRANTZ: We shall, my lord.
KING CLAUDIUS: Sweet Gertrude, leave us too;
KING CLAUDIUS: For we have closely sent for Hamlet hither,
KING CLAUDIUS: That he, as twere by accident, may here
KING CLAUDIUS: Affront Ophelia:
KING CLAUDIUS: Her father and myself, lawful espials,
KING CLAUDIUS: Will so bestow ourselves that, seeing, unseen,
KING CLAUDIUS: We may of their encounter frankly judge,
KING CLAUDIUS: And gather by him, as he is behaved,
KING CLAUDIUS: If t be the affliction of his love or no
KING CLAUDIUS: That thus he suffers for.
QUEEN GERTRUDE: I shall obey you.
QUEEN GERTRUDE: And for your part, Ophelia, I do wish
QUEEN GERTRUDE: That your good beauties be the h

KING CLAUDIUS: Hamlet in madness hath Polonius slain,
KING CLAUDIUS: And from his mothers closet hath he draggd him:
KING CLAUDIUS: Go seek him out; speak fair, and bring the body
KING CLAUDIUS: Into the chapel. I pray you, haste in this.
KING CLAUDIUS: Come, Gertrude, well call up our wisest friends;
KING CLAUDIUS: And let them know, both what we mean to do,
KING CLAUDIUS: And whats untimely done. O, come away!
KING CLAUDIUS: My soul is full of discord and dismay.
First Clown: Is she to be buried in Christian burial that
First Clown: wilfully seeks her own salvation?
Second Clown: I tell thee she is: and therefore make her grave
Second Clown: straight: the crowner hath sat on her, and finds it
Second Clown: Christian burial.
First Clown: How can that be, unless she drowned herself in her
First Clown: own defence?
Second Clown: Why, tis found so.
First Clown: It must be se offendendo; it cannot be else. For
First Clown: here lies the point:  if I drown myself wittingly,
First Clown: it

In [16]:
# Consulta 2: Texto completo de una SECUENCIA concreta de una obra concreta (por ejemplo 'Romeo and Juliet') y los personajes que actuan

play = "Romeo and Juliet"
act = 2
scene = 2
view = {"_id": 0, "line_id": 0, "line_number": 0, "play_name": 0, "speech_number": 0, "type": 0}

text = db.ShakespeareWorks.find(
    {
        "play_name": play,
        "type": "line",
        "line_number": {"$regex": f"{act}\.{scene}\..*"}
    },
    view
)
print(f"Texto completo del Acto {act} de {play}:\n")
for line in text:
    print(f"{line.get('speaker')}: {line.get('text_entry')}")

Texto completo del Acto 2 de Romeo and Juliet:

ROMEO: He jests at scars that never felt a wound.
ROMEO: But, soft! what light through yonder window breaks?
ROMEO: It is the east, and Juliet is the sun.
ROMEO: Arise, fair sun, and kill the envious moon,
ROMEO: Who is already sick and pale with grief,
ROMEO: That thou her maid art far more fair than she:
ROMEO: Be not her maid, since she is envious;
ROMEO: Her vestal livery is but sick and green
ROMEO: And none but fools do wear it; cast it off.
ROMEO: It is my lady, O, it is my love!
ROMEO: O, that she knew she were!
ROMEO: She speaks yet she says nothing: what of that?
ROMEO: Her eye discourses; I will answer it.
ROMEO: I am too bold, tis not to me she speaks:
ROMEO: Two of the fairest stars in all the heaven,
ROMEO: Having some business, do entreat her eyes
ROMEO: To twinkle in their spheres till they return.
ROMEO: What if her eyes were there, they in her head?
ROMEO: The brightness of her cheek would shame those stars,
ROMEO: As da

### CONSULTAS CASO DE USO NEO4J

In [17]:
# Consulta 1: Obras de Shakespeare ambientadas en Londres
result = db.ShakespeareWorks.find({"text_entry": {"$regex": "London"}}, {"play_name": 1, "_id": 0})
print("Obras de Shakespeare ambientadas en Londres:")
# Almacenar los nombres únicos de las obras
plays = set()
for doc in result:
    plays.add(doc["play_name"])

# Imprimir los nombres únicos de las obras
for play_name in plays:
    pprint(play_name)


Obras de Shakespeare ambientadas en Londres:
'Henry VI Part 2'
'Richard II'
'Henry VI Part 1'
'King John'
'Henry IV'
'Henry VIII'
'Henry VI Part 3'
'Richard III'
'Henry V'


In [18]:
import re

# Consulta 2: Listado con los ambientes que tiene cada una de las localizaciones de Londres de la obra de Shakespeare
london_locations = db.ShakespeareWorks.find({
    "text_entry": {"$regex": ".*London.*"}
})

# Crear un diccionario para almacenar los ambientes únicos por localización
ambience_by_location = {}

# Procesar cada documento para extraer la localización y el ambiente
for play in london_locations:
    # Obtener la localización y el ambiente usando expresiones regulares
    match = re.match(r"SCENE [IVXLCDM]+\. ([^\d]+)\. (.+)", play["text_entry"])
    if match:
        location = match.group(1).strip()
        ambience = match.group(2).strip()
        # Agregar el ambiente al conjunto de ambientes de la localización
        ambience_by_location.setdefault(location, set()).add(ambience)

# Mostrar los resultados
for location, ambience in ambience_by_location.items():
    print(f"Localización: {location}")
    print("Ambientes:")
    for ambience in ambience:
        print(f"- {ambience}")
    print()


Localización: London
Ambientes:
- The Temple-garden.
- A gallery in the palace.
- Before a tavern.
- YORKS garden.
- An ante-chamber in the palace.
- The Parliament-house.
- The Tower.
- Smithfield.
- An ante-chamber in the KINGS palace.
- A street leading to the Tower.
- QUEEN KATHARINEs apartments.
- KING RICHARD IIs palace.
- An apartment of the Princes.
- Before the Tower.
- A street.
- The palace.
- Cannon Street.



In [19]:
import re

# Consulta 3: De las obras en Londres, saber las localizaciones y ambientes de cada obra
london_plays = db.ShakespeareWorks.find({
    "text_entry": {"$regex": ".*London.*"}
})

# Crear un diccionario para almacenar las localizaciones y ambientes por obra
locations_and_environments_by_play = {}

# Procesar cada documento para extraer la obra, la localización y el ambiente
for play in london_plays:
    # Obtener la obra, la localización y el ambiente usando expresiones regulares
    match = re.match(r"SCENE ([IVXLCDM]+)\. (.+)", play["text_entry"])
    if match:
        play_name = play["play_name"]
        scene = match.group(1).strip()
        location_and_environment = match.group(2).strip()
        # Agregar la localización y el ambiente a la lista de escenas de la obra
        if play_name not in locations_and_environments_by_play:
            locations_and_environments_by_play[play_name] = []
        locations_and_environments_by_play[play_name].append((scene, location_and_environment))

# Mostrar los resultados
print("De las obras en Londres, saber las localizaciones y ambientes de cada obra:")
for play_name, locations_environments in locations_and_environments_by_play.items():
    print(f"Obra: {play_name}")
    print("Escenas:")
    for scene, location_and_environment in locations_environments:
        print(f"- Escena {scene}: {location_and_environment}")
    print()


De las obras en Londres, saber las localizaciones y ambientes de cada obra:
Obra: Henry IV
Escenas:
- Escena I: London. The palace.
- Escena II: London. An apartment of the Princes.
- Escena III: London. The palace.
- Escena II: London. The palace.
- Escena I: London. The palace.
- Escena II: London. An apartment of the Princes.
- Escena III: London. The palace.
- Escena II: London. The palace.

Obra: Henry VI Part 1
Escenas:
- Escena III: London. Before the Tower.
- Escena IV: London. The Temple-garden.
- Escena V: The Tower of London.
- Escena I: London. The Parliament-house.
- Escena I: London. The palace.
- Escena V: London. The palace.
- Escena III: London. Before the Tower.
- Escena IV: London. The Temple-garden.
- Escena V: The Tower of London.
- Escena I: London. The Parliament-house.
- Escena I: London. The palace.
- Escena V: London. The palace.

Obra: Henry VI Part 2
Escenas:
- Escena I: London. The palace.
- Escena II: London. YORKS garden.
- Escena IV: London. The palace.


In [20]:
# Consulta 4: De las obras en Londres, saber los personajes que aparecen en cada obra
london_plays = db.ShakespeareWorks.find({
    "text_entry": {"$regex": ".*London.*"}
})

# Crear un diccionario para almacenar los personajes por obra
characters_by_play = {}

# Procesar cada documento para extraer la obra y los personajes
for play in london_plays:
    play_name = play["play_name"]
    speaker = play["speaker"]
    # Agregar el personaje a la lista de personajes de la obra
    if play_name not in characters_by_play:
        characters_by_play[play_name] = set()
    if speaker:
        characters_by_play[play_name].add(speaker.strip())

# Mostrar los resultados
print("De las obras en Londres, los personajes son:")
for play_name, characters in characters_by_play.items():
    print(f"Obra: {play_name}")
    print("Personajes:")
    for character in sorted(characters):
        print(f"- {character}")
    print()


De las obras en Londres, los personajes son:
Obra: Henry IV
Personajes:
- FALSTAFF
- GADSHILL
- MORTIMER
- POINS
- PRINCE HENRY
- Second Carrier
- WESTMORELAND

Obra: Henry VI Part 1
Personajes:
- CHARLES
- GLOUCESTER
- Mayor
- OF AUVERGNE
- PLANTAGENET
- YORK

Obra: Henry VI Part 2
Personajes:
- CADE
- CARDINAL
- CLIFFORD
- KING HENRY VI
- Messenger
- QUEEN MARGARET
- SAY
- SCALES
- SUFFOLK
- WARWICK
- YORK

Obra: Henry VI Part 3
Personajes:
- CLARENCE
- GLOUCESTER
- KING EDWARD IV
- KING HENRY VI
- OXFORD
- QUEEN ELIZABETH
- Son
- WARWICK
- YORK

Obra: Henry V
Personajes:
- Boy
- Chorus
- GOWER
- KING HENRY V

Obra: Henry VIII
Personajes:
- Chamberlain
- Chorus
- KATHARINE
- KING HENRY VIII
- Second Gentleman
- Surveyor
- Third Gentleman

Obra: King John
Personajes:
- BASTARD

Obra: Richard II
Personajes:
- Abbot
- DUCHESS OF YORK
- GOWER
- Gardener
- Groom
- HENRY BOLINGBROKE
- KING RICHARD II
- LORD FITZWATER
- NORTHUMBERLAND
- QUEEN

Obra: Richard III
Personajes:
- ARCHBISHOP OF Y

In [21]:
# Consulta 5: Actos y Secuencias en donde aparece un personaje en Londres
character_name = "KING HENRY VI"
result = db.ShakespeareWorks.find({"$and": [{"text_entry": {"$regex": "London"}},
                                            {"speaker": character_name},
                                            {"type": "scene"}]},
                                  {"play_name": 1, "text_entry": 1, "_id": 0})
print("Consulta:")
for doc in result:
    pprint(doc)

Consulta:
{'play_name': 'Henry VI Part 2',
 'text_entry': 'SCENE II. London. YORKS garden.'}
{'play_name': 'Henry VI Part 3', 'text_entry': 'SCENE II. London. The palace.'}
{'play_name': 'Henry VI Part 2',
 'text_entry': 'SCENE II. London. YORKS garden.'}
{'play_name': 'Henry VI Part 3', 'text_entry': 'SCENE II. London. The palace.'}
