# PRÁCTICA NOSQL (MONGODB) - SHAKESPEARE


He  querido probar el dataset de Shakespeare con mongodb para testear la diferencia con Neo4j.

En mis pruebas he comprobado que Mongo es mucho más eficiente que neo4j para ciertas consultas.

En este Notebook he realizado consultas en Mongo para unir textos completos y ha demostrado funcionar mucho mejor que Neo4j. Con Neo4j el tiempo para estas consultas era 'desesperante' y con mongo las consultas se realizan 'instantaneamente'.

La idea era probar si con Mongodb, las consultas de recopilación de texto (en cada documento json hay una línea de texto de las obras de Shakespeare) era más rápida que con Neo4j. Aunque en mi caso de uso con Neo4j no tenía planteado estos casos, pensé que en un caso real, la empresa podría solicitarlo, ¿qué haría entonces?. Tras realizar varias pruebas con Neo4j y no mostrar un rendimiento eficiente, decidí probarlo con mongodb. El resultado fue mucho mejor.

Por otro lado, para las consultas planteadas en el caso de uso de Neo4j, sin recopilar los datos pensando en esas consultas, las consultas son mucho más complejas que en Neo4j. Suponngo que haciendo una recopilación de datos pensando en dichas consultas, estas serán más sencillas, pero me ha resultado que en mongodb la petición de consultas con CRUD es mucho menos intuitivo que con CYPHER.

### Dataset: Obras completas de Wiliam Sakespeare

Este dataset contiene los diálogos de todas la obras de Wiliam Sakespeare. Cada línea representa una fráse de un diálogo expresada por algún personaje de la obra.

Enlace de descarga: https://github.com/rafaelgarrote/datahack-nosql/raw/nosql-especial/workespecial/practica/data/shakespeare.json

Formato: json

Cada diálogo contiene los siguientes campos:

* **line_id**: Identificador único de la línea de diálogo. Tipo entero.
* **play_name**: Nombre de la obra.
* **speach_number**: Número del diálogo.
* **line_number**: Número de línea del diálogo en la obra.
* **speaker**: Personaje que dice el texto.
* **text_entry**: Texto dicho por el personaje en el diálogo.

Este dataset tiene el siguiente formato:

`
{
    "type": "String", --> (act, scene or line)
    "line_id": INT,
    "play_name": "String",
    "speech_number": INT,
    "line_number": "String",
    "speaker": "String",
    "text_entry": "String"
}
`

Ejemplo:

`
{
    "type":"act",
    "line_id":110469,
    "play_name":"A Winters Tale",
    "speech_number":163,
    "line_number":"4.4.674",
    "speaker":"CAMILLO",
    "text_entry":"Do all lie there: it shall be so my care"
}

{
  "type": "scene", --> Cuando es una  escena, se especifica un lugar.
  "line_id": 2,
  "play_name": "Henry IV",
  "speech_number": "",
  "line_number": "",
  "speaker": "", 
  "text_entry": "SCENE I. London. The palace." --> Lugar donde se representa la escena
}
`

## Preparación del entorno

In [1]:
import pymongo
import requests
from pymongo import MongoClient
from pprint import pprint
import json

In [2]:
# Descargar el archivo JSON desde el enlace
url = "https://raw.githubusercontent.com/rafaelgarrote/datahack-nosql/nosql-especial/workespecial/practica/data/shakespeare.json"
response = requests.get(url)
data_lines = response.text.splitlines()

# Conectar a MongoDB
client = pymongo.MongoClient("mongodb://nosql:nosql@mongo:27017/")
db = client["shakespeare"]

# Insertar los documentos en la colección
for line in data_lines:
    # Intentar cargar la línea como un objeto JSON
    try:
        data = json.loads(line)
        db.ShakespeareWorks.insert_one(data)
    except json.JSONDecodeError:
        print(f"Error al cargar la línea: {line}")

In [3]:
# Consultar bases de datos existentes:

# Seleccionar la base de datos admin
admin_db = client.admin

# Obtener la lista de bases de datos
database_list = admin_db.command("listDatabases")["databases"]

# Mostrar la lista de bases de datos
print("Bases de datos disponibles:")
for db in database_list:
    print(db["name"])

Bases de datos disponibles:
admin
config
local
shakespeare


In [4]:
# Consultar colecciones dentro de una base de datos concreta:

# Seleccionar la base de datos admin
db = client["shakespeare"]

# Obtener la lista de colecciones
collection_names = db.list_collection_names()

# Mostrar la lista de colecciones
print("Colecciones disponibles:")
for collection_name in collection_names:
    print(collection_name)

Colecciones disponibles:
ShakespeareWorks


### CONSULTAS RECOPILACIÓN DE TEXTO

In [5]:
# Consulta 1: Mostrar todas las obras de Shakespeare

all_plays = db.ShakespeareWorks.distinct("play_name")
print("Obras de Shakespeare:\n")
pprint(all_plays)

Obras de Shakespeare:

['A Comedy of Errors',
 'A Midsummer nights dream',
 'A Winters Tale',
 'Alls well that ends well',
 'Antony and Cleopatra',
 'As you like it',
 'Coriolanus',
 'Cymbeline',
 'Hamlet',
 'Henry IV',
 'Henry V',
 'Henry VI Part 1',
 'Henry VI Part 2',
 'Henry VI Part 3',
 'Henry VIII',
 'Julius Caesar',
 'King John',
 'King Lear',
 'Loves Labours Lost',
 'Measure for measure',
 'Merchant of Venice',
 'Merry Wives of Windsor',
 'Much Ado about nothing',
 'Othello',
 'Pericles',
 'Richard II',
 'Richard III',
 'Romeo and Juliet',
 'Taming of the Shrew',
 'The Tempest',
 'Timon of Athens',
 'Titus Andronicus',
 'Troilus and Cressida',
 'Twelfth Night',
 'Two Gentlemen of Verona',
 'macbeth']


In [11]:
# Consulta 2: Mostrar los actos y secuencias de una obra concreta (por ejemplo 'Othello')

selected_play = "Othello"
projection = {"_id": 0, "line_id": 0, "line_number": 0, "play_name": 0, "speaker": 0, "speech_number": 0, "type": 0}

play_info = db.ShakespeareWorks.find(
    {"play_name": selected_play, "type": {"$in": ["act", "scene"]}},
    projection
)
print(f"Secuencias y actos de {selected_play}:\n")
for entry in play_info:
    pprint({"text_entry": entry.get("text_entry")})

Secuencias y actos de Othello:

{'text_entry': 'ACT I'}
{'text_entry': 'SCENE I. Venice. A street.'}
{'text_entry': 'SCENE II. Another street.'}
{'text_entry': 'SCENE III. A council-chamber.'}
{'text_entry': 'ACT II'}
{'text_entry': 'SCENE I. A Sea-port in Cyprus. An open place near the quay.'}
{'text_entry': 'SCENE II. A street.'}
{'text_entry': 'SCENE III. A hall in the castle.'}
{'text_entry': 'ACT III'}
{'text_entry': 'SCENE I. Before the castle.'}
{'text_entry': 'SCENE II. A room in the castle.'}
{'text_entry': 'SCENE III. The garden of the castle.'}
{'text_entry': 'SCENE IV. Before the castle.'}
{'text_entry': 'ACT IV'}
{'text_entry': 'SCENE I. Cyprus. Before the castle.'}
{'text_entry': 'SCENE II. A room in the castle.'}
{'text_entry': 'SCENE III. Another room In the castle.'}
{'text_entry': 'ACT V'}
{'text_entry': 'SCENE I. Cyprus. A street.'}
{'text_entry': 'SCENE II. A bedchamber in the castle: DESDEMONA in bed asleep;'}


In [10]:
# Consulta 3: Texto completo de un ACTO concreto de una obra concreta (por ejemplo 'Hamlet') y los personajes que actuan.

selected_play = "Hamlet"
selected_act = 1
projection = {"_id": 0, "line_id": 0, "line_number": 0, "play_name": 0, "speech_number": 0, "type": 0}
act_text = db.ShakespeareWorks.find(
    {"play_name": selected_play, "type": "line", "line_number": {"$regex": f"{selected_act}\..*"}},
    projection
)
print(f"Texto completo del Acto {selected_act} de {selected_play}:\n")
for line in act_text:
    pprint(line)

Texto completo del Acto 1 de Hamlet:

{'speaker': 'BERNARDO', 'text_entry': 'Whos there?'}
{'speaker': 'FRANCISCO',
 'text_entry': 'Nay, answer me: stand, and unfold yourself.'}
{'speaker': 'BERNARDO', 'text_entry': 'Long live the king!'}
{'speaker': 'FRANCISCO', 'text_entry': 'Bernardo?'}
{'speaker': 'BERNARDO', 'text_entry': 'He.'}
{'speaker': 'FRANCISCO',
 'text_entry': 'You come most carefully upon your hour.'}
{'speaker': 'BERNARDO',
 'text_entry': 'Tis now struck twelve; get thee to bed, Francisco.'}
{'speaker': 'FRANCISCO',
 'text_entry': 'For this relief much thanks: tis bitter cold,'}
{'speaker': 'FRANCISCO', 'text_entry': 'And I am sick at heart.'}
{'speaker': 'BERNARDO', 'text_entry': 'Have you had quiet guard?'}
{'speaker': 'FRANCISCO', 'text_entry': 'Not a mouse stirring.'}
{'speaker': 'BERNARDO', 'text_entry': 'Well, good night.'}
{'speaker': 'BERNARDO', 'text_entry': 'If you do meet Horatio and Marcellus,'}
{'speaker': 'BERNARDO',
 'text_entry': 'The rivals of my watch, 

 'text_entry': 'Been thus encounterd. A figure like your father,'}
{'speaker': 'HORATIO', 'text_entry': 'Armed at point exactly, cap-a-pe,'}
{'speaker': 'HORATIO',
 'text_entry': 'Appears before them, and with solemn march'}
{'speaker': 'HORATIO',
 'text_entry': 'Goes slow and stately by them: thrice he walkd'}
{'speaker': 'HORATIO',
 'text_entry': 'By their oppressd and fear-surprised eyes,'}
{'speaker': 'HORATIO',
 'text_entry': 'Within his truncheons length; whilst they, distilled'}
{'speaker': 'HORATIO', 'text_entry': 'Almost to jelly with the act of fear,'}
{'speaker': 'HORATIO',
 'text_entry': 'Stand dumb and speak not to him. This to me'}
{'speaker': 'HORATIO', 'text_entry': 'In dreadful secrecy impart they did;'}
{'speaker': 'HORATIO',
 'text_entry': 'And I with them the third night kept the watch;'}
{'speaker': 'HORATIO',
 'text_entry': 'Where, as they had deliverd, both in time,'}
{'speaker': 'HORATIO',
 'text_entry': 'Form of the thing, each word made true and good,'}
{'spea

 'text_entry': 'You laying these slight sullies on my son,'}
{'speaker': 'LORD POLONIUS',
 'text_entry': 'As twere a thing a little soild i the working, Mark you,'}
{'speaker': 'LORD POLONIUS',
 'text_entry': 'Your party in converse, him you would sound,'}
{'speaker': 'LORD POLONIUS',
 'text_entry': 'Having ever seen in the prenominate crimes'}
{'speaker': 'LORD POLONIUS',
 'text_entry': 'The youth you breathe of guilty, be assured'}
{'speaker': 'LORD POLONIUS',
 'text_entry': 'He closes with you in this consequence;'}
{'speaker': 'LORD POLONIUS',
 'text_entry': 'Good sir, or so, or friend, or gentleman,'}
{'speaker': 'LORD POLONIUS',
 'text_entry': 'According to the phrase or the addition'}
{'speaker': 'LORD POLONIUS', 'text_entry': 'Of man and country.'}
{'speaker': 'REYNALDO', 'text_entry': 'Very good, my lord.'}
{'speaker': 'LORD POLONIUS',
 'text_entry': 'And then, sir, does he this--he does--what was I'}
{'speaker': 'LORD POLONIUS',
 'text_entry': 'about to say? By the mass, I wa

{'speaker': 'First Clown', 'text_entry': 'you.'}
{'speaker': 'HAMLET', 'text_entry': 'What man dost thou dig it for?'}
{'speaker': 'First Clown', 'text_entry': 'For no man, sir.'}
{'speaker': 'HAMLET', 'text_entry': 'What woman, then?'}
{'speaker': 'First Clown', 'text_entry': 'For none, neither.'}
{'speaker': 'HAMLET', 'text_entry': 'Who is to be buried int?'}
{'speaker': 'First Clown',
 'text_entry': 'One that was a woman, sir; but, rest her soul, shes dead.'}
{'speaker': 'HAMLET',
 'text_entry': 'How absolute the knave is! we must speak by the'}
{'speaker': 'HAMLET',
 'text_entry': 'card, or equivocation will undo us. By the Lord,'}
{'speaker': 'HAMLET',
 'text_entry': 'Horatio, these three years I have taken a note of'}
{'speaker': 'HAMLET',
 'text_entry': 'it; the age is grown so picked that the toe of the'}
{'speaker': 'HAMLET',
 'text_entry': 'peasant comes so near the heel of the courtier, he'}
{'speaker': 'HAMLET', 'text_entry': 'gaffs his kibe. How long hast thou been a'}
{'s

In [8]:
# Consulta 4: Texto completo de una secuencia concreta de una obra concreta (por ejemplo 'Romeo and Juliet') y los personajes que actuan

selected_play = "Romeo and Juliet"
selected_act = 2
selected_scene = 2
projection = {"_id": 0, "line_id": 0, "line_number": 0, "play_name": 0, "speech_number": 0, "type": 0}

sequence_text = db.ShakespeareWorks.find(
    {
        "play_name": selected_play,
        "type": "line",
        "line_number": {"$regex": f"{selected_act}\.{selected_scene}\..*"}
    },
    projection
)

print(f"Texto completo de la Secuencia {selected_scene} del Acto {selected_act} de {selected_play}:\n")
for line in sequence_text:
    pprint({"speaker": line.get("speaker"), "text_entry": line.get("text_entry")})


Texto completo de la Secuencia 2 del Acto 2 de Romeo and Juliet:

{'speaker': 'ROMEO', 'text_entry': 'He jests at scars that never felt a wound.'}
{'speaker': 'ROMEO',
 'text_entry': 'But, soft! what light through yonder window breaks?'}
{'speaker': 'ROMEO', 'text_entry': 'It is the east, and Juliet is the sun.'}
{'speaker': 'ROMEO',
 'text_entry': 'Arise, fair sun, and kill the envious moon,'}
{'speaker': 'ROMEO', 'text_entry': 'Who is already sick and pale with grief,'}
{'speaker': 'ROMEO',
 'text_entry': 'That thou her maid art far more fair than she:'}
{'speaker': 'ROMEO', 'text_entry': 'Be not her maid, since she is envious;'}
{'speaker': 'ROMEO', 'text_entry': 'Her vestal livery is but sick and green'}
{'speaker': 'ROMEO',
 'text_entry': 'And none but fools do wear it; cast it off.'}
{'speaker': 'ROMEO', 'text_entry': 'It is my lady, O, it is my love!'}
{'speaker': 'ROMEO', 'text_entry': 'O, that she knew she were!'}
{'speaker': 'ROMEO',
 'text_entry': 'She speaks yet she says no

### CONSULTAS CASO DE USO NEO4J

In [35]:
# Consulta 1: Obras de Shakespeare ambientadas en Londres
result_1 = db.ShakespeareWorks.find({"text_entry": {"$regex": "London"}}, {"play_name": 1, "_id": 0})
print("Obras de Shakespeare ambientadas en Londres:")
# Almacenar los nombres únicos de las obras
plays = set()
for doc in result_1:
    plays.add(doc["play_name"])

# Imprimir los nombres únicos de las obras
for play_name in plays:
    pprint(play_name)


Obras de Shakespeare ambientadas en Londres:
'Henry VI Part 1'
'Henry VI Part 3'
'Henry VIII'
'Henry IV'
'Richard II'
'King John'
'Richard III'
'Henry VI Part 2'
'Henry V'


In [14]:
import re

# Consulta 2: Listado con los ambientes que tiene cada una de las localizaciones de Londres de la obra de Shakespeare
london_locations = db.ShakespeareWorks.find({
    "text_entry": {"$regex": ".*London.*"}
})

# Crear un diccionario para almacenar los ambientes únicos por localización
environments_by_location = {}

# Procesar cada documento para extraer la localización y el ambiente
for work in london_locations:
    # Obtener la localización y el ambiente usando expresiones regulares
    match = re.match(r"SCENE [IVXLCDM]+\. ([^\d]+)\. (.+)", work["text_entry"])
    if match:
        location = match.group(1).strip()
        environment = match.group(2).strip()
        # Agregar el ambiente al conjunto de ambientes de la localización
        environments_by_location.setdefault(location, set()).add(environment)

# Mostrar los resultados
print("Listado con los ambientes que tiene cada una de las localizaciones de Londres de la obra de Shakespeare:")
for location, environments in environments_by_location.items():
    print(f"Localización: {location}")
    print("Ambientes:")
    for environment in environments:
        print(f"- {environment}")
    print()


Listado con los ambientes que tiene cada una de las localizaciones de Londres de la obra de Shakespeare:
Localización: London
Ambientes:
- An ante-chamber in the KINGS palace.
- A street.
- YORKS garden.
- Smithfield.
- An apartment of the Princes.
- The Temple-garden.
- Cannon Street.
- Before the Tower.
- KING RICHARD IIs palace.
- The Parliament-house.
- QUEEN KATHARINEs apartments.
- An ante-chamber in the palace.
- The palace.
- The Tower.
- Before a tavern.
- A gallery in the palace.
- A street leading to the Tower.



In [17]:
import re

# Consulta 3: De las obras en Londres, saber las localizaciones y ambientes de cada obra
london_works = db.ShakespeareWorks.find({
    "text_entry": {"$regex": ".*London.*"}
})

# Crear un diccionario para almacenar las localizaciones y ambientes por obra
locations_and_environments_by_work = {}

# Procesar cada documento para extraer la obra, la localización y el ambiente
for work in london_works:
    # Obtener la obra, la localización y el ambiente usando expresiones regulares
    match = re.match(r"SCENE ([IVXLCDM]+)\. (.+)", work["text_entry"])
    if match:
        work_name = work["play_name"]
        scene = match.group(1).strip()
        location_and_environment = match.group(2).strip()
        # Agregar la localización y el ambiente a la lista de escenas de la obra
        if work_name not in locations_and_environments_by_work:
            locations_and_environments_by_work[work_name] = []
        locations_and_environments_by_work[work_name].append((scene, location_and_environment))

# Mostrar los resultados
print("De las obras en Londres, saber las localizaciones y ambientes de cada obra:")
for work_name, locations_environments in locations_and_environments_by_work.items():
    print(f"Obra: {work_name}")
    print("Escenas:")
    for scene, location_and_environment in locations_environments:
        print(f"- Escena {scene}: {location_and_environment}")
    print()


De las obras en Londres, saber las localizaciones y ambientes de cada obra:
Obra: Henry IV
Escenas:
- Escena I: London. The palace.
- Escena II: London. An apartment of the Princes.
- Escena III: London. The palace.
- Escena II: London. The palace.

Obra: Henry VI Part 1
Escenas:
- Escena III: London. Before the Tower.
- Escena IV: London. The Temple-garden.
- Escena V: The Tower of London.
- Escena I: London. The Parliament-house.
- Escena I: London. The palace.
- Escena V: London. The palace.

Obra: Henry VI Part 2
Escenas:
- Escena I: London. The palace.
- Escena II: London. YORKS garden.
- Escena IV: London. The palace.
- Escena V: London. The Tower.
- Escena VI: London. Cannon Street.
- Escena VII: London. Smithfield.

Obra: Henry VI Part 3
Escenas:
- Escena I: London. The Parliament-house.
- Escena II: London. The palace.
- Escena I: London. The palace.
- Escena IV: London. The palace.
- Escena VI: London. The Tower.
- Escena VIII: London. The palace.
- Escena VI: London. The Tow

In [19]:
# Consulta 4: De las obras en Londres, saber los personajes que aparecen en cada obra
london_works = db.ShakespeareWorks.find({
    "text_entry": {"$regex": ".*London.*"}
})

# Crear un diccionario para almacenar los personajes por obra
characters_by_work = {}

# Procesar cada documento para extraer la obra y los personajes
for work in london_works:
    work_name = work["play_name"]
    speaker = work["speaker"]
    # Agregar el personaje a la lista de personajes de la obra
    if work_name not in characters_by_work:
        characters_by_work[work_name] = set()
    if speaker:
        characters_by_work[work_name].add(speaker.strip())

# Mostrar los resultados
print("De las obras en Londres, saber los personajes que aparecen en cada obra:")
for work_name, characters in characters_by_work.items():
    print(f"Obra: {work_name}")
    print("Personajes:")
    for character in sorted(characters):
        print(f"- {character}")
    print()


De las obras en Londres, saber los personajes que aparecen en cada obra:
Obra: Henry IV
Personajes:
- FALSTAFF
- GADSHILL
- MORTIMER
- POINS
- PRINCE HENRY
- Second Carrier
- WESTMORELAND

Obra: Henry VI Part 1
Personajes:
- CHARLES
- GLOUCESTER
- Mayor
- OF AUVERGNE
- PLANTAGENET
- YORK

Obra: Henry VI Part 2
Personajes:
- CADE
- CARDINAL
- CLIFFORD
- KING HENRY VI
- Messenger
- QUEEN MARGARET
- SAY
- SCALES
- SUFFOLK
- WARWICK
- YORK

Obra: Henry VI Part 3
Personajes:
- CLARENCE
- GLOUCESTER
- KING EDWARD IV
- KING HENRY VI
- OXFORD
- QUEEN ELIZABETH
- Son
- WARWICK
- YORK

Obra: Henry V
Personajes:
- Boy
- Chorus
- GOWER
- KING HENRY V

Obra: Henry VIII
Personajes:
- Chamberlain
- Chorus
- KATHARINE
- KING HENRY VIII
- Second Gentleman
- Surveyor
- Third Gentleman

Obra: King John
Personajes:
- BASTARD

Obra: Richard II
Personajes:
- Abbot
- DUCHESS OF YORK
- GOWER
- Gardener
- Groom
- HENRY BOLINGBROKE
- KING RICHARD II
- LORD FITZWATER
- NORTHUMBERLAND
- QUEEN

Obra: Richard III
P

In [34]:
# Consulta 5: Actos y Secuencias en donde aparece un personaje en Londres
character_name = "KING HENRY VI"
result = db.ShakespeareWorks.find({"$and": [{"text_entry": {"$regex": "London"}},
                                            {"speaker": character_name},
                                            {"type": "scene"}]},
                                  {"play_name": 1, "text_entry": 1, "_id": 0})
print("Consulta:")
for doc in result:
    pprint(doc)

Consulta:
{'play_name': 'Henry VI Part 2',
 'text_entry': 'SCENE II. London. YORKS garden.'}
{'play_name': 'Henry VI Part 3', 'text_entry': 'SCENE II. London. The palace.'}
