<p align="center">
  <img src="assets/William-Shakespeare.png" style="width: 350px"/>
</p>

# Introducción a la Ciencia de Datos: Laboratorio 1

William Shakespeare, nació el 23 de abril de 1564 en Stratford-upon-Avon, Inglaterra y en lo que hoy en día parecería una vida corta (52 años), se transformó en una figura titánica del mundo de la literatura. Este dramaturgo y poeta inglés dejó un legado imborrable con sus más de 39 obras literarias, existen al menos dos corrientes que discuten incluso hoy en día la atribución de ciertas obras, entre entre las que se destacan sus tragedias y comedias, obras como "Hamlet", "Romeo y Julieta" y "El rey Lear". Ya sea si has leído alguna obra de William Shakespeare o no, es muy probable que reconozcas algunas frases con origen en su obra como "Ser o no ser, esa es la cuestión" o "El amor es un humo hecho con el vapor de suspiros". Estas líneas no solo demuestran su maestría lingüística, sino que también reflejan las intrigas universales sobre el amor, el poder y la tragedia, manteniendo su relevancia a través de los siglos.

En este trabajo llevado adelante en el contexto del primer Laboratorio [2] del curso Introducción a la Ciencia de Datos de la Facultad de Ingeniería, UdelaR, edición 2024, nos proponemos adentrarnos en la obra de William Shakespeare con un enfoque de ciencia de datos, analizando sus principales obras utilizando algunas técnicas sencillas de análisis de datos.

Esperamos que disfrutes este viaje a través de los datos, el tiempo y principalmente, de la lengua inglesa, tanto como nosotros lo hemos disfrutado.


_"Ten más de lo que muestras habla menos de lo que sabes."_

_William Shakespeare_

## Índice
<a name="index"></a>

1. [Imports & Utils](#imports)
2. [Adquisición de Datos](#data-adquisition)
3. [Entendimiento de los Datos](#data-understanding)
    1. [Dominio del Problema](#domain)
    2. [EDA: Análisis Exploratorio de Datos](#eda)
4. [Procesamiento de los Datos](#data-processing)
5. [Análisis de Datos](#data-analysis)
6. [Conclusiones](#conclusions)
7. [Referencias](#references)

## 1. Imports & Utils <a name="imports"></a>
[Volver al Inicio](#index)

Esta sección contiene todos los imports de dependencias y librerias utilizadas por este proyecto. También contiene la definición de funciones auxiliares utilzadas para obtener los datos y procesarlos. Por último, recuerde instalar los requerimientos (`requirements.txt`) en el mismo entorno donde está ejecutando este notebook y de esa forma evitar errores de import de dependencias (ver [README](README.md)).

In [None]:
import os
from pathlib import Path
from time import time
from typing import Any, List, Tuple

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import spacy
import tqdm
from sqlalchemy import create_engine
from wordcloud import WordCloud
from ydata_profiling import ProfileReport

A continuación definimos algunos parámetros globales del notebook como rutas por defecto y otras configuraciones para centralizar la configuración de experimentos.

In [None]:
# Globals definitions

DATA_FOLDER = os.path.join(
    "data", "shakespeare"
)  # Path en donde se almacenan los datos de laboratorio 1 en formato
DATA_SOURCE = "local"  # valid values: local | web
SHAKESPEARE_DB_CONN = (
    "mysql+pymysql://guest:relational@db.relational-data.org:3306/Shakespeare"
)
FIGURES_FOLDER = os.path.join("assets", "snapshoots")
DATA_REPORTS = os.path.join("assets", "reports")
DEFAULT_TOP_ROWS_DISPLAY = 10  # Por default cuantas row mostrar con TOP

Las siguientes funciones fueron definidas por el equipo docente y provistas como parte de los recursos del Laboratorio 1.

In [None]:
# Definidas por el equipo docente


def load_table(data_dir, table_name, engine):
    """
    Leer la tabla con SQL y guardarla como CSV,
    o cargarla desde el CSV si ya existe
    """
    path_table = data_dir / f"{table_name}.csv"
    if not path_table.exists():
        print(f"Consultando tabla con SQL: {table_name}")
        t0 = time()
        with engine.connect() as conn:
            df_table = pd.read_sql(
                sql=f"SELECT * FROM {table_name}", con=conn.connection
            )
        # df_table = pd.read_sql(f"SELECT * FROM {table_name}", engine)
        t1 = time()
        print(f"Tiempo: {t1 - t0:.1f} segundos")

        print(f"Guardando: {path_table}\n")
        df_table.to_csv(path_table)
    else:
        print(f"Cargando tabla desde CSV: {path_table}")
        df_table = pd.read_csv(path_table, index_col=[0])
    return df_table


def clean_text(df, column_name):
    result = df[column_name].str.lower()  # Convertir todo a minúsculas
    result = result.str.strip()  # Remueve espacios en blanco

    # Quitar signos de puntuación y cambiarlos por espacios (" ")
    # TODO: completar signos de puntuación faltantes
    for punc in ["[", "\n", ",", ":", ";", ".", "]", "(", ")", "?", "!", "'", "-", "\"", "{", "}"]:
        result = result.str.replace(punc, " ")
    return result

Las siguientes funciones auxiliares fueron definidas por nosotros para facilitar el análisis de datos de este laboratorio.

In [None]:
# Definidas por nosotros


def read_from_csv(path: str) -> pd.DataFrame:
    """Método para leer datos desde un archivo CSV local.

    Args:
        path (str): Ruta al archivo CSV

    Returns:
        pd.DataFrame: Dataframe con datos.
    """
    return pd.read_csv(path, sep=",", index_col=0)


def count_empty_values(df: pd.DataFrame) -> pd.Series:
    """Cuenta valores vacíos.

    Esta función cuenta valores vaciós en un dataframe en función del tipo de columna (object, int)
    utilizando ciertas convenciones para valores vaciós como que un np.nan y -1 ambos pueden ser valores
    válidos para representar un valor faltante o vacío en una columna nunérica.
    Args:
        df (pd.DataFrame): input dataframe

    Returns:
        pd.Series: conteo de vacíos
    """

    def is_empty(column):
        if column.dtype == object:  # Assuming object dtype for strings
            return column.isin([None, "", np.nan])
        elif column.dtype == int:
            return column.isin([None, np.nan, -1])

    empty_counts = df.apply(is_empty).sum()
    return empty_counts

def generate_pandas_report(df: pd.DataFrame, name: str, path:str) -> None:
    """Genera EDA report.

    Utiliando ydata-profiling genera un reporte exploratorio de los datos recibidos.
    Args:
        df (pd.DataFrame): Data Frame a analizar.
        name (str): Nombre del data frame.
    """

    profile = ProfileReport(df, title=f"Profiling Report {name}")
    profile.to_file(os.path.join(path, f"{name}_report.html"))

## 2. Adquisición de los Datos  <a name="data-adquisition"></a>
[Volver al Inicio](#index)

Las siguientes celdas se encarga de obtener los datos del Laboratorio 1 y cargarlos en dataframes de pandas para facilitar su análisis.

In [None]:
def load_dataframes() -> Tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame, pd.DataFrame]:
    """Descarga de datos.

    Este método se encarga de descargar los datos desde el repositorio público de Shakespeare por primera vez,
    guardando los datos de cada tabla en un archivo CSV separado.

    Returns:
        Tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame, pd.DataFrame]: Dataframes con los datos de las tablas.
    """

    # Creamos el directorio DATA_FOLDER donde se guardarán los CSV
    data_dir = Path(DATA_FOLDER)
    data_dir.mkdir(parents=True, exist_ok=True)

    # Evitamos crear la conexión a la BD si vamos a trabajar local
    if DATA_SOURCE == "web":
        print(f"Creando conexión a la base usando url={SHAKESPEARE_DB_CONN}...")
        engine = create_engine(SHAKESPEARE_DB_CONN)
    elif DATA_SOURCE == "local":
        print("Evitando crear conexión a BD...")
        engine = None
    else:
        raise Exception(
            "Debe especificar un tipo de source válido para los datos: 'web' | 'local'."
        )

    # DataFrame con todas las obras:
    df_works = load_table(data_dir, "works", engine)

    # Todos los párrafos de todas las obras
    df_paragraphs = load_table(data_dir, "paragraphs", engine)

    # TODO: cargar el resto de las tablas
    # Completamos el código originalmente provisto por los docentes.

    # DataFrame con los chapters
    df_chapters = load_table(data_dir, "chapters", engine)

    # DataFrame con los chapters
    df_characters = load_table(data_dir, "characters", engine)

    return df_works, df_paragraphs, df_chapters, df_characters

En la siguiente celda cargamos los datos de las tablas: Works, Paragraphs, Chapters y Characters. Más adelante en la siguiente sección entramos en detalles sobre que son los datos de cada una de estas tablas. 

Por otro lado, los datos se encuentran disponibles en la web en [1] y es posible descargarlos mediante el método provisto por los docentes ```load_table()``` y la librería [SQLAlchemy](https://www.sqlalchemy.org/). Para simplificar este proceso implementamos el método ```load_dataframes()``` que se encarga de articular la descarga utilizando las herramientas mencionadas anteriormente. No obstante, no tiene sentido descargarse desde la web los datos, cada veze que se ejecuta este notebook. Por tal razón los datos se guardan localmente en archivos ```.csv``` en el directorio definido por ```DATA_FOLDER```. Notar que el método ```load_table()``` prevee esto mismo en caso de encontrar en el directorio destino un archivo .csv con el nombre de la tabla. Por otro lado, evitamos crear la conexión a la BD en caso que se quiera trabajar local, para evitar por ejemplo errores de conexión con la BD. Para esto usamos la variable DATA_SOURCE que nos indica el modo de trabajo:

* DATA_SOURCE='web' -> Crea conexión a la BD y utiliza ```load_dataframes()``` para descargar los datos.
* DATA_SOURCE='local' -> No crea la conexión a la BD y utiliza ```load_dataframes()``` para leer los datos localmente ya que ```load_table()``` encontrará los archivos .csv.

En la siguiente celda, se cargan los datos en los dataframes de nombre ```df_works, df_paragraphs, df_chapters, df_characters```.



In [None]:
print("Cargando los datos...")
df_works, df_paragraphs, df_chapters, df_characters = load_dataframes()

print(f"Works: {df_works.shape}")
print(f"Paragraphs: {df_paragraphs.shape}")
print(f"Chapters: {df_chapters.shape}")
print(f"Characters: {df_characters.shape}")
print("Datos cargados exitosamente!")

## 3. Entendimiento de los Datos <a name="data-understanding"></a>
[Volver al Inicio](#index)

### 3.1. Dominio del Problema  <a name="domain"></a>


Más información acerca de las tablas disponibles en la base de datos [aquí](https://relational-data.org/dataset/Shakespeare). 

![img](assets/image_01.png)

### 3.2. EDA: Análisis Exploratorio de Datos  <a name="eda"></a>

Existen muchas técnicas para llevar adelante un análisis exploratorio de datos, algunas dentro de la intuición y otras de una naturaleza más estadísitca. En este trabajo, nos vamos a limitar a ejecutar algunos análisis básicos e intuitivos para principalmente ganar mayor conocimiento sobre los datos analizados y validar algunas hipótesis sobre la calidad de los datos y a su vez nos vamos a apoyar en la libreria [ydata-profiling](https://docs.profiling.ydata.ai/latest/) para realizar automáticamente un análisis más estadístico completo sobre los datos. 

Para profundizar sobre los objetivos de un análisis exploratorio de datos (EDA) y herramientas disponibles recomendamos la lectura de [4] y [5].

**Sobre el Análisis**:

Para cada tablas/datarame vamos a conducir principalmente los mismos análisis:

1. Vistaso rápido de los datos
2. Revisión de Tipos
3. Caracterísitcas Macro
4. Conteo de missing-values
5. Conteo de duplicados
6. Revisión de valores inválidos

#### 3.2.1. Works

Hechemos un vistaso rápido a los datos observando las primeras N filas. Para eso usamos la función [head()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html) de pandas. Recordemos que las obras las tenemos cargadas en ```df_works```.

In [None]:
# Muestra TOP DEFAULT_TOP_ROWS_DISPLAY filas del dataframe
df_works.head(DEFAULT_TOP_ROWS_DISPLAY)

Veamos que tipos infirió automáticamente pandas para cada columna, para asegurarnos que son los correctos y revisar si tenemos que hacer algún tipo de procesamiento previo. Para esto accedemos a la propiedad [.dypes](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dtypes.html) del dataframe.

In [None]:
# Listado de tipos para las columnas
df_works.dtypes

También podemos inferir propiedades interesantes del dataframe como los valores mínimo/maximo/avg de cada columna utilizando la función [describe()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html) de pandas. Notar que estos valores existen solamente para columnas numéricas y no siempre es relevante su uso. En este caso por ejemplo, nos permite entender más sobre el período en el que se encuentran las obras de Shakespeare analizadas el cual va desde el año 1589 hasta el año 1612. Por otro lado la media de las obras se encuentra hacia el año 1599.

Por otro lado, podemos observar que estamos analizando 43 obras. Por último, de acuerdo con Wikipedia [6], Shakespeare nació en el año 1564 y murió en el año 1616 y todos los valores de ```Date``` para works se encuentran dentro de dicho rango. Es un buen indicio de la calidad de los datos en esta columna.

In [None]:
# Valores descriptivos de cada columna
df_works.describe()

Para hacer más sencillo el conteo de valores faltantes implementamos el método ```count_empty_values()``` que recibe como parámetro un dataframe y revisa todas las columnas del mismo, contando valores faltantes (missing values). Como sabemos, un valor faltante puede ser tanto un valor ```None``` como un ```0```, ```-1```, ```NaN```, ```''``` (string vacío). Depende del tipo de la columna y el problema principalmente. 

In [None]:
# Conteo de missing values por columna
empty_values = count_empty_values(df=df_works)
empty_values

Otro problema de calidad puede ser la existencia de valores repetídos, en cuyo caso aveces nos fuerza a tener que eliminarlos previo a realizar un análisis. Para esto vamos a utilizar la función [duplicated()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html) de pandas. Notar que en algunas columnas no solo tenemos valores repetidos sino que tiene mucho sentído y además nos va a dar información relevante sobre la obra de Shakespeare.

In [None]:
# Revisamos ocurrencias duplicadas en cada columna del dataframe
duplicate_counts = {col: df_works[col].duplicated().sum() for col in df_works.columns}
duplicate_counts

In [None]:
# Veamos cuales son los géneros que comprenden a la obra de Shakespeare
genres = df_works["GenreType"].unique().tolist()
print(
    f"La obra de Shakespeare se concentra en {len(genres)} géneros: {
        ', '.join(genres)}"
)

No parece haber datos duplicados que requieran de un pre-procesamiento:

* ✅ No hay repetidos en columna ```id```
* ✅ No hay repetidos en columna ```Title```
* ✅ No hay repetidos en columna ```LongTitle```

Además:

* Hay varios años en los que Shakespeare publicó más de una obra (más adelante analizaremos esto en detalle)
* Hay repetición en los géneros lo cual tiene mucho sentido ya que son un grupo de apenas **5** géneros: _Comedy, Tragedy, History, Poem, Sonnet_


In [None]:
# Valores inválidos
# NO TIENE

In [None]:
# Genera ydata profiling report
generate_pandas_report(df_works, "works", DATA_REPORTS)

#### 3.2.2. Chapters

Repitamos el mismo procedimiento ahora utilizando el dataframe ```df_chapters``` que contiene los datos de capítulos de las obras.

In [None]:
# Muestra TOP DEFAULT_TOP_ROWS_DISPLAY filas del dataframe
df_chapters.head(DEFAULT_TOP_ROWS_DISPLAY)

In [None]:
# Listado de tipos para las columnas
df_chapters.dtypes

In [None]:
# Valores descriptivos de cada columna
df_chapters.describe()

In [None]:
# Conteo de missing values
empty_values = count_empty_values(df=df_chapters)
empty_values

In [None]:
# Revisamos ocurrencias duplicadas en cada columna del dataframe
duplicate_counts = {
    col: df_chapters[col].duplicated().sum() for col in df_chapters.columns
}
duplicate_counts

En este caso, nos interesa además revisar que no existen duplicados en la combinación ```<work_id, Act, Scene, Description>``` que identifica semánticamente a una escena (notar que cada fila está identificada por la columna ```id```).

In [None]:
duplicate_counts = df_chapters.duplicated(
    subset=["work_id", "Act", "Scene", "Description"]
).sum()
print(f"Duplicados: {duplicate_counts}")

In [None]:
# Asegurarse que todo chapter pertenece a un work válido
df_merge = pd.merge(df_chapters, df_works,
                    left_on="work_id", right_on="id", how="left")
no_match_count = df_merge["id_y"].isna().sum()
print(f"Chapters sin Work: {no_match_count}")

In [None]:
# Genera ydata profiling report
generate_pandas_report(df_chapters, "chapters", DATA_REPORTS)

A priori no hay datos duplicados en capítulos en base a la ausencia de duplicados en la columna ```id``` asi como también en la ausencia de duplicados en las tuplas ```<work_id, Act, Scene, Description>```. 

* ✅ No hay repetidos en columna ```id```
* ✅ No hay repetidos en columna ```Title```
* ✅ No hay repetidos en columna ```LongTitle```

Por otro lado: 
* ✅ Todos los capítulos referencian a una obra (work) válida en ```df_works```.

#### 3.2.3. Paragraphs

Repitamos el mismo procedimiento ahora utilizando el dataframe ```df_paragraphs``` que contiene los datos de párrafos de las obras.

In [None]:
# Muestra TOP DEFAULT_TOP_ROWS_DISPLAY filas del dataframe
df_paragraphs.head(DEFAULT_TOP_ROWS_DISPLAY)

In [None]:
# Listado de tipos para las columnas
df_paragraphs.dtypes

In [None]:
# Valores descriptivos de cada columna
df_paragraphs.describe()

In [None]:
# Conteo de missing values
empty_values = count_empty_values(df=df_paragraphs)
empty_values

In [None]:
# Revisamos ocurrencias duplicadas en cada columna del dataframe
duplicate_counts = {
    col: df_paragraphs[col].duplicated().sum() for col in df_paragraphs.columns
}
duplicate_counts

In [None]:
duplicate_counts = df_paragraphs.duplicated(
    subset=["ParagraphNum", "PlainText", "character_id", "chapter_id"]
).sum()
print(f"Duplicados: {duplicate_counts}")

In [None]:
# Asegurarse que todo paragraph pertenece a un chapter válido
df_merge = pd.merge(
    df_paragraphs, df_chapters, left_on="chapter_id", right_on="id", how="left"
)
no_match_count = df_merge["id_y"].isna().sum()
print(f"Párrafo con Chapter inexistente: {no_match_count}")

In [None]:
# Asegurarse que todo paragraph referencia a un character válido
df_merge = pd.merge(
    df_paragraphs, df_characters, left_on="character_id", right_on="id", how="left"
)
no_match_count = df_merge["id_y"].isna().sum()
print(f"Párrafo con Character inexistente: {no_match_count}")

Revisemos si existen párrafos asociados a más de un personaje lo cual no parecería muy lógico ya que en obras de teatro los párrafos son principalmente diálogos y los diálogos son de un solo personaje.

Como vemos en la consultra siguiente, no vemos duplicados a nivel de chapter_id, ParagraphNum, PlainText por lo que podemos concluir que cada combinación esta asociada a un único character_id.

**SPOILER ALERT**: Si hay diálogos que son repetidos por varios personajes en obras de teatro de Shakespeare pero a nivel de datos están registrados a nombre de un personaje muy peculiar. Seguir leyendo para descrubrirlo!!

In [None]:
grouped = df_paragraphs.groupby(['chapter_id', 'ParagraphNum', 'PlainText']).size().reset_index(name='count')
sorted_df = grouped.sort_values(by='count', ascending=False)
sorted_df

In [None]:
grouped = df_paragraphs.groupby(['chapter_id', 'PlainText']).size().reset_index(name='count')
sorted_df = grouped.sort_values(by='count', ascending=False)
sorted_df

In [None]:
# Genera ydata profiling report
generate_pandas_report(df_paragraphs, "paragraphs", DATA_REPORTS)

#### 3.2.4. Characters

Finalmente, repitamos el mismo procedimiento ahora utilizando el dataframe ```df_characters``` que contiene los datos de personajes de las obras.

In [None]:
# Muestra TOP DEFAULT_TOP_ROWS_DISPLAY filas del dataframe
df_characters.head(DEFAULT_TOP_ROWS_DISPLAY)

In [None]:
# Listado de tipos para las columnas
df_characters.dtypes

In [None]:
# Valores descriptivos de cada columna
df_characters.describe()

In [None]:
# Conteo de missing values
empty_values = count_empty_values(df=df_characters)
empty_values

In [None]:
# Revisamos ocurrencias duplicadas en cada columna del dataframe
duplicate_counts = {
    col: df_characters[col].duplicated().sum() for col in df_characters.columns
}
duplicate_counts

In [None]:
duplicate_counts = df_characters.duplicated(
    subset=["CharName", "Abbrev"]).sum()
print(f"Duplicados: {duplicate_counts}")

In [None]:
duplicate_counts = df_characters.duplicated(
    subset=["id", "CharName", "Abbrev"]).sum()
print(f"Duplicados: {duplicate_counts}")

Como podemos ver en las celdas anteriores tenemos dos caracterśticas interesantes en relación a los personajes:

1. La columna Description presenta una cantidad relevante de valores faltantes (NaN más especificamente)
2. Hay varios personajes repetidos que podrían tener un significado especial

Analicemos más en detalle esto agrupando por las columnas CharName y Abbrev a ver que podemos encontrar.

In [None]:
df_characters["count_duplicated"] = df_characters.groupby(["CharName"])[
    "CharName"
].transform("size")
df_duplicated = df_characters.drop_duplicates(subset=["CharName", "Abbrev"])
df_duplicated = df_duplicated.sort_values(
    by="count_duplicated", ascending=False)
df_duplicated.head(30)

In [None]:
paragraphs_all = df_paragraphs[(df_paragraphs["character_id"] == 68) | (df_paragraphs["character_id"] == 86)]
paragraphs_all_ext = pd.merge(paragraphs_all, df_chapters,
                    left_on="chapter_id", right_on="id", how="left")
paragraphs_all_ext = pd.merge(paragraphs_all_ext, df_works,
                    left_on="work_id", right_on="id", how="left")
paragraphs_all_ext[["PlainText", "character_id", "chapter_id", "Act", "Scene", "Description", "Title"]]

In [None]:
# Soy curioso, que descripción tendrá y si aparece repetido Hamlet?
df_characters[df_characters["CharName"] == "Hamlet"] 

De las consultas anterior podemos sacar mejores conclusiones acerca de los personajes repetidos:

1. Existen algunos personajes "especiales" con un significado que trasiende a una obra, más allá de un personaje conocido y con nombre y apellido como _Hamlet_. Este es el caso por ejemplo de: Servant, Lord, First Soldier, Second Lord. Estos son personajes genéricos que pueden aparecer en cualquier obra y podrían desviar algún tipo de análisis que queramos hacer ya que pueden estar presentes en múltiples obras con mismo o similar nombre, pero diferente id.
2. Vemos personajes que se llaman igual escritos de diferente forma como Second Lord con Abbrev en minúsculas y mayúsculas (1003 y 1001)
3. Hay dos personajes que se los más repetidos: All (y sus variantes) y Messenger (y sus variantes).

En resumen, si nos interesa posteriormente por ejemplo identificar los personajes con más párrafos dentro de una obra podemos contar los párrafos mediante un join entre las tablas Characters y Paragraph. Sin embargo si queremos llevar este análisis a la obra completa de Shakespeare, de repente sería bueno plantearnos: ¿Nos interesaría tratar a todos los _Messenger_ o _First Servant_ como uno mismo o diferentes? 

En función de la respuesta dependerá el tipo de procesamiento previo necesario a los datos.

In [None]:
# Genera ydata profiling report
generate_pandas_report(df_characters, "characters", DATA_REPORTS)

## 4. Procesamiento de los Datos <a name="data-processing"></a>
[Volver al Inicio](#index)

In [None]:
# Creamos una nueva columna CleanText a partir de PlainText
df_paragraphs["CleanText"] = clean_text(df_paragraphs, "PlainText")

# Veamos la diferencia
df_paragraphs[["PlainText", "CleanText"]]

In [None]:
# Convierte párrafos en listas "palabra1 palabra2 palabra3" -> ["palabra1", "palabra2", "palabra3"]
df_paragraphs["WordList"] = df_paragraphs["CleanText"].str.split()

# Nuevo dataframe: cada fila ya no es un párrafo, sino una sóla palabra
df_words = df_paragraphs.explode("WordList")

# Quitamos estas columnas redundantes
df_words.drop(columns=["CleanText", "PlainText"], inplace=True)

# Renombramos la columna WordList -> word
df_words.rename(columns={"WordList": "word"}, inplace=True)

# Verificar que el número de filas es mucho mayor
df_words

## 5. Análisis de los Datos <a name="data-analysis"></a>
[Volver al Inicio](#index)

En esta sección realizamos diferentes análisis sobre los datos, persiguiendo los siguientes objetivos (en su mayoría descritos en la letra del Laboratorio):

1. Analizar las obras de Shakespeare a través de los años e intentar identificar tendencias
2. Analizar frecuencias de palabras en la obra de Shakespeare para obtener una perspectiva diferente
3. Analizar los personajes con mayor cantidad de palabras asociadas en la obra de Shakespeare

Analisis adicionales propuestos:
TODO

### 5.1. Obras de Shakespeare a través de los años

Para analizar las obras de Shakespeare a través de ños años alcanza con agrupar las filas de ```df_works``` por año y apartir de allí empear a analizar los resultados. Por ejemplo podemos ver la cantidad de obras producidas por año, o tomar ventanas de tiempo más grande como 5-10 años y analizar la producción desde allí. También puede ser interesante analizar como se distribuye la producción por género literario y ver como evolucionan estas proporciones a traves de los años.

Algunos de estos análisis son realizados a continuación con el objetivo de entender la obra de Shakespeare y detectar alguna posible tendencia. 

Un enfoque complementario, que tambien abordamos en esta sección es recurrir a la literatura. Cualquier autor tiene períodos en su vida que son fácilmente reconocibles en su obra y son ampliamente estudiados por expertos. En el caso de William Shakespeare de acuerdo a [10] se pueden apreciar cuatro períodos en su obra:

* In the Workshop (1589-1593)
* In the World (1594-1600)
* Out of the Depths (1601-1607)
* On the Heights (1608-1612)

En esta sección a su vez tomamos en cuenta esas referencias para revisar si hay diferencias notorias en los datos que acompañen la teoría.

In [None]:
# Definición de períodos
colors = px.colors.qualitative.Pastel2
shakespeare_born = 1564
shakespeare_periods = {
    1: {
        "name": "In the Workshop (1589-1593)",
        "from": 1589,
        "to": 1593,
        "color": colors[0],
    },
    2: {
        "name": "In the World (1594-1600)",
        "from": 1594,
        "to": 1600,
        "color": colors[1],
    },
    3: {
        "name": "Out of the Depths (1601-1607)",
        "from": 1601,
        "to": 1607,
        "color": colors[2],
    },
    4: {
        "name": "On the Heights (1608-1612)",
        "from": 1608,
        "to": 1612,
        "color": colors[3],
    },
}

In [None]:
# Primero agrupamos por Date y GenreType
works_per_year = df_works.groupby(["Date", "GenreType"]).size().unstack(fill_value=0)

# Creo una nueva columna con el Total Works por Date
works_per_year["Total"] = works_per_year.sum(axis=1)
works_per_year

Una primera visualización para ver la cantidad de obras por año y por género, dónde cada bloque indica una obra.

In [None]:
works_per_year_without_total = works_per_year.drop(columns=["Total"])
fig, ax = plt.subplots( figsize=(15, 6))
bottom= 0

for genre, years in works_per_year_without_total.items():

    ax.bar(years.index, label=genre, height=years.values,bottom=bottom)
    bottom = bottom + years.values
plt.xticks(np.arange(1589, 1613,1))
plt.title("Obras de Shakespeare por año y género")
plt.ylabel("Cantidad de obras")
plt.xlabel("Año")
plt.legend()

In [None]:
# Obras de Shakespeare por año
fig = px.bar(works_per_year, x=works_per_year.index, y="Total", )
fig.update_xaxes(tickmode="array", tickvals=works_per_year.index)
fig.update_layout(
    height=400,
    width=1200,
    title_text="Obras de William Shakespeare (por año)",
    xaxis_title="Año",
    yaxis_title="Obras Producidas (anual)",
)
fig.show()

# Guardar imagen
fig.write_image(os.path.join(FIGURES_FOLDER, "obras_por_año_1.png"))

Veamos como queda la anterior visualización cuando marcamos explícitamente los períodos en la vida de Shakespeare, descritos por estudiosos de la obra del poeta.

In [None]:
fig = px.bar(works_per_year, x=works_per_year.index, y="Total")
fig.update_xaxes(tickmode="array", tickvals=works_per_year.index)

for idx, period in shakespeare_periods.items():
    fig.add_vrect(
        x0=period["from"] - 0.5,
        x1=period["to"] + 0.5,
        annotation_text=period["name"],
        annotation_position="top",
        annotation_font_color="blue",
        annotation=dict(font_size=15, font_family="Arial"),
        fillcolor=period["color"],
        opacity=0.5,
        line_width=0,
    )
fig.update_layout(
    height=400,
    width=1100,
    title_text="Obras de William Shakespeare (por año)",
    xaxis_title="Año",
    yaxis_title="Obras Producidas (anual)",
)
fig.show()
#
# Guardar imagen
fig.write_image(os.path.join(FIGURES_FOLDER, "obras_por_año_2.png"))

Puede resultar un poco más intuitivo para entender la evolución del escritor asi como explicar posibles tendencias, analizar la evolución a lo largo de la vida de Shakespeare, comparando contra su edad en lugar de a través de los años.

In [None]:
df_works["Age"] = df_works["Date"] - shakespeare_born

# Primero agrupamos por Date y GenreType
works_per_age = df_works.groupby(["Age", "GenreType"]).size().unstack(fill_value=0)

# Creo una nueva columna con el Total Works por Date
works_per_age["Total"] = works_per_age.sum(axis=1)

fig = px.bar(works_per_age, x=works_per_age.index, y="Total")
fig.update_xaxes(tickmode="array", tickvals=works_per_age.index)
for idx, period in shakespeare_periods.items():
    fig.add_vrect(
        x0=period["from"] - shakespeare_born - 0.5,
        x1=period["to"] - shakespeare_born + 0.5,
        annotation_text=period["name"],
        annotation_position="top",
        annotation_font_color="blue",
        annotation=dict(font_size=15, font_family="Arial"),
        fillcolor=period["color"],
        opacity=0.5,
        line_width=0,
    )

fig.update_layout(
    height=400,
    width=1100,
    title_text="Obras de William Shakespeare (por edad)",
    xaxis_title="Edad (años)",
    yaxis_title="Obras Producidas (anual)",
)
fig.show()

# Guardar imagen
fig.write_image(os.path.join(FIGURES_FOLDER, "obras_por_edad_1.png"))

In [None]:
works_per_year_cumulative = pd.DataFrame(index=works_per_age.index)
for col in works_per_age.columns:
    works_per_year_cumulative[col] = works_per_age[col].cumsum()

plot = go.Figure()

for col in works_per_year_cumulative.columns:
    if col != "Total":
        plot.add_trace(
            go.Scatter(
                name=col,
                x=works_per_year_cumulative.index,
                y=works_per_year_cumulative[col],
                stackgroup="one",
            )
        )

plot.update_layout(
    height=600,
    width=1100,
    title_text="Obras de William Shakespeare",
    xaxis_title="Edad (años)",
    yaxis_title="Acumulado de Obras",
)
plot.show()

# Guardar imagen
plot.write_image(os.path.join(FIGURES_FOLDER, "obras_por_edad_2.png"))

In [None]:
# plot = go.Figure()

# for col in works_per_year_cumulative.columns:
#     if col != "Total":
#         plot.add_trace(go.Scatter(
#             name = col,
#             x = works_per_year_cumulative.index,
#             y = works_per_year_cumulative[col],
#             mode='lines'
#         ))
# plot.show()

In [None]:
from plotly.subplots import make_subplots

# fig = go.Figure()
fig = make_subplots(rows=5, cols=1)

for ix, col in enumerate(works_per_year_cumulative.columns):
    if col != "Total":
        fig.append_trace(
            go.Scatter(
                x=works_per_year_cumulative.index,
                y=works_per_year_cumulative[col],
                name=col,
                line_shape="hv",
            ),
            row=ix + 1,
            col=1,
        )


fig.update_layout(height=800, width=1100, title_text="Obras de William Shakespeare")
# fig.update_xaxes(tickmode='array',tickvals=works_per_year.index)

for idx, period in shakespeare_periods.items():
    fig.add_vrect(
        x0=period["from"] - shakespeare_born - 0.5,
        x1=period["to"] - shakespeare_born + 0.5,
        annotation_text="",
        annotation_position="top",
        annotation_font_color="blue",
        annotation=dict(font_size=15, font_family="Arial"),
        fillcolor=period["color"],
        opacity=0.5,
        line_width=0,
    )

fig.show()

# Guardar imagen
fig.write_image(os.path.join(FIGURES_FOLDER, "obras_por_edad_3.png"))

### 5.2. Conteo de palabras frecuentes

Mediante el análisis de palabras frecuentes podemos obtener una visión diferente sobre el usuo del vocabulario en las obras de William Shakespeare. Para ello lo que vamos a hacer es calcular las frecuencias de palabras y para ello es necesario primero realizar ciertos pre-procesamientos al texto que nos permitan calcualar estas frecuencias de forma acertada:

1. Normalizar las palabras: Llevar a minúsculas (lowercase) y remover espacios innecesarios (strip). Notar que esto ya lo hicimos en ```CleanText```
2. Separar el texto en palabras: Separar el texto en palabras o tokens para contar posteriromente la frecuencia. Notar que esto ya lo hicimos en ```WordList```.
3. Remover stopwords: Algunas palabras como "and" o "or" son ampliamente utilizadas en el lenguaje pero no aportan mayor valor a nuestro análizis. De considerarlas seguramente se roben el protagonismo de cualquier análisis. Por ello primero vamos a remover stopwords de la lista de palabras ```WordList```, para quedarnos solamente con las palabras más relevantes del idioma.

Notar que el paso 2 lo estamos realizando de forma sencilla mediane la función [split()](https://www.w3schools.com/python/ref_string_split.asp) de strings que por defecto utiliza como separador un whitespace ```" "```. 

```python
df_paragraphs["WordList"] = df_paragraphs["CleanText"].str.split()
```

En un trabajo más profundo, podriamos reemplazar este método de tokenización por métodos más complejos y precisos como el [Tokenizer](https://spacy.io/api/tokenizer) de spacy que contempla otro tipo de separadores naturales en el idioma ingles como ```,?-;:```, etc.

Para implementar el punto 3 vamos a utilizar la librería de NLP [spacy](https://spacy.io/) que implementa métodos sencillos para remvoer stopwords de un texto. Además, nos evita la tediosa tarea de conseguir las stopwors para un idioma en particular (en este caso inglés), lista de tokens que puede ser bastante larga.

In [None]:
# Veamos las stopwords de Spacy para Inglés
from spacy.lang.en import stop_words

stop_words = stop_words.STOP_WORDS
print(
    f"Este modelo contiene {len(stop_words)} stop words. Las primeras 10 son: {list(stop_words)[:15]}"
)

A continuación limpiamos las palabras usando el modelo ```en_core_web_sm```. Spacy tiene varios modelos en función del idioma. Para esta tarea vamos a utilizar el modelo más sencillo de ingles. Por más información sobre los modelos de Spacy ver [Trained Models & Pipelines](https://spacy.io/models).

In [None]:
def chunks(lst: List[Any], n: int):
    """Funcion auxiliar para generar n-sized chunks desde lst."""
    for i in range(0, len(lst), n):
        yield lst[i : i + n]


# Cargamos modelo spacy (modelo liviano para ingles)
nlp = spacy.load("en_core_web_sm", disable=["ner", "tagger", "parser", "textcat"])

# Custom stop words
customize_stop_words = []
for w in customize_stop_words:
    nlp.vocab[w].is_stop = True

words = df_words["word"].values

# Filtro las words de todo el texto manteniendo las que no son stopwords
clean_words = []
for words_batch in tqdm.tqdm(chunks(words, 1000)):
    text = " ".join(words_batch)
    clean_words += [token.lemma_ for token in nlp(text) if not token.is_stop]

# Veamos las primeras
print(f"Primeras 10 palabras limpias: {clean_words[:10]}")

In [None]:
# Construimos wordcloud a partir de las frecuencias de todas las obras sin distinción
words = " ".join(clean_words)
wc = WordCloud(
    background_color="white",
    max_words=2000,
    # mask=alice_mask,
    contour_width=3,
    contour_color="steelblue",
)

# generate word cloud
wc.generate(words)

# store to file
wc.to_file(os.path.join("assets", "snapshoots", "wordcloud.png"))

# show
plt.imshow(wc, interpolation="bilinear")
plt.axis("off")

# Save image
plt.savefig(os.path.join(FIGURES_FOLDER, "wordcloud.png"))

En el WordCloud creado a partir de todas la palabras de la obra y sin los stop_words, aparecen palabras pero que en realidad son letras únicas cómo lo son "d", "s" y "o". Luego de una breve investiagación esto puede deberse a que contracciones utilizadas por Shakespeare que no son utilizadas hoy en día, por ejemplo "o'er" siendo esta una contracción de over. 

Continuando con este análisis, se puede realizar la visualización de las palabras mas comunes en forma de wordcloud para cada género. Para poder realizar este análisis es necesario poder vincular las palabras al género que fueron utilizadas, debido a las relaciones que tinene las tablas ese necesario realizar diferentes merges para poder obtener la relación buscada. Cómo se mostró en la sección 3, se debe vincular el párrafo a capítulos para obtener los párrafos vinculados a géneros y luego unir las palabras con su párrafo de procedencia.

In [None]:
df_paragraphs_with_chapter= pd.merge(df_paragraphs[["id","ParagraphNum", "chapter_id"]], df_chapters[["id", "work_id"]], left_on="chapter_id", right_on="id")
df_paragraphs_with_genre = pd.merge(df_paragraphs_with_chapter, df_works[["id", "GenreType"]], left_on="work_id", right_on="id")
df_words_with_genre = pd.merge(df_words, df_paragraphs_with_genre[["id_x","ParagraphNum", "GenreType"]], left_on="id", right_on="id_x", how="left")
df_words_with_genre 


Generamos una visualización con el conjunto de wordcloud por género.

In [None]:
plt.figure(figsize=(15, 6))
for index, i in enumerate(["Tragedy", "Comedy" , "History", "Sonnet","Poem"]):
    print(i, index)
    words = df_words_with_genre.groupby("GenreType")["word"].value_counts()[i].index
    words = " ".join(words)
    wc = WordCloud(
        background_color="white",
        max_words=2000,
        # mask=alice_mask,
        contour_width=3,
        contour_color="steelblue",
    )
    wc.generate(words)
    plt.subplot(2, 3, index+1)
    plt.title("WordCloud de "+i)
    plt.imshow(wc, interpolation="bilinear")
    plt.axis("off")
plt.tight_layout()


plt.savefig(os.path.join(FIGURES_FOLDER, "wordcloud_by_genre.png"))

De esta visualización se logran ver algunas tendencias, por ejemplo en POem y Sonnet aparece la palabra "love "destacada mientras que en el resto de los géneros no.

### 5.3. Personajes con más cantidad de palabras

In [None]:
# Agregamos el nombre de los personajes
# TODO: des-comentar luego de cargar df_characters
df_words_char = pd.merge(
    df_words, df_characters[["id", "CharName"]], left_on="character_id", right_on="id"
)
df_words_char

In [None]:
# TODO:
# - des-comentar luego de hacer el merge
# - Encuentra algún problema en los resultados?

words_per_character = (
    df_words_char.groupby("CharName")["word"].count().sort_values(ascending=False)
)
words_per_character

In [None]:
# Ejemplo: 10 personajes con más palabras
plt.figure(figsize=(8, 6))
char_show = words_per_character[:10]
char_show = char_show.sort_values()
plt.barh(char_show.index, char_show.values)
_ = plt.xticks(rotation=90)
plt.ylabel("Personaje")
plt.xlabel("Cantidad de palabras")
plt.title("Cantidad de palabras por personaje")
plt.savefig(os.path.join(FIGURES_FOLDER, "words_per_character.png"))


In [None]:
words_per_character_df = pd.DataFrame(words_per_character).reset_index()
romeo = words_per_character_df[words_per_character_df['CharName'] == 'Romeo']
juliet = words_per_character_df[words_per_character_df['CharName'] == 'Juliet']

print(f"Las posiciones en el ranking para Romeo={romeo.index[0]} con {romeo['word'].sum()} palabras y para Julieta={juliet.index[0]} con {juliet['word'].sum()} palabras.")

Las celdas anteriors nos permiten identificar algunas cosas bien interesantes:

1. En el TOP 3 de personajes con mayor cantidad de palabras asociadas se destacan: Poet y (stage directions)
2. Los personajes particualres con mayor cantidad de palabras asociadas son: Henry V, Falstaff, Hamlet y Dule of Gloucester. Lejos quedaron del TOP 10 la famosa pareja de Romeo y Julieta (quienes por cierto manejan una cantidad similar de palabras).

Analizando más en detalle estos resultados:

1. Poet representa al narrador en los poemas escritos por Shakespeare
2. Stage Directions de acuerdo a [shakespearestagedirections.coe.edu](https://shakespearestagedirections.coe.edu/#:~:text=Stage%20directions%20are%20where%20the,or%20directors%20about%20that%20information.) son indicaciones particulares escritas por Shakespeare para facilitar la labor de los actores que interpreten un personaje, así como facilitar al lector visualizar la escena que esta ocurriendo. Por ello es de esperarse la aparición de varias acotaciones de este estilo y en particualr como en el dataset las Stage Directions son asociadas a un personaje "Stage Directions" es de esperar ver los resultados anteriores.

**Mejoras**

A partir del análisis anterior se nos ocurren diferentes mejoras para extender o complementar el análisis:

1. Remover Poet y (stage directions) del TOP ahora que sabemos que son dos categorias especiales de personajes.
2. Cambiar la forma en la que contamos las palabras por personaje ya que estamos contando stopwords que quizas no sean de tanto interés y 
además personajes de obras teatrales y comedias naturalmente tendrán mayor cantidad de palabras ya que son obras más extensas. Por ello 
proponemos normalizar los valores considerando la cantidad de palabras que tiene la obra en la que aparece el personaje.

In [None]:

# 10 personajes con más parrafps retirando Poet y Stage Directions
plt.figure(figsize=(8, 6))

char_show = words_per_character[:12]
char_show = char_show[2:] # Sacamos poet y Stage Sirections
char_show = char_show.sort_values()
plt.barh(char_show.index, char_show.values)
_ = plt.xticks(rotation=90)
plt.ylabel("Personaje")
plt.xlabel("Cantidad de palabras")
plt.title("Cantidad de palabras por personaje")
plt.savefig(os.path.join(FIGURES_FOLDER, "words_per_character_modified.png"))


Podemos también analizar la cantidad de párrafos por personaje

In [None]:
df_characters_with_char = pd.merge(df_paragraphs, df_characters, left_on="character_id", right_on="id", how="left")
top_characters_by_paragraph = df_characters_with_char.groupby("CharName")["CharName"].count().sort_values(ascending=False)

In [None]:
# Ejemplo: 10 personajes con más palabras
plt.figure(figsize=(8, 6))
char_show = top_characters_by_paragraph[:10]
char_show = char_show.sort_values()
plt.barh(char_show.index, char_show.values)
_ = plt.xticks(rotation=90)
plt.ylabel("Personaje")
plt.xlabel("Cantidad de párrafos")
plt.title("Cantidad de párrafos por personaje")


In [None]:
# Ejemplo: 10 personajes con más palabras
char_show = words_per_character[:12]
char_show = char_show[2:] # Sacamos poet y Stage Sirections
char_show = char_show.sort_values()
plt.barh(char_show.index, char_show.values)
_ = plt.xticks(rotation=90)
plt.ylabel("Personaje")
plt.xlabel("Cantidad de párrafos")
plt.title("Cantidad de párrafos por personaje")
plt.savefig(os.path.join(FIGURES_FOLDER, "paragraph_per_character.png"))



### 5.4. Preguntas Adicionales sobre los Datos

TODO

1. Calcular y comparar TOP N palabras más frecuentes por personaje, obra, género (este si lo estamos haciendo)
2. En función de los párrrafos por personaje, caracterizarlos en función del uso del vocabulario utiliando alguna técnica de NLP
3. Agregar stopwords propias del idioma inglés de la época de Shakespeare para mejorar el pre-procesamiento

Agrupar y contar párrrafos por personaje:
- Por toda la obra
(adicionales)
- Por obra
- Con o sin normalizacion

## 6. Conclusiones <a name="conclusions"></a>
[Volver al Inicio](#index)

ToDo

## 7. Referencias <a name="references"></a>
[Volver al Inicio](#index)

1. [Base de Datos Shakespeare](https://relational-data.org/dataset/Shakespeare)
2. [Laboratorio 1](https://gitlab.fing.edu.uy/maestria-cdaa/intro-cd/)
3. [Referencia 1](www.google.com)
4. [Towards Data Science Exploratory Data Analisys](https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15)
5. [Data Camp: Exploratory Data Analysis in Python](https://www.datacamp.com/courses/exploratory-data-analysis-in-python)
6. [Wikipedia William Shakespeare](https://en.wikipedia.org/wiki/William_Shakespeare)
7. [Python Wordcloud](https://pypi.org/project/wordcloud/)
8. [Plotly Vertical Lines](https://plotly.com/python/horizontal-vertical-shapes/)
9. [Plotly Colors](https://plotly.com/python/discrete-color/)
10. [Four Periods of Shakespeare's Dramatic and Poetic Career](https://moirabaricollegeonline.co.in/attendence/classnotes/files/1589611082.docx#:~:text=Although%20the%20precise%20date%20of,the%20Fourth%20Period%20from%201608.)