# Introducción a la Ciencia de Datos: Laboratorio 1

TODO: Una amazing introduccion sobre la tarea

[2]. Link de referenci del obligatorio docentes.

[3]. Link a nuestro repo.

## Índice
<a name="index"></a>

1. [Imports & Utils](#imports)
2. [Adquisición de Datos](#data-adquisition)
3. [Entendimiento de los Datos](#data-understanding)
    1. [Dominio del Problema](#domain)
    2. [EDA: Análisis Exploratorio de Datos](#eda)
4. [Procesamiento de los Datos](#data-processing)
5. [Análisis de Datos](#data-analysis)
6. [Conclusiones](#conclusions)
7. [Referencias](#references)

## 1. Imports & Utils <a name="imports"></a>
<a name="index">Volver al Inicio</a>

Esta sección contiene todos los imports de dependencias y librerias utilizadas por este proyecto. También contiene la definición de funciones auxiliares utilzadas para obtener los datos y procesarlos. Por último, recuerde instalar los requerimientos (`requirements.txt`) en el mismo entorno donde está ejecutando este notebook y de esa forma evitar errores de import de dependencias (ver [README](README.md)).

In [None]:
from time import time
from pathlib import Path
import numpy as np
from typing import Tuple

import pandas as pd
import matplotlib.pyplot as plt
from sqlalchemy import create_engine

import os

A continuación definimos algunos parámetros globales del notebook como rutas por defecto y configuraciones similares (para centraliar la configuración de experimentos).

In [None]:
# Globals definitions

DATA_FOLDER = os.path.join(
    "data", "shakespeare"
)  # Path en donde se almacenan los datos de laboratorio 1 en formato
DATA_SOURCE = "local"  # valid values: local | web
SHAKESPEARE_DB_CONN = (
    "mysql+pymysql://guest:relational@db.relational-data.org:3306/Shakespeare"
)

DEFAULT_TOP_ROWS_DISPLAY = 10  # Por default cuantas row mostrar con TOP

Las siguientes funciones fueron definidas por el equipo docente y provistas como parte de los recursos del Laboratorio 1.

In [None]:
# Definidas por el equipo docente


def load_table(data_dir, table_name, engine):
    """
    Leer la tabla con SQL y guardarla como CSV,
    o cargarla desde el CSV si ya existe
    """
    path_table = data_dir / f"{table_name}.csv"
    if not path_table.exists():
        print(f"Consultando tabla con SQL: {table_name}")
        t0 = time()
        with engine.connect() as conn:
            df_table = pd.read_sql(
                sql=f"SELECT * FROM {table_name}", con=conn.connection
            )
        # df_table = pd.read_sql(f"SELECT * FROM {table_name}", engine)
        t1 = time()
        print(f"Tiempo: {t1 - t0:.1f} segundos")

        print(f"Guardando: {path_table}\n")
        df_table.to_csv(path_table)
    else:
        print(f"Cargando tabla desde CSV: {path_table}")
        df_table = pd.read_csv(path_table, index_col=[0])
    return df_table


def clean_text(df, column_name):
    # Convertir todo a minúsculas
    result = df[column_name].str.lower()

    # Quitar signos de puntuación y cambiarlos por espacios (" ")
    # TODO: completar signos de puntuación faltantes
    for punc in ["[", "\n", ",", ":", ";", ".", "]", "(", ")", "?", "!"]:
        result = result.str.replace(punc, " ")
    return result

Las siguientes funciones auxiliares fueron definidas por nosotros para facilitar el análisis de datos de este laboratorio.

In [None]:
# Definidas por nosotros


def read_from_csv(path: str) -> pd.DataFrame:
    """Método para leer datos desde un archivo CSV local.

    Args:
        path (str): Ruta al archivo CSV

    Returns:
        pd.DataFrame: Dataframe con datos.
    """
    return pd.read_csv(path, sep=",", index_col=0)


def count_empty_values(df: pd.DataFrame) -> pd.Series:
    """Cuenta valores vacíos.

    Esta función cuenta valores vaciós en un dataframe en función del tipo de columna (object, int)
    utilizando ciertas convenciones para valores vaciós como que un np.nan y -1 ambos pueden ser valores
    válidos para representar un valor faltante o vacío en una columna nunérica.
    Args:
        df (pd.DataFrame): input dataframe

    Returns:
        pd.Series: conteo de vacíos
    """

    def is_empty(column):
        if column.dtype == object:  # Assuming object dtype for strings
            return column.isin([None, "", np.nan])
        elif column.dtype == int:
            return column.isin([None, np.nan, -1])

    empty_counts = df.apply(is_empty).sum()
    return empty_counts

## 2. Adquisición de los Datos  <a name="data-adquisition"></a>
<a name="index">Volver al Inicio</a>

Las siguientes celdas se encarga de obtener los datos del Laboratorio 1 y cargarlos en dataframes de pandas para facilitar su análisis.

In [None]:
def download_data() -> Tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame, pd.DataFrame]:
    """Descarga de datos.

    Este método se encarga de descargar los datos desde el repositorio público de Shakespeare por primera vez,
    guardando los datos de cada tabla en un archivo CSV separado.

    Returns:
        Tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame, pd.DataFrame]: Dataframes con los datos de las tablas.
    """

    # Creamos el directorio DATA_FOLDER donde se guardarán los CSV
    data_dir = Path(DATA_FOLDER)
    data_dir.mkdir(parents=True, exist_ok=True)

    print(f"Conectando a la base usando url={SHAKESPEARE_DB_CONN}...")
    engine = create_engine(SHAKESPEARE_DB_CONN)

    # DataFrame con todas las obras:
    df_works = load_table("works", engine)

    # Todos los párrafos de todas las obras
    df_paragraphs = load_table("paragraphs", engine)

    # TODO: cargar el resto de las tablas
    # Completamos el código originalmente provisto por los docentes.

    # DataFrame con los chapters
    df_chapters = load_table("chapters", engine)

    # DataFrame con los chapters
    df_characters = load_table("characters", engine)

    return df_works, df_paragraphs, df_chapters, df_characters


def read_local_data() -> Tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame, pd.DataFrame]:
    """Lectura de datos.

    Este método se encarga de leer/cargar los datos previamente descargados desde el repositorio público de Shakespeare y guardados localmente. Es útil para experimentos posteriores a la primera vez que se ejecutó este notebook, evitando tener que descargar los datos cada vez que lo ejecutamos.

    Returns:
        Tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame, pd.DataFrame]: Dataframes con los datos de las tablas.
    """
    data_dir = Path(DATA_FOLDER)

    # DataFrame con todas las obras:
    df_works = read_from_csv(os.path.join(data_dir, "works.csv"))

    # Todos los párrafos de todas las obras
    df_paragraphs = read_from_csv(os.path.join(data_dir, "paragraphs.csv"))

    # DataFrame con los chapters
    df_chapters = read_from_csv(os.path.join(data_dir, "chapters.csv"))

    # DataFrame con los chapters
    df_characters = read_from_csv(os.path.join(data_dir, "characters.csv"))

    return df_works, df_paragraphs, df_chapters, df_characters

En la siguiente celda cargamos los datos de las tablas: Works, Paragraphs, Chapters y Characters. Más adelante en la siguiente sección entramos en detalles sobre que son los datos de cada una de estas tablas. 

Por otro lado, los datos se encuentran disponibles en la web en [1] y es posible descargarlos mediante el método provisto por los docentes ```load_table()``` y la librería [SQLAlchemy](https://www.sqlalchemy.org/). Para simplificar este proceso implementamos el método ```download_data()``` que se encarga de articular la descarga utilizando las herramientas mencionadas anteriormente. No obstante, no tiene sentido descargarse desde la web los datos, cada veze que se ejecuta este notebook. Por tal razón los datos se guardan localmente en archivos ```.csv``` en el directorio definido por ```DATA_FOLDER```. Aprovechando eso hemos implementado el método ```read_local_data()``` que articula la lectura de los datos desde archivos ```csv``` en dicho directorio.

En la siguiente celda, se cargan los datos en los dataframes de nombre ```df_works, df_paragraphs, df_chapters, df_characters``` utilizando o bien le método ```download_data()``` o ```read_local_data()```, en función de que se encuentre configuradoo en ```DATA_SOURCE```:

* DATA_SOURCE='web' -> Utiliza ```download_data()``` para descargar los datos.
* DATA_SOURCE='local' -> Utiliza ```read_local_data()``` para leer los datos localmente.

In [None]:
# En función de DATA_SOURCE trae los datos de un origien diferente.
print("Cargando los datos...")

if DATA_SOURCE == "web":
    df_works, df_paragraphs, df_chapters, df_characters = download_data()
elif DATA_SOURCE == "local":
    df_works, df_paragraphs, df_chapters, df_characters = read_local_data()
else:
    raise Exception(
        "Debe especificar un tipo de source válido para los datos: 'web' | 'local'."
    )

print(f"Works: {df_works.shape}")
print(f"Paragraphs: {df_paragraphs.shape}")
print(f"Chapters: {df_chapters.shape}")
print(f"Characters: {df_characters.shape}")
print("Datos cargados exitosamente!")

## 3. Entendimiento de los Datos <a name="data-understanding"></a>
<a name="index">Volver al Inicio</a>

### 3.1. Dominio del Problema  <a name="domain"></a>


Más información acerca de las tablas disponibles en la base de datos [aquí](https://relational-data.org/dataset/Shakespeare). 

![img](assets/image_01.png)

### 3.2. EDA: Análisis Exploratorio de Datos  <a name="eda"></a>

Existen muchas técnicas para llevar adelante un análisis exploratorio de datos, algunas dentro de la intuición y otras de una naturaleza más estadísitca. En este trabajo, nos vamos a limitar a ejecutar algunos análisis básicos e intuitivos para principalmente ganar mayor conocimiento sobre los datos analizados y validar algunas hipótesis sobre la calidad de los datos y a su vez nos vamos a apoyar en la libreria [ydata-profiling](https://docs.profiling.ydata.ai/latest/) para realizar automáticamente un análisis más estadístico completo sobre los datos. 

Para profundizar sobre los objetivos de un análisis exploratorio de datos (EDA) y herramientas disponibles recomendamos la lectura de [4] y [5].

**Sobre el Análisis**:

Para cada tablas/datarame vamos a conducir principalmente los mismos análisis:

1. Vistaso rápido de los datos
2. Revisión de Tipos
3. Caracterísitcas Macro
4. Conteo de missing-values
5. Conteo de duplicados
6. Revisión de valores inválidos

#### 3.2.1. Works

Hechemos un vistaso rápido a los datos observando las primeras N filas. Para eso usamos la función [head()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html) de pandas. Recordemos que las obras las tenemos cargadas en ```df_works```.

In [None]:
# Muestra TOP DEFAULT_TOP_ROWS_DISPLAY filas del dataframe
df_works.head(DEFAULT_TOP_ROWS_DISPLAY)

Veamos que tipos infirió automáticamente pandas para cada columna, para asegurarnos que son los correctos y revisar si tenemos que hacer algún tipo de procesamiento previo. Para esto accedemos a la propiedad [.dypes](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dtypes.html) del dataframe.

In [None]:
# Listado de tipos para las columnas
df_works.dtypes

También podemos inferir propiedades interesantes del dataframe como los valores mínimo/maximo/avg de cada columna utilizando la función [describe()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html) de pandas. Notar que estos valores existen solamente para columnas numéricas y no siempre es relevante su uso. En este caso por ejemplo, nos permite entender más sobre el período en el que se encuentran las obras de Shakespeare analizadas el cual va desde el año 1589 hasta el año 1612. Por otro lado la media de las obras se encuentra hacia el año 1599.

Por otro lado, podemos observar que estamos analizando 43 obras. Por último, de acuerdo con Wikipedia [6], Shakespeare nació en el año 1564 y murió en el año 1616 y todos los valores de ```Date``` para works se encuentran dentro de dicho rango. Es un buen indicio de la calidad de los datos en esta columna.

In [None]:
# Valores descriptivos de cada columna
df_works.describe()

Para hacer más sencillo el conteo de valores faltantes implementamos el método ```count_empty_values()``` que recibe como parámetro un dataframe y revisa todas las columnas del mismo, contando valores faltantes (missing values). Como sabemos, un valor faltante puede ser tanto un valor ```None``` como un ```0```, ```-1```, ```NaN```, ```''``` (string vacío). Depende del tipo de la columna y el problema principalmente. 

In [None]:
# Conteo de missing values por columna
empty_values = count_empty_values(df=df_works)
empty_values

Otro problema de calidad puede ser la existencia de valores repetídos, en cuyo caso aveces nos fuerza a tener que eliminarlos previo a realizar un análisis. Para esto vamos a utilizar la función [duplicated()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html) de pandas. Notar que en algunas columnas no solo tenemos valores repetidos sino que tiene mucho sentído y además nos va a dar información relevante sobre la obra de Shakespeare.

In [None]:
# Revisamos ocurrencias duplicadas en cada columna del dataframe
duplicate_counts = {col: df_works[col].duplicated().sum() for col in df_works.columns}
duplicate_counts

In [None]:
# Veamos cuales son los géneros que comprenden a la obra de Shakespeare
genres = df_works["GenreType"].unique().tolist()
print(
    f"La obra de Shakespeare se concentra en {len(genres)} géneros: {
        ', '.join(genres)}"
)

No parece haber datos duplicados que requieran de un pre-procesamiento:

* ✅ No hay repetidos en columna ```id```
* ✅ No hay repetidos en columna ```Title```
* ✅ No hay repetidos en columna ```LongTitle```

Además:

* Hay varios años en los que Shakespeare publicó más de una obra (más adelante analizaremos esto en detalle)
* Hay repetición en los géneros lo cual tiene mucho sentido ya que son un grupo de apenas **5** géneros: _Comedy, Tragedy, History, Poem, Sonnet_


In [None]:
# Valores inválidos
# NO TIENE

#### 3.2.2. Chapters

Repitamos el mismo procedimiento ahora utilizando el dataframe ```df_chapters``` que contiene los datos de capítulos de las obras.

In [None]:
# Muestra TOP DEFAULT_TOP_ROWS_DISPLAY filas del dataframe
df_chapters.head(DEFAULT_TOP_ROWS_DISPLAY)

In [None]:
# Listado de tipos para las columnas
df_chapters.dtypes

In [None]:
# Valores descriptivos de cada columna
df_chapters.describe()

In [None]:
# Conteo de missing values
empty_values = count_empty_values(df=df_chapters)
empty_values

In [None]:
# Revisamos ocurrencias duplicadas en cada columna del dataframe
duplicate_counts = {
    col: df_chapters[col].duplicated().sum() for col in df_chapters.columns
}
duplicate_counts

En este caso, nos interesa además revisar que no existen duplicados en la combinación ```<work_id, Act, Scene, Description>``` que identifica semánticamente a una escena (notar que cada fila está identificada por la columna ```id```).

In [None]:
duplicate_counts = df_chapters.duplicated(
    subset=["work_id", "Act", "Scene", "Description"]
).sum()
print(f"Duplicados: {duplicate_counts}")

In [None]:
# Asegurarse que todo chapter pertenece a un work válido
df_merge = pd.merge(df_chapters, df_works,
                    left_on="work_id", right_on="id", how="left")
no_match_count = df_merge["id_y"].isna().sum()
print(f"Chapters sin Work: {no_match_count}")

A priori no hay datos duplicados en capítulos en base a la ausencia de duplicados en la columna ```id``` asi como también en la ausencia de duplicados en las tuplas ```<work_id, Act, Scene, Description>```. 

* ✅ No hay repetidos en columna ```id```
* ✅ No hay repetidos en columna ```Title```
* ✅ No hay repetidos en columna ```LongTitle```

Por otro lado: 
* ✅ Todos los capítulos referencian a una obra (work) válida en ```df_works```.

#### 3.2.3. Paragraphs

Repitamos el mismo procedimiento ahora utilizando el dataframe ```df_paragraphs``` que contiene los datos de párrafos de las obras.

In [None]:
# Muestra TOP DEFAULT_TOP_ROWS_DISPLAY filas del dataframe
df_paragraphs.head(DEFAULT_TOP_ROWS_DISPLAY)

In [None]:
# Listado de tipos para las columnas
df_paragraphs.dtypes

In [None]:
# Valores descriptivos de cada columna
df_paragraphs.describe()

In [None]:
# Conteo de missing values
empty_values = count_empty_values(df=df_paragraphs)
empty_values

In [None]:
# Revisamos ocurrencias duplicadas en cada columna del dataframe
duplicate_counts = {
    col: df_paragraphs[col].duplicated().sum() for col in df_paragraphs.columns
}
duplicate_counts

In [None]:
duplicate_counts = df_paragraphs.duplicated(
    subset=["ParagraphNum", "PlainText", "character_id", "chapter_id"]
).sum()
print(f"Duplicados: {duplicate_counts}")

In [None]:
# Asegurarse que todo paragraph pertenece a un chapter válido
df_merge = pd.merge(
    df_paragraphs, df_chapters, left_on="chapter_id", right_on="id", how="left"
)
no_match_count = df_merge["id_y"].isna().sum()
print(f"Párrafo con Chapter inexistente: {no_match_count}")

In [None]:
# Asegurarse que todo paragraph referencia a un character válido
df_merge = pd.merge(
    df_paragraphs, df_characters, left_on="character_id", right_on="id", how="left"
)
no_match_count = df_merge["id_y"].isna().sum()
print(f"Párrafo con Character inexistente: {no_match_count}")

#### 3.2.4. Characters

Finalmente, repitamos el mismo procedimiento ahora utilizando el dataframe ```df_characters``` que contiene los datos de personajes de las obras.

In [None]:
# Muestra TOP DEFAULT_TOP_ROWS_DISPLAY filas del dataframe
df_characters.head(DEFAULT_TOP_ROWS_DISPLAY)

In [None]:
# Listado de tipos para las columnas
df_characters.dtypes

In [None]:
# Valores descriptivos de cada columna
df_characters.describe()

In [None]:
# Conteo de missing values
empty_values = count_empty_values(df=df_characters)
empty_values

In [None]:
# Revisamos ocurrencias duplicadas en cada columna del dataframe
duplicate_counts = {
    col: df_characters[col].duplicated().sum() for col in df_characters.columns
}
duplicate_counts

In [None]:
duplicate_counts = df_characters.duplicated(
    subset=["CharName", "Abbrev"]).sum()
print(f"Duplicados: {duplicate_counts}")

In [None]:
df_characters["count_duplicated"] = df_characters.groupby(["CharName"])[
    "CharName"
].transform("size")
df_duplicated = df_characters.drop_duplicates(subset=["CharName", "Abbrev"])
df_duplicated = df_duplicated.sort_values(
    by="count_duplicated", ascending=False)
df_duplicated.head(20)

## 4. Procesamiento de los Datos <a name="data-processing"></a>
<a name="index">Volver al Inicio</a>

In [None]:
# Creamos una nueva columna CleanText a partir de PlainText
df_paragraphs["CleanText"] = clean_text(df_paragraphs, "PlainText")

# Veamos la diferencia
df_paragraphs[["PlainText", "CleanText"]]

In [None]:
# Convierte párrafos en listas "palabra1 palabra2 palabra3" -> ["palabra1", "palabra2", "palabra3"]
df_paragraphs["WordList"] = df_paragraphs["CleanText"].str.split()

# Nuevo dataframe: cada fila ya no es un párrafo, sino una sóla palabra
df_words = df_paragraphs.explode("WordList")

# Quitamos estas columnas redundantes
df_words.drop(columns=["CleanText", "PlainText"], inplace=True)

# Renombramos la columna WordList -> word
df_words.rename(columns={"WordList": "word"}, inplace=True)

# Verificar que el número de filas es mucho mayor
df_words

## 5. Análisis de los Datos <a name="data-analysis"></a>
<a name="index">Volver al Inicio</a>

### 5.1. Obras de Shakespeare a través de los años

### 5.2. Conteo de palabras frecuentes

In [None]:
df_words = df_paragraphs.explode("WordList")
df_words["WordList"].values

In [None]:
import spacy
import tqdm

# Load spacy model
nlp = spacy.load("en_core_web_sm", disable=["ner", "tagger", "parser", "textcat"])

# New stop words list
customize_stop_words = ["attach"]

# Mark them as stop words
for w in customize_stop_words:
    nlp.vocab[w].is_stop = True


def chunks(lst, n):
    """Yield successive n-sized chunks from lst."""
    for i in range(0, len(lst), n):
        yield lst[i : i + n]


words = df_words["WordList"].values
clean_words = []
for words_batch in tqdm.tqdm(chunks(words, 1000)):
    text = " ".join(words_batch)
    clean_words += [token.lemma_ for token in nlp(text)]

print(clean_words[:10])

In [None]:
from os import path
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import os

from wordcloud import WordCloud, STOPWORDS

# get data directory (using getcwd() is needed to support running example in generated IPython notebook)
d = path.dirname(__file__) if "__file__" in locals() else os.getcwd()

# read the mask image
# taken from
# http://www.stencilry.org/stencils/movies/alice%20in%20wonderland/255fk.jpg
alice_mask = np.array(Image.open(path.join("data", "shakespeare.png")))


words = " ".join(clean_words)

wc = WordCloud(
    background_color="white",
    max_words=2000,
    mask=alice_mask,
    contour_width=3,
    contour_color="steelblue",
)

# generate word cloud
wc.generate(words)

# store to file
wc.to_file(path.join("data", "wordcloud.png"))

# show
plt.imshow(wc, interpolation="bilinear")
plt.axis("off")
plt.figure()
# plt.imshow(alice_mask, cmap=plt.cm.gray, interpolation='bilinear')
# plt.axis("off")
# plt.show()

### 5.3. Personajes con más cantidad de palabras

In [None]:
# Agregamos el nombre de los personajes
# TODO: des-comentar luego de cargar df_characters
df_words = pd.merge(
    df_words, df_characters[["id", "CharName"]], left_on="character_id", right_on="id"
)
df_words

In [None]:
# TODO:
# - des-comentar luego de hacer el merge
# - Encuentra algún problema en los resultados?

words_per_character = (
    df_words.groupby("CharName_x")["word"].count().sort_values(ascending=False)
)
words_per_character

In [None]:
# Ejemplo: 10 personajes con más palabras
char_show = words_per_character[:10]
plt.bar(char_show.index, char_show.values)
_ = plt.xticks(rotation=90)

### 5.4. Preguntas Adicionales sobre los Datos

TODO

## 6. Conclusiones <a name="conclusions"></a>
<a name="index">Volver al Inicio</a>

## 7. Referencias <a name="references"></a>
<a name="index">Volver al Inicio</a>

1. [Base de Datos Shakespeare](https://relational-data.org/dataset/Shakespeare)
2. [Referencia 1](www.google.com)
3. [Referencia 1](www.google.com)
4. [Towards Data Science Exploratory Data Analisys](https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15)
5. [Data Camp: Exploratory Data Analysis in Python](https://www.datacamp.com/courses/exploratory-data-analysis-in-python)
6. [Wikipedia William Shakespeare](https://en.wikipedia.org/wiki/William_Shakespeare)
7. [Stylecloud](https://github.com/minimaxir/stylecloud)