# Introducción a la Ciencia de Datos: Tarea 1

Este notebook contiene el código de base para realizar la Tarea 1 del curso. Puede copiarlo en su propio repositorio y trabajar sobre el mismo.
Las **instrucciones para ejecutar el notebook** están en la [página inicial del repositorio](https://github.com/DonBraulio/introCD).

Se utiliza el lenguaje Python y la librería Pandas. Si no tiene ninguna familiaridad con la librería, se recomienda realizar algún tutorial introductorio (ver debajo).
También se espera que los alumnos sean proactivos a la hora de consultar las documentaciones de las librerías y del lenguaje, para entender el código provisto.
Además de los recursos provistos en la [página del curso](https://eva.fing.edu.uy/course/view.php?id=1378&section=1), los siguientes recursos le pueden resultar interesantes:
 - [Pandas getting started](https://pandas.pydata.org/docs/getting_started/index.html#getting-started) y [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html): Son parte de la documentación en la página oficial de Pandas.
 - [Kaggle Learn](https://www.kaggle.com/learn): Incluye tutoriales de Python y Pandas.


Si desea utilizar el lenguaje R y está dispuesto a no utilizar (o traducir) este código de base, también puede hacerlo.

En cualquier caso, **se espera que no sea necesario revisar el código para corregir la tarea**, ya que todos los resultados y análisis relevantes deberían estar en el **informe en formato PDF**.

## Cargar bibliotecas (dependencias)
Recuerde instalar los requerimientos (`requirements.txt`) en el mismo entorno donde está ejecutando este notebook (ver [README](https://github.com/DonBraulio/introCD)).

In [5]:
from time import time
from pathlib import Path

import pandas as pd
import matplotlib.pyplot as plt
from sqlalchemy import create_engine

## Conexión a la Base y Lectura de Datos

La base de datos de Shakespare contiene 4 tablas: *paragraphs*, *chapters*, *characters* y *works*.

![schema_relational_shakespeare.png](attachment:1699b155-93bd-42d7-b19f-129dffdaf65d.png)

In [234]:
# Creamos el directorio Tarea_1/data/shakespeare
data_dir = Path("data") / "shakespeare"
data_dir.mkdir(parents=True, exist_ok=True)


def load_table(table_name, engine):
    """
    Leer la tabla con SQL y guardarla como CSV,
    o cargarla desde el CSV si ya existe
    """
    path_table = data_dir / f"{table_name}.csv"
    if not path_table.exists():
        print(f"Consultando tabla con SQL: {table_name}")
        t0 = time()
        df_table = pd.read_sql(f"SELECT * FROM {table_name}", engine)
        t1 = time()
        print(f"Tiempo: {t1 - t0:.1f} segundos")

        print(f"Guardando: {path_table}\n")
        df_table.to_csv(path_table)
    else:
        print(f"Cargando tabla desde CSV: {path_table}")
        df_table = pd.read_csv(path_table, index_col=[0])
    return df_table


print("Conectando a la base...")
conn_str = "mysql+pymysql://guest:relational@db.relational-data.org:3306/Shakespeare"
engine = create_engine(conn_str)

# DataFrame con todas las obras:
df_works = load_table("works", engine)

# Todos los párrafos de todas las obras
df_paragraphs = load_table("paragraphs", engine)

# TODO: cargar el resto de las tablas
df_chapters = load_table("chapters", engine)
df_characters = load_table("characters", engine)

Conectando a la base...
Cargando tabla desde CSV: data\shakespeare\works.csv
Cargando tabla desde CSV: data\shakespeare\paragraphs.csv
Cargando tabla desde CSV: data\shakespeare\chapters.csv
Cargando tabla desde CSV: data\shakespeare\characters.csv


## Exploración de Datos

### Works

In [32]:
# Veamos las obras incluídas:
df_works.head(10)

Unnamed: 0,id,Title,LongTitle,Date,GenreType
0,1,Twelfth Night,"Twelfth Night, Or What You Will",1599,Comedy
1,2,All's Well That Ends Well,All's Well That Ends Well,1602,Comedy
2,3,Antony and Cleopatra,Antony and Cleopatra,1606,Tragedy
3,4,As You Like It,As You Like It,1599,Comedy
4,5,Comedy of Errors,The Comedy of Errors,1589,Comedy
5,6,Coriolanus,Coriolanus,1607,Tragedy
6,7,Cymbeline,"Cymbeline, King of Britain",1609,History
7,8,Hamlet,"Tragedy of Hamlet, Prince of Denmark, The",1600,Tragedy
8,9,"Henry IV, Part I","History of Henry IV, Part I",1597,History
9,10,"Henry IV, Part II","History of Henry IV, Part II",1597,History


In [33]:
# Cantidad de nulos
df_works.isna().sum()

id           0
Title        0
LongTitle    0
Date         0
GenreType    0
dtype: int64

In [37]:
print("La tabla works no tiene registros nulos.")
print("La dimensión de la tabla es:", df_works.shape)

La tabla works no tiene registros nulos.
La dimensión de la tabla es: (43, 5)


In [49]:
# Tipos distintos de genero
df_works.GenreType.unique()

array(['Comedy', 'Tragedy', 'History', 'Poem', 'Sonnet'], dtype=object)

In [58]:
# Cantidad de obras por genero
df_works.GenreType.value_counts()

GenreType
Comedy     14
History    12
Tragedy    11
Poem        5
Sonnet      1
Name: count, dtype: int64

In [55]:
# Cantidad de fechas
df_works.Date.nunique()

23

In [59]:
# Cantidad de obras por fecha
df_works.Date.value_counts()

Date
1594    4
1599    3
1609    3
1598    3
1593    3
1607    2
1600    2
1597    2
1590    2
1601    2
1596    2
1605    2
1604    2
1595    2
1608    1
1592    1
1611    1
1612    1
1602    1
1591    1
1589    1
1606    1
1610    1
Name: count, dtype: int64

In [57]:
# Cantidad de titulos igual a titulo largo
df_works[df_works.Title == df_works.LongTitle].shape[0]

13

### Chapters

In [41]:
df_chapters.head()

Unnamed: 0,id,Act,Scene,Description,work_id
0,18704,1,1,DUKE ORSINO’s palace.,1
1,18705,1,2,The sea-coast.,1
2,18706,1,3,OLIVIA’S house.,1
3,18707,1,4,DUKE ORSINO’s palace.,1
4,18708,1,5,OLIVIA’S house.,1


In [42]:
# Cantidad de nulos
df_chapters.isna().sum()

id             0
Act            0
Scene          0
Description    0
work_id        0
dtype: int64

In [43]:
print("La tabla chapters no tiene registros nulos.")
print("La dimensión de la tabla es:", df_chapters.shape)

La tabla chapters no tiene registros nulos.
La dimensión de la tabla es: (945, 5)


In [67]:
# Cantidad de obras contempladas
df_chapters.work_id.nunique()

43

In [98]:
# Cantidad de actos y capitulos por obra
chapter_per_work = df_chapters.groupby('work_id').agg({'Act':'max','Description':'count'}).reset_index()
chapter_per_work.rename(columns = {'Act':'Max_Act','Description':'Cant_Chapter'}, inplace = True)
chapter_per_work.head()

Unnamed: 0,work_id,Max_Act,Cant_Chapter
0,1,5,18
1,2,5,23
2,3,5,42
3,4,5,22
4,5,5,11


In [97]:
# Cantidad de actos por valor
chapter_per_work.Max_Act.value_counts()

Max_Act
5    37
1     6
Name: count, dtype: int64

In [95]:
# Obras con solamente 1 acto
df_works[df_works.id.isin(chapter_per_work[chapter_per_work.Max_Act == 1].work_id.unique())]

Unnamed: 0,id,Title,LongTitle,Date,GenreType
18,19,Lover's Complaint,A Lover's Complaint,1609,Poem
27,28,Passionate Pilgrim,The Passionate Pilgrim,1598,Poem
29,30,Phoenix and the Turtle,The Phoenix and the Turtle,1601,Poem
30,31,Rape of Lucrece,The Rape of Lucrece,1594,Poem
34,35,Sonnets,Sonnets,1609,Sonnet
41,42,Venus and Adonis,Venus and Adonis,1593,Poem


In [102]:
# Analisis de descripciones mas repetidas
df_chapters.Description.value_counts().head(5)

Description
---\n                         151
The same.                      25
Another part of the field.     21
---                            18
London. The palace.            15
Name: count, dtype: int64

In [88]:
# Descripciones atipicas
df_chapters[df_chapters.Description.isin(['---','---\n'])].work_id.unique()

array([28, 35], dtype=int64)

In [85]:
# Obras con descripciones atipicas
df_works[df_works.id.isin([28,35])]

Unnamed: 0,id,Title,LongTitle,Date,GenreType
27,28,Passionate Pilgrim,The Passionate Pilgrim,1598,Poem
34,35,Sonnets,Sonnets,1609,Sonnet


In [112]:
# Escenas mas repetidas
print("Existen", df_chapters[df_chapters.Description.isin(['The same.'])].work_id.nunique(), "obras con escenas que se describen como 'The Same', " +\
    "haciendo referencia a la escena que se desarrolla anteriormente.")

Existen 12 obras con escenas que se describen como 'The Same', haciendo referencia a la escena que se desarrolla anteriormente.


In [118]:
# Ejemplo de funcionamiento 1
df_chapters[(df_chapters.Act == 3) & (df_chapters.work_id == 5)]

Unnamed: 0,id,Act,Scene,Description,work_id
109,18813,3,1,Before the house of ANTIPHOLUS of Ephesus.,5
110,18814,3,2,The same.,5


In [236]:
# Ejemplo de funcionamiento 2
df_chapters[(df_chapters.Act == 4) & (df_chapters.work_id == 41)]

Unnamed: 0,id,Act,Scene,Description,work_id
920,19624,4,1,The frontiers of Mantua. A forest.,41
921,19625,4,2,"Milan. Outside the DUKE’s palace, under SILVIA...",41
922,19626,4,3,The same.,41
923,19627,4,4,The same.,41


### Characters

In [239]:
df_characters.head(10)

Unnamed: 0,id,CharName,Abbrev,Description
0,1,First Apparition,First Apparition,
1,2,First Citizen,First Citizen,
2,3,First Conspirator,First Conspirator,
3,4,First Gentleman,First Gentleman,
4,5,First Goth,First Goth,
5,6,First Murderer,First Murderer,
6,7,First Musician,First Musician,
7,8,First Musician,First Musician,
8,9,First Officer,First Officer,
9,10,First Player,1Play,


In [240]:
# Cantidad de nulos
df_characters.isna().sum()

id               0
CharName         0
Abbrev           5
Description    646
dtype: int64

In [262]:
print("La tabla characters contiene", df_characters.Description.isna().sum(), "registros nulos en la columna 'Description'.")
print("La dimensión de la tabla es:", df_characters.shape)

La tabla characters contiene 646 registros nulos en la columna 'Description'.
La dimensión de la tabla es: (1266, 4)


In [244]:
# Cantidad de descripciones distintas
df_characters.Description.nunique()

466

In [254]:
# Cantidad de nombres unicos
df_characters.CharName.nunique()

957

In [255]:
# Personajes mas repetidos
df_characters.CharName.value_counts()

CharName
All                 23
Messenger           23
Servant             21
Lord                 9
Page                 8
                    ..
First Servingman     1
First Stranger       1
First Traveller      1
First Tribune        1
Young Siward         1
Name: count, Length: 957, dtype: int64

In [259]:
print("La base de presonajes tiene",df_characters.shape[0] - df_characters.CharName.nunique(),"personajes repetidos.")
print("Existen",df_characters.CharName.nunique(),"personajes únicos.")

La base de presonajes tiene 309 personajes repetidos.
Existen 957 personajes únicos.


### Paragraphs

In [264]:
df_paragraphs.head(10)

Unnamed: 0,id,ParagraphNum,PlainText,character_id,chapter_id
0,630863,3,"[Enter DUKE ORSINO, CURIO, and other Lords; Mu...",1261,18704
1,630864,4,"If music be the food of love, play on;\nGive m...",840,18704
2,630865,19,"Will you go hunt, my lord?",297,18704
3,630866,20,"What, Curio?",840,18704
4,630867,21,The hart.,297,18704
5,630868,22,"Why, so I do, the noblest that I have:\nO, whe...",840,18704
6,630869,30,"So please my lord, I might not be admitted;\nB...",1221,18704
7,630870,39,"O, she that hath a heart of that fine frame\nT...",840,18704
8,630871,48,[Exeunt],1261,18704
9,630872,50,"[Enter VIOLA, a Captain, and Sailors]",1261,18705


In [39]:
# Cantidad de nulos
df_paragraphs.isna().sum()

id              0
ParagraphNum    0
PlainText       0
character_id    0
chapter_id      0
dtype: int64

In [40]:
print("La tabla paragraphs no tiene registros nulos.")
print("La dimensión de la tabla es:", df_paragraphs.shape)

La tabla paragraphs no tiene registros nulos.
La dimensión de la tabla es: (35465, 5)


In [237]:
# Cantidad de capitulos contemplados
df_paragraphs.chapter_id.nunique()

945

In [266]:
# Cantidad de personajes contemplados
df_paragraphs.character_id.nunique()

1220

In [238]:
# Personajes con mayor cantidad de parrafos
df_paragraphs.character_id.value_counts()

character_id
1261    3751
894      733
393      471
573      377
559      358
        ... 
264        1
32         1
41         1
138        1
555        1
Name: count, Length: 1220, dtype: int64

## Limpieza de Texto y Conteo de Palabras

In [5]:
def clean_text(df, column_name):
    # Convertir todo a minúsculas
    result = df[column_name].str.lower()

    # Quitar signos de puntuación y cambiarlos por espacios (" ")
    # TODO: completar signos de puntuación faltantes
    for punc in ["[", "\n", ","]:
        result = result.str.replace(punc, " ")
    return result

# Creamos una nueva columna CleanText a partir de PlainText
df_paragraphs["CleanText"] = clean_text(df_paragraphs, "PlainText")

# Veamos la diferencia
df_paragraphs[["PlainText", "CleanText"]]

Unnamed: 0,PlainText,CleanText
0,"[Enter DUKE ORSINO, CURIO, and other Lords; Mu...",enter duke orsino curio and other lords; mu...
1,"If music be the food of love, play on;\nGive m...",if music be the food of love play on; give me...
2,"Will you go hunt, my lord?",will you go hunt my lord?
3,"What, Curio?",what curio?
4,The hart.,the hart.
...,...,...
35460,"That she is living,\nWere it but told you, sho...",that she is living were it but told you shou...
35461,"You gods, look down\nAnd from your sacred vial...",you gods look down and from your sacred vials...
35462,There's time enough for that;\nLest they desir...,there's time enough for that; lest they desire...
35463,"O, peace, Paulina!\nThou shouldst a husband ta...",o peace paulina! thou shouldst a husband tak...


In [6]:
# Convierte párrafos en listas "palabra1 palabra2 palabra3" -> ["palabra1", "palabra2", "palabra3"]
df_paragraphs["WordList"] = df_paragraphs["CleanText"].str.split()

# Veamos la nueva columna creada
# Notar que a la derecha tenemos una lista: [palabra1, palabra2, palabra3]
df_paragraphs[["CleanText", "WordList"]]

Unnamed: 0,CleanText,WordList
0,enter duke orsino curio and other lords; mu...,"[enter, duke, orsino, curio, and, other, lords..."
1,if music be the food of love play on; give me...,"[if, music, be, the, food, of, love, play, on;..."
2,will you go hunt my lord?,"[will, you, go, hunt, my, lord?]"
3,what curio?,"[what, curio?]"
4,the hart.,"[the, hart.]"
...,...,...
35460,that she is living were it but told you shou...,"[that, she, is, living, were, it, but, told, y..."
35461,you gods look down and from your sacred vials...,"[you, gods, look, down, and, from, your, sacre..."
35462,there's time enough for that; lest they desire...,"[there's, time, enough, for, that;, lest, they..."
35463,o peace paulina! thou shouldst a husband tak...,"[o, peace, paulina!, thou, shouldst, a, husban..."


In [7]:
# Nuevo dataframe: cada fila ya no es un párrafo, sino una sóla palabra
df_words = df_paragraphs.explode("WordList")

# Quitamos estas columnas redundantes
df_words.drop(columns=["CleanText", "PlainText"], inplace=True)

# Renombramos la columna WordList -> word
df_words.rename(columns={"WordList": "word"}, inplace=True)

# Verificar que el número de filas es mucho mayor
df_words

Unnamed: 0,id,ParagraphNum,character_id,chapter_id,word
0,630863,3,1261,18704,enter
0,630863,3,1261,18704,duke
0,630863,3,1261,18704,orsino
0,630863,3,1261,18704,curio
0,630863,3,1261,18704,and
...,...,...,...,...,...
35463,666326,3483,667,19648,dissever'd:
35463,666326,3483,667,19648,hastily
35463,666326,3483,667,19648,lead
35463,666326,3483,667,19648,away.


 ## Personajes con mayor cantidad de palabras

In [None]:
# Agregamos el nombre de los personajes
# TODO: des-comentar luego de cargar df_characters
# df_words = pd.merge(df_words, df_characters[["id", "CharName"]], left_on="character_id", right_on="id")

In [None]:
# TODO:
# - des-comentar luego de hacer el merge
# - Encuentra algún problema en los resultados?

# words_per_character = df_words.groupby("CharName")["word"].count().sort_values(ascending=False)
# words_per_character

In [None]:
# Ejemplo: 10 personajes con más palabras
# char_show = words_per_character[:10]
# plt.bar(char_show.index, char_show.values)
# _ = plt.xticks(rotation=90)