# Introducción a la Ciencia de Datos: Tarea 1

Este notebook contiene el código de base para realizar la Tarea 1 del curso. Puede copiarlo en su propio repositorio y trabajar sobre el mismo.
Las **instrucciones para ejecutar el notebook** están en la [página inicial del repositorio](https://github.com/DonBraulio/introCD).

Se utiliza el lenguaje Python y la librería Pandas. Si no tiene ninguna familiaridad con la librería, se recomienda realizar algún tutorial introductorio (ver debajo).
También se espera que los alumnos sean proactivos a la hora de consultar las documentaciones de las librerías y del lenguaje, para entender el código provisto.
Además de los recursos provistos en la [página del curso](https://eva.fing.edu.uy/course/view.php?id=1378&section=1), los siguientes recursos le pueden resultar interesantes:
 - [Pandas getting started](https://pandas.pydata.org/docs/getting_started/index.html#getting-started) y [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html): Son parte de la documentación en la página oficial de Pandas.
 - [Kaggle Learn](https://www.kaggle.com/learn): Incluye tutoriales de Python y Pandas.


Si desea utilizar el lenguaje R y está dispuesto a no utilizar (o traducir) este código de base, también puede hacerlo.

En cualquier caso, **se espera que no sea necesario revisar el código para corregir la tarea**, ya que todos los resultados y análisis relevantes deberían estar en el **informe en formato PDF**.

## Cargar bibliotecas (dependencias)
Recuerde instalar los requerimientos (`requirements.txt`) en el mismo entorno donde está ejecutando este notebook (ver [README](https://github.com/DonBraulio/introCD)).

In [14]:
from time import time
from pathlib import Path

import pandas as pd
import matplotlib.pyplot as plt

## Lectura de Datos

In [15]:
# DataFrame con todas las obras:
df_works = pd.read_csv('../data/shakespeare/works.csv')

# Todos los párrafos de todas las obras
df_paragraphs = pd.read_csv('../data/shakespeare/paragraphs.csv')

# TODO: cargar el resto de las tablas

## Exploración de Datos

In [16]:
# Veamos las obras incluídas:
df_works

Unnamed: 0.1,Unnamed: 0,id,Title,LongTitle,Date,GenreType
0,0,1,Twelfth Night,"Twelfth Night, Or What You Will",1599,Comedy
1,1,2,All's Well That Ends Well,All's Well That Ends Well,1602,Comedy
2,2,3,Antony and Cleopatra,Antony and Cleopatra,1606,Tragedy
3,3,4,As You Like It,As You Like It,1599,Comedy
4,4,5,Comedy of Errors,The Comedy of Errors,1589,Comedy
5,5,6,Coriolanus,Coriolanus,1607,Tragedy
6,6,7,Cymbeline,"Cymbeline, King of Britain",1609,History
7,7,8,Hamlet,"Tragedy of Hamlet, Prince of Denmark, The",1600,Tragedy
8,8,9,"Henry IV, Part I","History of Henry IV, Part I",1597,History
9,9,10,"Henry IV, Part II","History of Henry IV, Part II",1597,History


In [17]:
df_paragraphs["PlainText"]

0        [Enter DUKE ORSINO, CURIO, and other Lords; Mu...
1        If music be the food of love, play on;\r\nGive...
2                               Will you go hunt, my lord?
3                                             What, Curio?
4                                                The hart.
                               ...                        
35460    That she is living,\r\nWere it but told you, s...
35461    You gods, look down\r\nAnd from your sacred vi...
35462    There's time enough for that;\r\nLest they des...
35463    O, peace, Paulina!\r\nThou shouldst a husband ...
35464                                             [Exeunt]
Name: PlainText, Length: 35465, dtype: object

## Limpieza de Texto y Conteo de Palabras

In [18]:
def clean_text(df, column_name):
    # Convertir todo a minúsculas
    result = df[column_name].str.lower()

    # Quitar signos de puntuación y cambiarlos por espacios (" ")
    # TODO: completar signos de puntuación faltantes
    for punc in ["[", "\n", ","]:
        result = result.str.replace(punc, " ")
    return result

# Creamos una nueva columna CleanText a partir de PlainText
df_paragraphs["CleanText"] = clean_text(df_paragraphs, "PlainText")

# Veamos la diferencia
df_paragraphs[["PlainText", "CleanText"]]

Unnamed: 0,PlainText,CleanText
0,"[Enter DUKE ORSINO, CURIO, and other Lords; Mu...",enter duke orsino curio and other lords; mu...
1,"If music be the food of love, play on;\r\nGive...",if music be the food of love play on;\r give ...
2,"Will you go hunt, my lord?",will you go hunt my lord?
3,"What, Curio?",what curio?
4,The hart.,the hart.
...,...,...
35460,"That she is living,\r\nWere it but told you, s...",that she is living \r were it but told you sh...
35461,"You gods, look down\r\nAnd from your sacred vi...",you gods look down\r and from your sacred via...
35462,There's time enough for that;\r\nLest they des...,there's time enough for that;\r lest they desi...
35463,"O, peace, Paulina!\r\nThou shouldst a husband ...",o peace paulina!\r thou shouldst a husband t...


In [19]:
# Convierte párrafos en listas "palabra1 palabra2 palabra3" -> ["palabra1", "palabra2", "palabra3"]
df_paragraphs["WordList"] = df_paragraphs["CleanText"].str.split()

# Veamos la nueva columna creada
# Notar que a la derecha tenemos una lista: [palabra1, palabra2, palabra3]
df_paragraphs[["CleanText", "WordList"]]

Unnamed: 0,CleanText,WordList
0,enter duke orsino curio and other lords; mu...,"[enter, duke, orsino, curio, and, other, lords..."
1,if music be the food of love play on;\r give ...,"[if, music, be, the, food, of, love, play, on;..."
2,will you go hunt my lord?,"[will, you, go, hunt, my, lord?]"
3,what curio?,"[what, curio?]"
4,the hart.,"[the, hart.]"
...,...,...
35460,that she is living \r were it but told you sh...,"[that, she, is, living, were, it, but, told, y..."
35461,you gods look down\r and from your sacred via...,"[you, gods, look, down, and, from, your, sacre..."
35462,there's time enough for that;\r lest they desi...,"[there's, time, enough, for, that;, lest, they..."
35463,o peace paulina!\r thou shouldst a husband t...,"[o, peace, paulina!, thou, shouldst, a, husban..."


In [20]:
# Nuevo dataframe: cada fila ya no es un párrafo, sino una sóla palabra
df_words = df_paragraphs.explode("WordList")

# Quitamos estas columnas redundantes
df_words.drop(columns=["CleanText", "PlainText"], inplace=True)

# Renombramos la columna WordList -> word
df_words.rename(columns={"WordList": "word"}, inplace=True)

# Verificar que el número de filas es mucho mayor
df_words

Unnamed: 0.1,Unnamed: 0,id,ParagraphNum,character_id,chapter_id,word
0,0,630863,3,1261,18704,enter
0,0,630863,3,1261,18704,duke
0,0,630863,3,1261,18704,orsino
0,0,630863,3,1261,18704,curio
0,0,630863,3,1261,18704,and
...,...,...,...,...,...,...
35463,35463,666326,3483,667,19648,dissever'd:
35463,35463,666326,3483,667,19648,hastily
35463,35463,666326,3483,667,19648,lead
35463,35463,666326,3483,667,19648,away.


 ## Personajes con mayor cantidad de palabras

In [21]:
# Agregamos el nombre de los personajes
# TODO: des-comentar luego de cargar df_characters
# df_words = pd.merge(df_words, df_characters[["id", "CharName"]], left_on="character_id", right_on="id")

In [22]:
# TODO:
# - des-comentar luego de hacer el merge
# - Encuentra algún problema en los resultados?

# words_per_character = df_words.groupby("CharName")["word"].count().sort_values(ascending=False)
# words_per_character

In [23]:
# Ejemplo: 10 personajes con más palabras
# char_show = words_per_character[:10]
# plt.bar(char_show.index, char_show.values)
# _ = plt.xticks(rotation=90)