<img src="https://drive.google.com/uc?export=view&id=1e7ctPi8O3bTQoLZaO9ZZjwGr2r8Z93RS" width="100%">

# Taller 3
---

En este taller se evaluarán las habilidades adquiridas en _embeddings_ a partir del conjunto de datos de Kaggle: [Spanish Poetry Dataset](https://www.kaggle.com/datasets/andreamorgar/spanish-poetry-dataset), el cual contiene poemas en español.

En este caso, usted deberá limpiar el conjunto de datos, calcular algunas representaciones, estimar algunas métricas y generar visualizaciones de los datos. Comenzamos importando las librerías necesarias:

In [None]:
#TEST_CELL
!pip install unidecode

In [None]:
import re
from typing import Counter
import spacy
import pandas as pd
import matplotlib.pyplot as plt
from unidecode import unidecode
from IPython.display import display
plt.style.use("ggplot")
spacy.cli.download("es_core_news_sm")

Comenzamos cargando el conjunto de datos:

In [None]:
!wget https://raw.githubusercontent.com/mindlab-unal/mlds4-case-study/refs/heads/main/dataset/poems.csv

In [None]:
#TEST_CELL
df = pd.read_csv("poems.csv")
display(df.head())

Este conjunto de datos contiene dos columnas:

- `author`: autor del poema.
- `content`: poema.
- `title`: titulo del poema.

Este corpus está conformado por `5133` documentos:

In [None]:
#TEST_CELL
display(df.shape[0])

## **1. Preprocesamiento**
---

En esta etapa, deberás preprocesar los documentos siguiendo estos pasos:

1. Convertir en **minúsculas**.
2. Eliminar **acentos**.
3. Eliminar **todos los caracteres que no sean letras minúsculas**.
4. **Eliminar espacios duplicado**s.
5. **Filtrar stopwords** y palabras de tres **(3) o menos letras**.
6. **Eliminar caracteres vacíos** al inicio y final de cada texto.

Puede usar el siguiente _Pipeline_ de `spacy`:

In [None]:
nlp = spacy.load(
        "es_core_news_sm",
        exclude=[
            "tok2vec",
            "morphologizer",
            "parser",
            "senter",
            "attribute_ruler",
            "lemmatizer",
            "ner"
            ]
        )

A continuación, deberás implementar la función `preprocess` ue tomará como entrada un texto crudo y un _Pipeline_ de `spacy` para retornar el texto preprocesado.

**Parámetros**

- `text` *(str)*: texto crudo.
- `nlp`*(spaCy pipeline)*: _Pipeline_ de `spacy`.

**Retorna**

- `preprocess_text` *(str)*: texto preprocesado.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

- Recuerde que puede usar `unidecode` para eliminar acentos.
- Debe construir expresiones regulares con `re` para eliminar caracteres especiales.
- El _Pipeline_ de `spacy` debe usarse exclusivamente para eliminar _stopwords_.
</details>

In [None]:
# FUNCIÓN CALIFICADA preprocess:

def preprocess(text, nlp):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    preprocess_text = ...
    return preprocess_text
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
text = preprocess(df.content.iloc[0], nlp)
display(text)

**Salida esperada**:

En este primer ejemplo debe obtener el primer documento pre-procesado:

```python
❱ display(text)
'parque confuso languidas brisas cielo sahuma cipres huso devana ovillo bruma telar luna tiende plata urdimbre abandona rada lugubre corsario suena timbre vecindario horizonte malva argentina curva frente calva luna inclina vago nacar disemina valva madreperla flor agua marina brillo lobrego frasco adquiere noche enorme penasco quedandose inmensamente forma reloj accesorio tela vida siniestro pespunte flota noche blancor mortuorio benzoica insispidez sanatorio transeunte silueta purgatorio emocion prosaica suena lejos canto lugubre alarde hombre desgraciado arde calor negro jamaica reina espiritu subconsciencie arcaica miedo horizonte abstracto hundese luna lugubre abandono tinieblas palpan tacto helado sombrio mono lunares huellas azar eternidad desdicha orion juega ficha problematico domino estrellas frescor nocturno triunfa amoroso empeno domina frente peso taciturno negro racimo sueno fugaz desvario embargan sonadas visiones vacilan constelaciones sueno formado aroma estio flota ant...'
```

In [None]:
#TEST_CELL
text = preprocess(df.content.iloc[1], nlp)
display(text)

**Salida esperada**:

En este primer ejemplo debe obtener el segundo documento pre-procesado:

```python
❱ display(text)
'velas vendre ladron llegar sepas hora estate alerta vigila accion recibido escuchado memora nombre vivo posees muerto perfectas dios encontrado obras consolidalas morir arrepientes obras estrellas diestra espiritus dios unico arde vestira venciere blancas vestiduras libro vida nombre santa muestra jamas borrar dire alturas vendre ladron vendre ladron improviso oscuras'
```

## **2. Bolsa de palabras**
---
En este apartado, extraerás una representación de **bolsa de palabras** (*Bag of Words*), basada en conteos. Esta representación utilizará únicamente los **2000 tokens más comunes** del corpus.  

Para ello, deberás implementar la función **`bow`**, que recibirá como entrada el corpus preprocesado y devolverá un arreglo de `numpy` con los resultados.

**Parámetros**

- `preprocess_corpus` *(str)*: corpus con los textos preprocesados.

**Retorna**

- `X` *(numpy array)*: Representación de bolsa de palabras basada en conteos.
- `vect` *(sklearn vectorizer)*: Vectorizador de `sklearn` entrenado.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

- Recuerde filtrar los 2000 términos más frecuentes con el parámetro `max_features`.
- Recuerde convertir el resultado a un arreglo de `numpy` con el método `toarray`.
</details>

In [None]:
# FUNCIÓN CALIFICADA bow:
from sklearn.feature_extraction.text import CountVectorizer

def bow(preprocess_corpus):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    vect = ...
    X = ...
    return X, vect
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
preprocess_text = df.content.astype(str).apply(preprocess, nlp=nlp)
X, vect = bow(preprocess_text)
display(X.shape)

**Salida esperada**:

En este caso, debería obtener el tamaño del arreglo:

```python
❱ display(X.shape)
(5133, 2000)
```

In [None]:
#TEST_CELL
display(vect.get_feature_names_out()[:10])

**Salida esperada**:

En este caso debería obtener las primeras 10 palabras del vocabulario:

```python
❱ display(vect.get_feature_names_out()[:10])
array(['abajo', 'abandonado', 'abandono', 'abeja', 'abejas', 'abierta',
       'abiertas', 'abierto', 'abiertos', 'abismo'], dtype=object)
```

In [None]:
#TEST_CELL
print(X.sum())

**Salida esperada**:

En este caso deberá obtener la cantidad total de términos incluidos en la bolsa de palabras:

```python
❱ print(X.sum())
198682

```

## **3. Términos Más Frecuentes**
---

En esta sección, extraerás los **N términos más frecuentes** del conjunto de datos, utilizando la representación de **bolsa de palabras** y el **vectorizador**.  

Para ello, deberás implementar la función **`get_top_n`**, que tomará como entrada la representación de bolsa de palabras, el vectorizador y el número de términos a extraer. Como salida, deberá devolver una lista con los **N términos más frecuentes** en el corpus.  


**Parámetros**

- **`X`** (*numpy array*): Representación de bolsa de palabras.  
- **`vect`** (*sklearn vectorizer*): Vectorizador previamente entrenado.  
- **`n`** (*int*): Número de términos a extraer.

**Retorna**

-  **`words`** (*list of str*): Lista con los **N términos más frecuentes** en el corpus.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

- Puede usar la función `sorted` de `Python` para ordenar términos de acuerdo a una condición.
- Puede convertir los datos a un `pd.Series` y usar métodos como `sort_values`.
</details>

In [None]:
# FUNCIÓN CALIFICADA get_top_n:

def get_top_n(X, vect, n):
    ### ESCRIBA SU CÓDIGO AQUÍ ###

    words = ...
    return words
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
preprocess_text = df.content.astype(str).apply(preprocess, nlp=nlp)
X, vect = bow(preprocess_text)
words = get_top_n(X, vect, 5)
display(words)

**Salida esperada**:

En este caso deberá obtener las 5 palabras más frecuentes del corpus:

```python
❱ display(words)
['amor', 'vida', 'noche', 'ojos', 'tierra']
```

In [None]:
#TEST_CELL
words = get_top_n(X, vect, 10)
display(words)

**Salida esperada**:

En este caso deberá obtener las 10 palabras más frecuentes del corpus:

```python
❱ display(words)
['amor',
 'vida',
 'noche',
 'ojos',
 'tierra',
 'alma',
 'muerte',
 'tiempo',
 'cielo',
 'corazon']
```

## **4. Términos Más Frecuentes de un Autor**
---

En esta sección, filtrarás los $N$ **términos más frecuentes** de un autor específico a partir de la **representación de bolsa de palabras**, el **vectorizador** y una lista con los autores de cada documento.  

Para ello, deberás implementar la función **`get_top_n_author`**, que tomará como entrada la representación de bolsa de palabras, el vectorizador, el número de términos a extraer, una lista con los autores de cada documento y el autor a filtrar. Como salida, deberá devolver una lista con los **N términos más frecuentes** en los textos del autor seleccionado.  


**Parámetros**

- **`X`** (*numpy array*): Representación de bolsa de palabras.  
- **`vect`** (*sklearn vectorizer*): Vectorizador previamente entrenado.  
- **`n`** (*int*): Número de términos a extraer.  
- **`authors`** (*list of str*): Lista con los autores correspondientes a cada documento.  
- **`author_query`** (*str*): Autor sobre el que se debe filtrar.  

**Retorna**

- **`words`** (*list of str*): Lista con los **N términos más frecuentes** en los textos del autor seleccionado.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

- Tenga en cuenta que la lista **`authors`** está alineada con la representación de bolsa de palabras **`X`**, es decir, el autor en la posición `5` (**`authors[5]`**) corresponde a la fila `5` de la representación (**`X[5]`**).  
- Puede usar **indexación basada en máscaras de `numpy`** para seleccionar los documentos correspondientes al autor indicado.  
- Puede reutilizar la función **`get_top_n`**, ya que la tarea es muy similar.  

</details>


In [None]:
# FUNCIÓN CALIFICADA get_top_n_author:

def get_top_n_author(X, vect, n, authors, author_query):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    words = ...
    return words
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
preprocess_text = df.content.astype(str).apply(preprocess, nlp=nlp)
X, vect = bow(preprocess_text)
authors = df.author.to_list()
words = get_top_n_author(X, vect, 10, authors, "Marilina Rébora")
display(words)

**Salida esperada**:

En este caso deberá obtener las 10 palabras más frecuentes del corpus en el año 2019:

```python
❱ display(words)
['dios',
 'amor',
 'alma',
 'senor',
 'madre',
 'vida',
 'quiero',
 'tiempo',
 'mundo',
 'ojos']
```

In [None]:
#TEST_CELL
preprocess_text = df.content.astype(str).apply(preprocess, nlp=nlp)
X, vect = bow(preprocess_text)
authors = df.author.to_list()
words = get_top_n_author(X, vect, 10, authors, "Antonio Colinas")
display(words)

**Salida esperada**:

En este caso deberá obtener las 10 palabras más frecuentes del corpus en el año 2020:

```python
❱ display(words)
['muerte',
 'musica',
 'ojos',
 'vida',
 'amor',
 'bosque',
 'dejadme',
 'nieve',
 'tiempo',
 'gracias']
```

## **5. Nube de Palabras**
---

En esta sección, generarás una **nube de palabras** a partir de una **representación de bolsa de palabras**, utilizando un fondo de color blanco.  

Para ello, deberás implementar la función **`get_wordcloud`**, que tomará como entrada la representación de bolsa de palabras y un vectorizador, y deberá generar un objeto de tipo **`WordCloud`**.  


**Parámetros**

- **`X`** (*numpy array*): Representación de bolsa de palabras.  
- **`vect`** (*sklearn vectorizer*): Vectorizador previamente entrenado.  

**Retorna**

- **`wc`** (*WordCloud*): Objeto de nube de palabras generado a partir de la bolsa de palabras.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

- Recuerde que puede usar el parámetro `background_color` para especificar el color del fondo de la imagen.
- El método `generate_from_frequencies` permite generar la nube de palabras a partir de un diccionario donde las claves son las palabras y los valores son los conteos.
</details>

In [None]:
# FUNCIÓN CALIFICADA get_wordcloud:
from wordcloud import WordCloud

def get_wordcloud(X, vect):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    wc = ...
    return wc
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
preprocess_text = df.content.astype(str).apply(preprocess, nlp=nlp)
X, vect = bow(preprocess_text)
wc = get_wordcloud(X, vect)
fig, ax = plt.subplots()
ax.imshow(wc)
ax.axis("off")

**Salida esperada**:

En este caso deberá obtener una imagen similar a la siguiente

<img src="https://drive.google.com/uc?export=view&id=197H1cdhLwGTba0cBpPwcZ8Wn1qW68dqi" width="50%">


**Nota**: el orden de las palabras puede variar un poco, pero el resultado debería ser equivalente.

## **6. Nube de Palabras Por author**
---
En esta sección, generarás una **nube de palabras** a partir de una **representación de bolsa de palabras**, filtrando los términos correspondientes a un autor específico. La nube de palabras tendrá un fondo de color blanco.  

Para ello, deberás implementar la función **`get_wordcloud_author`**, que tomará como entrada la representación de bolsa de palabras, un vectorizador, una lista de autores y un autor específico. Como salida, deberá generar un objeto de tipo **`WordCloud`**.  

**Parámetros**

- **`X`** (*numpy array*): Representación de bolsa de palabras.  
- **`vect`** (*sklearn vectorizer*): Vectorizador previamente entrenado.  
- **`authors`** (*list of str*): Lista de autores correspondiente a cada documento.  
- **`author_query`** (*str*): Autor sobre el cual se filtrarán los términos.

**Retorna**

- **`wc`** (*WordCloud*): Objeto de nube de palabras generado a partir de los textos del autor seleccionado.  

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

- Puede reutilizar la función `get_wordcloud`, ya que las tareas son bastante similares.
- Debe filtrar las filas de la representación de bolsa de palabras de la misma forma en la que realizó el punto 4.
</details>

In [None]:
# FUNCIÓN CALIFICADA get_wordcloud_author:
from wordcloud import WordCloud

def get_wordcloud_author(X, vect, authors, author_query):
    ### ESCRIBA SU CÓDIGO AQUÍ ###
    wc = ...
    return wc
    ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
preprocess_text = df.content.astype(str).apply(preprocess, nlp=nlp)
X, vect = bow(preprocess_text)
authors = df.author.to_list()
fig, axes = plt.subplots(1, 3, figsize=(15, 7))
unique_authors = ["Leopoldo Lugones", "Antonio Colinas", "Marilina Rébora"]
for i, author in enumerate(unique_authors):
    ax = axes[i]
    wc = get_wordcloud_author(X, vect, authors, author)
    ax.imshow(wc)
    ax.set_title(author)
    ax.axis("off")

**Salida esperada**

La celda anterior debería generar una imagen similar a la siguiente.

<img src="https://drive.google.com/uc?export=view&id=1Hx5g-_Jp6pmf4jYOV9_5-tg9KUMWZtuQ" width="100%">

## Créditos
---

* **Profesor:** [Felipe Restrepo Calle](https://ferestrepoca.github.io/)
* **Asistentes docentes:**
    - [Juan Sebastián Lara Ramírez](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/).
* **Diseño de imágenes:**
    - [Rosa Alejandra Superlano Esquibel](mailto:rsuperlano@unal.edu.co).
* **Coordinador de virtualización:**
    - [Edder Hernández Forero](https://www.linkedin.com/in/edder-hernandez-forero-28aa8b207/).

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*