<a href="https://colab.research.google.com/github/isegura/OCW-UC3M-NLPDeep-2023/blob/main/tema5_3_operaciones.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center>
<img src="https://upload.wikimedia.org/wikipedia/commons/4/47/Acronimo_y_nombre_uc3m.png" width=50%/>

<h1><font color='#12007a'>Procesamiento de Lenguaje Natural con Aprendizaje Profundo</font></h1>
<p>Autora: Isabel Segura Bedmar</p>

<img align='right' src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.png" width=15%/>
</center>   

# 5.3. Cómo cargar un dataset en un objeto Dataset (Hugging Face)

En el ejercicio anterior aprendimos a cargar un dataset, tanto desde Hugging Face (https://huggingface.co/datasets) como desde nuestra unidad de google drive, usando la librería **datasets**.

En este ejercicio, practicaremos con algunos métodos útiles para trabajar con los objetos DatasetDict o Dataset, tales como **filter**, **map**, **sort**, **select** y **shuffle**.


Como en el ejercicio anterior, vamos a continuar trabajando con el dataset proporcionado por Kaggle para la tarea de detección de sacarmo. Puedes encontrarlo en el siguiente enlace:

https://www.kaggle.com/datasets/rmisra/news-headlines-dataset-for-sarcasm-detection

El dataset está formado por títulos de noticias de periódicos online, y cada uno de estos títulos ha sido clasificado con 1, si el título usa el sarcasmo, y 0, si el título no usa el sarcasmo.


Descarga los tres ficheros del dataset y guardalos en tu carpeta 'Colab Notebooks/data/sarcasm/' de tu unidad de google drive.


**NOTA PARA PODER EJECUTAR ESTE NOTEBOOK**:

1) Para poder ejercutar correctamente este notebook, deberás abrirlo en tu Google Drive (por ejemplo, en la carpeta 'Colab Notebooks').

2) Además, debes guardar el dataset en tu Google Drive, dentro de carpeta 'Colab Notebooks/data/sarcasm/'.

## Montar unidad de google drive y cambiar directorio de trabajo

Como ya hemos hecho en otros ejercicioss, lo primero que tenemos que hacer es montar nuestra unidad de google drive y modificar el directorio de trabajo actual para que sea el directorio donde está almacenado el dataset:



In [1]:
from google.colab import drive
drive.mount('/content/drive')

import os
os.chdir('/content/drive/My Drive/Colab Notebooks/data/sarcasm/')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


En la siguiente celda, comprobamos que en efecto la carpeta contiene los tres ficheros que hemos descargado de Kaggle:

In [2]:
!ls

test.csv  train.csv  val.csv


## Instalación de la librería datasets

In [3]:
!pip install -q datasets

## Cargar el dataset desde local

Ahora ya sí estamos preparados para cargar el dataset. Para ello simplemente, como primer argumento de la función **load_dataset**, debemos pasar la cadena **'csv'**. De esta forma, estamos indicando que vamos a cargar el dataset desde local y en formato csv. Como segundo argumento, vamos a pasarle un diccionario **data_files**, cuyas claves son los nombres de los splits que vamos a crear (en nuestro caso son tres: train, validation y test), y asociado a cada clave, la ruta al fichero que contiene las instancias de dicho split. Como en la primera celda ya modificamos el directorio de trabajo actual a la carpeta que almacena los tres ficheros, bastará con indicar el nombre de cada fichero (es decir, su ruta relativa).

In [4]:
from datasets import load_dataset

data_files = {"train": "train.csv",
              "validation": "val.csv",
              "test": "test.csv"}

dict_sarcasm= load_dataset("csv", data_files=data_files)
dict_sarcasm

DatasetDict({
    train: Dataset({
        features: ['Unnamed: 0', 'headline', 'is_sarcastic'],
        num_rows: 19952
    })
    validation: Dataset({
        features: ['Unnamed: 0', 'headline', 'is_sarcastic'],
        num_rows: 2850
    })
    test: Dataset({
        features: ['Unnamed: 0', 'headline', 'is_sarcastic'],
        num_rows: 5701
    })
})

Como resultado podemos ver que se ha creado un objeto **DatasetDict** que es un diccionario con tres claves, una para cada split: train, validation y test.
Podemos ver que el número de filas (**num_rows**), que son el número de instancias de cada split, es distinto para cada uno de ellos, siendo el más grande el de train (con 19.952 instancias) y el más pequeño el de validación, sólo con 2.850.

Además, también podemos ver que cada instancia está formada por tres campos (features):
- 'Unnamed: 0': es una especie de identificador, pero es un campo que realmente no va a ser utilizado.
- 'headline': texto del titular
- 'is_sarcastic': 0, si el titular no es sarcástico, 1 en otro caso.



## Métodos útiles para trabajar con objetos DatasetDict y Dataset



### remove_columns
Muchas veces los datasets contiene campos que realmente no vamos a utilizar.

 Por ejemplo, en nuestro dataset, el primero de sus campos, 'Unnamed: 0', posiblemente sea el identificador del texto en una base de datos.

In [5]:
print(dict_sarcasm['train']['Unnamed: 0'])

[23789, 15323, 18908, 21878, 15129, 23734, 18024, 447, 4987, 7381, 12102, 17243, 11275, 26605, 25522, 11133, 14408, 19976, 10993, 12798, 9411, 21716, 18214, 3479, 12289, 26819, 25600, 15309, 5527, 5118, 23930, 17561, 8550, 16486, 7699, 12317, 6020, 5650, 9333, 14219, 10889, 27763, 8070, 8581, 25615, 18707, 6090, 8511, 2053, 20682, 21238, 23260, 8409, 21163, 19131, 6124, 7215, 22058, 16893, 25205, 9578, 20408, 21146, 14033, 18272, 7019, 28495, 13802, 8637, 27580, 18530, 24193, 16775, 19941, 9144, 8333, 6158, 983, 6570, 8213, 26711, 7757, 14622, 11591, 23537, 26556, 14919, 14809, 3318, 23569, 988, 15715, 22184, 14979, 17852, 9897, 4275, 13810, 15041, 28432, 1946, 14873, 22149, 18833, 13106, 5030, 9463, 23502, 5049, 22722, 14074, 23978, 23443, 20148, 24637, 7211, 21883, 26378, 24006, 14338, 11612, 10830, 21787, 10223, 14802, 11370, 7298, 9329, 7, 4344, 12170, 5071, 19095, 19968, 9225, 3474, 6406, 7507, 14530, 2640, 4378, 25143, 14806, 16170, 16523, 27280, 21768, 26454, 13636, 10985, 1871,

Este campo no lo vamos a utilizar en nuestro sistema de detección de sarcasmo, y por tanto, podemos eliminarlo del dataset.

Para eliminar uno o varios campos, simplemente tendremos que usar el método **remove_columns** de un objeto DatasetDict o Dataset, indicando como argumento la lista de campos (columnas) que queremos eliminar:



In [6]:
dict_sarcasm = dict_sarcasm.remove_columns(["Unnamed: 0"])
dict_sarcasm

DatasetDict({
    train: Dataset({
        features: ['headline', 'is_sarcastic'],
        num_rows: 19952
    })
    validation: Dataset({
        features: ['headline', 'is_sarcastic'],
        num_rows: 2850
    })
    test: Dataset({
        features: ['headline', 'is_sarcastic'],
        num_rows: 5701
    })
})

Podemos ver que dicho campo se ha eliminado en los tres splits.
Este método puede ser invocado tanto desde un objeto DatasetDict como de un objeto Dataset.


### rename_column
También es posible renombrar los nombres de los campos. Por ejemplo, vamos a renombrar 'headline' a 'text, y 'is_sarcastic' a 'label'.

Para ello usaremos el método **rename_column**, pasándole el nombre de la columna que queremos renombrar y su nuevo nombre.


Este método puede ser invocado tanto desde un objeto DatasetDict como de un objeto Dataset.



In [7]:
dict_sarcasm = dict_sarcasm.rename_column('headline','text')
dict_sarcasm = dict_sarcasm.rename_column('is_sarcastic','label')

dict_sarcasm

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 19952
    })
    validation: Dataset({
        features: ['text', 'label'],
        num_rows: 2850
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 5701
    })
})

Vemos que se han renombrado en los tres splits.

### filter
La función filter() nos va a permitir seleccionar una muestra de nuestro dataset en función de una condición.
Por ejemplo, quizá podemos estar interesados en obtener los textos en los que se menciona a Trump (usaremos minúsculas porque los textos del dataset fueron transformados a minúsculas para normalizarlos).

Este método puede ser invocado tanto desde un objeto DatasetDict como de un objeto Dataset.



In [8]:

word = 'Trump'
sample = dict_sarcasm.filter(lambda example: word.lower() in example["text"] )
print('Número de ejemplos que contienen:', word, sample)



Número de ejemplos que contienen: Trump DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 1256
    })
    validation: Dataset({
        features: ['text', 'label'],
        num_rows: 197
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 393
    })
})


Podemos ver que el filtro, devuelve también un objeto DatasetDict. Este objeto contiene en cada uno de sus tres splits, las instancias cuyo texto contiene la palabra 'trump'. En el caso del training, hay 1.256 instancias que contienen dicha palabra, frente a 197 en el split de validación, y 393 en test.

Vamos a mostrar alguna de estas instancias (la seleccionamos de forma aleatoria en el split train). Ejecuta la siguiente celda y podrás ver distintas instancias:

In [9]:
import random
index = random.randint(0,sample['train'].num_rows)
print(sample['train'][index]['text'])


acoustic-guitar-wielding trump tells congress 'this here's the story of america'


Vamos a ver otro ejemplo para seleccionar una muestra de un dataset o de un diccionario de dataset utilizando el método filter.
Por ejemplo, del subconjunto que acabamos de obtener (cuyos textos contienen la palabra 'trump'), queremos obtener todos aquellos que han sido anotados como textos con sarcasmo (es decir, su label es 1).

La instrucción será:

In [10]:
new_sample = sample.filter(lambda example: example["label"] == 1)
new_sample



DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 272
    })
    validation: Dataset({
        features: ['text', 'label'],
        num_rows: 30
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 78
    })
})

Otra vez el método devuelve un objeto DatasetDict (porque fue aplicado sobre un objeto DatasetDict). Fijate en el número de filas. Por ejemplo, de los 1.256 textos del split 'train' que contenían la palabra 'trump', únicamente 272 fueron etiquetados como textos que usan el sarcasmo (label=1).

Ejecuta la siguiente celda varias veces y podrás ver algunos de estos textos:

In [11]:
index = random.randint(0,new_sample['train'].num_rows)
print(new_sample['train'][index])


{'text': 'trump unveils exclusive double platinum–level press room for only select few journalists', 'label': 1}


La función filter también nos permite eliminar instancias que cumplen una determinada condición. Por ejemplo, en la siguiente celda vamos a eliminar todos los registros del dataset de sarcasmo cuyo texto está vacío:

In [12]:
dict_sarcasm = dict_sarcasm.filter(lambda example: example["text"] is not None
                                   and len(example['text'])>0)
dict_sarcasm


DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 19952
    })
    validation: Dataset({
        features: ['text', 'label'],
        num_rows: 2850
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 5701
    })
})

En este caso, el objeto DatasetDict, no se ha modificado porque no había ningúna texto vacío.
Pero podríamos quitar todos los que contiene 'trump'

In [13]:
dict_sarcasm = dict_sarcasm.filter(lambda example: 'trump' not in example['text'])
dict_sarcasm



DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 18696
    })
    validation: Dataset({
        features: ['text', 'label'],
        num_rows: 2653
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 5308
    })
})

Ahora el objeto DatasetDict sí se ha modificado. Por ejemplo, hemos pasado de tener 19.952 isntancias en el train, a tener únicamente 18.696.



### map

Gracias a map podemos aplicar una función a todas las instancias de un objeto DatasetDict o de un objeto Dataset.

Este método puede ser invocado tanto desde un objeto DatasetDict (aplicará la función a las instancias de cada split) como de un objeto Dataset.



Por ejemplo, supón que necesitas añadir un tercer campo con la longitud de los textos (número de tokens). En este caso, puedes definir la siguiente función:

In [14]:
def get_length(example):
    """recibe una instancia, divide el texto, cuenta el número de tokens, y lo guarda en
    un nuevo campo (feature) llamado 'length'"""
    # divide el campo texto usando el método split.
    # Podríamos haber usado este tokenizador, pero para este ejemplo es suficiente usar split
    tokens = example["text"].split()
    # len  devuelve el número de elemtnos de la lista tokens; lo almacenamos en num_tokens
    num_tokens = len(tokens)
    # devolvemos la misma instancia añadiendo el campo 'length' con el valor almacenado en num_tokens
    return {"length": num_tokens}

# aplicamos get_length a todos el objeto DatasetDict
dict_sarcasm=dict_sarcasm.map(get_length)
dict_sarcasm

DatasetDict({
    train: Dataset({
        features: ['text', 'label', 'length'],
        num_rows: 18696
    })
    validation: Dataset({
        features: ['text', 'label', 'length'],
        num_rows: 2653
    })
    test: Dataset({
        features: ['text', 'label', 'length'],
        num_rows: 5308
    })
})

Podemos ver que ahora que en los tres splits, hay tres campos: text, label, y length.

Por ejemplo, vamos a motrar la primera instancia de train:


In [15]:
dict_sarcasm['train'][0]


{'text': 'the great vanishing', 'label': 0, 'length': 3}

Mostramos algunas características sobre las longitudes de los textos:

In [16]:
import numpy as np
print('tamaño máximo: ', max(dict_sarcasm['train']['length']))
print('tamaño medio: ', np.mean(dict_sarcasm['train']['length']))



tamaño máximo:  151
tamaño medio:  9.947368421052632


Vamos a usar ahora la función filter para recuperar todas las instancias cuyos textos tengan una longitud menor o igual a 5 tokens. ¿cuántos ejemplos hay en cada split?.


In [17]:
sample_lq_5 = dict_sarcasm.filter(lambda example: example["length"] <= 5)
sample_lq_5

DatasetDict({
    train: Dataset({
        features: ['text', 'label', 'length'],
        num_rows: 1487
    })
    validation: Dataset({
        features: ['text', 'label', 'length'],
        num_rows: 204
    })
    test: Dataset({
        features: ['text', 'label', 'length'],
        num_rows: 420
    })
})

En el caso del split train, podemos afirmar que únicamente 1487 tienen 5 o menos tokens (y recuerda que además no contienen la palabra 'trump').

Muestra algunos ejemplos de cada split.

In [18]:
split = 'train' # modifica con validation o test, para mostrar ejemplos de los otros datasets
index = random.randint(0,sample_lq_5[split].num_rows)
print(sample_lq_5[split][index])



{'text': 'the truth about being 40', 'label': 0, 'length': 5}


Veamos otro ejemplo donde podemos usar la función map.

Si los textos se han tomado de la web, posiblemente contengan muchas etiquetas htmls, que sería interesante eliminar. Afortunadamente, la librería html lo hace por nosotros:

In [19]:
import html

text = "I&#039;m a professor teaching datasets"
html.unescape(text)

"I'm a professor teaching datasets"

Gracias a la función map, vamos a poder aplicar la función **unescape** a todos los textos del dataset. Vamos a medir cuántos segundos tarda esta operación:

In [20]:
import time
start = time.time()
dict_sarcasm_cleaned = dict_sarcasm.map(lambda example: {"text": html.unescape(example["text"])})
print("Aplicar unescap tardó: ", time.time()-start, " segundos")

dict_sarcasm_cleaned


Aplicar unescap tardó:  0.012785673141479492  segundos


DatasetDict({
    train: Dataset({
        features: ['text', 'label', 'length'],
        num_rows: 18696
    })
    validation: Dataset({
        features: ['text', 'label', 'length'],
        num_rows: 2653
    })
    test: Dataset({
        features: ['text', 'label', 'length'],
        num_rows: 5308
    })
})

En total, el proceso ha tardado 2.45 segundos (ojo!!! esta cantidad puede variar de una ejecución a otra, porque tamibén depende de los otros procesos que se ejecuten en la CPU /GPU asignada por Google Colab).

Aplicar la función map sobre todo el dataset puede ser computacionalmente muy costoso (en datasets grandes), al tener que procesar cada instancia de una en una.

Lo recomendable es indicar que vamos a aplicar la función por lotes (batched = True). El tamaño de batch se puede configurar, pero su valor por defecto es 1.000 instancias.




In [21]:
def clean(example):
    """la función limpia el texto de la instancia example con la fución unescape
    y modifica el texto original"""

    cleaned_text = html.unescape(example['text'])
    return {"text": cleaned_text}

In [22]:
start = time.time()
dict_sarcasm_cleaned = dict_sarcasm.map(clean, batched=True)
print("Aplicar unescap con batches tardó: ", time.time()-start, " segundos")
dict_sarcasm_cleaned

Aplicar unescap con batches tardó:  0.010972261428833008  segundos


DatasetDict({
    train: Dataset({
        features: ['text', 'label', 'length'],
        num_rows: 18696
    })
    validation: Dataset({
        features: ['text', 'label', 'length'],
        num_rows: 2653
    })
    test: Dataset({
        features: ['text', 'label', 'length'],
        num_rows: 5308
    })
})

Podemos ver que el tiempo de ejecución ha disminuido.

El tiempo se reduce porque ganamos segundos cuando procesamos muchos elementos a la vez (es decir, por lotest) en lugar de uno por uno. Esto es importante cuando tenemos muchos instancias en el dataset.




### sort()
El método sort nos permite ordenar los registros del dataset en función de un campo en particular.
Puede ser aplicado tanto a un objeto DatasetDict (ordenará las instancias en cada split) o a un objeto Dataset.

Por ejemplo, podemos ordenar los registros del training según su longitud (de menor a mayor). en la siguiente celda, se muestran los primeros 100 (ya ordenadas):

In [23]:
aux = dict_sarcasm["train"].sort("length")
for i in range(100):
    print(aux[i])

{'text': "he's baaaaack!", 'label': 0, 'length': 2}
{'text': 'planet explodes', 'label': 1, 'length': 2}
{'text': "rudy's america", 'label': 0, 'length': 2}
{'text': 'family business', 'label': 0, 'length': 2}
{'text': 'bling-bling pawned', 'label': 1, 'length': 2}
{'text': 'civilization collapses', 'label': 1, 'length': 2}
{'text': 'report: spider', 'label': 1, 'length': 2}
{'text': 'hug factory', 'label': 0, 'length': 2}
{'text': 'magical marseille', 'label': 0, 'length': 2}
{'text': 'snowman sucks', 'label': 1, 'length': 2}
{'text': "december's people", 'label': 0, 'length': 2}
{'text': 'pet winterized', 'label': 1, 'length': 2}
{'text': 'taxpayer outraged', 'label': 1, 'length': 2}
{'text': 'april cruelty', 'label': 0, 'length': 2}
{'text': 'cricket located', 'label': 1, 'length': 2}
{'text': 'approved catcalls', 'label': 0, 'length': 2}
{'text': 'growth potential', 'label': 0, 'length': 2}
{'text': 'taste acquired', 'label': 1, 'length': 2}
{'text': 'clean machine', 'label': 0, 'l

Mostramos el texto más largo:

In [24]:
aux[-1]

{'text': 'hot wheels ranked number one toy for rolling down ramp, knocking over dominoes that send marble down a funnel, dropping onto teeter-totter that yanks on string, causing pulley system to raise wooden block, propelling series of twine rollers that unwind spring, launching tennis ball across room, inching tire down slope until it hits power switch, activating table fan that blows toy ship with nail attached to it across kiddie pool, popping water balloon that fills cup, weighing down lever that forces basketball down track, nudging broomstick on axis to rotate, allowing golf ball to roll into sideways coffee mug, which tumbles down row of hardcover books until handle catches hook attached to lever that causes wooden mallet to slam down on serving spoon, catapulting small ball into cup attached by ribbon to lazy susan, which spins until it pushes d battery down incline plane, tipping over salt shaker to season omelet',
 'label': 1,
 'length': 151}

###shuffle y select

El método **select** nos permite devolver una muestra de instancias pasándole como parámetro la lista de sus índices.

El método **shuffle** permite reordenar de forma aleatoria los ejemplos de un dataset de forma aleatoria. Podemos especificar una semilla para que sea reproducible (y siempre obtenga el mismo orden para un semilla dada).

Con el siguiente ejemplo, reordenamos el split de train, y seleccionamos las cinco primeras instancias.

Si ejecutas la siguiente celda varias veces, podrás ver que siempre obtienes los mismo 5 registros. Modifica la semilla seed a otro valor, y los registros cambiaran.




In [25]:
# si modificas la semilla, las instancias cambiaran
sample = dict_sarcasm["train"].shuffle(seed=42).select(range(5))
print(sample)
for i in range(sample.num_rows):
    print(sample[i])

Dataset({
    features: ['text', 'label', 'length'],
    num_rows: 5
})
{'text': "here's how depression affects gay and lesbian couples", 'label': 0, 'length': 8}
{'text': 'has lgbtq pride lost its way?', 'label': 0, 'length': 6}
{'text': 'dixieland band evicted', 'label': 1, 'length': 3}
{'text': 'endangered wildlife to be given new identities in species protection program', 'label': 1, 'length': 11}
{'text': 'fox producers attempt to tire out aggressive candidates before debate by letting them run around outside', 'label': 1, 'length': 16}


Aunque el método **shuffle** sí puede ser invocado tanto desde un objeto Dataset como de un objeto DatasetDict, el método **select** únicamente puede ser llamado desde un objeto Dataset, nunca desde DatasetDict. Comprueba como la siguiene celda da un error:


In [26]:
sample = dict_sarcasm.select(range(10))


AttributeError: ignored

Te animo que practiques con todos estos métodos sobre otros datasets, por ejemplo, el dataset **rotten_tomatoes** que usamos en uno de los ejercicios anteriores.

Puedes encontrar más ejemplos en el siguiente enlace:
https://huggingface.co/docs/datasets/process