# Trabajar con Datasets de HuggingFace

 HuggingFace incluye una gran colección de datasets para una alta variedad de tareas de PLN. También incluye una librería, Datasets, que nos va a facilitar trabajar con  datasets. 




Lo primero que vamos a aprender es a cargar y trabajar con un dataset de HuggingFace. 

El primer paso será instalar la librería Datasets:

In [None]:
!pip install datasets

Hugginface incluye más de 10,000 datasets para distintas tareas de NLP (https://huggingface.co/datasets). En este notebook, trabajaremos con el dataset  **rotten_tomatoes**, formado por 5.331 reseñas positivas  y 5.331 negativas sobre películas de Rotten Tomatoes.

Te animamos a que pruebes con cualquier otro dataset disponible en HuggingFace.

## Obtener información sobre un dataset 

Sin necesidad de descargar el dataset, es posible obtener información sobre el dataset. 
Para ello, debemos utilizar la función **load_dataset_builder()**:


In [None]:
from datasets import load_dataset_builder
ds_builder = load_dataset_builder("rotten_tomatoes")

# Show dataset description
print("Descripción del dataset:", ds_builder.info.description)
print("Características (features) del dataset:", ds_builder.info.features)



Así, hemos podido ver que el dataset está formado por registros con dos campos: el texto, y su label (positiva o negativa). 

Algunos datasets de huggingface ya contienen splits para training y testing, incluso para validación. Para conocer los splits de un corpus deberemos utilizar la función **get_dataset_split_names** que nos devolver la lista de los nombres de los subconjuntos del dataset:

In [None]:
from datasets import get_dataset_split_names
get_dataset_split_names("rotten_tomatoes")


Además de los splits, algunos datasets también incluyen distintas configuraciones. Por ejemplo, el dataset **MInDS-14** está formado por distintos subdatasets, cada uno de ellos para un idioma diferente. 
Los datos son audio. 

In [None]:
from datasets import get_dataset_config_names
get_dataset_config_names("PolyAI/minds14")

Si el dataset no tiene distintas configuraciones, dicha función devolverá el valor 'default' o el nombre del dataset: 

In [None]:
get_dataset_config_names("rotten_tomatoes")

### Ejericio 1:

Consulta la información asociada con el dataset **yelp_review_full**
- ¿Cuál es el objetivo del dataset?
- ¿Cuáles son sus principales características?.
- ¿Es distribuido con splits?.
- ¿Tiene distintas configuraciones?


## Cargar un dataset 

Ahora sí vamos a cargar el dataset desde HuggingFace. Para descargar el dataset, usaremos la función **load_dataset**:

In [None]:
from datasets import load_dataset
load_dataset("rotten_tomatoes")


La función anterior no devuelve un dataset, sino un objeto DatasetDict, es decir, un diccionario de datasets. Las claves del diccionario son los splits que contiene el dataset. En este caso: train, validation, y test. Si el dataset no tuviera splits, normalmente el objeto diccionario contiene un único dataset con clave 'train'. 
Cada elemento del diccionario se corresponde con un dataset (asociado a cada split).

La función **load_dataset** también nos permite cargar directamente un split, por ejemplo, en la siguiente celda, se cargará únicamente el split para training:

In [None]:
load_dataset("rotten_tomatoes", split="train")


Date cuenta que la función ya no devuelve un diccionario, sino un objeto dataset. 
También es posible cargar distintas combinaciones. Por ejemplo, podemos cargar en un mismo dataset el split de training y validación:

In [None]:
load_dataset("rotten_tomatoes", split="train+validation")


A veces incluso no queremos cargar todo el dataset, sino una pequeña muestra. Por ejemplo, en la siguiente celda vamos a recuperar una muestra del split de training, cuyos índices van desde 55 hasta el 59:


In [None]:
sample = load_dataset('rotten_tomatoes', split='train[55:59]')

for i in range(len(sample)):
    print("Instance: ", i + 55)
    print("text: ", sample[i]['text'])
    print("label: ", sample[i]['label'])
    print()

Otro ejemplo, es cargar el primer 1% del training:

In [None]:
# The first 1% of `train` split.
sample = load_dataset('rotten_tomatoes', split='train[:1%]')
for i in range(len(sample)):
    print("Instance: ", i)
    print("text: ", sample[i]['text'])
    print("label: ", sample[i]['label'])
    print()



Puedes encontrar más ejemplos en 
https://huggingface.co/docs/datasets/v1.11.0/splits.html


### Ejercicio 2: 

Supongamos que queremos tomar 1/3 del test del dataset **rotten_tomatoes**. En concreto, queremos tomar la tercera parte que está a continuación del primer tercio de ese split. 

¿Cuál es su primer texto y su label?
¿y el último?

### Loading a configuration
Si el dataset contiene varias configuraciones (por ejemplo, MInDS-14 dataset tiene un total de 14 subconjuntos que dependen del idioma), es posible cargar una configuración específica. Por ejemplo, en la siguiente celda, se cargar el 5% del training del subconjunto en Francés: 



In [None]:
load_dataset("PolyAI/minds14", "fr-FR", split="train[:5%]")


## Cargar un dataset desde local o remoto

Además de cargar datasets de HuggingFace, también va a ser posible cargar datasets desde local o desde algún servidor. 

Por ejemplo, vamos a cargar el dataset para la tarea de detección de sacarmo, con el que ya hemos trabajo  varias veces. Si aún no lo tienes en tu google drive, por favor, descargalo desde: 

https://www.kaggle.com/datasets/rmisra/news-headlines-dataset-for-sarcasm-detection


La siguiente celda contiene el código para cargar un dataset que está almacenado en tu google drive: 


In [None]:
from google.colab import drive
from datasets import load_dataset

# mount your google drive
drive.mount('/content/drive')

# we load the dataset of sarcasm
path = "/content/drive/My Drive/Colab Notebooks/data/sarcasm/"

data_files = {"train": path+"train.csv", 
              "val":path+"val.csv", 
              "test": path+"test.csv"}

dict_sarcasm = load_dataset("csv", data_files=data_files)
dict_sarcasm

También es posible cargar un dataset que está en un repositorio remoto. Mira el siguiente ejemplo:

In [None]:
url = "https://github.com/crux82/squad-it/raw/master/"
data_files = {
    "train": url + "SQuAD_it-train.json.gz",
    "test": url + "SQuAD_it-test.json.gz",
}
load_dataset("json", data_files=data_files, field="data")


## Leer a los datos del dataset

Ya hemos visto algunos ejemplos de cómo leer los registros del dataset. Simplemente hay que acceder al split y luego indicar el índice del registro que quieres consultar.

Por ejemplo, del dataset de sarcasmo, vamos a recuperar la primera instancia del training, y la última del test:

In [None]:
print("Primera instancia del training:", dict_sarcasm['train'][0])
# Primera instancia del training: {'Unnamed: 0': 23789, 'headline': 'the great vanishing', 'is_sarcastic': 0}

print("Última instancia de test:", dict_sarcasm['test'][-1])
# Última instancia de test: {'Unnamed: 0': 22846, 'headline': 'supreme court justice sotomayor continues duties after breaking shoulder', 'is_sarcastic': 0}


You can access a specific feature of a specific instance:

También podemos tomar directamente los valores de un determinado campo:

In [None]:
dataset = dict_sarcasm['train']
texts = dataset['headline']
labels = dataset['is_sarcastic']
print("Primer texto y label del training:", texts[0], labels[0])
# Primer texto y label del training: the great vanishing 0

print("Último texto y label del training:", texts[-1], labels[-1])
# Último texto y label del training: motorcyclists riding 2-wide in lane right next to you probably know what they're doing 1


### Ejercicio 3:
¿Crees que le orden de los indices importa cuando estás trabajando con datasets de gran tamaño?. 

Por ejemplo, dado el objeto dataset que hemos creado anteriormente para contener el split del training del dataset de sarcamo, y las dos opciones para acceder al titular del primer registro: 

```
1) dataset['headline'][0]
2) dataset[0]['headline']

```
¿son igual de eficientes?, en caso contrario, ¿cuál es la opción más eficiente?

En la siguiente celda, puedes incluir código para medir el tiempo que tarda el acceso a cada una de las llamadas 1) y 2). Una opción sencilla es usar el paquete **time** y su función **time()**:


In [None]:
import time

start = time.time()
...


Razona tu respuesta. ¿Por qué una opción es más eficiente que otra?

La segunda opción es más eficiente porque únicamente necesita cargar el primer registro y acceder a su campo 'headline'. Sin embargo, en la primera opción, es necesario recuperar toda la lista de 'headlines', y luego devolver su primer valor. 

**Por tanto, el orden de los índices sí importan a la hora de acceder a la información.**


## Algunas operaciones interesantes

Muchas veces los datasets contiene campos que realmente no vamos a utilizar. 
En la siguiente celda, mostramos de nuevo  diccionario con los splits del dataset para sarcasmo. 


In [None]:
dict_sarcasm

El primero de sus campos, 'Unnamed: 0', posiblemente sea el identificador del texto en una base de datos. 

In [None]:
print(dict_sarcasm['train']['Unnamed: 0'])

### Eliminar campos
Este campo no lo vamos a utilizar en nuestro sistema de detección de sarcasmo, y por tanto, podemos eliminarlo del dataset

In [None]:
dict_sarcasm = dict_sarcasm.remove_columns(["Unnamed: 0"])
dict_sarcasm

### Renombrar campos

También es posible renombrar los nombres de los campos. Por ejemplo, vamos a renombrar 'headline' a 'text, y 'is_sarcastic' a 'label'

In [None]:
dict_sarcasm = dict_sarcasm.rename_column('headline','text')
dict_sarcasm = dict_sarcasm.rename_column('is_sarcastic','label')

dict_sarcasm

### Función filter
La función filter() nos va a permitir seleccionar una muestra de nuestro dataset en función de una condición.
Por ejemplo, quizá podemos estar interesados en obtener los textos en los que se menciona a Trump (usaremos minúsculas porque los textos del dataset están preprocesados). Mostamos uno de esos textos (de forma aleatoria). 
In this section, we will work with a dataset that needs to be cleaned. 
Please, download the [Drug Review Dataset](#https://archive.ics.uci.edu/ml/machine-learning-databases/00462/drugsCom_raw.zip) and save its files into your google drive (for example, in 'Colab Notebooks/data/drugsCom_raw')

In [None]:

word = 'Trump'
sample = dict_sarcasm.filter(lambda example: word.lower() in example["text"] )
print('Número de ejemplos que contienen:', word, sample)



In [None]:

import random
# index = random.randint(0,sample['train'].num_rows)
index = 0
print(sample['train'][index]['text'])


Por ejemplo, ahora de esa muestra, podríamos obtener todos los que ejemplos que se han etiquetado como 1 (sarcástico)

In [None]:
new_sample = sample.filter(lambda example: example["label"] == 1)
new_sample



In [None]:
# index = 0

index = random.randint(0,new_sample['train'].num_rows)
print(new_sample['train'][index])


Podríamos utilizar la función filter para eliminar todos los registros (ejemplos o instancias) cuyo texto es nulo o está vacío: 

In [None]:
dict_sarcasm = dict_sarcasm.filter(lambda example: example["text"] is not None 
                                   and len(example['text'])>0)
dict_sarcasm
# we only keep those instances whose 'condition' is not None
# drug_dataset = drug_dataset.filter(lambda x: x["condition"] is not None)
# drug_dataset

Podemos ver que el dataset no se ha transformado (es decir, no existían registros con textos vacíos). 

### Usar map

Gracias a map podemos aplicar una función a todos los registros del dataset. Por ejemplo, supón que necesitas añadir un tercer campo con la longitud de los textos (número de tokens). En este caso, puedes definir la siguiente función:

In [None]:
def get_length(example):
    tokens_example = example["text"].split()
    return {"length": len(tokens_example)}

dict_sarcasm=dict_sarcasm.map(get_length)
dict_sarcasm

Veamos como son los ejemplos ahora (tienen tres campos). Fijate en elvalor de length y comprueba si es correcto para ese ejemplo. 


In [None]:
dict_sarcasm['train'][1]


¿Cuál es la longitud máxima de los textos?, ¿y su longitud media?

In [None]:
import numpy as np
print('tamaño máximo: ', max(dict_sarcasm['train']['length']))
print('tamaño medio: ', np.mean(dict_sarcasm['train']['length']))



### Ejercicio 4: 

Recupera los ejemplos (de todos los splits) que tenga más de 20 tokens, ¿cuántos ejemplos hay en cada split?.
Muestra algunos ejemplos de cada split:

### Función sort()
La función sort nos permite ordenar los registros del dataset en función de un campo en particular. Por ejemplo, podemos ordenar los registros del training según su longitud (de menor a mayor)

In [None]:
aux = dict_sarcasm["train"].sort("length")
for i in range(5):
    print(aux[i])

Mostramos el texto más largo:

In [None]:
aux[-1]

Recuerda que si los textos se han tomado de la web, posiblemente contengan muchas etiquetas htmls, que sería interesante eliminar. Afortunadamente, la librería html lo hace por nosotros: 

In [None]:
import html

text = "I&#039;m a professor teaching datasets"
html.unescape(text)

In [None]:
start = time.time()
dict_sarcasm = dict_sarcasm.map(lambda example: {"text": html.unescape(example["text"])})
print("This takes ", time.time()-start, " seconds")
dict_sarcasm


El principal problema que tiene la función map es que debe procesar todos los registros a la vez, si la usamos como en el ejemplo anterior. 

Para aumentar la velocidad, lo recomendable es indicar que la función se va a aplicar en batches. El tamaño de batch se puede configurar, pero su valor por defecto es 1.000 ejemplos. 




In [None]:
# dict_sarcasm = dict_sarcasm.map(lambda example: {"text": html.unescape(example["text"])}, batched = True)

def clean(example):
    cleaned_text = html.unescape(example['text'])
    return {"text": cleaned_text}


start = time.time()
drug_dataset = dict_sarcasm.map(clean, batched=True)
print("This takes ", time.time()-start, " seconds")

Podemos ver que el tiempo de ejecución ha disminuido notablemente. El tiempo se reduce porque ganamos segundos cuando procesamos muchos elementos a la vez en lugar de uno por uno. 

Esto es importante cuando tenemos muchos registros en el dataset. 




### Función shuffle y la función select

La función select nos permite devolver una muestra de ejemplos pasándole como parámetro la lista de sus índices. 

La función shuffle permite reordenar de forma aleatoria los ejemplos de un dataset de forma aleatoria. Podemos especificar una semilla para que sea reproducible (siempre devuelva la misma partición). 

Con el siguiente ejemplo, reordenamos el training del dataset, y seleccionamos los primeros ejemplos:



In [None]:
sample = dict_sarcasm["train"].shuffle(seed=42).select(range(5))
sample

In [None]:
for i in range(sample.num_rows):
    print(sample[i])

## Creación de splits
En algunos datasets, únicamente se proporciona el conjunto de entrenamiento. Para poder entrenar nuestros modelos, validarlos y evaluarlos, mientras que no tengamos un conjunto de evaluación, en algunos casos será necesario, crear nosotros mismo los splits de test, y también si así lo queremos, el conjunto de validación. 

Para ello, un objeto dataset tiene el métodod **train_test_split**. Veamos un ejemplo.

Descarga el dataset el siguiente https://www.kaggle.com/datasets/crowdflower/twitter-airline-sentiment, que está compuesto por tweets anotados con la opinión para distintas aerolíneas. 
El dataset únicamente proporciona un fichero. Crea tres splits con el ratio 70:10:20 para training, validation y testing, respectivamente. 



In [None]:
# we load the twitter airlines dataset. 
path = "/content/drive/My Drive/Colab Notebooks/data/airlines/"
# please, specify the right path to the file csv. In my case, it was saved in the folder Colab Notebooks/data/
dict_airlines = load_dataset("csv", data_files=path+"Tweets.csv")
dict_airlines

In [None]:
new_dic_airlines = dict_airlines['train'].train_test_split(train_size=0.7, seed=42)
new_dic_airlines


Ya tienes el train (70) y el test (30). Ahora tienes que dividir el test en dos partes: 1/3 parte para validación, y el resto para test. 

In [None]:
test_val = new_dic_airlines['test'].train_test_split(train_size=0.33, seed=42)
test_val

Sustituimos el split test y añadimos el validation:

In [None]:
new_dic_airlines["val"] = test_val['train']
new_dic_airlines["test"] = test_val['test']

new_dic_airlines

Puedes guardarlo en disco


In [None]:
new_dic_airlines.save_to_disk(path+"tweets")
# it is saved into the folder drug-reviews-clean with a json format
print('dataset was saved')

También puedes guardarlos en formato csv:

In [None]:
new_dic_airlines["train"].to_csv(path+"train.csv", index=False)
new_dic_airlines["test"].to_csv(path+"test.csv", index=False)
new_dic_airlines["val"].to_csv(path+"val.csv", index=False)
print("the three splits were saved into " + path)
     

Creating CSV from Arrow format:   0%|          | 0/11 [00:00<?, ?ba/s]

Creating CSV from Arrow format:   0%|          | 0/3 [00:00<?, ?ba/s]

Creating CSV from Arrow format:   0%|          | 0/2 [00:00<?, ?ba/s]

the three splits were saved into /content/drive/My Drive/Colab Notebooks/data/airlines/


## Práctica 1: 

Con el dataset de los tweets sobre aerolineas, trata de aplicar y reproducir todos lo que hemos visto en este notebook. 

Además, trata de subir el dataset (una vez limpiado), a tu repositorio de Huggingface (tendrás que darte de alta). Como no queremos tener problemas con los autores del dataset y con Kaggle, deberás crear el dataset como privado. 

Una vez en tu repositorio de HuggingFace, carga el dataset desde él y trabaja con él. 

Para crear un token de acceso asociado a tu usuario, puedes consultar la siguiente página:
https://huggingface.co/docs/hub/security-tokens

Por ejemplo, en mi caso, he creado el siguiente token de lectura para mi usuario y poder acceder al repositorio:

In [None]:
dataset = load_dataset("ISEGURA/airlines", use_auth_token='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')
dataset


Downloading readme:   0%|          | 0.00/27.0 [00:00<?, ?B/s]

Downloading and preparing dataset csv/ISEGURA--airlines to /root/.cache/huggingface/datasets/ISEGURA___csv/ISEGURA--airlines-f0f7eaedac1d13c9/0.0.0/6b34fb8fcf56f7c8ba51dc895bfa2bfbe43546f190a60fcf74bb5e8afdcc2317...


Downloading data files:   0%|          | 0/3 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/2.39M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/691k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/338k [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/3 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Generating test split: 0 examples [00:00, ? examples/s]

Generating validation split: 0 examples [00:00, ? examples/s]

Dataset csv downloaded and prepared to /root/.cache/huggingface/datasets/ISEGURA___csv/ISEGURA--airlines-f0f7eaedac1d13c9/0.0.0/6b34fb8fcf56f7c8ba51dc895bfa2bfbe43546f190a60fcf74bb5e8afdcc2317. Subsequent calls will reuse this data.


  0%|          | 0/3 [00:00<?, ?it/s]

DatasetDict({
    train: Dataset({
        features: ['tweet_id', 'airline_sentiment', 'airline_sentiment_confidence', 'negativereason', 'negativereason_confidence', 'airline', 'airline_sentiment_gold', 'name', 'negativereason_gold', 'retweet_count', 'text', 'tweet_coord', 'tweet_created', 'tweet_location', 'user_timezone'],
        num_rows: 10248
    })
    test: Dataset({
        features: ['tweet_id', 'airline_sentiment', 'airline_sentiment_confidence', 'negativereason', 'negativereason_confidence', 'airline', 'airline_sentiment_gold', 'name', 'negativereason_gold', 'retweet_count', 'text', 'tweet_coord', 'tweet_created', 'tweet_location', 'user_timezone'],
        num_rows: 2943
    })
    validation: Dataset({
        features: ['tweet_id', 'airline_sentiment', 'airline_sentiment_confidence', 'negativereason', 'negativereason_confidence', 'airline', 'airline_sentiment_gold', 'name', 'negativereason_gold', 'retweet_count', 'text', 'tweet_coord', 'tweet_created', 'tweet_location', 

## Práctica 2: 

Reproduce todo lo aprendido en este notebook para el dataset EXIST. Súbelo a tu repositorio en HuggingFace (como privado). A partir de ahora ya no tendrás que cargarlo desde local, y lo podrás hacer directamente desde huggingface. 

En esta página, podéis encontrar información: https://huggingface.co/course/chapter5/5?fw=pt#uploading-the-dataset-to-the-hugging-face-hub






Para más información sobre cómo trabajar con datasets en HuggingFace, te recomiendo que consultes la siguiente documentación: 
https://huggingface.co/course/chapter5/3?fw=pt




Puedes encontrar más información sobre cómo trabajar con datasets en los siguientes links:
- https://huggingface.co/course/chapter5/3?fw=pt.
- https://huggingface.co/course/chapter5/5?fw=pt
- https://huggingface.co/course/chapter5/5?fw=pt#uploading-the-dataset-to-the-hugging-face-hub


