<a href="https://colab.research.google.com/github/isegura/OCW-UC3M-NLPDeep-2023/blob/main/tema5_dataset.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center>
<img src="https://upload.wikimedia.org/wikipedia/commons/4/47/Acronimo_y_nombre_uc3m.png" width=50%/>

<h1><font color='#12007a'>Procesamiento de Lenguaje Natural con Aprendizaje Profundo</font></h1>
<p>Autora: Isabel Segura Bedmar</p>

<img align='right' src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.png" width=15%/>
</center>   

# 5.1. Cómo cargar un dataset de Hugging Face

El principal de Hugging Face (https://huggingface.co/) es proporcionar una plataforma donde los investigadores en aprendizaje automático, y en particular, las personas que trabajan en PLN o en visión artificial, colaboren compartiendo sus modelos, datasets, y aplicaciones.

En este ejercicio, aprenderemos a cargar y explorar uno de los datasets alojado en el repositorio de Hugging Face (https://huggingface.co/datasets), donde los usuarios comparten sus colecciones de datos.




## Instalación de la librería datasets
El primer paso será instalar la librería **datasets** proporcionada por Hugging Face. La opción -q nos permite instalarla en modo silencioso, sin mostrar todas las librerías y dependencias implicadas en la instalación.

In [1]:
!pip install -q datasets

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m519.6/519.6 kB[0m [31m7.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m115.3/115.3 kB[0m [31m10.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.1/194.1 kB[0m [31m19.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m15.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m295.0/295.0 kB[0m [31m30.5 MB/s[0m eta [36m0:00:00[0m
[?25h

## Obtener información sobre un dataset (sin necesidad de descargarlo)

En este ejercicio, vamos a trabajar con el dataset  **rotten_tomatoes**, compuesto por reseñas de usuarios sobre películas recolectadas de la web Rotten Tomatoes.


La función **load_dataset_builder()** nos pérmite obtener la información asociada a un dataset sin necesidad de descargarlo.


In [4]:
from datasets import load_dataset_builder
ds_builder = load_dataset_builder("rotten_tomatoes")

print("Descripción del dataset:", ds_builder.info.description)
print("Características (features) del dataset:", ds_builder.info.features)



Descripción del dataset: Movie Review Dataset.
This is a dataset of containing 5,331 positive and 5,331 negative processed
sentences from Rotten Tomatoes movie reviews. This data was first used in Bo
Pang and Lillian Lee, ``Seeing stars: Exploiting class relationships for
sentiment categorization with respect to rating scales.'', Proceedings of the
ACL, 2005.

Características (features) del dataset: {'text': Value(dtype='string', id=None), 'label': ClassLabel(names=['neg', 'pos'], id=None)}


Después de ejecutar la celda, podemos ver que el dataset contienen 5.331 oraciones clasificadas como positivas (polaridad o sentimiento positivo) y 5.331 negativas.
También indica el artículo donde este dataset fue utilizado por primera vez.

Otra información relevante es la información sobre las características (features) o campos del datataset. En este caso, el dataset únicamente tiene dos campos: **text** de tipo String, y que es el campo que contiene el texto de las oraciones, y **label** que es el campo que almacena la polaridad (positiva o negativa) del texto asociado.

## Mostrar las particiones (splits) de un dataset

El método **get_dataset_split_names** nos proporciona el conjunto de splits que se proporcionan en el dataset. En el caso de nuestro ejemplo, el dataset tiene tres splits: uno para entrenar (**train**), otro que será utilizado durante la fase de entrenamiento para validar en el modelo en cada epoch o paso (**validation**), y otro que será utilizado para proporcionar una evaluación final del modelo sobre un cojunto de textos que no han sido empleados durante el entrenamiento (**test**). Esto es una gran ventaja, porque el investigador se puede despreocupar de generar estos splits.

In [None]:
from datasets import get_dataset_split_names
get_dataset_split_names("rotten_tomatoes")


['train', 'validation', 'test']

Sin embargo, hay otros corpus que proporcionan únicamente un split (normalmente con el nombre de 'train'), como por ejemplo, el dataset **app_reviews** formado por comentarios de usuarios sobre aplicaciones de Android.

In [9]:
from datasets import get_dataset_split_names
ds_builder = load_dataset_builder("app_reviews")

print("Descripción del dataset:", ds_builder.info.description)
print("Características (features) del dataset:", ds_builder.info.features)
print("Splits: ", get_dataset_split_names("app_reviews"))


Descripción del dataset: It is a large dataset of Android applications belonging to 23 differentapps categories, which provides an overview of the types of feedback users report on the apps and documents the evolution of the related code metrics. The dataset contains about 395 applications of the F-Droid repository, including around 600 versions, 280,000 user reviews (extracted with specific text mining approaches)

Características (features) del dataset: {'package_name': Value(dtype='string', id=None), 'review': Value(dtype='string', id=None), 'date': Value(dtype='string', id=None), 'star': Value(dtype='int8', id=None)}
Splits:  ['train']


Si quieres usar el dataset anterior para desarrollar un modelo para la clasificación de sus textos, tendrás que crear los splits 'validation' y 'train' con el método **train_test_split**. Eso lo veremos en otro ejercicio de este tema.

## Cargar un dataset

Ahora ya sí vamos a cargar nuestro dataset con el método **load_dataset**. Únicamente tenemos que pasarle como argumento el nombre del dataset en el repositorio de Hugging Face:


In [10]:
from datasets import load_dataset
load_dataset("rotten_tomatoes")


Downloading data:   0%|          | 0.00/488k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/8530 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/1066 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/1066 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 8530
    })
    validation: Dataset({
        features: ['text', 'label'],
        num_rows: 1066
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 1066
    })
})

La ejecución de la celda anterior nos muestra que el método **load_dataset** devuelve un objeto **DatasetDict** que es un diccionario de objetos Dataset. Las clases (keys) del diccionario son los nombres de los splits: train, validation, y test.
Asociado a cada clave (a cada split), tenemos un objeto Dataset. Por ejemplo, en el caso del 'train', tenemos un dataset con 8,530 filas (es decir, registros o instancias). Cada instancia tiene dos campos: 'text', 'label', como ya explicamos anteriormente.
Como es de esperar, los splits y de validación y test son bastante más pequeños, y sólo contienen 1.066 instancias, cada uno de ellos.



### Otras opciones de load_dataset

Podemos cargar directamente una de las particiones (split), por ejemplo, 'train':

In [11]:
load_dataset("rotten_tomatoes", split="train")


Dataset({
    features: ['text', 'label'],
    num_rows: 8530
})

En este caso, podemos ver que el método no devuelve un diccionario, sino que devuelve únicamente un objeto Dataset con 8.530 instancias.

También es posible cargar distintas combinaciones. Por ejemplo, podemos cargar en un mismo dataset los splits de training y validación:

In [12]:
load_dataset("rotten_tomatoes", split="train+validation")


Dataset({
    features: ['text', 'label'],
    num_rows: 9596
})

Date cuenta ahora que el número de filas (instancias) es 8.530 + 1.066 = 9.596

También podemos cargar una pequeña muestra o subconjunto de un split. En el siguiente ejemplo, vamos a cargar únicamente el primer 1% de instancias del split train (es decir, unas 85 instancias):

In [13]:
sample = load_dataset('rotten_tomatoes', split='train[:1%]')
print(sample.num_rows, ' instancias')


85  instancias


Vamos las instancias de dicho subconjunto. Para acceder a cada instancia es necesario indicar el índice. Después simplemente tenemos que indicar el campo que queremos mostrar:

In [14]:
for i in range(sample.num_rows):
    print("text: ", sample[i]['text'], "label: ", sample[i]['label'])


text:  the rock is destined to be the 21st century's new " conan " and that he's going to make a splash even greater than arnold schwarzenegger , jean-claud van damme or steven segal . label:  1
text:  the gorgeously elaborate continuation of " the lord of the rings " trilogy is so huge that a column of words cannot adequately describe co-writer/director peter jackson's expanded vision of j . r . r . tolkien's middle-earth . label:  1
text:  effective but too-tepid biopic label:  1
text:  if you sometimes like to go to the movies to have fun , wasabi is a good place to start . label:  1
text:  emerges as something rare , an issue movie that's so honest and keenly observed that it doesn't feel like one . label:  1
text:  the film provides some great insight into the neurotic mindset of all comics -- even those who have reached the absolute top of the game . label:  1
text:  offers that rare combination of entertainment and education . label:  1
text:  perhaps no picture ever made has mo

En este otro ejemplo, vamos a crear un subconjunto formado por las instancias del split de training cuyos índices van desde 10 hasta el 20 (sin incluir el 20):


In [16]:
sample = load_dataset('rotten_tomatoes', split='train[10:20]')
print(sample.num_rows, ' instancias')
for i in range(sample.num_rows):
    print("text: ", sample[i]['text'], "label: ", sample[i]['label'])


10  instancias
text:  this is a film well worth seeing , talking and singing heads and all . label:  1
text:  what really surprises about wisegirls is its low-key quality and genuine tenderness . label:  1
text:  ( wendigo is ) why we go to the cinema : to be fed through the eye , the heart , the mind . label:  1
text:  one of the greatest family-oriented , fantasy-adventure movies ever . label:  1
text:  ultimately , it ponders the reasons we need stories so much . label:  1
text:  an utterly compelling 'who wrote it' in which the reputation of the most famous author who ever lived comes into question . label:  1
text:  illuminating if overly talky documentary . label:  1
text:  a masterpiece four years in the making . label:  1
text:  the movie's ripe , enrapturing beauty will tempt those willing to probe its inscrutable mysteries . label:  1
text:  offers a breath of the fresh air of true sophistication . label:  1



Puedes encontrar más ejemplos en
https://huggingface.co/docs/datasets/v1.11.0/splits.html


Cargar un dataset desde Hugging Face es una opción muy atractiva porque no necesitamos tenerlo alojarlo en local o en alguno de nuestro servidores, y como hemos visto el proceso de carga es bastante sencillo.

Visita la página  https://huggingface.co/datasets donde podrás buscar otros datasets. La página te permite buscar datasets indicando la tarea (por ejemplo para generación de resúmenes o clasificación de tokens), el idioma, o incluso el tamaño.

Selecciona cualquiera de esos datasets y práctica con lo que has aprendido en este ejercicio.


