<a href="https://colab.research.google.com/github/isegura/OCW-UC3M-NLPDeep-2023/blob/main/tema5_crear_splits.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center>
<img src="https://upload.wikimedia.org/wikipedia/commons/4/47/Acronimo_y_nombre_uc3m.png" width=50%/>

<h1><font color='#12007a'>Procesamiento de Lenguaje Natural con Aprendizaje Profundo</font></h1>
<p>Autora: Isabel Segura Bedmar</p>

<img align='right' src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.png" width=15%/>
</center>   

# 5.4. Cómo crear splits en un dataset

En ejercicios anteriores aprendimos a cargar un dataset alojado en Hugging Face (https://huggingface.co/datasets) y también desde local,  usando la librería **datasets**.

Además, también hemos practicado con algunos métodos útiles para trabajar con dataset, tales como **filter**, **map**, **sort**, **select** y **shuffle**.


En este ejercicio, aprenderemos a crear las particiones (splits) en un objeto DatasetDict gracias al método **train_test_split**.
En algunos datasets, únicamente se proporciona el conjunto de entrenamiento. Sin embargo, para poder entrenar un transformer vamos a necesitar también un conjunto de validación. Además, para poder evaluar el modelo sobre un conjunto de datos que no haya sido usado durante la fase de entrenamiento, necesitaremos un conjunto test.


En este ejercicio, vamos a utlizar un dataset proporcionado por Kaggle para la tarea de de análisis de sentimiento en tweets sobre aerolíneas, que se puede descargar en el siguiente enlace: https://www.kaggle.com/datasets/crowdflower/twitter-airline-sentiment. Descarga el dataset y almacenalo en tu unidad de google drive en 'Colab Notebooks/data/airlines/'

Este dataset está está compuesto por tweets anotados con la opinión para distintas aerolíneas.
El dataset únicamente proporciona un fichero.

En este ejercicio, a partir de dicho fichero, **vamos a crear un objeto DatasetDict con tres splits con el ratio 70:10:20 para training, validación y test, respectivamente**.


**NOTA PARA PODER EJECUTAR ESTE NOTEBOOK**:

1) Para poder ejercutar correctamente este notebook, deberás abrirlo en tu Google Drive (por ejemplo, en la carpeta 'Colab Notebooks').

2) Además, debes guardar el dataset en tu Google Drive, dentro de carpeta 'Colab Notebooks/data/airlines/'.

## Montar unidad de google drive y cambiar directorio de trabajo

Como ya hemos hecho en otros ejercicioss, lo primero que tenemos que hacer es montar nuestra unidad de google drive y modificar el directorio de trabajo actual para que sea el directorio donde está almacenado el dataset:



In [1]:
from google.colab import drive
drive.mount('/content/drive')

import os
os.chdir('/content/drive/My Drive/Colab Notebooks/data/airlines/')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


En la siguiente celda, comprobamos que en efecto la carpeta contiene el fichero **Tweets.csv** que hemos descargado de Kaggle:

In [2]:
!ls

test.csv  train.csv  tweets  Tweets.csv  validation.csv


## Instalación de la librería datasets

In [3]:
!pip install -q datasets

## Cargamos el dataset
Fijate que en este caso, únicamente hemos indicado el nombre del fichero **Tweets.csv** y el formato. El método, por defecto, ha creado un objeto DatasetDict con un único split **train**.





In [4]:
from datasets import load_dataset

dict_airlines = load_dataset("csv", data_files="Tweets.csv")
dict_airlines

Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['tweet_id', 'airline_sentiment', 'airline_sentiment_confidence', 'negativereason', 'negativereason_confidence', 'airline', 'airline_sentiment_gold', 'name', 'negativereason_gold', 'retweet_count', 'text', 'tweet_coord', 'tweet_created', 'tweet_location', 'user_timezone'],
        num_rows: 14640
    })
})

## El método train_test_split

La clase **Dataset** proporciona el método **train_test_split** que permite dividir un dataset en dos subconjuntos o splits: train y test.
Vamos a verlo con un ejemplo. Del dataste anteriormente cargado (en su split train) vamos a dividirlo en dos splits, reservando un 70% para el split. Este método nos devolverá un nuevo objeto **DatasetDict** con los dos nuevos splits:

In [5]:
new_dic_airlines = dict_airlines['train'].train_test_split(train_size=0.7, seed=42)
new_dic_airlines


DatasetDict({
    train: Dataset({
        features: ['tweet_id', 'airline_sentiment', 'airline_sentiment_confidence', 'negativereason', 'negativereason_confidence', 'airline', 'airline_sentiment_gold', 'name', 'negativereason_gold', 'retweet_count', 'text', 'tweet_coord', 'tweet_created', 'tweet_location', 'user_timezone'],
        num_rows: 10248
    })
    test: Dataset({
        features: ['tweet_id', 'airline_sentiment', 'airline_sentiment_confidence', 'negativereason', 'negativereason_confidence', 'airline', 'airline_sentiment_gold', 'name', 'negativereason_gold', 'retweet_count', 'text', 'tweet_coord', 'tweet_created', 'tweet_location', 'user_timezone'],
        num_rows: 4392
    })
})

Comprueba que en el nuevo diccionario, su train  contiene 10.248 instancias, y 4392 el test (que es el 30% del conjunto original).

Ya tienes el train (70) y el test (30).

En realidad, ahora el conjunto test, deberemos dividirlo para validación y test. En el ejercicio, se pedía un ratio de 70:10:20 (train, validation, test), por tanto, 1/3 de este conjunto test con 4392 instancias deberá ser el split de validación, y el resto 2/3 de 4392 será el conjunto test.

Vovemos a usar el método **train_test_split**, pero ahora sobre el split **test** del diccionario que acabamos de crear. Como hemos dicho antes vamos a dejar 2/3 partes para test



In [6]:
aux_test_val = new_dic_airlines['test'].train_test_split(test_size=0.33, seed=42)
aux_test_val

DatasetDict({
    train: Dataset({
        features: ['tweet_id', 'airline_sentiment', 'airline_sentiment_confidence', 'negativereason', 'negativereason_confidence', 'airline', 'airline_sentiment_gold', 'name', 'negativereason_gold', 'retweet_count', 'text', 'tweet_coord', 'tweet_created', 'tweet_location', 'user_timezone'],
        num_rows: 2942
    })
    test: Dataset({
        features: ['tweet_id', 'airline_sentiment', 'airline_sentiment_confidence', 'negativereason', 'negativereason_confidence', 'airline', 'airline_sentiment_gold', 'name', 'negativereason_gold', 'retweet_count', 'text', 'tweet_coord', 'tweet_created', 'tweet_location', 'user_timezone'],
        num_rows: 1450
    })
})

El split test de este diccionario auxiliar **aux_test_val** será el test, y su train, será el split de validación.
Por tanto, tenemos que reemplazar el split test y añadir el de validación:


In [7]:
new_dic_airlines["validation"] = aux_test_val['train']
new_dic_airlines["test"] = aux_test_val['test']

new_dic_airlines

DatasetDict({
    train: Dataset({
        features: ['tweet_id', 'airline_sentiment', 'airline_sentiment_confidence', 'negativereason', 'negativereason_confidence', 'airline', 'airline_sentiment_gold', 'name', 'negativereason_gold', 'retweet_count', 'text', 'tweet_coord', 'tweet_created', 'tweet_location', 'user_timezone'],
        num_rows: 10248
    })
    test: Dataset({
        features: ['tweet_id', 'airline_sentiment', 'airline_sentiment_confidence', 'negativereason', 'negativereason_confidence', 'airline', 'airline_sentiment_gold', 'name', 'negativereason_gold', 'retweet_count', 'text', 'tweet_coord', 'tweet_created', 'tweet_location', 'user_timezone'],
        num_rows: 1450
    })
    validation: Dataset({
        features: ['tweet_id', 'airline_sentiment', 'airline_sentiment_confidence', 'negativereason', 'negativereason_confidence', 'airline', 'airline_sentiment_gold', 'name', 'negativereason_gold', 'retweet_count', 'text', 'tweet_coord', 'tweet_created', 'tweet_location', 

Puedes comprobar facilmente que el diccionario tiene tres splits con la proporción 70:10:20 que se pedía en el enunciado.

Date cuenta que el método **train_test_split** siempre debe invocarse con un objeto de la clase **Dataset**. Es decir, no puede llamarse directamente desde un objeto DatasetDict, ya que esté ya tiene splits. Ejecuta la siguiente celda y comprueba que en efecto produce un error:


In [8]:
dict_airlines.train_test_split(train_size=0.7, seed=42)

AttributeError: ignored

## Guardar los splits
Podemos almacenarlo en disco, indicando en que carpeta se va a almacenar (en neustro caso hemos elegido que se almacen en una subcarpeta del actual unidad de trabajo). Por defecto, se almacena en formato json.  

In [9]:
new_dic_airlines.save_to_disk("tweets")
print('los tres splits fueron almacenados was saved')

Saving the dataset (0/1 shards):   0%|          | 0/10248 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/1450 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/2942 [00:00<?, ? examples/s]

los tres splits fueron almacenados was saved


Otra opción es que guardes cada objeto Dataset un un fichero csv, usando el método **to_csv**:

In [10]:
new_dic_airlines['train'].to_csv("train.csv")
new_dic_airlines['validation'].to_csv("validation.csv")
new_dic_airlines['test'].to_csv("test.csv")

Creating CSV from Arrow format:   0%|          | 0/11 [00:00<?, ?ba/s]

Creating CSV from Arrow format:   0%|          | 0/3 [00:00<?, ?ba/s]

Creating CSV from Arrow format:   0%|          | 0/2 [00:00<?, ?ba/s]

341724