<font size="4">

### Preparador de dataset de entrenamiento

En este fichero nos vamos a centrar en la preparación de nuestro **dataset de entrenamiento** para el modelo de traducción.

Actualmente, los datos que tenemos están organizados en un formato muy sencillo: cada fila contiene un par de frases, donde la primera columna corresponde a una frase en **inglés** y la segunda columna a su traducción en **español**, es decir:

```
[ingles, español]
```

Para mejorar la capacidad de nuestro modelo y aumentar la cantidad de datos de entrenamiento disponibles, vamos a **ampliar el dataset** creando un nuevo conjunto de datos donde cada par se duplica, pero invirtiendo los idiomas. De esta manera, por cada fila original `[ingles, español]`, generaremos también una fila `[español, ingles]`.

El resultado será un dataset que contenga **todas las combinaciones posibles de entrada y salida**, permitiendo que nuestro modelo aprenda a traducir en **ambas direcciones**. El nuevo formato del dataset final quedará así:

```
[ingles, español]  # traducción original
[español, ingles]  # traducción invertida
```

Este enfoque nos permite **maximizar la información de entrenamiento** sin necesidad de recolectar datos adicionales, lo que es especialmente útil si contamos con un dataset limitado. Además, ayuda a que el modelo sea más versátil y capaz de traducir de español a inglés y viceversa.

In [55]:
import pandas as pd

In [56]:
# para usar otro, simplemente debemos cambiar el fichero.csv de la funcion read_csv
nombre_dataset_entrada = "dataset_English-Spanish_Translation_Dataset.csv"
nombre_dataset_generado = "merge_small.csv" # tendra 1000 lineas primeras

dataset = pd.read_csv(nombre_dataset_entrada, sep= ",")

dataset.head(10)

Unnamed: 0,english,spanish
0,Go.,Ve.
1,Go.,Vete.
2,Go.,Vaya.
3,Go.,Váyase.
4,Hi.,Hola.
5,Run!,¡Corre!
6,Run.,Corred.
7,Who?,¿Quién?
8,Fire!,¡Fuego!
9,Fire!,¡Incendio!


In [57]:
# Crear la versión inversa del dataset
df_invertido = dataset.rename(columns={"english": "spanish", "spanish": "english"})

In [58]:
# Concatenar el dataset original con el inverso
df_final = pd.concat([dataset.head(1000), df_invertido.head(1000)], ignore_index=True)

In [59]:
df_final.head(10)

Unnamed: 0,english,spanish
0,Go.,Ve.
1,Go.,Vete.
2,Go.,Vaya.
3,Go.,Váyase.
4,Hi.,Hola.
5,Run!,¡Corre!
6,Run.,Corred.
7,Who?,¿Quién?
8,Fire!,¡Fuego!
9,Fire!,¡Incendio!


In [60]:
df_final.tail(10)

Unnamed: 0,english,spanish
1990,Confíen.,Have faith.
1991,Él salió a comer.,He ate out.
1992,Tosió.,He coughed.
1993,Él se rindió.,He gave in.
1994,Se rindió.,He gave up.
1995,Lo dejó.,He gave up.
1996,Cedió.,He gave up.
1997,Tiró la toalla.,He gave up.
1998,Descolgó.,He hung up.
1999,Él cogió el teléfono.,He hung up.


In [61]:
# Opcional: guardar el nuevo dataset
df_final.to_csv(nombre_dataset_generado, index=False)