<font size="4">

### Preparador de dataset de entrenamiento

En este fichero nos vamos a centrar en la preparación de nuestro **dataset de entrenamiento** para el modelo de traducción.

Actualmente, los datos que tenemos están organizados en un formato muy sencillo: cada fila contiene un par de frases, donde la primera columna corresponde a una frase en **inglés** y la segunda columna a su traducción en **español**, es decir:

```
[ingles, español]
```

Para mejorar la capacidad de nuestro modelo y aumentar la cantidad de datos de entrenamiento disponibles, vamos a **ampliar el dataset** creando un nuevo conjunto de datos donde cada par se duplica, pero invirtiendo los idiomas. De esta manera, por cada fila original `[ingles, español]`, generaremos también una fila `[español, ingles]`.

El resultado será un dataset que contenga **todas las combinaciones posibles de entrada y salida**, permitiendo que nuestro modelo aprenda a traducir en **ambas direcciones**. El nuevo formato del dataset final quedará así:

```
[ingles, español]  # traducción original
[español, ingles]  # traducción invertida
```

Este enfoque nos permite **maximizar la información de entrenamiento** sin necesidad de recolectar datos adicionales, lo que es especialmente útil si contamos con un dataset limitado. Además, ayuda a que el modelo sea más versátil y capaz de traducir de español a inglés y viceversa.

In [20]:
import pandas as pd
import numpy as np

In [21]:
# para usar otro, simplemente debemos cambiar el fichero.csv de la funcion read_csv
nombre_dataset_entrada = "dataset_English-Spanish_Translation_Dataset.csv"

dataset = pd.read_csv(nombre_dataset_entrada, sep= ",")

dataset.head(10)

Unnamed: 0,idioma,traduccion
0,Go.,Ve.
1,Go.,Vete.
2,Go.,Vaya.
3,Go.,Váyase.
4,Hi.,Hola.
5,Run!,¡Corre!
6,Run.,Corred.
7,Who?,¿Quién?
8,Fire!,¡Fuego!
9,Fire!,¡Incendio!


In [22]:
partes_original = np.array_split(dataset, 10)
df1, df2, df3, df4, df5, df6, df7, df8, df9, df10 = partes_original

  return bound(*args, **kwds)


In [23]:
df1.shape, df2.shape, df3.shape, df4.shape, df5.shape, df6.shape, df7.shape

((11897, 2),
 (11897, 2),
 (11897, 2),
 (11897, 2),
 (11896, 2),
 (11896, 2),
 (11896, 2))

In [24]:
# Crear la versión inversa del dataset
df_invertido_1 = df1.rename(columns={"idioma": "traduccion", "traduccion": "idioma"})
df_invertido_2 = df2.rename(columns={"idioma": "traduccion", "traduccion": "idioma"})
df_invertido_3 = df3.rename(columns={"idioma": "traduccion", "traduccion": "idioma"})
df_invertido_4 = df4.rename(columns={"idioma": "traduccion", "traduccion": "idioma"})
df_invertido_5 = df5.rename(columns={"idioma": "traduccion", "traduccion": "idioma"})
df_invertido_6 = df6.rename(columns={"idioma": "traduccion", "traduccion": "idioma"})
df_invertido_7 = df7.rename(columns={"idioma": "traduccion", "traduccion": "idioma"})
df_invertido_8 = df8.rename(columns={"idioma": "traduccion", "traduccion": "idioma"})
df_invertido_9 = df9.rename(columns={"idioma": "traduccion", "traduccion": "idioma"})
df_invertido_10 = df10.rename(columns={"idioma": "traduccion", "traduccion": "idioma"})

In [25]:
# Concatenar el dataset original con el inverso
df_final_1 = pd.concat([df1, df_invertido_1], ignore_index=True)
df_final_2 = pd.concat([df2, df_invertido_2], ignore_index=True)
df_final_3 = pd.concat([df3, df_invertido_3], ignore_index=True)
df_final_4 = pd.concat([df4, df_invertido_4], ignore_index=True)
df_final_5 = pd.concat([df5, df_invertido_5], ignore_index=True)
df_final_6 = pd.concat([df6, df_invertido_6], ignore_index=True)
df_final_7 = pd.concat([df7, df_invertido_7], ignore_index=True)
df_final_8 = pd.concat([df8, df_invertido_8], ignore_index=True)
df_final_9 = pd.concat([df9, df_invertido_9], ignore_index=True)
df_final_10 = pd.concat([df10, df_invertido_10], ignore_index=True)

In [26]:
df_final_3.head()

Unnamed: 0,idioma,traduccion
0,I had no alternative.,No tuve alternativa.
1,I had no time to eat.,No me ha dado tiempo a comer.
2,I had to let Tom win.,Tuve que dejar que Tom ganara.
3,I had to let Tom win.,Tuve que dejar ganar a Tom.
4,I hate Tom's parents.,Odio a los padres de Tom.


In [27]:
df_final_3.tail()

Unnamed: 0,idioma,traduccion
23789,No se me dan bien los deportes.,I am not good at sports.
23790,Estoy pintando mi cochera.,I am painting my garage.
23791,Me alegra verte.,I am pleased to see you.
23792,Ahora estoy leyendo un libro.,I am reading a book now.
23793,Estoy leyendo una revista.,I am reading a magazine.


In [28]:
nombre_dataset_generado_1 = "texto1.csv"
nombre_dataset_generado_2 = "texto2.csv"
nombre_dataset_generado_3 = "texto3.csv"
nombre_dataset_generado_4 = "texto4.csv"
nombre_dataset_generado_5 = "texto5.csv"
nombre_dataset_generado_6 = "texto6.csv"
nombre_dataset_generado_7 = "texto7.csv"
nombre_dataset_generado_8 = "texto8.csv"
nombre_dataset_generado_9 = "texto9.csv"
nombre_dataset_generado_10 = "texto10.csv"

In [29]:
# Opcional: guardar el nuevo dataset
df_final_1.to_csv(nombre_dataset_generado_1, index=False)
df_final_2.to_csv(nombre_dataset_generado_2, index=False)
df_final_3.to_csv(nombre_dataset_generado_3, index=False)
df_final_4.to_csv(nombre_dataset_generado_4, index=False)
df_final_5.to_csv(nombre_dataset_generado_5, index=False)
df_final_6.to_csv(nombre_dataset_generado_6, index=False)
df_final_7.to_csv(nombre_dataset_generado_7, index=False)
df_final_8.to_csv(nombre_dataset_generado_8, index=False)
df_final_9.to_csv(nombre_dataset_generado_9, index=False)
df_final_10.to_csv(nombre_dataset_generado_10, index=False)