# Proyecto: Traductor de corpus lingüístico de inglés a español

#### Creación: 06/05/2022
#### Última modificación: 15/05/2022
#### Python versión: 3.6.9


## Descripción:
- Crear un modelo que permita traducir frases de inglés a español de forma automática.
- El modelo se entrenará con un corpus lingüístico de frases en inglés y su traducción al español.


## Aspectos a tener en cuenta:
1. Recopilar un corpus lingüístico de frases en inglés y español.
2. Preprocesar el corpus lingüístico para su uso en el modelo (incluye limpieza y preparación del texto).
3. Entrenar un modelo de traducción de inglés a español.
4. Evaluar el modelo de traducción de inglés a español.
5. Realizar predicciones con el modelo de traducción de inglés a español.


## Tokenización y limpieza de datos con NLTK


*Aspectos a tener en cuenta para la limpieza de texto:*

### 1. **Normalizar cáracteres unicode**

**Cáracteres unicode:** son carácteres de los sistemas de escritura, símbolos matemáticos, símbolos monetarios, emojis y muchos otros caracteres especiales.

**Normalización de los carácteres unicode:** el objetivo es transformar los carácteres unicode en su forma más simple y compatible con el inglés.
- Esto se hace para evitar que el modelo tenga que aprender a reconocer diferentes formas de escribir una misma palabra.
- Elimina los acentos y diéresis de las palabras (no afecta al significado de las palabras).
- Elimina los emojis y símbolos matemáticos que no aportan información al modelo.

### 2. **Convertir a minúsculas el texto**

Proceso de convertir texto en minúsculas para que el modelo no trate las mismas palabras en mayúsculas y minúsculas como diferentes.

### 3. **Tratamiento de hashtags, menciones y links**

Se cambian por etiquetas las menciones, hastags y links.

### 4. **Eliminar signos de puntuación**

- Los signos de puntuación no aportan información relevante al texto.
- Al ser carácteres que no forman parte de las palabras, pueden interferir con la creación de los vectores de palabras que se utilizan en los modelos de aprendizaje automático, generando ruido o reduciendo la capacidad de generalización del modelo.
- También, si se elimina la puntuación se reducirá el tamaño del vocabulario del modelo, lo que hará que el modelo sea más fácil de entrenar y de interpretar.

### 5. **Eliminar carácteres especiales**

*Carácteres no imprimibles:* \n, \t, \r, \x0b, \x0c 
- Son aquellos carácteres que no producen ningún caracter visible en la pantalla cuando se imprimen. 
- Pueden ser carácteres de control, espacios en blanco, caracteres de formato o caracteres especiales, como los símbolos del sistema de escritura, los caracteres de lenguas que no se escriben con el alfabeto latino, etc.
- Es importante eliminar los caracteres no imprimibles antes de procesar o analizar el texto, ya que pueden causar problemas en la manipulación del texto y en la extracción de características importantes del mismo.

### 6. **Eliminar tokens con números**

Al igual que los signos de puntuación, los números no aportan información relevante. Por lo tanto, se procede a eliminarlos.


## Preparar datos para el entrenamiento del modelo

### 1. **Definir parámetros y obtener vocabulario**

- Obtener vocabulario
- Longitud máxima de palabras del vocabulario
- Longitud máxima de las frases.

### 2. **Convertir las palabras del vocabulario en números**

En la tarea de traducción de idiomas, el modelo recibe una secuencia de texto en un idioma (entrada x) y debe producir una secuencia de texto en otro idioma (salida y). 

Por lo tanto, la tarea de la red neuronal es predecir la próxima palabra en la secuencia de salida (y) en función de la secuencia de entrada (x).

Para preparar los datos de entrada (x), se necesita codificar las secuencias de texto en secuencias numéricas, ajustar la longitud de las secuencias numéricas y agregar relleno para que tengan la misma longitud.

### 3. **Convertir las secuencias numéricas en una representación "one-hot"**

Se usa solo para las secuencias de salida (y) ya que se necesita una representación categórica de las palabras en el vocabulario para que el modelo pueda predecir la próxima palabra en la secuencia de salida.<br>

### 3. **Definir modelo a entrenar**

Se hicieron varias pruebas con modelos recurrentes, como es el caso de LSTM y Transformers.

### 4. **Entrenamiento del modelo**

Se entrenaron ambos modelo por 30 épocas, arrojando resultado diferentes

### 5. **Evaluación del modelo**

Al evaluar el modelo se observaron el error (loss) y la precisión (accuracy) del modelo en el conjunto de datos de prueba. 

### 6. **Evaluación de métricas**

Se calculo la métrica BLUE, la cual evalua la calidad de la traducción de texto. 

### 7. **Conclusiones**

A pesar de que no se obtuvieron buenos valores en la métrica, se plantea entrenat con más datos y agregar más épocas.