Para este ejercicio, utilizaremos la biblioteca transformers de Hugging Face, que proporciona acceso a modelos de traducción preentrenados como el modelo Helsinki-NLP para traducción automática. Primero, deberás instalar la biblioteca transformers y sentencepiece que se necesita para el procesamiento del texto.

Un "transformer" en el campo del procesamiento del lenguaje natural (NLP) es un tipo de modelo que se utiliza para comprender y generar lenguaje humano de manera efectiva. La forma más sencilla de entenderlo es compararlo con cómo aprendemos los idiomas: al escuchar o leer, no solo prestamos atención a una palabra a la vez, sino que consideramos el contexto completo para entender el significado. Los transformers hacen algo similar pero de manera computacional.
Aquí está cómo funcionan los transformers, simplificado:


1.   ***Atención***: La característica clave de un transformer es su capacidad de "atención". Esto significa que el modelo puede enfocarse en diferentes partes de una oración para entender mejor su significado completo. Por ejemplo, en la frase "El gato, que estaba cansado, dormía en el sofá", el modelo reconoce que "el gato" está relacionado con "dormía".
2.   ***Procesamiento en paralelo***: A diferencia de los modelos anteriores que procesaban las palabras una por una en secuencia, los transformers pueden procesar todas las palabras de una oración al mismo tiempo. Esto los hace más rápidos y eficientes.
3.   ***Codificadores y Decodificadores***: Los transformers suelen tener dos partes principales: codificadores y decodificadores. Los codificadores se encargan de comprender el texto de entrada, mientras que los decodificadores generan el texto de salida. Por ejemplo, en la traducción automática, el codificador analiza la oración en inglés y el decodificador genera la traducción en español.
4.   ***Capas de Redes Neuronales***: Los transformers están compuestos por muchas capas de redes neuronales. Estas capas ayudan al modelo a aprender aspectos complejos del lenguaje, como la gramática, el tono y el contexto.

En resumen, los transformers son como lectores inteligentes y escritores automáticos que pueden comprender y producir lenguaje considerando el contexto completo de las palabras, no solo una palabra a la vez. Su habilidad para procesar todo el texto simultáneamente y su sistema de atención los hacen muy efectivos para tareas como la traducción automática, la generación de texto, y la comprensión del lenguaje natural.

In [None]:
pip install transformers sentencepiece

La biblioteca **SentencePiece** es una herramienta utilizada en el procesamiento del lenguaje natural (NLP) que facilita una parte importante del preprocesamiento del texto: la tokenización. En el contexto de NLP, ***tokenizar significa dividir el texto en piezas más pequeñas***, llamadas tokens.

En resumen, **SentencePiece** es una herramienta de tokenización avanzada que ayuda a los modelos de NLP a manejar una variedad de desafíos del lenguaje, como la tokenización en idiomas sin espacios, el manejo de palabras raras y el procesamiento multilingüe. Su capacidad para crear tokenizadores personalizados y su eficacia en la tokenización de subpalabras lo hacen una opción popular en el campo del NLP.

Este código usa un modelo preentrenado de Hugging Face para traducir texto del inglés al español. La función simple_translator recibe una entrada de texto del usuario, la procesa con el tokenizer del modelo y luego genera la traducción utilizando el modelo.

In [None]:
from transformers import MarianMTModel, MarianTokenizer

Aquí se importan dos clases del módulo transformers: **MarianMTModel** y **MarianTokenizer**.
**MarianMTModel** es un modelo de traducción automática basado en redes neuronales, mientras que **MarianTokenizer** se encarga del procesamiento del texto (tokenización).

In [None]:
def simple_translator():
    # Seleccionar el modelo de traducción. Aquí usamos un modelo para traducir del inglés al español.
    model_name = 'Helsinki-NLP/opus-mt-en-es'
    model = MarianMTModel.from_pretrained(model_name)
    tokenizer = MarianTokenizer.from_pretrained(model_name)

    while True:
        # Recibir texto en inglés del usuario
        text = input("Ingresa el texto en inglés a traducir (o 'salir' para terminar): ")
        if text.lower() == 'salir':
            break

        # Preprocesar y traducir el texto
        translated = model.generate(**tokenizer(text, return_tensors="pt", padding=True))

        # Mostrar el texto traducido
        translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)
        print(f"Traducción al español: {translated_text}\n")

A continuación se detalla la lógica de la función <code>simple_translator</code> que hemos definido:



*   **Definición de la función**:  
<code>simple_translator()</code>:  
Esta función contiene toda la lógica para el traductor.  

*   **Selección del modelo de traducción**:  
<code>model_name = 'Helsinki-NLP/opus-mt-en-es'</code>  
Se especifica el nombre del modelo de traducción que se va a utilizar. En este caso, se usa el modelo 'Helsinki-NLP/opus-mt-en-es', que está diseñado para traducir del inglés al español.
*   **Cargar el modelo y el tokenizador**:  
<code>model = MarianMTModel.from_pretrained(model_name)</code>  
<code>tokenizer = MarianTokenizer.from_pretrained(model_name)</code>  
Se cargan el modelo y el tokenizador utilizando el nombre del modelo. from_pretrained es un método que carga un modelo preentrenado desde un repositorio en línea.
*   **Bucle infinito para recibir texto del usuario**:  
<code>while True:</code>  
Un bucle while True se utiliza para recibir continuamente texto del usuario hasta que decida salir.
*   **Recibir texto en inglés del usuario**:  
<code>text = input("Ingresa el texto en inglés a traducir (o 'salir' para terminar): ")</code>  
Se solicita al usuario que ingrese el texto en inglés que desea traducir. Si el usuario escribe 'salir', el programa se detiene.
*   **Condición para salir del bucle**:  
<code>if text.lower() == 'salir':</code>  
<code>break</code>  
  Si el usuario escribe 'salir', se convierte a minúsculas para asegurar que coincida sin importar cómo se escriba, y se usa break para salir del bucle.
*   **Preprocesar y traducir el texto**:  
<code>translated = model.generate(**tokenizer(text, return_tensors="pt", padding=True))</code>  
El texto ingresado se procesa primero con el tokenizador y luego se pasa al modelo para generar la traducción. <code>return_tensors="pt"</code> indica que se devolverán tensores de PyTorch, y <code>padding=True</code> agrega relleno si es necesario.
*   **Mostrar el texto traducido**:  
<code>translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)</code>  
<code>print(f"Traducción al español: {translated_text}\n")</code>  
Se decodifica el resultado de la traducción para convertirlo de nuevo a texto y se imprime la traducción.



In [None]:
if __name__ == "__main__":
    simple_translator()

*   Ejecución principal:  
<code>if __name__ == "__main__":</code>  
<code>simple_translator()</code>  
Este bloque asegura que simple_translator() solo se ejecute si el script se está ejecutando como programa principal y no cuando se importa como un módulo en otro script.

In [None]:
from google.colab import drive
drive.mount('/content/drive')