# 8 - Traducción de Texto

<br>
<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/traductor.webp" style="width:400px;"/>

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---Modelos-de-traducción" data-toc-modified-id="1---Modelos-de-traducción-1">1 - Modelos de traducción</a></span></li><li><span><a href="#2---Pipeline-de-Transformers-para-traducir" data-toc-modified-id="2---Pipeline-de-Transformers-para-traducir-2">2 - Pipeline de Transformers para traducir</a></span></li><li><span><a href="#3---Usando-el-modelo-traductor" data-toc-modified-id="3---Usando-el-modelo-traductor-3">3 - Usando el modelo traductor</a></span><ul class="toc-item"><li><span><a href="#3.1-Tokenizador" data-toc-modified-id="3.1-Tokenizador-3.1">3.1 Tokenizador</a></span></li><li><span><a href="#3.2---Modelo-traductor" data-toc-modified-id="3.2---Modelo-traductor-3.2">3.2 - Modelo traductor</a></span></li><li><span><a href="#3.3-Resumen-funcional" data-toc-modified-id="3.3-Resumen-funcional-3.3">3.3 Resumen funcional</a></span></li></ul></li><li><span><a href="#4---Ejemplo-con-más-texto" data-toc-modified-id="4---Ejemplo-con-más-texto-4">4 - Ejemplo con más texto</a></span></li><li><span><a href="#5---Más-modelos-de-traducción" data-toc-modified-id="5---Más-modelos-de-traducción-5">5 - Más modelos de traducción</a></span></li></ul></div>

## 1 - Modelos de traducción

Los modelos de traducción son fundamentales en el campo del procesamiento de lenguaje, especialmente en la traducción automática, que permite convertir texto de un idioma a otro incluso en directo. Estos modelos han evolucionado considerablemente gracias a los avances en técnicas de NLP. A continuación, se describen algunos de los enfoques y modelos más prominentes en traducción automática:


1. **Traducción Automática Basada en Reglas (RBMT)**
+ Características: Utiliza reglas lingüísticas específicas para cada idioma, diseñadas por expertos.
+ Ventajas: Buen manejo de la gramática y la sintaxis cuando las reglas son exhaustivas.
+ Desventajas: Requiere mucho esfuerzo humano para construir y mantener las reglas; no escala bien con el aumento de la diversidad de idiomas.


2. **Traducción Automática Estadística (SMT)**
+ Características: Basada en modelos estadísticos que aprenden traducciones a partir de grandes corpus de textos bilingües.
+ Ventajas: Más flexible y escalable que RBMT; puede aprender de los errores y adaptarse a nuevos lenguajes o dialectos.
+ Desventajas: La calidad de la traducción depende enormemente de la cantidad y calidad del corpus de entrenamiento; las traducciones pueden ser literales y faltarles fluidez.


3. **Traducción Automática Neuronal (NMT)**
+ Características: Utiliza redes neuronales profundas, especialmente arquitecturas de tipo secuencia a secuencia (seq2seq) con mecanismos de atención.
+ Ventajas: Traducciones más fluidas y naturales; maneja mejor las construcciones gramaticales complejas y el contexto a lo largo de oraciones más largas.
+ Desventajas: Requiere grandes cantidades de datos de entrenamiento y recursos computacionales significativos.
+ Modelos Destacados en NMT:
    + Transformer: Revolucionó el NMT con su arquitectura basada exclusivamente en atención, eliminando la necesidad de redes recurrentes.
    + BERT y GPT: Aunque son modelos de propósito general para PLN, han sido adaptados para mejorar las tareas de traducción, especialmente en configuraciones multilingües.


4. **Traducción Automática Multilingüe**
+ Características: Un solo modelo puede manejar la traducción entre múltiples idiomas, a menudo utilizando un idioma pivote como el inglés.
+ Ventajas: Economía de escala al entrenar un solo modelo para muchos idiomas; útil para idiomas con pocos recursos.
+ Desventajas: Puede haber pérdida de precisión en idiomas menos representados en el entrenamiento.


5. **Traducción Zero-Shot y Few-Shot**
+ Características: Capacidad de traducir entre pares de idiomas que no se vieron directamente durante el entrenamiento.
+ Ventajas: Extremadamente útil para idiomas raros o combinaciones de idiomas con datos insuficientes para entrenamiento directo.
+ Desventajas: A menudo menos precisa que los modelos entrenados específicamente para esos pares de idiomas.




Cada uno de estos modelos y métodos tiene sus propias fortalezas y debilidades, y la elección de uno sobre otro depende de las necesidades específicas de la tarea de traducción, así como de los recursos disponibles y el alcance del proyecto. La evolución continua de estos modelos y técnicas sigue empujando los límites de lo que es posible en la traducción automática.

Vamos a usar los modelos contruidos por el grupo [Helsinki-NLP](https://huggingface.co/Helsinki-NLP), el grupo de NLP de la [Universidad de Helsinki](https://blogs.helsinki.fi/language-technology/). En el hub de Hugging Face tienen desplegados más de 1000 modelos distintos para decenas de lenguas distintas. Todos ellos tienen un peso aproximado de 315 Mb. Vamos a probar un modelo traductor de inglés a castellano, uno de castellano a inglés y un modelo multilingüe de este grupo de trabajo.

## 2 - Pipeline de Transformers para traducir

Usemos primero el pipeline de transformers para traducir del [inglés al castellano](https://huggingface.co/Helsinki-NLP/opus-mt-en-es).

In [1]:
from transformers import pipeline

In [2]:
tarea = 'translation'

modelo = 'Helsinki-NLP/opus-mt-en-es'

In [3]:
traductor = pipeline(task=tarea, model=modelo)

  return self.fget.__get__(instance, owner)()
Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [4]:
# al traductor le pasamos directamente la string que queremos traducir


frase = '''Retrieval Augmented Generation (RAG) is a pattern that works with pretrained 
            Large Language Models (LLM) and your own data to generate responses.'''

In [5]:
traductor(frase)

[{'translation_text': 'La generación aumentada de recuperación (RAG) es un patrón que funciona con modelos de lenguaje grande (LLM) preentrenados y sus propios datos para generar respuestas.'}]

In [8]:
respuesta = traductor(frase)[0]['translation_text']

respuesta

'La generación aumentada de recuperación (RAG) es un patrón que funciona con modelos de lenguaje grande (LLM) preentrenados y sus propios datos para generar respuestas.'

## 3 - Usando el modelo traductor

Vamos a ver como usar el modelo fuera del pipeline.

In [9]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

### 3.1 Tokenizador

In [10]:
tokenizador = AutoTokenizer.from_pretrained(modelo)

In [11]:
tokenizador

MarianTokenizer(name_or_path='Helsinki-NLP/opus-mt-en-es', vocab_size=65001, model_max_length=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'eos_token': '</s>', 'unk_token': '<unk>', 'pad_token': '<pad>'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	1: AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	65000: AddedToken("<pad>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}

Características y funcionalidad de MarianTokenizer:

1. Tokenización especializada:
MarianTokenizer está optimizado para preparar datos para su uso con los modelos Marian, una serie de modelos de traducción automática basados en la arquitectura de transformers. Esto incluye la conversión de texto en secuencias de tokens que pueden ser procesadas por los modelos de red neuronal.

2. Compatibilidad con múltiples idiomas:
Marian y su tokenizer son notables por su capacidad para manejar múltiples idiomas, lo que los hace adecuados para sistemas de traducción automática multilingüe.

3. Integración de tokens especiales:
Incluye tokens especiales necesarios para la traducción, como tokens de inicio y fin de secuencia, que son cruciales para que los modelos de traducción determinen cuándo comenzar y terminar la generación de texto.

4. Preprocesamiento eficiente:
Al igual que otros tokenizadores avanzados, MarianTokenizer realiza operaciones de preprocesamiento que son esenciales para la traducción automática, como la normalización de texto, la segmentación en tokens y la conversión de estos tokens a índices numéricos.


In [12]:
frase

'Retrieval Augmented Generation (RAG) is a pattern that works with pretrained \n            Large Language Models (LLM) and your own data to generate responses.'

In [13]:
vector = tokenizador(frase, return_tensors='pt')

In [14]:
vector

{'input_ids': tensor([[54428,   315, 33159,  1579,   118, 37802,    22,  7679,  1051,    39,
            31,     8,  8921,    27,  2102,    41,   790, 44968, 18050,  8313,
         32856,    22,   399, 15706,    39,    10,    83,   564,   633,    13,
          4049,  8840,     3,     0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

### 3.2 - Modelo traductor

Una obtenido el vector del tokenizador, lo usamos como entrada del modelo traductor.

In [15]:
modelo_traductor = AutoModelForSeq2SeqLM.from_pretrained(modelo)

In [16]:
modelo_traductor

MarianMTModel(
  (model): MarianModel(
    (shared): Embedding(65001, 512, padding_idx=65000)
    (encoder): MarianEncoder(
      (embed_tokens): Embedding(65001, 512, padding_idx=65000)
      (embed_positions): MarianSinusoidalPositionalEmbedding(512, 512)
      (layers): ModuleList(
        (0-5): 6 x MarianEncoderLayer(
          (self_attn): MarianAttention(
            (k_proj): Linear(in_features=512, out_features=512, bias=True)
            (v_proj): Linear(in_features=512, out_features=512, bias=True)
            (q_proj): Linear(in_features=512, out_features=512, bias=True)
            (out_proj): Linear(in_features=512, out_features=512, bias=True)
          )
          (self_attn_layer_norm): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
          (activation_fn): SiLU()
          (fc1): Linear(in_features=512, out_features=2048, bias=True)
          (fc2): Linear(in_features=2048, out_features=512, bias=True)
          (final_layer_norm): LayerNorm((512,), eps=1e-05

**Componentes del MarianMTModel**:

1. Embedding compartido:

+ (shared): Usa una capa de embeddings que transforma los tokens de entrada en vectores de 512 dimensiones. El índice de padding 65000 es usado para marcar los tokens que no son parte del texto real y deberían ser ignorados en el procesamiento.


2. Encoder:

+ (embed_tokens): Embeddings para los tokens de entrada, compartidos con el decoder.
+ (embed_positions): Emplea embeddings posicionales sinusoidales para incorporar información sobre la posición de los tokens en la secuencia.
+ (layers): Compuesto por 6 capas de tipo MarianEncoderLayer, que incluyen:
    + MarianAttention: Mecanismo de atención para procesar la entrada y determinar la relevancia de diferentes partes de la secuencia de entrada.
    + Linear: Transformaciones lineales para proyectar los vectores de atención.
    + LayerNorm: Normalización de capa para estabilizar la salida de la red.
    + SiLU (Swish): Función de activación no lineal.
    + fc1 y fc2: Transformaciones lineales que expanden y luego reducen las dimensiones, ayudando en la extracción de características.


3. Decoder:

+ (embed_tokens y embed_positions): Similar al encoder, usa embeddings para tokens y posiciones.
+ (layers): Similar a las capas del encoder pero con algunas diferencias clave:
    + self_attn y encoder_attn: Dos mecanismos de atención, donde self_attn se enfoca en la secuencia que se está generando y encoder_attn en la salida del encoder para incorporar contexto de la entrada.
    + encoder_attn_layer_norm: Normalización adicional para la atención que conecta con el encoder.


4. Cabeza de modelo de lenguaje (lm_head):

+ Linear: Transformación lineal que mapea la salida del decoder al tamaño del vocabulario (65001 tokens), que es usado para predecir el siguiente token en la secuencia de salida.





**Funcionamiento general**:

El modelo MarianMTModel procesa la entrada textual en un idioma, la codifica en una representación intermedia utilizando su encoder, y luego usa el decoder para transformar esa representación intermedia en texto en otro idioma. La eficiencia y efectividad del modelo se derivan de su capacidad para manejar dependencias complejas y largas distancias en el texto, haciendo uso de la atención y la normalización para manejar el flujo de información a través de la red.

In [17]:
respuesta = modelo_traductor.generate(**vector)

In [18]:
respuesta

tensor([[65000,    69,  5511,  8653,   199,     4,  4308,    22,  7679,  1051,
            39,    43,    28, 12956,    15,  4642,    29,  4730,     4,  9100,
          2294,    22,   399, 15706,    39,   790, 16466,    61,  3494,    11,
            84,  3735,   506,    24,  3548,  4103,     3,     0]])

In [21]:
tokenizador.batch_decode(respuesta, skip_special_tokens=True)[0]

'La generación aumentada de recuperación (RAG) es un patrón que funciona con modelos de lenguaje grande (LLM) preentrenados y sus propios datos para generar respuestas.'

### 3.3 Resumen funcional
Vamos a poner todo el código junto en una sola función:

In [22]:
# librerias
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM



def traductor(frase: str, modelo: str) -> str:
    
    """
    Función para traducir un texto.
    
    Params:
    + frase: string. Frase o texto a ser traducido.
    + modelo: string. Modelo de transformers para traducir.
    
    Return:
    String. Frase o texto traducido.
    """
    
    # con este objeto vectorizamos las palabras
    tokenizador = AutoTokenizer.from_pretrained(modelo)
    
    
    # creación del vector
    vector = tokenizador(frase, return_tensors='pt')
    
    
    # inicializacion del modelo traductor
    modelo_traductor = AutoModelForSeq2SeqLM.from_pretrained(modelo)
    
    # tensor de respuesta del modelo
    respuesta = modelo_traductor.generate(**vector)
    
    # respuesta del modelo
    respuesta = tokenizador.batch_decode(respuesta, skip_special_tokens=True)[0]
    
    return respuesta

In [23]:
traductor(frase, modelo)

'La generación aumentada de recuperación (RAG) es un patrón que funciona con modelos de lenguaje grande (LLM) preentrenados y sus propios datos para generar respuestas.'

## 4 - Ejemplo con más texto

En la carpeta de archivos tenemos uno llamado `shakespeare.txt`, que contiene la obra del autor. Vamos a cargar los primeros sonetos y traducirlos con la función que acabamos de escribir.

In [24]:
with open('../../../files/shakespeare.txt') as f:
    
    soneto = f.read().split('\n\n')[1]

In [25]:
soneto

"\n                     2\n  When forty winters shall besiege thy brow,\n  And dig deep trenches in thy beauty's field,\n  Thy youth's proud livery so gazed on now,\n  Will be a tattered weed of small worth held:\n  Then being asked, where all thy beauty lies,\n  Where all the treasure of thy lusty days;\n  To say within thine own deep sunken eyes,\n  Were an all-eating shame, and thriftless praise.\n  How much more praise deserved thy beauty's use,\n  If thou couldst answer 'This fair child of mine\n  Shall sum my count, and make my old excuse'\n  Proving his beauty by succession thine.\n    This were to be new made when thou art old,\n    And see thy blood warm when thou feel'st it cold."

In [26]:
traductor(soneto, modelo)

"2 Cuando cuarenta inviernos asediare tu frente, Y cavare profundas trincheras en el campo de tu hermosura, La altivez de tu juventud Mirada así ahora, Sera una mala hierba de poco valor sostenida: Entonces se preguntara, Donde yace toda tu hermosura, Donde todo el tesoro de tus días lujuriosos; Para decir dentro de tus propios ojos profundos hundidos, Era una vergüenza que todo comía, y alabanza sin provecho. Cuanta más alabanza merecía el uso de tu hermosura, Si pudieras responder 'Este hermoso hijo mío sumará mi cuenta, Y hará mi vieja excusa' Demostrando su hermosura por sucesión la tuya. Esto sería nuevo cuando seas viejo, Y verás tu sangre caliente cuando la sientas fría."

## 5 - Más modelos de traducción

Desde el mismo grupo de desarrollo, Helsinki-NLP, vamos a probar la tradcción inversa, es decir, del castellano al inglés:

In [27]:
# Al dotor Francisco Díaz, de Miguel de Cervantes, soneto

texto = '''
Tú, que con nuevo y sin igual decoro
tantos remedios para un mal ordenas,
bien puedes esperar d'estas arenas,
del sacro Tajo, las que son de oro,
    y el lauro que se debe al que un tesoro
halla de ciencia, con tan ricas venas
de raro advertimiento y salud llenas,
contento y risa del enfermo lloro;
    que por tu industria una deshecha piedra
mil mármoles, mil bronces a tu fama
dará sin invidiosas competencias;
    daráte el cielo palma, el suelo yedra,
pues que el uno y el otro ya te llama
espíritu de Apolo en ambas ciencias.
'''

In [30]:
modelo = 'Helsinki-NLP/opus-mt-es-en'

In [31]:
traductor(texto, modelo)



También, el mismo equipo de trabajo, ha desarrollado un modelo para traducir desde cualquier lengua romance al inglés. Vamos a probarlo:

In [35]:
# L’horloge – Charles Baudelaire

texto = '''
Horloge! Dieu sinestre, effrayant, impassible,
Dont le doigt nous menace et nous dit: Souviens-toi! 
Les vibrantes Douleaurs dants ton cœur plein d'effroi 
Se plateront bientôt comme dans une cible;

Le Plaisir vaporeux fuira vers l'horizon
Ainsi qu'une sylphide au fond de la coulisse;
Chaque instante te dévore un morceau du délice
A chaque homme accordé pour toute sa saison.

Trois mille six cents fois par heure, le Seconde
Chuchote: Souviens-toi! –Rapide, avec sa voix
D'insecte, Maintenant dit: Je suis Autrefois,
Et j'ai pompé ta vie avec ma trompe immnonde!

Remember! Souvients-toi! prodique! Esto memor!
(Mon gosier de métal parle toutes les langues).
Les minutes, mortel folâtre, sont des gangues
Qu'il ne faut pas lâcher sans un extraire l'or!

Souviens-toi! que le temps est un joueur avide
Qui gagne sans tricher, à tout coup! c'est la loi,
Le jour décroit; la nuit augmente; souviens-toi!
Le gouffre a toujours soif; la clepsydre se vide.

Tantôt sonera l'heure où le divin Hasard,
 Où l'auguste Vertu, ton épouse encor vierge,
 Où le Repentir même (oh! la dernière auberge!),
 Où tout te dira: meurs, vieux  lâche! Il est trop tard!

'''

In [36]:
modelo = 'Helsinki-NLP/opus-mt-ROMANCE-en'

In [37]:
traductor(texto, modelo)

'Horloge! God sinister, frightening, impassable, whose finger threatens us and says to us: Remember! The vibrant Painers with your heart full of fear will soon flatten themselves as if in a target; The vaporous Pleasure will flee to the horizon as well as a sylphide at the bottom of the back; Every instant devours a piece of delight to every man granted for all his season. Three thousand and six hundred times an hour, the Second Chuchote: Remember! "Rapid, with his voice of insect, Now said: I am old times, And I have pumped your life with my immendous trumpet! Remember! Remember! Remember! This memorize! (My metal mouth speaks all languages).'

Otro ejemplo en italiano:

In [38]:
# Dante Alighieri: Tutti li miei penser


texto = '''
Tutti li miei penser parlan d’Amore;
e hanno in lor sì gran varietate,
ch’altro mi fa voler sua potestate,
4altro folle ragiona il suo valore,

altro sperando m’apporta dolzore,
altro pianger mi fa spesse fiate;
e sol s’accordano in cherer pietate,
8tremando di paura che è nel core.

Ond’io non so da qual matera prenda;
e vorrei dire, e non so ch’io mi dica:
11così mi trovo in amorosa erranza!

E se con tutti voi fare accordanza,
convenemi chiamar la mia nemica,
madonna la Pietà, che mi difenda.
'''

In [39]:
traductor(texto, modelo)

"All my thoughts speak of Love; and they have such great variety in them, that other makes me want his power, 4other folly reason its value, other hoping for me sweetness, other weeping makes me thick breaths; and they only agree in cherer pietate, 8fearing that it is in the core. Ond. I don't know which mother she takes from; and I would like to say, and I don't know what I say: 11so I find myself in loving errance! And if with all of you I agree, please call me my enemy, Mother of Mercy, who defends me."

Otro ejemplo en castellano:

In [40]:
# Este poema pertenece a Sonetos del amor oscuro, Federico Garcia Lorca


texto = '''
Amor de mis entrañas, viva muerte,
en vano espero tu palabra escrita
y pienso, con la flor que se marchita,
que si vivo sin mí quiero perderte.

El aire es inmortal. La piedra inerte
ni conoce la sombra ni la evita.
Corazón interior no necesita
la miel helada que la luna vierte.

Pero yo te sufrí. Rasgué mis venas,
tigre y paloma, sobre tu cintura
en duelo de mordiscos y azucenas.

Llena pues de palabras mi locura
o déjame vivir en mi serena
noche del alma para siempre oscura.
'''

In [41]:
traductor(texto, modelo)

'Love of my bowels, living death, in vain I wait for your written word and think, with the flower that fades, that if I live without me I want to lose you. The air is immortal. The inert stone neither knows the shadow nor avoids it. Inner heart does not need the frozen honey that the moon pours out. But I suffered you. I tore my veins, tiger and dove, on your waist in mourning of bites and sugars. Fill my madness with words or let me live in my serene night of the soul forever dark.'