# Introducci√≥n a la generaci√≥n de texto.

**NOTA1:** Este documento es una traducci√≥n del documento <a href="https://machinelearningmastery.com/auto-completion-style-text-generation-with-gpt-2-model/?utm_source=drip&utm_medium=email&utm_campaign=MLM+Newsletter+February+28%2C+2025&utm_content=Auto-Completion+Style+Text+Generation+with+GPT-2+Model+%E2%80%A2+Your+First+Machine+Learning+Project+in+Python+Step-By-Step" target="_blank"> que se puede ver en este enlace </a>.

**NOTA2**: Se aconseja ejecutar los c√≥digos que aqu√≠ se presentan en google colab si no se dispone de un ordenador potente y con GPU para agilizar la ejecuci√≥n del c√≥digo

```{index} transformers
```
Generar texto sin sentido es un ejercicio de programaci√≥n sencillo para principiantes, pero completar una oraci√≥n de forma significativa requerir√≠a mucho trabajo. El panorama de la tecnolog√≠a de autocompletado se ha transformado dr√°sticamente con la introducci√≥n de enfoques neuronales. Con la biblioteca de transformers de Hugging Face, implementar el autocompletado de texto requiere solo unas pocas l√≠neas de c√≥digo. En este tutorial completo, implementar√° varios ejemplos y explorar√° c√≥mo los sistemas modernos se diferencian de los tradicionales y por qu√© estas diferencias son importantes.

## Descripci√≥n general.

Este apartado consta de cuatro bloques:

* Enfoques tradicionales y enfoques neuronales
* Arquitectura de autocompletado
* Implementaci√≥n b√°sica de autocompletar
* Almacenamiento en cach√© y entrada por lotes

## Enfoques tradicionales y enfoques neuronales
```{index} N-gram (modelos)
```
Cuando escribes una palabra en la barra de b√∫squeda de Google, como ‚Äúm√°quina‚Äù, es posible que aparezcan otras palabras adicionales, como ‚Äúaprendizaje‚Äù, para formar ‚Äúaprendizaje autom√°tico‚Äù. Se trata de una tecnolog√≠a de autocompletado . La sugerencia puede no ser la que esperas, pero siempre es coherente.

Los sistemas tradicionales de autocompletado se han basado en m√©todos relativamente estad√≠sticos. Los modelos de N-gram predicen la siguiente palabra observando una ventana fija de palabras anteriores y compar√°ndolas con muestras recopiladas. Este m√©todo tiene dificultades con contextos m√°s largos y combinaciones novedosas. Los enfoques basados en diccionarios solo pueden sugerir palabras que ya han visto antes, lo que limita su capacidad para manejar terminolog√≠a nueva. El an√°lisis de frecuencia proporciona sugerencias basadas en patrones comunes, pero a menudo pasa por alto el contexto matizado del texto actual.

Los sistemas de autocompletado neuronal, en particular los basados en GPT-2, representan un cambio fundamental en la capacidad. Estos sistemas entienden el contexto en lugar de buscar coincidencias de palabras. Consideran todo el alcance del texto anterior en lugar de solo unas pocas palabras. Captan relaciones sem√°nticas, lo que les permite sugerir opciones de finalizaci√≥n que coinciden no solo con la gram√°tica sino tambi√©n con el significado del texto. La capacidad generativa les permite producir frases u oraciones completas que mantienen la coherencia con el contenido existente.

## Arquitectura de autocompletado.

Un moderno sistema de autocompletado neuronal integra varios componentes sofisticados que funcionan juntos sin problemas.

El modelo de lenguaje funciona como motor cognitivo. Procesa el texto de entrada y mantiene un estado interno para capturar los matices del proceso de generaci√≥n de texto en curso. El componente de tokenizaci√≥n act√∫a como un puente entre el texto legible por humanos y las representaciones num√©ricas del modelo. El controlador de generaci√≥n organiza el proceso, empleando estrategias avanzadas para filtrar y clasificar las posibles finalizaciones. Equilibra cuidadosamente el tiempo de respuesta y la calidad de las sugerencias, lo que garantiza que los usuarios reciban finalizaciones √∫tiles sin demoras notables.

El desarrollo de un sistema de autocompletado neuronal eficaz implica superar varios desaf√≠os cr√≠ticos. La latencia es una preocupaci√≥n principal, ya que los usuarios esperan un tiempo de respuesta en milisegundos mientras manejan la complejidad computacional de las operaciones de redes neuronales.

El control de calidad es otro desaf√≠o. Se espera que el sistema genere sugerencias relevantes, por lo que se requieren mecanismos de filtrado avanzados para evitar que se completen los campos de forma inapropiada y garantizar que las sugerencias se ajusten al dominio y al estilo de escritura del usuario.

La gesti√≥n de recursos es crucial a la hora de escalar el sistema para que admita a varios usuarios. Las importantes demandas de memoria de los modelos neuronales y la intensidad computacional de la generaci√≥n de texto deben equilibrarse cuidadosamente con los recursos del sistema y los requisitos de tiempo de respuesta.

## Implementaci√≥n b√°sica de autocompletar

Dejemos de lado las consideraciones de un sistema m√°s grande y centr√©monos en una funci√≥n de autocompletado simple para texto parcial. Es f√°cil de implementar utilizando los modelos entrenados previamente de la biblioteca de transformers:

(El modelo que utilizamos aqu√≠ lo podemos ver en HugginFace <a href="https://huggingface.co/MazharLughmani/GPT2LMHeadModel" target="_blank"> en este enlace </a> )

In [1]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch

class AutoComplete:
    def __init__(self, model_name='gpt2'):
        """Initialize the auto-complete system."""
        self.tokenizer = GPT2Tokenizer.from_pretrained(model_name)
        self.model = GPT2LMHeadModel.from_pretrained(model_name)
        self.device = 'cuda' if torch.cuda.is_available() else 'cpu'
        self.model.to(self.device)
        self.model.eval()  # Set to evaluation mode

    def get_completion(self, text, max_length=50):
        """Generate completion for the input text."""
        # Encode the input text
        inputs = self.tokenizer(text, add_special_tokens=False, return_tensors="pt")
        input_ids = inputs["input_ids"].to(self.device)
        attn_masks = inputs["attention_mask"].to(self.device)

        # Generate completion
        with torch.no_grad():
            outputs = self.model.generate(
                input_ids,
                attention_mask=attn_masks,
                max_length=max_length,
                num_return_sequences=1,
                pad_token_id=self.tokenizer.eos_token_id,
                do_sample=True,
                temperature=0.7
            )

        # Decode and extract completion
        full_text = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
        completion = full_text[len(text):]

        return completion

# using autocomplete to see what we get
auto_complete = AutoComplete()
text = "The future of artificial"
completion = auto_complete.get_completion(text)
print(f"Input: {text}")
print(f"Completion: {completion}")

  from .autonotebook import tqdm as notebook_tqdm


Input: The future of artificial
Completion:  intelligence is uncertain, but it is becoming increasingly likely that someday, when we become self-aware, we'll be able to "know" it.

In a recent article, Richard Schmalz and I discussed why self


Veamos qu√© hace el c√≥digo anterior. Defini√≥ la clase *AutoComplete*, que se carga GPT2Tokenizercomo tokenizador de texto y GPT2LMHeadModelcomo un modelo GPT-2 entrenado previamente capaz de generar texto. El modelo est√° configurado en modo de evaluaci√≥n ya que est√° utilizando el modelo, no para entrenarlo.

La generaci√≥n de texto est√° en la funci√≥n *get_completion()*. El texto de entrada se convierte en tokens antes de pasarlo al modelo. Invoca el modelo con *torch.no_grad()* contexto para omitir el c√°lculo del gradiente y ahorrar tiempo y memoria. Se llama al modelo con temperature=0.7 para lograr una creatividad equilibrada. La salida del modelo debe convertirse nuevamente en texto mediante el tokenizador. Los otros par√°metros en *self.model.generate()* son:

* *num_return_sequences=1* para generar solo una finalizaci√≥n. El modelo puede generar m√∫ltiples salidas para la misma entrada.
* *pad_token_id=self.tokenizer.eos_token_id* para evitar el relleno innecesario
* *do_sample=True* para permitir el muestreo en lugar de la generaci√≥n de texto determinista. Es necesario para la generaci√≥n creativa.


## Almacenamiento en cach√© y entrada por lotes.

El c√≥digo anterior funciona como un programa simple, pero necesita algo de pulido para ejecutarlo como un servicio.

Primero, implementemos un sistema de almacenamiento en cach√© para mejorar el rendimiento de las aplicaciones en tiempo real:

In [2]:
from functools import lru_cache

class CachedAutoComplete(AutoComplete):
    def __init__(self, cache_size=1000, **kwargs):
        """Initialize with caching support."""
        super().__init__(**kwargs)
        self.get_completion = lru_cache(maxsize=cache_size)(
            self.get_completion
        )

Esto se basa en la clase anterior al decorar la funci√≥n de generaci√≥n con un cach√© LRU. La biblioteca de Python maneja el almacenamiento en cach√© autom√°ticamente. Simplemente use *CachedAutoComplete* en lugar de *AutoComplete* y todo funcionar√° de la misma manera, excepto que el cach√© devolver√° instant√°neamente los resultados de las entradas procesadas previamente.

Ahora, optimicemos a√∫n m√°s el sistema para lograr un mejor rendimiento en tiempo real. Uno de los desaf√≠os de la creaci√≥n de un servicio es manejar varios usuarios simult√°neamente, por lo que resulta beneficioso procesar varias entradas como un lote. Sin embargo, esto aumenta el uso de memoria. Puede mitigar la carga de trabajo adicional reduciendo el tama√±o del modelo mediante n√∫meros flotantes de 16 bits:

In [3]:
class OptimizedAutoComplete(CachedAutoComplete):
    def __init__(self, **kwargs):
        """Initialize with optimizations."""
        super().__init__(**kwargs)
        self.tokenizer.pad_token = self.tokenizer.eos_token

        if self.device == "cuda":
            self.model = self.model.half()  # Use FP16 on GPU

        # use eval mode and cuda graphs
        self.model.eval()

    def preprocess_batch(self, texts):
        """Efficiently process multiple texts."""
        # Tokenize all texts at once
        inputs = self.tokenizer(texts, padding=True, truncation=True, return_tensors="pt")
        return inputs.to(self.device)

    def generate_batch(self, texts, max_length=50):
        """Generate completions for multiple texts."""
        # Preprocess batch
        inputs = self.preprocess_batch(texts)

        # Generate completions
        with torch.no_grad():
            outputs = self.model.generate(
                inputs['input_ids'],
                attention_mask=inputs['attention_mask'],
                max_length=max_length,
                num_return_sequences=1,
                pad_token_id=self.tokenizer.eos_token_id,
                do_sample=True,
                temperature=0.7
            )

        # Decode completions
        completions = self.tokenizer.batch_decode(outputs, skip_special_tokens=True)

        # Extract new text
        results = []
        for text, completion in zip(texts, completions):
            results.append(completion[len(text):])

        return results

Convertir un modelo en un valor de punto flotante de 16 bits es tan sencillo como hacerlo *self.model = self.model.half()* en el constructor. La mayor√≠a de las CPU no admiten valores de punto flotante de 16 bits. Por lo tanto, debe hacerlo solo si puede ejecutar el modelo en una GPU. Tenga en cuenta que la funci√≥n *generate_batch()* es b√°sicamente la misma que la funci√≥n  *generate()* anterior, pero debe procesar y colocar la salida por lotes en una lista.

A continuaci√≥n se muestra el c√≥digo completo, incluido c√≥mo utilizar la generaci√≥n por lotes:

In [4]:
from functools import lru_cache
from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch


class AutoComplete:
    def __init__(self, model_name="gpt2"):
        """Initialize the auto-complete system."""
        self.tokenizer = GPT2Tokenizer.from_pretrained(model_name, padding_side="left")
        self.model = GPT2LMHeadModel.from_pretrained(model_name)
        self.device = "cuda" if torch.cuda.is_available() else "cpu"
        self.model.to(self.device)
        self.model.eval()  # Set to evaluation mode

    def get_completion(self, text, max_length=50):
        """Generate completion for the input text."""
        print("**** Completion:", text)
        # Encode the input text
        inputs = self.tokenizer(text, add_special_tokens=False, return_tensors="pt")
        input_ids = inputs["input_ids"].to(self.device)
        attn_masks = inputs["attention_mask"].to(self.device)

        # Generate completion
        with torch.no_grad():
            outputs = self.model.generate(
                input_ids,
                attention_mask=attn_masks,
                max_length=max_length,
                num_return_sequences=1,
                pad_token_id=self.tokenizer.eos_token_id,
                do_sample=True,
                temperature=0.7
            )

        # Decode and extract completion
        full_text = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
        completion = full_text[len(text):]

        return completion


class CachedAutoComplete(AutoComplete):
    def __init__(self, cache_size=1000, **kwargs):
        """Initialize with caching support."""
        super().__init__(**kwargs)
        self.get_completion = lru_cache(maxsize=cache_size)(
            self.get_completion
        )


class OptimizedAutoComplete(CachedAutoComplete):
    def __init__(self, **kwargs):
        """Initialize with optimizations."""
        super().__init__(**kwargs)
        self.tokenizer.pad_token = self.tokenizer.eos_token

        if self.device == "cuda":
            self.model = self.model.half()  # Use FP16 on GPU

        # use eval mode and cuda graphs
        self.model.eval()

    def preprocess_batch(self, texts):
        """Efficiently process multiple texts."""
        # Tokenize all texts at once
        inputs = self.tokenizer(texts, padding=True, truncation=True, return_tensors="pt")
        return inputs.to(self.device)

    def generate_batch(self, texts, max_length=50):
        """Generate completions for multiple texts."""
        # Preprocess batch
        inputs = self.preprocess_batch(texts)

        # Generate completions
        with torch.no_grad():
            outputs = self.model.generate(
                inputs["input_ids"],
                attention_mask=inputs["attention_mask"],
                max_length=max_length,
                num_return_sequences=1,
                pad_token_id=self.tokenizer.eos_token_id,
                do_sample=True,
                temperature=0.7
            )

        # Decode completions
        completions = self.tokenizer.batch_decode(outputs, skip_special_tokens=True)

        # Extract new text
        results = []
        for text, completion in zip(texts, completions):
            results.append(completion[len(text):])

        return results

# Example: Optimized batch completion
optimized_complete = OptimizedAutoComplete()
texts = [
    "Machine learning is",
    "Deep neural networks can",
    "The training process involves"
]
completions = optimized_complete.generate_batch(texts)
for text, completion in zip(texts, completions):
    print(f"\nInput: {text}")
    print(f"Completion: {completion}")


Input: Machine learning is
Completion:  the development of new applications that integrate with existing technology rather than develop new hardware and techniques. That is a very important distinction. As we continue to build new applications, we need to be able to develop new technologies that are less dependent

Input: Deep neural networks can
Completion:  create a network of neurons capable of processing different types of information (e.g., the information that is received by a neuron and what is received by an electric field). The neural network that generates this information can then be used to

Input: The training process involves
Completion:  three stages: the first is the initial setup, the second is the initial implementation, and the third is the final execution. The third stage consists of the execution of the training process, with the final step having been completed. The


## Resumen

En este tutorial, se ha visto c√≥mo crear un sistema de autocompletado inteligente utilizando GPT-2. En concreto, se ha expuesto lo siguiente:

* La teor√≠a detr√°s de los sistemas de autocompletado neuronal
* C√≥mo implementar el autocompletado b√°sico
* C√≥mo agregar almacenamiento en cach√© para un mejor rendimiento
* C√≥mo hacer sugerencias teniendo en cuenta el contexto
* C√≥mo optimizar para el uso en tiempo real

## Bases de datos vectoriales.

üöÄ 