# Funcionamiento de BERT y GPT

En los últimos años, dos modelos han revolucionado el campo del Procesamiento del Lenguaje Natural (NLP): BERT (Bidirectional Encoder Representations from Transformers) y GPT (Generative Pre-trained Transformer). Estos modelos, basados en la arquitectura Transformer, han demostrado una capacidad sin precedentes para comprender y generar texto, superando significativamente a las técnicas anteriores.

## 3.2 Introducción a BERT y GPT

Mientras que BERT se destaca en tareas de comprensión del lenguaje, GPT sobresale en la generación de texto, demostrando la versatilidad y el poder de la arquitectura Transformer en el procesamiento del lenguaje natural.

### a. BERT (Bidirectional Encoder Representations from Transformers)

BERT es un modelo bidireccional, lo que significa que considera el contexto de una palabra tanto a su izquierda como a su derecha. Se entrena utilizando dos tareas principales:

- **Modelado de Lenguaje Máscara (MLM):** Se enmascaran algunas palabras en una oración y el modelo intenta predecirlas.
- **Predicción de la Próxima Oración (NSP):** El modelo predice si una oración sigue a otra en un texto.

### b. GPT-3 (Generative Pre-trained Transformer 3)

GPT-3 es un modelo generativo unidireccional, entrenado para predecir la próxima palabra en una secuencia. Utiliza una gran cantidad de datos y parámetros, lo que le permite generar texto coherente y relevante a partir de un prompt. A diferencia de BERT, que se enfoca en tareas de comprensión, GPT-3 se destaca en la generación de texto.

## Ejemplo práctico con BERT

Vamos a utilizar el modelo `bert-base-uncased` para realizar una tarea de Modelado de Lenguaje Máscara (MLM).

In [ ]:
from transformers import BertTokenizer, BertForMaskedLM
import torch

# Cargar el tokenizador y el modelo preentrenado BERT
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForMaskedLM.from_pretrained('bert-base-uncased')

# Crear una entrada con una palabra enmascarada
text = "El modelo BERT es realmente [MASK]."
inputs = tokenizer(text, return_tensors='pt')

# Obtener predicciones de la máscara
with torch.no_grad():
    outputs = model(**inputs)
    predictions = outputs.logits

# Obtener la palabra predicha en la posición enmascarada
masked_index = (inputs['input_ids'] == tokenizer.mask_token_id).nonzero(as_tuple=True)[1]
predicted_token_id = predictions[0, masked_index].argmax(axis=-1)
predicted_token = tokenizer.decode(predicted_token_id)

print(f'Palabra predicha: {predicted_token}')

## Ejemplo práctico con GPT-3

GPT-3 no está disponible de manera gratuita para su uso directo en modelos abiertos como BERT. Sin embargo, podemos hacer una simulación utilizando GPT-2, que sigue un enfoque similar.

Vamos a utilizar el modelo `gpt2` para generar texto a partir de un prompt.

In [ ]:
from transformers import GPT2Tokenizer, GPT2LMHeadModel

# Cargar el tokenizador y el modelo preentrenado GPT-2
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2LMHeadModel.from_pretrained('gpt2')

# Crear un prompt de entrada
prompt = "El futuro de la inteligencia artificial es"
inputs = tokenizer(prompt, return_tensors='pt')

# Generar texto
outputs = model.generate(inputs['input_ids'], max_length=50, num_return_sequences=1)
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(f'Texto generado: {generated_text}')