### BERT

Vamos a echar un vistazo al modelo BERT para descubrir cómo ayuda a convertir palabras en vectores.

BERT (Representaciones de Codificador Bidireccional de Transformadores) es un modelo de red neuronal creado para la representación del lenguaje. Fue creado por Google para mejorar la relevancia de los resultados de búsqueda y se publicó en 2018 (el artículo original se encuentra en:https://arxiv.org/abs/1810.04805 (Estos materiales están en inglés)). Este algoritmo es capaz de "comprender" el contexto de un texto completo, no solo de frases cortas. BERT se usa con frecuencia en el machine learning para convertir textos en vectores. Los especialistas suelen utilizar modelos BERT existentes que están previamente entrenados (por Google o, posiblemente, por otros colaboradores) en grandes corpus de texto. Los modelos BERT previamente entrenados funcionan para muchos idiomas (104, con exactitud). Puedes entrenar tu propio modelo de representación del lenguaje, pero este requerirá muchos recursos computacionales. 

BERT es un paso evolutivo en comparación con word2vec. BERT se convirtió rápidamente en la opción popular para los programadores y ha inspirado a los investigadores a crear otros modelos de representación de lenguaje: FastText, GloVe (Vectores globales para representación de palabras), ELMO (Insertados del modelo de lenguaje), GPT (Transformador generativo de preentrenamiento). Los modelos más precisos actualmente son BERT y GPT.

Al procesar palabras, BERT considera tanto las palabras vecinas inmediatas como las palabras más lejanas. Esto permite que BERT produzca vectores precisos con respecto al significado natural de las palabras.

Así es como funciona:

Aquí hay un ejemplo de entrada para el modelo: "The red beak of the puffin [MASK] in the blue [MASK] ", donde MASK representa palabras desconocidas o enmascaradas. El modelo tiene que adivinar cuáles son estas palabras enmascaradas.
El modelo aprende a averiguar si las palabras del enunciado están relacionadas. Teníamos enmascaradas las palabras "flashed" y "sky". El modelo tiene que comprender que una palabra sigue a la otra. Entonces, si ocultáramos la palabra "crawled" en lugar de "flashed", el modelo no encontraría una conexión.


📘 BERT (Bidirectional Encoder Representations from Transformers)
🔹 ¿Qué es BERT?

BERT es un modelo de red neuronal para la representación del lenguaje.

Fue creado por Google en 2018 para mejorar la relevancia de los resultados de búsqueda.

El artículo original se encuentra aquí: arxiv.org/abs/1810.04805
.

A diferencia de modelos anteriores, BERT comprende el contexto completo de un texto, no solo frases aisladas.

🔹 ¿Para qué se usa?

BERT convierte textos en vectores numéricos (embeddings).

Se utiliza en machine learning y NLP para tareas como:

Análisis de sentimiento

Clasificación de texto

Búsquedas semánticas

Respuestas automáticas

Generalmente, los especialistas emplean modelos BERT preentrenados (por Google u otros equipos).

Estos modelos están entrenados en grandes corpus y funcionan en 104 idiomas.

Es posible entrenar un BERT propio, pero requiere muchísimos recursos computacionales.

🔹 BERT vs otros modelos

Evolución respecto a Word2Vec.

Inspiró la creación de otros modelos de representación de lenguaje:

FastText

GloVe (Global Vectors for Word Representation)

ELMo (Embeddings from Language Models)

GPT (Generative Pre-trained Transformer)

👉 Actualmente, BERT y GPT son los más precisos y utilizados.

🔹 ¿Cómo funciona BERT?

BERT analiza tanto las palabras vecinas inmediatas como las lejanas.

Esto le permite generar vectores precisos que reflejan el significado real de las palabras en contexto.

Ejemplo:

Texto de entrada:

"The red beak of the puffin [MASK] in the blue [MASK]"


[MASK] indica una palabra desconocida que el modelo debe predecir.

En este caso, las palabras ocultas eran "flashed" y "sky".

El modelo debe entender la relación: “flashed” ocurre antes de “sky”.

Si reemplazáramos por "crawled", BERT detectaría que no hay conexión semántica.

📌 Resumen corto:
BERT es un modelo de Google que convierte texto en vectores teniendo en cuenta el contexto completo. Es muy usado en NLP y marcó una evolución frente a técnicas anteriores como Word2Vec.

BERT y preprocesamiento
Vamos a resolver una tarea de clasificación para reseñas de películas usando la representación del lenguaje BERT, es decir, usando BERT para crear vectores para palabras. Vamos a tomar un modelo previamente entrenado llamado bert-base-uncased (entrenado en textos en inglés en minúsculas).

Para esta lección, usaremos un código prefabricado que no necesita cambios. Esta práctica no tiene nada de malo. Es común que los programadores copien y usen fragmentos de código existentes. Tu tarea será hacer que funcione.

Entonces, ¿cuál es la tarea? Tenemos un gran conjunto de datos de reseñas de películas y necesitamos entrenar la máquina para diferenciar entre reseñas positivas y negativas.

Vamos a resolver esta tarea usando las librerías PyTorch y transformers. La primera librería se utiliza para trabajar con modelos de redes neuronales, mientras que la segunda implementa BERT y otros modelos de representación del lenguaje. Vamos a importarlas:




Como instalar librerias

1. Verifica tu versión de Python

PyTorch conda requiere Python 3.8 – 3.11 (a 2025).
En tu terminal:

python --version


Si estás en 3.12, mejor crea un ambiente nuevo con 3.10 (recomendado):

conda create -n torch_env python=3.10 -y
conda activate torch_env

2. Instala PyTorch limpio con CPU (para evitar problemas con CUDA al inicio)
conda install pytorch torchvision torchaudio cpuonly -c pytorch


Esto funciona en cualquier PC, incluso sin GPU.

3. Si quieres GPU (CUDA)

Primero revisa si tu tarjeta NVIDIA tiene drivers y CUDA instalados:

nvidia-smi


(Si esto falla, no uses CUDA aún).

Si funciona, instala PyTorch con soporte CUDA:

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

4. Reinstala desde cero si el error persiste

A veces hay conflicto pip-conda. Haz:

conda remove pytorch torchvision torchaudio --force
pip uninstall torch torchvision torchaudio -y


Y reinstala solo con conda como en los pasos 2 o 3.

5. Prueba la instalación

import torch
print(torch.__version__)
print("CUDA disponible:", torch.cuda.is_available())

In [1]:
import numpy as np
import torch
import transformers

print(torch.__version__)
print(transformers.__version__)

  from .autonotebook import tqdm as notebook_tqdm


2.5.1
4.51.3


Antes de convertir textos en vectores, necesitamos preprocesar el texto. BERT tiene su propio tokenizador basado en el corpus en el que fue entrenado. Otros tokenizadores no funcionan con BERT y no requieren lematización.

Pasos de preprocesamiento para el texto:

Inicializa el tokenizador como una instancia de BertTokenizer() con el nombre del modelo previamente entrenado.

In [2]:
# Inicializa el tokenizador como una instancia de BertTokenizer() 
# con el nombre del modelo previamente entrenado.
tokenizer = transformers.BertTokenizer.from_pretrained('bert-base-uncased')

# Convierte el texto en ID de tokens y el tokenizador BERT 
# devolverá los ID de tokens en lugar de los tokens:
example = 'Es muy práctico utilizar transformadores'
ids = tokenizer.encode(example, add_special_tokens=True)
print(ids)

[101, 9686, 14163, 2100, 10975, 28804, 2080, 21183, 18622, 9057, 10938, 26467, 2229, 102]


Considera que los identificadores de token anteriores son esencialmente índices numéricos para tokens en el diccionario interno utilizado por BERT. También debes saber que el diccionario se usó para entrenar BERT previamente, es parte del modelo BERT y está cargado con el método from_pretrained.

Para operar el modelo correctamente, establecemos el argumento add_special_tokens en True. Significa que agregamos el token inicial (101) y el token final (102) a cualquier texto que se esté transformando.

BERT acepta vectores de una longitud fija, por ejemplo, de 512 tokens. Si no hay suficientes palabras en una cadena de entrada para completar todo el vector con tokens (o, más bien, sus identificadores), el final del vector se rellena con ceros. Si hay demasiadas palabras y la longitud del vector excede 510 (recuerda que se reservan dos posiciones para los tokens de inicio y finalización), o bien la cadena de entrada se limita al tamaño de 510, o bien se suelen omitir algunos identificadores devueltos por tokenizer.encode(), por ejemplo, todos los identificadores después de la posición 512 en la lista:


In [None]:
n = 512

padded = np.array(ids[:n] + [0]*(n - len(ids)))

print(padded)

# Obtenemos


[  101  9686 14163  2100 10975 28804  2080 21183 18622  9057 10938 26467
  2229   102     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0   

Ahora tenemos que decirle al modelo por qué los ceros no tienen información significativa. Esto es necesario para el componente del modelo que se llama attention. Vamos a descartar estos tokens y crear una máscara para los tokens importantes, indicando valores cero y distintos de cero:

In [4]:
attention_mask = np.where(padded != 0, 1, 0)
print(attention_mask.shape)

(512,)


Podemos establecer manualmente la longitud máxima de la entrada. Para ello, establece el parámetro max_length en el valor deseado y especifica truncation=True. Esto cortará los tokens que excedan el límite. Ten en cuenta que la parte resultante del texto inicial puede ser incluso más pequeña si add_special_token es True.
Considera este ejemplo intacto:

In [5]:
example = 'It is very handy to use transformers'
ids = tokenizer.encode(example, add_special_tokens=True)
print(ids)

[101, 2009, 2003, 2200, 18801, 2000, 2224, 19081, 102]


In [6]:
# El truncado
example = 'It is very handy to use transformers'
ids = tokenizer.encode(example, add_special_tokens=True, 
               max_length=5, truncation=True)
print(ids)


[101, 2009, 2003, 2200, 102]


5 tokens, tal como se esperaba, pero solo hay tres palabras presentes: max_length - tokens especiales = 5 - 2 = 3.