# El Caso Curioso de "Strawberry": ¿Por qué la IA no sabe contar letras?

Este es un ejemplo famoso en el mundo de la IA. Si le pides a un modelo que cuente letras, a veces falla estrepitosamente.
¿Por qué? Porque el modelo **no ve letras**, ve tokens (números).

Vamos a demostrar por qué matemáticamente el modelo no puede encontrar la letra 'r' dentro de la palabra "strawberry" si solo mira los tokens.

In [1]:
# Aseguramos que tiktoken esté cargado
import tiktoken
tokenizer = tiktoken.get_encoding('cl100k_base')

print("--- Desglose de la palabra 'Strawberry' ---")

# 1. Tokenizamos la palabra
strawberry_tokens = tokenizer.encode('strawberry')

# 2. Vemos qué "pedazos" (tokens) está viendo realmente la IA
for t in strawberry_tokens:
    decoded = tokenizer.decode([t])
    print(f'Token ID {t:<6} = "{decoded}"')

print("\n--- Buscando la letra 'r' ---")

# 3. Buscamos el token de la letra 'r' sola
r_token = tokenizer.encode('r')
print(f'El token para la letra "r" solita es: {r_token}')

# 4. Preguntamos: ¿Está el número de la "r" dentro de la lista de números de "strawberry"?
is_r_present = r_token[0] in strawberry_tokens

print(f"¿Existe el token {r_token} dentro de {strawberry_tokens}?")
print(f"Respuesta: {is_r_present}")

print("\nCONCLUSIÓN ERRÓNEA DE LA IA:")
print('Como el token de "r" no está en la lista, ¡la IA podría pensar que no hay letras "r"!')

--- Desglose de la palabra 'Strawberry' ---
Token ID 496    = "str"
Token ID 675    = "aw"
Token ID 15717  = "berry"

--- Buscando la letra 'r' ---
El token para la letra "r" solita es: [81]
¿Existe el token [81] dentro de [496, 675, 15717]?
Respuesta: False

CONCLUSIÓN ERRÓNEA DE LA IA:
Como el token de "r" no está en la lista, ¡la IA podría pensar que no hay letras "r"!


### La Solución: Volver al Texto Humano (Decodificar)

Para realizar tareas a nivel de caracteres (como contar letras, hacer acrósticos o rimas complejas), **siempre** debemos convertir los tokens de vuelta a texto (string) antes de procesar.

Al decodificar, recuperamos la cadena de caracteres completa y Python ya puede contar correctamente.

### La Solución: Volver al Texto Humano (Decodificar)

Para realizar tareas a nivel de caracteres (como contar letras, hacer acrósticos o rimas complejas), **siempre** debemos convertir los tokens de vuelta a texto (string) antes de procesar.

Al decodificar, recuperamos la cadena de caracteres completa y Python ya puede contar correctamente.

In [2]:
# 1. Decodificar la lista de tokens para volver a tener texto plano
strawberry_string = tokenizer.decode(strawberry_tokens)
print(f'Texto recuperado: "{strawberry_string}"')

# 2. Decodificar el token de 'r' (o simplemente usar el string 'r')
r_string = tokenizer.decode(r_token)
print(f'Letra a buscar: "{r_string}"')

# 3. Contar usando métodos de string de Python (la forma correcta)
count = strawberry_string.count(r_string)

print(f'\nCORRECCIÓN:')
print(f'La palabra "{strawberry_string}" tiene {count} letras "{r_string}".')

Texto recuperado: "strawberry"
Letra a buscar: "r"

CORRECCIÓN:
La palabra "strawberry" tiene 3 letras "r".


# El "Strawberry Problem": ¿Por qué GPT-4 falla en tareas simples de deletreo?

### Ceguera de Tokens: Limitaciones de BPE en el Procesamiento de Caracteres

# Conclusión del Ejercicio

Este ejercicio demuestra una limitación fundamental de la arquitectura de los LLMs modernos:

1.  **Ceguera a los Caracteres:** El modelo **no ve** la palabra "Strawberry" como una secuencia de letras (S-t-r-a...). La ve como una secuencia de números (Tokens).
2.  **El Token es una Caja Cerrada:** Para el modelo, el token `strawberry` es una unidad indivisible (un número entero). No puede "mirar dentro" de ese número para contar cuántas "r" tiene, a menos que se le fuerce a descomponerlo (decodificarlo).
3.  **Matemática vs. Lenguaje:** La operación `r in strawberry` falla porque matemáticamente el número que representa a la 'r' (ej: 345) no está dentro de la lista de números que forman 'strawberry' (ej: [456, 122]).

**Resumen:** Para realizar operaciones a nivel de letra (conteo, inversión de palabras, acrósticos), **siempre** es necesario `decodificar` los tokens a texto plano primero.