In [42]:
# 1. El texto
# Creamos una lista con frases famosas (nuestro "corpus" o cuerpo de texto)
texto = [ 'Pienso luego existo',
          'Solo se que no se nada',
          'Ser o no ser esa es la cuestion' ]

texto

['Pienso luego existo',
 'Solo se que no se nada',
 'Ser o no ser esa es la cuestion']

**Explicación**: Aquí simplemente estamos declarando una variable texto que es una lista. Dentro de la lista, tenemos 3 elementos, y cada elemento es un "string" (cadena de texto).

# **Paso 2** Separar en palabras (Tokenización simple)
Las computadoras no leen frases, leen unidades. Vamos a usar la librería re (Expresiones Regulares) para cortar la frase donde haya espacios.

In [43]:
# 2. Separar en palabras dividiendo por espacios
import re

# Probamos solo con la primera frase (índice 0)
re.split('\s', texto[0])

  re.split('\s', texto[0])


['Pienso', 'luego', 'existo']

**Explicación**:

*   import re: Traemos la herramienta de búsqueda de texto.

*   \s: Significa "espacio en blanco".

*   texto[0]: Toma "Pienso luego existo".

*   Resultado: Una lista rota: ['Pienso', 'luego', 'existo'].


# **Paso 3**: Recombinar (Unir de nuevo)
A veces necesitas limpiar una lista de palabras y volver a pegarla para que sea un texto normal.

In [44]:
# 3. Recombinar en un solo texto (Join)
# Usamos un espacio ' ' como pegamento para unir la lista anterior
' '.join( re.split('\s', texto[0]) )

  ' '.join( re.split('\s', texto[0]) )


'Pienso luego existo'

**Explicación:**

' '.join(...): Toma los pedazos que separamos arriba y los une usando un espacio entre ellos. Es el proceso inverso al paso anterior.

# **Paso 4:** Normalización (Minúsculas y Unificación)
Para que la computadora entienda que "Ser" y "ser" son lo mismo, convertimos todo a minúsculas y juntamos todas las frases en una sola bolsa de palabras.

In [45]:
# 4. Convertir a minúsculas y juntar todo
# Unimos todas las frases del texto original, las pasamos a minúsculas y cortamos por espacios
todas_las_palabras = re.split('\s', ' '.join(texto).lower())

todas_las_palabras

  todas_las_palabras = re.split('\s', ' '.join(texto).lower())


['pienso',
 'luego',
 'existo',
 'solo',
 'se',
 'que',
 'no',
 'se',
 'nada',
 'ser',
 'o',
 'no',
 'ser',
 'esa',
 'es',
 'la',
 'cuestion']

**Explicación:**

' '.join(texto): Pega las 3 frases originales en una sola línea gigante.

.lower(): Lo convierte todo a minúsculas ("Pienso" -> "pienso").

Resultado: Una lista gigante con todas las palabras de todas las frases, una detrás de otra.

## **Paso 5: Crear el Vocabulario (Lexicón)**
Aquí ocurre la magia. De todas las palabras repetidas, queremos saber cuáles son las palabras únicas que existen en nuestro universo de datos.

In [46]:
# 5. Encontrar las palabras únicas (Vocabulario)
# 'set' elimina duplicados, 'sorted' las ordena alfabéticamente
vocabulario = sorted(set(todas_las_palabras))

vocabulario

['cuestion',
 'es',
 'esa',
 'existo',
 'la',
 'luego',
 'nada',
 'no',
 'o',
 'pienso',
 'que',
 'se',
 'ser',
 'solo']

In [47]:
print(f'Hay {len(todas_las_palabras)} palabras en el texto total, pero solo {len(vocabulario)} palabras únicas en el vocabulario')

Hay 17 palabras en el texto total, pero solo 14 palabras únicas en el vocabulario


**Explicación:**

set(...): Es un conjunto matemático. Elimina automáticamente cualquier palabra repetida (ej: si "ser" aparece 2 veces, solo deja 1).

sorted(...): Ordena la lista de la A a la Z.

Importancia: Este vocabulario es la "base de datos" de palabras que tu sistema conoce.

# **Paso 6:** Crear el Codificador (Encoder) y Decodificador (Decoder)
Las redes neuronales y los algoritmos no entienden letras ("h-o-l-a"), solo entienden números. Necesitamos un mapa para traducir.

In [48]:
# 6. El codificador es un diccionario de Python
palabra_a_indice = {}

for i, palabra in enumerate(vocabulario):
  palabra_a_indice[palabra] = i

palabra_a_indice

{'cuestion': 0,
 'es': 1,
 'esa': 2,
 'existo': 3,
 'la': 4,
 'luego': 5,
 'nada': 6,
 'no': 7,
 'o': 8,
 'pienso': 9,
 'que': 10,
 'se': 11,
 'ser': 12,
 'solo': 13}

In [49]:
# 7. Y un decodificador (el proceso inverso)
indice_a_palabra = {}

for i, palabra in enumerate(vocabulario):
  indice_a_palabra[i] = palabra

indice_a_palabra

{0: 'cuestion',
 1: 'es',
 2: 'esa',
 3: 'existo',
 4: 'la',
 5: 'luego',
 6: 'nada',
 7: 'no',
 8: 'o',
 9: 'pienso',
 10: 'que',
 11: 'se',
 12: 'ser',
 13: 'solo'}

**Explicación:**

Codificador (palabra_a_indice): Si le das la palabra "luego", te da el número 4 (por ejemplo).

Decodificador (indice_a_palabra): Si le das el número 4, te devuelve la palabra "luego".


# **Paso 7:** Pruebas del Mapa
Verificamos que el mapa funciona.

In [50]:
# Probamos el mapa
print(f'La palabra "ser" tiene el índice {palabra_a_indice["ser"]}')
print(f'El índice 2 corresponde a la palabra "{indice_a_palabra[2]}"')

La palabra "ser" tiene el índice 12
El índice 2 corresponde a la palabra "esa"


# **Paso 8:** Generador de Frases Aleatorias (Solo por diversión)
Ya que tenemos los números, podemos pedirle a la máquina que elija números al azar y los traduzca a palabras para "inventar" una frase.

In [51]:
# 8. Hacer citas falsas
import numpy as np

# Seleccionar 5 índices (números) al azar basados en el tamaño de nuestro vocabulario
indices_random = np.random.randint(0, len(vocabulario), size=5)

# Traducir esos números a palabras
frase_loca = [ indice_a_palabra[i] for i in indices_random ]

# Unir y mostrar
print('Frase generada: ', ' '.join(frase_loca))

Frase generada:  cuestion cuestion ser no la


**Explicación:** Esto simula cómo una IA "escribe", aunque aquí es totalmente al azar, por lo que la frase probablemente no tenga sentido (ej: "luego nada ser cuestion existo").

# **Paso 9: Vistazo a la Tokenización Real**
Así es como ve la computadora el texto original. Ya no ve "Pienso luego existo", ve [5, 4, 1].

In [52]:
# 9. Traducir todo el texto original a números
texto_como_enteros = [ palabra_a_indice[palabra] for palabra in todas_las_palabras ]

texto_como_enteros

[9, 5, 3, 13, 11, 10, 7, 11, 6, 12, 8, 7, 12, 2, 1, 4, 0]

In [53]:
# Y convertir los números de vuelta a texto para verificar
for token_i in texto_como_enteros:
  print(f'Token {token_i:2}: {indice_a_palabra[token_i]}')

Token  9: pienso
Token  5: luego
Token  3: existo
Token 13: solo
Token 11: se
Token 10: que
Token  7: no
Token 11: se
Token  6: nada
Token 12: ser
Token  8: o
Token  7: no
Token 12: ser
Token  2: esa
Token  1: es
Token  4: la
Token  0: cuestion


Resumen Final: Acabas de transformar lenguaje humano (no estructurado) en una secuencia numérica (datos estructurados) que una máquina puede procesar.