# Ejemplo de Tokenización con Keras
Convertir secuencias de texto en secuencias de números enteros.
1. **Tokenización:**
Dividir el texto en tokens o palabras individuales. La tokenización también puede incluir la eliminación de signos de puntuación, caracteres especiales y conversiones a minúsculas para estandarizar el texto y facilitar su procesamiento.
2. **Indexación:**
El Tokenizer asigna un índice único a cada palabra en
el vocabulario, basado en la frecuencia de aparición de cada palabra en el corpus de texto.
Esta indexación es importante porque convierte las palabras en representaciones
numéricas.
3. **Vectorización:**
Las secuencias de palabras se
convierten en secuencias de números enteros, utilizando los índices asignados durante la
indexación. Este paso es esencial para alimentar los datos al modelo de red neuronal, ya
que las redes neuronales requieren entradas numéricas para realizar cálculos y aprender
patrones en los datos.
4. **Padding:**
El relleno implica agregar ceros al principio o al final de las secuencias para que todas tengan la misma longitud, lo que permite procesar lotes de
datos de manera eficiente. Por otro lado, el truncamiento limita la longitud de las secuencias para unificar su tamaño y mejorar la velocidad de procesamiento.



---
Por: Ángela Córdoba


---




In [None]:
import keras # Se importa este módulo, pues contiene la clase Tokenizer

# Se define una lista que contiene tres cadenas de texto
frases = [
    'Hola mundo',
    'Hola a todos',
    'Hola a todo el mundo'
]

Se crea una instancia de la clase Tokenizer con el parámetro "num_words"
establecido en 10. Esto significa que solo se considerarán las 10 palabras más
comunes en el conjunto de texto.
La instancia del Tokenizer se ajusta a las frases proporcionadas mediante
el método "t_on_texts", lo que genera un diccionario de tokens basado en
las palabras presentes en las frases.

In [None]:
# Cargar tensorflow, pues la opción .text no está disponible en Keras
!pip install tensorflow
import tensorflow as tf



In [None]:
# Generar el diccionario de tokens
tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=10)
tokenizer.fit_on_texts(frases)

# Obtener el diccionario de tokens
word_index = tokenizer.word_index
print('word_index =',word_index)

word_index = {'hola': 1, 'mundo': 2, 'a': 3, 'todos': 4, 'todo': 5, 'el': 6}


Se llama al método "texts_to_sequences" de Tokenizer para convertir las frases en secuencias de
tokens. Esto reemplaza cada palabra en las frases con su token correspondiente según el
diccionario generado previamente.

In [None]:
# Generar secuencias tokenizadas
secuencias = tokenizer.texts_to_sequences(frases)
print('secuencias =',secuencias)

secuencias = [[1, 2], [1, 3, 4], [1, 3, 5, 6, 2]]


Se llama al método "pad_sequences" de la clase preprocessing.sequence para rellenar las
secuencias de tokens a una longitud uniforme. Por defecto, este método rellena con ceros al
principio de cada secuencia hasta alcanzar la longitud de la secuencia más larga.

In [None]:
# Rellenar las secuencias a una longitud uniforme
relleno = tf.keras.preprocessing.sequence.pad_sequences(secuencias)
print('relleno =\n',relleno)

relleno =
 [[0 0 0 1 2]
 [0 0 1 3 4]
 [1 3 5 6 2]]


In [None]:
# Cambios en el código
frases = [
    'Hola mundo',
    'Hola a todos',
    'Hola a todo el mundo',
    'Buen dia, como estas hoy'
]

# Generar el diccionario de tokens
tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=10)
tokenizer.fit_on_texts(frases)

# Obtener el diccionario de tokens
word_index = tokenizer.word_index
print('\nword_index =',word_index)

# Generar secuencias tokenizadas
secuencias = tokenizer.texts_to_sequences(frases)
print('secuencias =',secuencias)

# Rellenar las secuencias a una longitud uniforme
relleno = tf.keras.preprocessing.sequence.pad_sequences(secuencias)
print('relleno =\n',relleno)


word_index = {'hola': 1, 'mundo': 2, 'a': 3, 'todos': 4, 'todo': 5, 'el': 6, 'buen': 7, 'dia': 8, 'como': 9, 'estas': 10, 'hoy': 11}
secuencias = [[1, 2], [1, 3, 4], [1, 3, 5, 6, 2], [7, 8, 9]]
relleno =
 [[0 0 0 1 2]
 [0 0 1 3 4]
 [1 3 5 6 2]
 [0 0 7 8 9]]


* ¿Qué pasa si el número de palabra
en las frase es mayor al parámetro
(num_words)?

In [None]:
frases = [
    'Hola mundo',
    'Hola a todos',
    'Hola a todo el mundo',
    'Buen dia, como estas hoy. Espero estes muy pero muy bien' # Número de palabras aumenta a 11
]

# Generar el diccionario de tokens
tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=10)
tokenizer.fit_on_texts(frases)

# Obtener el diccionario de tokens
word_index = tokenizer.word_index
print('\nword_index =',word_index)

# Generar secuencias tokenizadas
secuencias = tokenizer.texts_to_sequences(frases)
print('secuencias =',secuencias)

# Rellenar las secuencias a una longitud uniforme
relleno = tf.keras.preprocessing.sequence.pad_sequences(secuencias)
print('relleno =\n',relleno)


word_index = {'hola': 1, 'mundo': 2, 'a': 3, 'muy': 4, 'todos': 5, 'todo': 6, 'el': 7, 'buen': 8, 'dia': 9, 'como': 10, 'estas': 11, 'hoy': 12, 'espero': 13, 'estes': 14, 'pero': 15, 'bien': 16}
secuencias = [[1, 2], [1, 3, 5], [1, 3, 6, 7, 2], [8, 9, 4, 4]]
relleno =
 [[0 0 0 1 2]
 [0 0 1 3 5]
 [1 3 6 7 2]
 [0 8 9 4 4]]


No sucede nada extraordinario. El código sigue funcionando normalmente y le asigna un token a cada palabra que sea superior al parámetro.

* Incluir el parámetro OOV

In [None]:
frases = [
    'Hola mundo',
    'Hola a todos',
    'Hola a todo el mundo',
    'Buen dia, como estas hoy'
]

# Generar el diccionario de tokens
tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=10,
                                                  oov_token="<OOV>")
tokenizer.fit_on_texts(frases)

# Obtener el diccionario de tokens
word_index = tokenizer.word_index
print('\nword_index =',word_index)

# Generar secuencias tokenizadas
secuencias = tokenizer.texts_to_sequences(frases)
print('secuencias =',secuencias)

# Rellenar las secuencias a una longitud uniforme
relleno = tf.keras.preprocessing.sequence.pad_sequences(secuencias)
print('relleno =\n',relleno)


word_index = {'<OOV>': 1, 'hola': 2, 'mundo': 3, 'a': 4, 'todos': 5, 'todo': 6, 'el': 7, 'buen': 8, 'dia': 9, 'como': 10, 'estas': 11, 'hoy': 12}
secuencias = [[2, 3], [2, 4, 5], [2, 4, 6, 7, 3], [8, 9, 1, 1, 1]]
relleno =
 [[0 0 0 2 3]
 [0 0 2 4 5]
 [2 4 6 7 3]
 [8 9 1 1 1]]


Los parámetros padding y truncating de la función pad_sequences en Keras se utilizan para controlar el relleno y el truncamiento de las secuencias durante el
preprocesamiento de datos.

In [None]:
frases = [
    'Hola mundo',
    'Hola a todos',
    'Hola a todo el mundo',
    'Buen dia, como estas hoy'
]

# Generar el diccionario de tokens
tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=10,
                                                  oov_token="<OOV>")
tokenizer.fit_on_texts(frases)

# Obtener el diccionario de tokens
word_index = tokenizer.word_index
print('\nword_index =',word_index)

# Generar secuencias tokenizadas
secuencias = tokenizer.texts_to_sequences(frases)
print('secuencias =',secuencias)

# Rellenar las secuencias a una longitud uniforme
relleno = tf.keras.preprocessing.sequence.pad_sequences(secuencias,
                                                        padding='post',
                                                        truncating='post')
print('relleno =\n',relleno)


word_index = {'<OOV>': 1, 'hola': 2, 'mundo': 3, 'a': 4, 'todos': 5, 'todo': 6, 'el': 7, 'buen': 8, 'dia': 9, 'como': 10, 'estas': 11, 'hoy': 12}
secuencias = [[2, 3], [2, 4, 5], [2, 4, 6, 7, 3], [8, 9, 1, 1, 1]]
relleno =
 [[2 3 0 0 0]
 [2 4 5 0 0]
 [2 4 6 7 3]
 [8 9 1 1 1]]
