<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_jun/blob/main/04pln/clase_26.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Padding en Procesamiento de Lenguaje Natural (PLN)

El *padding* es una técnica usada para igualar la longitud de las secuencias de texto. Es especialmente útil cuando usamos modelos que requieren entradas de tamaño fijo, como redes neuronales.

En este ejemplo veremos cómo se realiza el padding utilizando:

1. NumPy (manualmente)
2. La función `pad_sequences` de Keras, más simple y automática

---

## 1. Tokenización y codificación de frases

```python
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
```

Importamos las librerías necesarias:
- `numpy`: para manipulación numérica y de arrays.
- `Tokenizer` de `keras.preprocessing.text`: para transformar texto a números.

```python
sentences = [
    ['barber', 'person'],
    ['barber', 'good', 'person'],
    ['barber', 'huge', 'person'],
    ['knew', 'secret'],
    ['secret', 'kept', 'huge', 'secret'],
    ['huge', 'secret'],
    ['barber', 'kept', 'word'],
    ['barber', 'kept', 'word'],
    ['barber', 'kept', 'secret'],
    ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'],
    ['barber', 'went', 'huge', 'mountain']
]
```

Creamos una lista de frases (listas de palabras). Estas frases se van a codificar posteriormente.

```python
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)
```

- Creamos un objeto `Tokenizer`.
- Usamos `fit_on_texts(sentences)` para crear un vocabulario basado en la frecuencia de aparición de las palabras.

```python
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)
```

Transformamos las palabras en enteros. Cada palabra del vocabulario se asigna a un número único. Por ejemplo:
```python
[['barber', 'person']] -> [1, 5]
```

---

## 2. Encontrar la longitud máxima

```python
max_len = max(len(item) for item in encoded)
print(max_len)
```

Calculamos la longitud máxima de las frases codificadas. Esto es necesario para saber cuántos ceros agregar a las secuencias más cortas.

---

## 3. Padding manual con NumPy

```python
for item in encoded:             # Para cada frase
    while len(item) < max_len:  # Si es menor que la longitud máxima
        item.append(0)          # Agrega ceros al final (post-padding)

padded_np = np.array(encoded)
padded_np
```

- Recorremos cada lista de enteros (`item`) y le agregamos ceros al final hasta igualar la longitud máxima.
- Convertimos la lista a un `array` de NumPy.

Ejemplo de salida:
```python
array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       ...
       [ 1, 12,  3, 13,  0,  0,  0]])
```

---

## 4. Padding con la herramienta de Keras

```python
from tensorflow.keras.preprocessing.sequence import pad_sequences
```

Importamos la función `pad_sequences`, que permite aplicar padding fácilmente a listas de enteros.

```python
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)
```

Codificamos nuevamente las frases, igual que antes.

```python
padded = pad_sequences(encoded)
padded
```

- `pad_sequences` aplica padding automático por defecto al inicio de cada secuencia (pre-padding).
- Agrega ceros al comienzo de las secuencias más cortas para igualarlas con la más larga.

Ejemplo de salida:
```python
array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       ...
       [ 0,  0,  1, 12,  3, 13]])
```

Si quisiéramos usar **post-padding** (agregar ceros al final), podemos usar:
```python
pad_sequences(encoded, padding='post')
```

---

## Conclusión

El padding es fundamental para trabajar con modelos de aprendizaje automático en NLP, ya que la mayoría requiere que las entradas tengan la misma forma. Podemos hacerlo de forma manual con NumPy, o automatizarlo usando `pad_sequences` de Keras, lo cual es más limpio y eficiente.


In [None]:
# Visita la documentación https://www.tensorflow.org/api_docs/python/tf/keras/utils/pad_sequences

In [1]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'],
             ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'],
             ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'],
             ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'],
             ['barber', 'went', 'huge', 'mountain']]

In [2]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) #The group of words are created based on frequency when putting corpus fit_ontexts().

encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [3]:
max_len = max(len(item) for item in encoded)
print(max_len)

7


In [4]:
for item in encoded: # For each item
    while len(item) < max_len:   # If less than max_len
        item.append(0)

padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

Padding with Keras preprocessing tool

In [5]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [6]:
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [7]:
padded = pad_sequences(encoded)
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]], dtype=int32)

In [8]:
padded = pad_sequences(encoded, padding='post')
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]], dtype=int32)


# Modelos que requieren entradas de tamaño fijo en Deep Learning

Muchos modelos de aprendizaje profundo requieren entradas de tamaño fijo para funcionar correctamente, especialmente durante el entrenamiento en lotes (*batch training*). Esto se debe a que las capas internas (densas, convolucionales, etc.) necesitan dimensiones predecibles.

A continuación se explican los principales modelos que requieren entradas de tamaño fijo, junto con ejemplos en Python.

---

## 1. Redes Neuronales Densas (Dense / Fully Connected)

### ¿Por qué requieren tamaño fijo?
Cada neurona espera una cantidad fija de entradas. Por lo tanto, el vector de entrada debe tener una dimensión específica.

### Ejemplo en Python

```python
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
import numpy as np

X = np.array([[1, 2, 3], [4, 5, 6]])  # entrada de tamaño fijo: 3 features
model = Sequential([
    Dense(10, input_shape=(3,), activation='relu'),
    Dense(1, activation='sigmoid')
])
model.summary()
```

---

## 2. Redes Convolucionales (CNNs)

### ¿Por qué requieren tamaño fijo?
Las operaciones de convolución requieren dimensiones definidas (ancho, alto, canales).

### Ejemplo en Python

```python
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, Flatten

model = Sequential([
    Conv2D(32, kernel_size=(3, 3), input_shape=(28, 28, 1), activation='relu'),
    Flatten(),
    Dense(10, activation='softmax')
])
model.summary()
```

---

## 3. Redes Recurrentes (RNN, LSTM, GRU)

### ¿Por qué requieren tamaño fijo?
Aunque las RNN pueden manejar secuencias de longitud variable, en entrenamiento por lotes es necesario paddear las secuencias para que todas tengan la misma longitud.

### Ejemplo en Python

```python
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM

# Ejemplo de secuencias con longitudes distintas
sequences = [[1, 2, 3], [4, 5], [6]]
padded = pad_sequences(sequences)

model = Sequential([
    Embedding(input_dim=10, output_dim=4, input_length=padded.shape[1]),
    LSTM(8)
])
model.summary()
```

---

## 4. Transformers (BERT, GPT)

### ¿Por qué requieren tamaño fijo?
Las entradas a modelos transformers se paddean para igualar la longitud, y se usan máscaras para ignorar los ceros.

### Ejemplo en Python con Hugging Face

```python
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
inputs = tokenizer(["Hello world", "Hi"], padding=True, return_tensors="np")
print(inputs['input_ids'])
```

---

## 5. Modelos Tradicionales (SVM, KNN, etc.)

### ¿Por qué requieren tamaño fijo?
Estos modelos trabajan con vectores de características de longitud fija, como BoW o TF-IDF.

### Ejemplo en Python

```python
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.svm import SVC

texts = ["hello world", "hello"]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts).toarray()

clf = SVC()
clf.fit(X, [0, 1])
```

---

## ¿Qué modelos NO necesitan entradas de tamaño fijo?

- Modelos que usan **generadores** o procesan secuencias individualmente.
- Algunos modelos autoregresivos en inferencia (*token por token*).
- Árboles de decisión (como XGBoost) pueden usarse con padding si se maneja adecuadamente.

---

## Conclusión

El padding es una práctica común en PLN y visión por computadora. En la mayoría de los modelos, es indispensable garantizar entradas de tamaño uniforme para que la arquitectura funcione correctamente durante el entrenamiento y la inferencia.



# Codificación One-Hot con Keras

La codificación *one-hot* es una técnica común en Procesamiento de Lenguaje Natural (PLN) para representar palabras como vectores binarios. Cada palabra se representa con un vector donde solo una posición (correspondiente a esa palabra en el vocabulario) tiene el valor 1 y el resto son ceros.

---

## Paso 1: Texto de entrada

```python
text = 'I want to go to lunch with me. The lunch menu is hamburgers. Hamburgers are the best'
```

Este es el texto de entrada que se usará para generar el vocabulario y codificar.

---

## Paso 2: Importar librerías necesarias

```python
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
```

- `Tokenizer`: convierte texto a secuencias numéricas.
- `to_categorical`: convierte números enteros a vectores one-hot.

---

## Paso 3: Crear y entrenar el Tokenizer

```python
t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index)
```

Esto genera un diccionario que asigna un índice único a cada palabra, basado en su frecuencia. Por ejemplo:

```python
{
    'to': 1, 'lunch': 2, 'the': 3, 'hamburgers': 4, 'i': 5, 'want': 6,
    'go': 7, 'with': 8, 'me': 9, 'menu': 10, 'is': 11, 'are': 12, 'best': 13
}
```

---

## Paso 4: Convertir texto a secuencias numéricas

```python
encoded = t.texts_to_sequences([text])
print(encoded)
```

Esto convierte el texto a una lista de índices:

```python
[[5, 6, 1, 7, 1, 2, 8, 9, 3, 2, 10, 11, 4, 4, 12, 3, 13]]
```

---

## Paso 5: Codificación One-Hot

```python
one_hot = to_categorical(encoded)
print(one_hot)
```

Cada número entero es transformado en un vector donde el índice correspondiente es 1 y los demás 0.

Por ejemplo, si `i = 5`, el vector resultante tiene un 1 en la posición 5 y ceros en el resto:

```python
[0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
```

La forma final de la matriz `one_hot` es `(1, N, vocab_size + 1)`, donde `N` es el número de tokens y `vocab_size` es el número de palabras únicas.

---

## Conclusión

La codificación one-hot transforma texto en un formato numérico entendible para modelos de redes neuronales. Aunque es simple, puede ser ineficiente para vocabularios grandes. En esos casos, se prefieren métodos como **word embeddings** (Word2Vec, GloVe, etc.).
