<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_jun/blob/main/04pln/clase_26.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Padding en Procesamiento de Lenguaje Natural (PLN)

El *padding* es una técnica usada para igualar la longitud de las secuencias de texto. Es especialmente útil cuando usamos modelos que requieren entradas de tamaño fijo, como redes neuronales.

En este ejemplo veremos cómo se realiza el padding utilizando:

1. NumPy (manualmente)
2. La función `pad_sequences` de Keras, más simple y automática

---

## 1. Tokenización y codificación de frases

```python
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
```

Importamos las librerías necesarias:
- `numpy`: para manipulación numérica y de arrays.
- `Tokenizer` de `keras.preprocessing.text`: para transformar texto a números.

```python
sentences = [
    ['barber', 'person'],
    ['barber', 'good', 'person'],
    ['barber', 'huge', 'person'],
    ['knew', 'secret'],
    ['secret', 'kept', 'huge', 'secret'],
    ['huge', 'secret'],
    ['barber', 'kept', 'word'],
    ['barber', 'kept', 'word'],
    ['barber', 'kept', 'secret'],
    ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'],
    ['barber', 'went', 'huge', 'mountain']
]
```

Creamos una lista de frases (listas de palabras). Estas frases se van a codificar posteriormente.

```python
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)
```

- Creamos un objeto `Tokenizer`.
- Usamos `fit_on_texts(sentences)` para crear un vocabulario basado en la frecuencia de aparición de las palabras.

```python
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)
```

Transformamos las palabras en enteros. Cada palabra del vocabulario se asigna a un número único. Por ejemplo:
```python
[['barber', 'person']] -> [1, 5]
```

---

## 2. Encontrar la longitud máxima

```python
max_len = max(len(item) for item in encoded)
print(max_len)
```

Calculamos la longitud máxima de las frases codificadas. Esto es necesario para saber cuántos ceros agregar a las secuencias más cortas.

---

## 3. Padding manual con NumPy

```python
for item in encoded:             # Para cada frase
    while len(item) < max_len:  # Si es menor que la longitud máxima
        item.append(0)          # Agrega ceros al final (post-padding)

padded_np = np.array(encoded)
padded_np
```

- Recorremos cada lista de enteros (`item`) y le agregamos ceros al final hasta igualar la longitud máxima.
- Convertimos la lista a un `array` de NumPy.

Ejemplo de salida:
```python
array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       ...
       [ 1, 12,  3, 13,  0,  0,  0]])
```

---

## 4. Padding con la herramienta de Keras

```python
from tensorflow.keras.preprocessing.sequence import pad_sequences
```

Importamos la función `pad_sequences`, que permite aplicar padding fácilmente a listas de enteros.

```python
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)
```

Codificamos nuevamente las frases, igual que antes.

```python
padded = pad_sequences(encoded)
padded
```

- `pad_sequences` aplica padding automático por defecto al inicio de cada secuencia (pre-padding).
- Agrega ceros al comienzo de las secuencias más cortas para igualarlas con la más larga.

Ejemplo de salida:
```python
array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       ...
       [ 0,  0,  1, 12,  3, 13]])
```

Si quisiéramos usar **post-padding** (agregar ceros al final), podemos usar:
```python
pad_sequences(encoded, padding='post')
```

---

## Conclusión

El padding es fundamental para trabajar con modelos de aprendizaje automático en NLP, ya que la mayoría requiere que las entradas tengan la misma forma. Podemos hacerlo de forma manual con NumPy, o automatizarlo usando `pad_sequences` de Keras, lo cual es más limpio y eficiente.


In [None]:
# Visita la documentación https://www.tensorflow.org/api_docs/python/tf/keras/utils/pad_sequences

In [1]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'],
             ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'],
             ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'],
             ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'],
             ['barber', 'went', 'huge', 'mountain']]

In [2]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) #The group of words are created based on frequency when putting corpus fit_ontexts().

encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [3]:
max_len = max(len(item) for item in encoded)
print(max_len)

7


In [4]:
for item in encoded: # For each item
    while len(item) < max_len:   # If less than max_len
        item.append(0)

padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

Padding with Keras preprocessing tool

In [5]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [6]:
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [7]:
padded = pad_sequences(encoded)
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]], dtype=int32)

In [8]:
padded = pad_sequences(encoded, padding='post')
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]], dtype=int32)


# Modelos que requieren entradas de tamaño fijo en Deep Learning

Muchos modelos de aprendizaje profundo requieren entradas de tamaño fijo para funcionar correctamente, especialmente durante el entrenamiento en lotes (*batch training*). Esto se debe a que las capas internas (densas, convolucionales, etc.) necesitan dimensiones predecibles.

A continuación se explican los principales modelos que requieren entradas de tamaño fijo, junto con ejemplos en Python.

---

## 1. Redes Neuronales Densas (Dense / Fully Connected)

### ¿Por qué requieren tamaño fijo?
Cada neurona espera una cantidad fija de entradas. Por lo tanto, el vector de entrada debe tener una dimensión específica.

### Ejemplo en Python

```python
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
import numpy as np

X = np.array([[1, 2, 3], [4, 5, 6]])  # entrada de tamaño fijo: 3 features
model = Sequential([
    Dense(10, input_shape=(3,), activation='relu'),
    Dense(1, activation='sigmoid')
])
model.summary()
```

---

## 2. Redes Convolucionales (CNNs)

### ¿Por qué requieren tamaño fijo?
Las operaciones de convolución requieren dimensiones definidas (ancho, alto, canales).

### Ejemplo en Python

```python
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, Flatten

model = Sequential([
    Conv2D(32, kernel_size=(3, 3), input_shape=(28, 28, 1), activation='relu'),
    Flatten(),
    Dense(10, activation='softmax')
])
model.summary()
```

---

## 3. Redes Recurrentes (RNN, LSTM, GRU)

### ¿Por qué requieren tamaño fijo?
Aunque las RNN pueden manejar secuencias de longitud variable, en entrenamiento por lotes es necesario paddear las secuencias para que todas tengan la misma longitud.

### Ejemplo en Python

```python
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM

# Ejemplo de secuencias con longitudes distintas
sequences = [[1, 2, 3], [4, 5], [6]]
padded = pad_sequences(sequences)

model = Sequential([
    Embedding(input_dim=10, output_dim=4, input_length=padded.shape[1]),
    LSTM(8)
])
model.summary()
```

---

## 4. Transformers (BERT, GPT)

### ¿Por qué requieren tamaño fijo?
Las entradas a modelos transformers se paddean para igualar la longitud, y se usan máscaras para ignorar los ceros.

### Ejemplo en Python con Hugging Face

```python
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
inputs = tokenizer(["Hello world", "Hi"], padding=True, return_tensors="np")
print(inputs['input_ids'])
```

---

## 5. Modelos Tradicionales (SVM, KNN, etc.)

### ¿Por qué requieren tamaño fijo?
Estos modelos trabajan con vectores de características de longitud fija, como BoW o TF-IDF.

### Ejemplo en Python

```python
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.svm import SVC

texts = ["hello world", "hello"]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts).toarray()

clf = SVC()
clf.fit(X, [0, 1])
```

---

## ¿Qué modelos NO necesitan entradas de tamaño fijo?

- Modelos que usan **generadores** o procesan secuencias individualmente.
- Algunos modelos autoregresivos en inferencia (*token por token*).
- Árboles de decisión (como XGBoost) pueden usarse con padding si se maneja adecuadamente.

---

## Conclusión

El padding es una práctica común en PLN y visión por computadora. En la mayoría de los modelos, es indispensable garantizar entradas de tamaño uniforme para que la arquitectura funcione correctamente durante el entrenamiento y la inferencia.



# Codificación One-Hot con Keras

La codificación *one-hot* es una técnica común en Procesamiento de Lenguaje Natural (PLN) para representar palabras como vectores binarios. Cada palabra se representa con un vector donde solo una posición (correspondiente a esa palabra en el vocabulario) tiene el valor 1 y el resto son ceros.

---

## Paso 1: Texto de entrada

```python
text = 'I want to go to lunch with me. The lunch menu is hamburgers. Hamburgers are the best'
```

Este es el texto de entrada que se usará para generar el vocabulario y codificar.

---

## Paso 2: Importar librerías necesarias

```python
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
```

- `Tokenizer`: convierte texto a secuencias numéricas.
- `to_categorical`: convierte números enteros a vectores one-hot.

---

## Paso 3: Crear y entrenar el Tokenizer

```python
t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index)
```

Esto genera un diccionario que asigna un índice único a cada palabra, basado en su frecuencia. Por ejemplo:

```python
{
    'to': 1, 'lunch': 2, 'the': 3, 'hamburgers': 4, 'i': 5, 'want': 6,
    'go': 7, 'with': 8, 'me': 9, 'menu': 10, 'is': 11, 'are': 12, 'best': 13
}
```

---

## Paso 4: Convertir texto a secuencias numéricas

```python
encoded = t.texts_to_sequences([text])
print(encoded)
```

Esto convierte el texto a una lista de índices:

```python
[[5, 6, 1, 7, 1, 2, 8, 9, 3, 2, 10, 11, 4, 4, 12, 3, 13]]
```

---

## Paso 5: Codificación One-Hot

```python
one_hot = to_categorical(encoded)
print(one_hot)
```

Cada número entero es transformado en un vector donde el índice correspondiente es 1 y los demás 0.

Por ejemplo, si `i = 5`, el vector resultante tiene un 1 en la posición 5 y ceros en el resto:

```python
[0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
```

La forma final de la matriz `one_hot` es `(1, N, vocab_size + 1)`, donde `N` es el número de tokens y `vocab_size` es el número de palabras únicas.

---

## Conclusión

La codificación one-hot transforma texto en un formato numérico entendible para modelos de redes neuronales. Aunque es simple, puede ser ineficiente para vocabularios grandes. En esos casos, se prefieren métodos como **word embeddings** (Word2Vec, GloVe, etc.).



# Modelos de Lenguaje y N-Gramas

Un **modelo de lenguaje** es un sistema que predice o genera el siguiente elemento en una secuencia lingüística (letra, palabra, oración, párrafo, etc.). Se utilizan ampliamente en tareas de procesamiento de lenguaje natural (NLP) como traducción automática, resumen de textos, corrección ortográfica, entre otros.

---

## ¿Cómo funciona un modelo de lenguaje?

Un modelo de lenguaje estima la probabilidad de una secuencia de palabras:

\[
P(w_1, w_2, w_3, ..., w_m) = P(w_1) P(w_2|w_1) P(w_3|w_1, w_2) ... P(w_m|w_1, ..., w_{m-1})
\]

Esto significa que la probabilidad de una palabra depende del contexto anterior.

---

## Escasez de datos

A medida que la longitud de la secuencia crece, la cantidad de datos necesarios para estimar estas probabilidades crece exponencialmente. Por eso, se utilizan aproximaciones conocidas como **n-gramas**.

---

## N-Gramas

Los **n-gramas** son secuencias de n palabras. Ejemplos:

- **Unigrama** (n = 1): "Tres", "cerditos", "vivieron", "felices"
- **Bigramas** (n = 2): "Tres cerditos", "cerditos vivieron", "vivieron felices"
- **Trigramas** (n = 3): "Tres cerditos vivieron", "cerditos vivieron felices"

### Ejemplo en Python

```python
from nltk import ngrams

sentence = "tres cerditos vivieron felices".split()
print("Unigramas:", list(ngrams(sentence, 1)))
print("Bigramas:", list(ngrams(sentence, 2)))
print("Trigramas:", list(ngrams(sentence, 3)))
```

---

## Probabilidades con N-Gramas

Para evitar depender del contexto completo, se usa una aproximación con n-gramas. Por ejemplo:

\[
P(w_i|w_1, ..., w_{i-1}) \approx P(w_i | w_{i-n+1}, ..., w_{i-1})
\]

Esto reduce la complejidad y permite usar conteos para estimar:

\[
P(w_i | w_{i-1}) = \frac{\text{Count}(w_{i-1}, w_i)}{\text{Count}(w_{i-1})}
\]

---

## Ejemplo de cálculo de probabilidad de una secuencia (bigramas)

```python
from collections import Counter

sentence = "three little pigs lived happily".split()
bigrams = list(ngrams(sentence, 2))
unigrams = sentence

bigram_counts = Counter(bigrams)
unigram_counts = Counter(unigrams)

# Aproximación de probabilidad P(w_i | w_{i-1})
for bigram in bigram_counts:
    w1, w2 = bigram
    prob = bigram_counts[bigram] / unigram_counts[w1]
    print(f"P({w2} | {w1}) = {prob:.2f}")
```

---

## Aplicaciones de los modelos de lenguaje

- Autocompletado de texto (como en Google)
- Traducción automática
- Reconocimiento de voz
- Generación de texto
- Corrección ortográfica

---

## Conclusión

Los modelos de lenguaje permiten a las máquinas comprender, predecir y generar lenguaje humano. Los n-gramas son una herramienta esencial para modelar secuencias con bajo costo computacional, aunque modelos modernos como transformers han superado estas limitaciones usando atención y entrenamiento en grandes corpus.


### Modelo de lenguaje: Gabriela Mistral


Información desde: https://chilecultura.gob.cl/cultural-sections/396/

In [9]:
import os
import shutil

# Crear la carpeta 'corpus' si no existe
os.makedirs("corpus", exist_ok=True)

# Mover archivos PDF y EPUB cargados al entorno a la carpeta 'corpus'
for file in os.listdir():
    if file.endswith(".pdf") or file.endswith(".epub"):
        print(f"Moviendo {file} a carpeta corpus")
        shutil.move(file, os.path.join("corpus", file))

# Confirmar contenido de la carpeta
print("\nArchivos en la carpeta 'corpus':")
print(os.listdir("corpus"))



Archivos en la carpeta 'corpus':
[]


In [10]:
from google.colab import files

# Subir archivos .pdf y .epub desde tu equipo
uploaded = files.upload()


Saving tomo8_m.pdf to tomo8_m.pdf
Saving tomo7_m.pdf to tomo7_m.pdf
Saving tomo6_m-1.pdf to tomo6_m-1.pdf
Saving MC0003261.pdf to MC0003261.pdf
Saving CH0000129_0001.pdf to CH0000129_0001.pdf
Saving tomo5_gm(2).epub to tomo5_gm(2).epub
Saving tomo4_gm.epub to tomo4_gm.epub
Saving tomo3_e.epub to tomo3_e.epub
Saving gm_tomo2.epub to gm_tomo2.epub


In [11]:
!pip install ebooklib PyMuPDF


Collecting ebooklib
  Downloading ebooklib-0.19-py3-none-any.whl.metadata (4.1 kB)
Collecting PyMuPDF
  Downloading pymupdf-1.26.3-cp39-abi3-manylinux_2_28_x86_64.whl.metadata (3.4 kB)
Downloading ebooklib-0.19-py3-none-any.whl (39 kB)
Downloading pymupdf-1.26.3-cp39-abi3-manylinux_2_28_x86_64.whl (24.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.1/24.1 MB[0m [31m58.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: PyMuPDF, ebooklib
Successfully installed PyMuPDF-1.26.3 ebooklib-0.19


In [12]:
import os
import fitz  # PyMuPDF
from ebooklib import epub
from bs4 import BeautifulSoup


In [13]:
def extract_epub_text(path):
    book = epub.read_epub(path)
    text = ''
    for item in book.get_items():
        if item.get_type() == epub.ITEM_DOCUMENT:
            soup = BeautifulSoup(item.get_content(), 'html.parser')
            text += soup.get_text()
    return text


In [14]:
def extract_pdf_text(path):
    text = ''
    with fitz.open(path) as doc:
        for page in doc:
            text += page.get_text()
    return text


In [15]:
import os
import shutil

# Crear carpeta corpus si no existe
os.makedirs("corpus", exist_ok=True)

# Mover todos los archivos .pdf y .epub que estén en la raíz a la carpeta corpus
for archivo in os.listdir():
    if archivo.endswith(".pdf") or archivo.endswith(".epub"):
        if not archivo.startswith("corpus"):  # Evitar mover de nuevo si ya están ahí
            print(f"Moviendo {archivo} a carpeta corpus/")
            shutil.move(archivo, os.path.join("corpus", archivo))

# Verificación
print("\nContenido de la carpeta corpus:")
print(os.listdir("corpus"))


Moviendo tomo4_gm.epub a carpeta corpus/
Moviendo tomo6_m-1.pdf a carpeta corpus/
Moviendo tomo7_m.pdf a carpeta corpus/
Moviendo tomo8_m.pdf a carpeta corpus/
Moviendo gm_tomo2.epub a carpeta corpus/
Moviendo tomo3_e.epub a carpeta corpus/
Moviendo CH0000129_0001.pdf a carpeta corpus/
Moviendo MC0003261.pdf a carpeta corpus/
Moviendo tomo5_gm(2).epub a carpeta corpus/

Contenido de la carpeta corpus:
['tomo4_gm.epub', 'tomo6_m-1.pdf', 'tomo7_m.pdf', 'tomo8_m.pdf', 'gm_tomo2.epub', 'tomo3_e.epub', 'CH0000129_0001.pdf', 'MC0003261.pdf', 'tomo5_gm(2).epub']


In [18]:
# 1. Librerías necesarias
import os
import fitz  # PyMuPDF
from ebooklib import epub, ITEM_DOCUMENT
from bs4 import BeautifulSoup

def extract_epub_text(path):
    book = epub.read_epub(path)
    text = ''
    for item in book.get_items():
        if item.get_type() == ITEM_DOCUMENT:
            soup = BeautifulSoup(item.get_content(), 'html.parser')
            text += soup.get_text()
    return text


# 3. Función para PDF
def extract_pdf_text(path):
    text = ''
    with fitz.open(path) as doc:
        for page in doc:
            text += page.get_text()
    return text

# 4. Extraer textos
corpus_path = "corpus"
textos_completos = ""

for archivo in os.listdir(corpus_path):
    ruta = os.path.join(corpus_path, archivo)
    if archivo.endswith(".epub"):
        print(f"Extrayendo EPUB: {archivo}")
        textos_completos += extract_epub_text(ruta) + "\n"
    elif archivo.endswith(".pdf"):
        print(f"Extrayendo PDF: {archivo}")
        textos_completos += extract_pdf_text(ruta) + "\n"

print("\nLongitud total del corpus:", len(textos_completos), "caracteres")

# 5. Guardar en archivo
with open("gabriela_mistral_corpus.txt", "w", encoding="utf-8") as f:
    f.write(textos_completos)


Extrayendo EPUB: tomo4_gm.epub
Extrayendo PDF: tomo6_m-1.pdf
Extrayendo PDF: tomo7_m.pdf
Extrayendo PDF: tomo8_m.pdf
Extrayendo EPUB: gm_tomo2.epub
Extrayendo EPUB: tomo3_e.epub
Extrayendo PDF: CH0000129_0001.pdf
Extrayendo PDF: MC0003261.pdf
Extrayendo EPUB: tomo5_gm(2).epub

Longitud total del corpus: 4718633 caracteres


In [19]:
# Cargar corpus
with open("gabriela_mistral_corpus.txt", "r", encoding="utf-8") as f:
    corpus = f.read()

# Limpiar y tokenizar
import re
tokens = re.findall(r'\b\w+\b', corpus.lower())  # palabras minúsculas sin signos
print(f"Número de tokens: {len(tokens)}")


Número de tokens: 860429


In [20]:
from collections import defaultdict
import random

n = 3  # trigrama
ngrams = defaultdict(list)

# Construir el modelo
for i in range(len(tokens) - n):
    key = tuple(tokens[i:i+n-1])  # (palabra1, palabra2)
    next_word = tokens[i+n-1]     # palabra3
    ngrams[key].append(next_word)

print(f"Número de pares de contexto en el modelo: {len(ngrams)}")


Número de pares de contexto en el modelo: 376942


In [21]:
def generar_texto(ngrams, largo=50, semilla=None):
    if not semilla:
        semilla = random.choice(list(ngrams.keys()))
    salida = list(semilla)

    for _ in range(largo):
        context = tuple(salida[-2:])
        posibles = ngrams.get(context, [])
        if posibles:
            salida.append(random.choice(posibles))
        else:
            break
    return ' '.join(salida)


In [22]:
print(generar_texto(ngrams, largo=100))


sin halagarme estas sensualidades del oído a los puteros españoles de ayer que la ha divisado todavía llegó doña constanza traía su cortejo a las instituciones no debieron descuajar en él si quiere que haya cogido mi mano en la noche ah yo sabía de golpe según haya sido la de hoy seguiré siéndolo tanto o más mujeres no chata ni insignificante como cualquiera otra parte no será su regalo de un padecimiento especial de los hábitos y a mi padre que jamás ha entendido baroja la insulta cada vez que llevamos y yo paso de dos bandas de silencio o de


In [35]:
#@title ✍️ Escribe una frase para continuar en estilo Gabriela Mistral
frase_inicial = "flor amarillenta"  #@param {type:"string"}
largo_generado = 170  #@param {type:"slider", min:10, max:200, step:10}

# Tokenizar la frase
semilla_tokens = re.findall(r'\b\w+\b', frase_inicial.lower())

# Verificamos que tenga al menos n-1 tokens
if len(semilla_tokens) < n - 1:
    print(f"Debes escribir al menos {n-1} palabras.")
else:
    semilla = tuple(semilla_tokens[-(n-1):])
    texto_generado = generar_texto(ngrams, largo=largo_generado, semilla=semilla)
    print("🔮 Texto generado:\n")
    print(texto_generado)


🔮 Texto generado:

flor amarillenta sus perfectos sembra díos los más nobles que la dulzura cuando vimos la muerte la prisa es pura mi almohada alborotaban como un objeto de caucho vivo gracias a él los deja pasar al peatón en el final de mi hermana ya me hastío de oírmela en las córdobas blancas cantan sus muros santa catalina y algunas rimas de mi paladar las recuerda en sus paisajes plantas y los abro y los injertos los que me descu bren casi todas sabe usted qué profunda huella me dejó una especie de acción de gracias rondas ronda del arco iris a fryda schultz de mantovani la mitad del año en protesta contra los trastámara y que hizo de las casas alzada de la costumbre de dos mil veinte colofón impreso en chile supongo que las gentes la ironía constante del santo tan bella y que se le ha escuchado mucho y sabía mi mano gabriela mistral 186 no me dieron mucha ternura y lectura para mujeres pero en verdad de esas trampas


In [32]:
# Mostrar sugerencias para una palabra inicial
def sugerencias_para(palabra_inicial):
    palabra_inicial = palabra_inicial.lower()
    candidatos = set()

    for contexto in ngrams:
        if contexto[0] == palabra_inicial:
            candidatos.add(contexto[1])

    if candidatos:
        print(f"Sugerencias para continuar después de '{palabra_inicial}':")
        print(", ".join(sorted(candidatos)))
    else:
        print(f"No se encontraron continuaciones para '{palabra_inicial}'.")

# Ejemplo:
sugerencias_para("amiga")


Sugerencias para continuar después de 'amiga':
a, al, c, cara, casi, con, consu, crear, cree, de, dirigir, dolores, entienda, española, esther, estoy, francesa, gabriela, gracias, habría, haciendo, hay, inglesa, la, las, le, los, lucila, me, mejor, mexicana, muy, más, mía, no, norteamericana, para, permítame, pero, pídale, que, querida, respetuosa, se, secretaria, si, sin, suele, sí, tan, tiene, todo, usted, vamos, varias, vieja, y, yanqui, yo


In [34]:
# Crear lista de opciones desde los primeros tokens
opciones_inicio = sorted(set([k[0] for k in ngrams]))

#@title ✨ Elige una palabra para comenzar
palabra_inicial = "flor"  #@param ["madre", "niña", "luz", "tierra", "sol", "vida", "tala", "flor", "día", "viento"]
print(f"Elegiste comenzar con: {palabra_inicial}")
sugerencias_para(palabra_inicial)


Elegiste comenzar con: flor
Sugerencias para continuar después de 'flor':
a, al, amarillenta, americana, aristócrata, azul, azulada, blanca, callada, casi, caída, como, con, cortan, cristiana, cómo, de, deja, del, e, empavesada, en, entonces, es, escasa, espiga, esta, estaba, esto, esté, eterna, flor, frenética, fue, g, gabriela, guarda, ha, hiende, juguete, junto, la, le, llameando, lleva, local, los, manso, mareando, mira, misma, mojados, más, mío, nace, natural, ni, no, o, oh, otra, parecía, pasta, patricia, poca, por, preciosa, preferida, primeros, que, queda, quiere, quiero, quién, recién, roja, salte, se, sean, seremos, si, sin, sino, sobre, solo, suma, tan, te, tenía, tiesa, tremolada, tuviera, un, una, vendrá, verdadera, vuelve, y, yo, él



# Explicación Detallada: Generación de Texto con N-Gramas

Este documento explica línea por línea cómo funciona el proceso de generación de texto utilizando un modelo de n-gramas basado en trigramas (n=3), aplicado con Python, `CountVectorizer` y `NLTK`.

---

## 📌 Objetivo

El objetivo del ejercicio es predecir y generar palabras utilizando un modelo basado en frecuencias de n-gramas extraídos de un texto. El modelo trabaja como un sistema de autocompletado simple.

---

## 🧩 Parte Principal: Generación de Texto

```python
# Inicializa la semilla aleatoria
seed(123)

# Semilla de entrada proporcionada por el usuario
my_seed_str = 'machine learning'  # Debe ser un (n-1)-grama válido

a_nm1_gram = my_seed_str
output_string = my_seed_str  # Inicializa el texto generado

# Bucle de generación de texto
while a_nm1_gram in my_dict:
    output_string += " " + predict_next(a_nm1_gram)
    words = nltk.word_tokenize(output_string)
    a_nm1_gram = ' '.join(words[-n+1:])  # Actualiza el contexto (últimas n-1 palabras)

# Muestra el texto generado
output_string
```

---

## 🔍 Explicación Línea por Línea

### `seed(123)`
- Fija la semilla aleatoria para asegurar reproducibilidad.
- La función `predict_next()` depende de aleatoriedad, así que esto permite resultados consistentes en cada ejecución.

---

### `my_seed_str = 'machine learning'`
- Define el punto de partida del texto generado.
- Tiene que ser un (n-1)-grama válido (con n=3, debe ser un bigrama).

---

### `a_nm1_gram = my_seed_str`
- Inicializa la variable que contiene el contexto actual (el (n-1)-grama desde el cual se predecirá la siguiente palabra).

---

### `output_string = my_seed_str`
- Guarda la cadena de texto generada.
- Se irá completando conforme se predigan nuevas palabras.

---

### `while a_nm1_gram in my_dict:`
- Mientras el contexto actual exista en el diccionario, continúa la generación.
- Si no hay registros de palabras que sigan al contexto, la generación termina.

---

### `output_string += " " + predict_next(a_nm1_gram)`
- Llama a la función `predict_next()` para predecir la siguiente palabra.
- Esa palabra se agrega al `output_string` con un espacio.

---

### `words = nltk.word_tokenize(output_string)`
- Tokeniza el texto generado en palabras individuales.
- Necesario para extraer las últimas `n-1` palabras correctamente.

---

### `a_nm1_gram = ' '.join(words[-n+1:])`
- Toma las últimas `n-1` palabras generadas.
- Esto forma el nuevo contexto para la siguiente predicción.

---

### Resultado Final

- El resultado es una cadena de texto que comienza con la semilla y se expande automáticamente hasta que no se pueden hacer más predicciones.

---

## 🔁 Esquema General

```
Semilla → predecir 1 palabra → agregar → actualizar contexto → repetir
```

---


# Explicación Detallada: Autocompletado de Texto con N-Gramas

Este documento explica **línea por línea** todo el proceso de construcción y uso de un modelo de autocompletado de texto basado en **n-gramas**, específicamente **trigramas** (`n=3`). El código está dividido en cuatro partes fundamentales:

1. Preparación del texto y extracción de n-gramas
2. Construcción del diccionario de predicción
3. Función para predecir la siguiente palabra
4. Generación de una secuencia de texto

---

## 📌 Librerías utilizadas

```python
import nltk
from numpy.random import randint, seed
from sklearn.feature_extraction.text import CountVectorizer
```

- `nltk`: Biblioteca para procesamiento de lenguaje natural. Aquí se usa para tokenizar.
- `randint` y `seed`: De `numpy.random`, permiten elegir elementos al azar y fijar la semilla para reproducibilidad.
- `CountVectorizer`: De `sklearn`, para generar n-gramas del texto.

---

## 1. Preparación del Texto y Extracción de n-Gramas

```python
my_text = [my_text.lower()]
```

- Convierte todo el texto a minúsculas.
- Lo convierte en una lista, como lo requiere `CountVectorizer`.

```python
n = 3
n_min = n
n_max = n
n_gram_type = 'word'
vectorizer = CountVectorizer(ngram_range=(n_min,n_max), analyzer=n_gram_type)
```

- Define el tamaño de los n-gramas (`n = 3` para trigramas).
- `analyzer='word'` indica que se trata de n-gramas de palabras (no de caracteres).

```python
n_grams = vectorizer.fit(my_text).get_feature_names_out()
n_gram_cts = vectorizer.transform(my_text).toarray()[0]
list(zip(n_grams,n_gram_cts))
```

- `fit()` entrena el vectorizador con el texto.
- `get_feature_names_out()` obtiene los trigramas encontrados.
- `transform(...).toarray()` devuelve las frecuencias de cada n-grama como un array.
- Finalmente, se muestra una lista de pares (trigrama, frecuencia).

---

## 2. Construcción del Diccionario de Predicción

```python
my_dict = {}
for a_gram in n_grams:
    words = nltk.word_tokenize(a_gram)
    a_nm1_gram = ' '.join(words[0:n-1])
    next_word = words[-1]
    if a_nm1_gram not in my_dict:
        my_dict[a_nm1_gram] = [next_word]
    else:
        my_dict[a_nm1_gram].append(next_word)
```

- Inicializa un diccionario vacío.
- Itera sobre cada trigrama (`a_gram`) generado previamente.
- Lo divide en palabras usando `nltk.word_tokenize()`.
- Extrae el (n-1)-grama (`a_nm1_gram`) como clave (las primeras dos palabras).
- La tercera palabra es la que sigue y se guarda como valor.
- Si la clave ya existe, se agrega la palabra al final de la lista.

✅ El diccionario final tiene la forma:

```python
{
  'machine learning': ['is', 'algorithms', 'algorithms'],
  'learning is': ['the'],
  ...
}
```

---

## 3. Función de Predicción de la Siguiente Palabra

```python
def predict_next(a_nm1_gram):
    value_list_size = len(my_dict[a_nm1_gram])
    i_pick = randint(0, value_list_size)
    return my_dict[a_nm1_gram][i_pick]
```

- Toma como entrada un bigrama válido (`a_nm1_gram`).
- Calcula cuántas palabras posibles lo continúan.
- Elige una posición aleatoria usando `randint(...)`.
- Devuelve la palabra correspondiente de la lista de valores.

📌 Esta función simula una predicción aleatoria basada en la frecuencia de ocurrencia (sin calcular probabilidades explícitas).

---

## 4. Generación de Secuencia de Texto

```python
seed(123)
my_seed_str = 'machine learning'
a_nm1_gram = my_seed_str
output_string = my_seed_str
```

- Se fija la semilla para reproducibilidad.
- Se define la frase semilla (`my_seed_str`) con la que comenzará la generación.
- Se inicializa la variable `output_string` con esa semilla.

```python
while a_nm1_gram in my_dict:
    output_string += " " + predict_next(a_nm1_gram)
    words = nltk.word_tokenize(output_string)
    a_nm1_gram = ' '.join(words[-n+1:])
```

- Mientras existan continuaciones posibles:
  - Se predice la siguiente palabra.
  - Se agrega al texto generado.
  - Se tokeniza el texto y se extraen las últimas `n-1` palabras para formar el nuevo contexto.

🔁 Este bucle se repite hasta que el último bigrama generado **no tiene más continuaciones registradas**.

```python
output_string
```

- Finalmente, se muestra el texto generado completo.

---

## 🔁 Flujo General del Modelo

```
1. Texto original → n-gramas → diccionario de predicción
2. Semilla → predecir siguiente palabra → actualizar contexto → repetir
```

---

## ✅ Requisitos para que funcione

- El bigrama de entrada (`my_seed_str`) **debe existir** en `my_dict`.
- El texto debe tener suficiente longitud para generar ejemplos variados.

---

## 🧠 Posibles Extensiones

- Calcular probabilidades en lugar de elegir aleatoriamente.
- Probar con otros valores de `n`.
- Usar múltiples documentos o textos más extensos.
- Limitar la cantidad de palabras generadas para evitar bucles infinitos.

---

Este modelo es simple pero ilustrativo, y es una excelente introducción a los conceptos básicos de modelado de lenguaje mediante n-gramas.

# llegamos a p 110