## Introducción a la representación de texto 

En el procesamiento del lenguaje natural, transformar el texto en una representación numérica es fundamental para que las computadoras puedan procesarlo y analizarlo. La idea central es convertir elementos textuales –como palabras, oraciones o documentos completos– en vectores en un espacio multidimensional. Estos **modelos de espacios vectoriales** permiten cuantificar similitudes y relaciones semánticas entre fragmentos de texto, de modo que entidades semánticamente similares se ubiquen cerca unas de otras en dicho espacio.

La representación vectorial del texto se utiliza en múltiples tareas, como la clasificación de documentos, la búsqueda de información, el análisis de sentimientos, la traducción automática y muchas otras aplicaciones de NLP. En esta explicación se abordarán tanto métodos tradicionales (como la codificación one-hot, la bolsa de palabras y TF-IDF) como técnicas más avanzadas (como el uso de subpalabras y representaciones a nivel de oración o documento).

#### Modelos de espacios vectoriales en NLP

Los **modelos de espacio vectorial** constituyen la base para representar cualquier tipo de dato textual. La idea clave es que cada unidad de texto (sea una palabra, una frase o un documento) se traduce en un vector numérico. Entre los aspectos más relevantes se encuentran:

- **Conversión del texto en vectores:** Se asigna a cada palabra o token una dimensión en un espacio numérico. Por ejemplo, en el esquema de bolsa de palabras, cada dimensión del vector representa la presencia o frecuencia de una palabra en el documento.
- **Medición de similitud:** Una vez que los textos están representados como vectores, se pueden utilizar métricas como la similitud coseno o distancias (Euclidiana, Manhattan, etc.) para comparar textos y extraer relaciones semánticas.
- **Embeddings de palabras**: Métodos más avanzados como Word2Vec, GloVe y FastText aprenden representaciones vectoriales densas de palabras a partir de grandes corpus de texto. Estos embeddings capturan relaciones semánticas y sintácticas, de modo que palabras con significados similares se mapean a puntos cercanos en el espacio vectorial.
- **Modelos basados en transformers**: Aunque no son exclusivamente modelos de espacio vectorial en el sentido clásico, los modelos basados en transformers, como BERT y GPT, utilizan técnicas de representación vectorial para codificar información textual en vectores de características de alta dimensión. Estos vectores capturan contextos complejos y pueden ser utilizados para tareas avanzadas de NLP.

- **Uso en tareas diversas:** Estas representaciones permiten, por ejemplo, identificar documentos similares, clasificar textos por temas o realizar búsquedas semánticas.

Las representaciones pueden variar en complejidad desde las más simples, como las codificaciones basadas en frecuencias, hasta las más sofisticadas que involucran redes neuronales y transformers (por ejemplo, BERT o GPT).


### Enfoques básicos de vectorización

En esta sección se abordan métodos básicos que permiten transformar el texto en vectores numéricos. Se parte de la idea elemental de asignar a cada palabra del vocabulario un identificador único, para posteriormente representar cada documento como un vector de dimensión igual al tamaño del vocabulario.

**Preprocesamiento del corpus**

Antes de vectorizar, se realiza un preprocesamiento que incluye convertir las cadenas a minúsculas y eliminar signos de puntuación para garantizar uniformidad en el análisis. Por ejemplo:

In [None]:
documentos = ["Dog bites man.", "Man bites dog.", "Dog eats meat.", "Man eats food."]
docs_procesados = [doc.lower().replace(".", "") for doc in documentos]
print(docs_procesados)

Aquí se obtiene una lista de documentos en la que cada texto está en minúsculas y sin puntos. Esto facilita la construcción de un vocabulario sin duplicidades causadas por diferencias de mayúsculas/minúsculas o puntuación.

**Construcción del vocabulario y codificación One-Hot**

El primer paso es construir el vocabulario, es decir, asignar a cada palabra única un identificador numérico. Se recorre cada documento y se separa en palabras:

In [None]:
vocab = {}
conteo = 0
for doc in docs_procesados:
    for palabra in doc.split():
        if palabra not in vocab:
            conteo += 1
            vocab[palabra] = conteo
print(vocab)

Esta asignación sirve de base para implementar la **codificación one-hot**. La idea es representar cada palabra mediante un vector binario de dimensión igual al tamaño del vocabulario, donde sólo la posición correspondiente a esa palabra es 1 y el resto son 0.

Un esqueleto de función para obtener el vector one-hot es:

In [None]:
def obtiene_vector_onehot(cadena):
    onehot_codificado = []
    for palabra in cadena.split():
        # Se crea un vector de ceros con longitud igual al vocabulario.
        temp = [0] * len(vocab)
        # Aquí se debe completar: identificar la posición de la palabra en el vocabulario y marcarla como 1.
        # Por ejemplo, si la palabra 'dog' tiene id 1, se asigna 1 en la primera posición.
        # Completar la lógica para transformar cada palabra.
    return onehot_codificado

En proyectos reales, la implementación de la codificación one-hot se realiza de forma más optimizada usando librerías como scikit-learn.


#### Codificación one-hot y label encoding con scikit-learn

La librería **scikit-learn** ofrece herramientas optimizadas para realizar tanto la codificación one-hot como la codificación de etiquetas (label encoding). Estas técnicas se utilizan para transformar las palabras en representaciones numéricas.

**Label encoding**

La **codificación de etiquetas** convierte cada palabra en un valor numérico único que va de `0` a `n-1`, donde `n` es el número de palabras únicas en el corpus. El siguiente fragmento de código muestra cómo hacerlo:

In [None]:
from sklearn.preprocessing import LabelEncoder

S1 = 'dog bites man'
S2 = 'man bites dog'
S3 = 'dog eats meat'
S4 = 'man eats food'

data = [S1.split(), S2.split(), S3.split(), S4.split()]
# Se concatenan todas las palabras de cada documento en una única lista
valores = data[0] + data[1] + data[2] + data[3]
print("Los datos: ", valores)

# Instanciar y ajustar el LabelEncoder
le = LabelEncoder()
le.fit(valores)
# Transformar una lista de palabras usando el encoder
etiquetas = le.transform(valores)
print("Codificación de etiquetas: ", etiquetas)

**One-Hot encoding con scikit-learn**

Para realizar la codificación one-hot se utiliza el objeto `OneHotEncoder` de scikit-learn, el cual transforma los valores etiquetados en una matriz dispersa (sparse matrix) en la que cada columna representa una de las posibles categorías:

In [None]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

valores = ['rojo', 'verde', 'azul', 'verde', 'rojo']
valores = np.array(valores).reshape(-1, 1)

ohe = OneHotEncoder(sparse_output=False) 
ohe.fit(valores)

# Transformar los datos
datos_onehot = ohe.transform(valores)
print("Codificación One-Hot:\n", datos_onehot)


Con estos ejemplos se comprende cómo se asigna a cada palabra una representación numérica, tanto en forma de etiqueta única como en un vector binario one-hot.

#### Bolsa de palabras (bag of words, BoW)


La **bolsa de palabras** (*bag of words*, BoW) es una técnica clásica de representación de texto. La idea clave detrás de esta técnica es representar el texto como una bolsa (o colección) de palabras, **ignorando tanto el orden como el contexto** en el que estas aparecen. 
La intuición básica es que se asume que un texto perteneciente a una clase determinada dentro de un conjunto de datos está caracterizado por un conjunto único de palabras. Si dos fragmentos de texto contienen casi las mismas palabras, es probable que pertenezcan al mismo grupo (o clase). Así, al analizar las palabras presentes en un texto, es posible identificar la clase (o categoría) a la que pertenece.

De manera similar a la codificación **one-hot**, BoW asigna a cada palabra un identificador entero único entre `1` y `|V|` (el tamaño del vocabulario). Luego, cada documento del corpus se convierte en un vector de `|V|` dimensiones, donde el componente `i`, correspondiente a la palabra con ID `w_{id}`, representa simplemente el número de veces que dicha palabra `w` aparece en el documento. Es decir, se califica cada palabra en `V` según su conteo de apariciones en el documento.


#### Pasos 

##### **Paso 1: Definimos un pequeño corpus**

```python
corpus = [
    "el gato duerme",
    "el perro duerme",
    "el gato y el perro juegan"
]
```
##### **Paso 2: Tokenizamos (convertimos cada frase en una lista de palabras)**

```python
tokenized_corpus = [sentence.split() for sentence in corpus]
print(tokenized_corpus)
```

**Salida:**

```python
[['el', 'gato', 'duerme'], 
 ['el', 'perro', 'duerme'], 
 ['el', 'gato', 'y', 'el', 'perro', 'juegan']]
```

##### **Paso 3: Creamos el vocabulario (conjunto de palabras únicas)**

```python
from itertools import chain

vocabulario = sorted(set(chain(*tokenized_corpus)))
print("Vocabulario:", vocabulario)
```

**Salida:**

```python
Vocabulario: ['duerme', 'el', 'gato', 'juegan', 'perro', 'y']
```

Asignamos ID a cada palabra:

```python
word2id = {word: idx for idx, word in enumerate(vocabulario)}
print("ID de cada palabra:", word2id)
```

##### **Paso 4: Representamos cada documento como un vector BoW**

```python
import numpy as np

def vector_bow(sentence, word2id):
    vec = np.zeros(len(word2id), dtype=int)
    for word in sentence.split():
        idx = word2id[word]
        vec[idx] += 1
    return vec

for i, sentence in enumerate(corpus):
    vector = vector_bow(sentence, word2id)
    print(f"Vector BoW para documento {i+1}: {vector}")
```

**Salida:**

```python
Vector BoW para documento 1: [1 1 1 0 0 0]
Vector BoW para documento 2: [1 1 0 0 1 0]
Vector BoW para documento 3: [0 2 1 1 1 1]
```


##### **Interpretación del primer vector `[1 1 1 0 0 0]`**:
Usando el vocabulario ordenado `['duerme', 'el', 'gato', 'juegan', 'perro', 'y']`:

- `"duerme"`: aparece 1 vez
- `"el"`: 1 vez
- `"gato"`: 1 vez
- `"juegan"`, `"perro"`, `"y"`: 0 veces


>Puedes continuar verificando los resultados dados.

A continuación, realizaremos la tarea de encontrar la representación de una bolsa de palabras. Utilizaremos [CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) de sklearn.


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    "el gato duerme",
    "el perro duerme",
    "el gato y el perro juegan"
]


vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

print("Vocabulario:", vectorizer.get_feature_names_out())
print("Matriz BoW:\n", X.toarray())


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Lista de documentos
docs_procesados = ["dog bites man", "man bites dog", "dog and dog are friends"]
print("El corpus: ", docs_procesados)

# Inicializar el vectorizador
count_vect = CountVectorizer()

# Construcción de la representación BoW para el corpus
bow_rep = count_vect.fit_transform(docs_procesados)  # Aquí se ajusta y transforma

# Mapeo del vocabulario
print("El vocabulario: ", count_vect.vocabulary_)

# Ver la representación BoW para los dos primeros documentos
print("Representación BoW para 'dog bites man': ", bow_rep[0].toarray())
print("Representación BoW para 'man bites dog': ", bow_rep[1].toarray())

# Representación usando este vocabulario para un nuevo texto
temp = count_vect.transform(["dog and dog are friends"])
print("Representación BoW para 'dog and dog are friends':", temp.toarray())


#### **Explicación**

```python
['dog bites man', 'man bites dog', 'dog and dog are friends']
```

Este es tu conjunto de 3 documentos (frases).

**Vocabulario generado**

```python
{'dog': 3, 'bites': 2, 'man': 5, 'and': 0, 'are': 1, 'friends': 4}
```

El `CountVectorizer` asignó un **ID único** (índice de columna en el vector BoW) a cada palabra que aparece en el corpus completo.

| Palabra   | Índice |
|-----------|--------|
| 'and'     | 0      |
| 'are'     | 1      |
| 'bites'   | 2      |
| 'dog'     | 3      |
| 'friends' | 4      |
| 'man'     | 5      |

Entonces cada documento se representa como un vector de 6 elementos (uno por cada palabra).

**Representación BoW para cada documento**

**Documento 1:** `'dog bites man'`
Vector BoW: `[[0 0 1 1 0 1]]`

| Palabra   | Conteo |
|-----------|--------|
| 'and'     | 0      |
| 'are'     | 0      |
| 'bites'   | 1      |
| 'dog'     | 1      |
| 'friends' | 0      |
| 'man'     | 1      |

El vector indica que las palabras `'dog'`, `'bites'` y `'man'` aparecen una vez en ese documento.

**Documento 2:** `'man bites dog'`

Vector BoW : `[[0 0 1 1 0 1]]`

Es **idéntico al documento 1**, ya que tiene las mismas palabras, solo que en otro orden (que BoW **ignora**).

**Documento 3:** `'dog and dog are friends'`

Vector BoW: `[[1 1 0 2 1 0]]`

| Palabra   | Conteo |
|-----------|--------|
| 'and'     | 1      |
| 'are'     | 1      |
| 'bites'   | 0      |
| 'dog'     | 2      |
| 'friends' | 1      |
| 'man'     | 0      |

Aquí se ve que `'dog'` aparece **dos veces**, y que `'and'`, `'are'`, y `'friends'` aparecen **una vez**.

**Resultados**

- Cada vector tiene 6 posiciones, una por palabra en el vocabulario.
- La posición `i` representa el número de veces que la palabra con índice `i` aparece en ese documento.
- El modelo **ignora el orden** de las palabras y se enfoca solo en **la frecuencia de aparición**.


#### Aplicación a nuevos textos y uso de vectores ninarios

Una ventaja del método BoW es que, una vez construido el vocabulario, se pueden transformar nuevos textos utilizando el mismo esquema. Por ejemplo:


In [None]:
# Configurar CountVectorizer para vectores binarios
count_vect_bin = CountVectorizer(binary=True)
bow_rep_bin = count_vect_bin.fit_transform(docs_procesados)

temp_bin = count_vect_bin.transform(["dog and dog are friends"])
print("Representacion Bow (binaria) para 'dog and dog are friends':", temp_bin.toarray())

Esto da como resultado una representación diferente para la misma oración. `CountVectorizer` admite n-gramas tanto de palabras como de caracteres. 

**Pregunta:** Enuncia las ventajas y desventajas que puedes encontrar en el método BoW descrito con anterioridad.

In [None]:
# Tu respuesta

#### Bolsa de n-gramas

Los esquemas de representación que hemos visto hasta ahora tratan las palabras como unidades independientes, sin tener en cuenta las frases ni el orden en que aparecen. El enfoque de la **bolsa de n-gramas** (BoN) intenta remediar esta limitación dividiendo el texto en fragmentos de `n` palabras (o *tokens*) contiguas. Esto permite capturar algo de contexto, lo cual no era posible con los enfoques anteriores. Cada uno de estos fragmentos se denomina *n-grama*.

El vocabulario del corpus, `V`, se define como la colección de todos los *n-gramas* únicos presentes en el texto. Luego, cada documento del corpus se representa mediante un vector de longitud `|V|`, donde cada componente del vector contiene el recuento de frecuencia de los *n-gramas* presentes en el documento, asignando un valor de cero a los *n-gramas* que no aparecen.

En el ámbito del procesamiento del lenguaje natural (*NLP*), este esquema también se conoce como **selección de características basada en n-gramas**.


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Corpus de ejemplo
docs_procesados = ['dog bites man', 'man bites dog', 'dog and dog are friends']
print("El corpus: ", docs_procesados)

# Vectorización con bigramas
count_vect = CountVectorizer(ngram_range=(2, 2))

# Construcción de la representación BoW para el corpus
bow_rep = count_vect.fit_transform(docs_procesados)

# Mapeo del vocabulario
print("El vocabulario: ", count_vect.vocabulary_)

# Representación BoW para los dos primeros documentos
print("Representacion BoW para 'dog bites man': ", bow_rep[0].toarray())
print("Representacion BoW para 'man bites dog': ", bow_rep[1].toarray())

# Representación usando el mismo vocabulario para un nuevo texto
temp = count_vect.transform(["dog and dog are friends"])
print("Representación BoW para 'dog and dog are friends':", temp.toarray())


**Pregunta:** Enuncia las ventajas y desventajas que puedes encontrar en el método BoN descrito con anterioridad.

In [None]:
# Tu respuesta

#### TF-IDF

El método **TF-IDF** es una técnica que pondera la frecuencia de las palabras en un documento en relación a su frecuencia en el corpus completo. Este método ayuda a disminuir el peso de términos muy frecuentes (que no discriminan bien entre documentos) y aumentar el de aquellos que son raros y más informativos.

**Cálculo de TF-IDF**

- **TF (frecuencia de término):** Mide cuántas veces aparece una palabra en un documento. Se puede normalizar para evitar favorecer documentos más largos.
- **IDF (frecuencia inversa de documento):** Calcula la importancia de una palabra a partir de la cantidad de documentos en los que aparece. Se formula tomando el logaritmo de la razón entre el número total de documentos y la cantidad de documentos que contienen la palabra.
- **Producto TF-IDF:** Multiplicar TF por IDF da el valor final que indica la relevancia de una palabra en el contexto del documento y el corpus.


$$
TF\text{-}IDF(t,d) = TF(t,d) \times IDF(t)
$$

Donde `t` es el término, `d` es el documento, y el corpus es el conjunto total de documentos.

Scikit-learn proporciona el objeto `TfidfVectorizer` para calcular esta representación:


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Instanciar TfidfVectorizer
tfidf = TfidfVectorizer()
bow_rep_tfidf = tfidf.fit_transform(docs_procesados)

# Imprimir los valores IDF para cada palabra en el vocabulario
print("IDF para todas las palabras en el vocabulario:", tfidf.idf_)
print("-" * 10)
print("Todas las palabras en el vocabulario:", tfidf.get_feature_names_out())
print("-" * 10)

# Mostrar la representación TF-IDF para todo el corpus
print("Representacion TFIDF para todos los documentos en el corpus:\n", bow_rep_tfidf.toarray())
print("-" * 10)

# Transformar un nuevo texto usando el mismo modelo TF-IDF
temp = tfidf.transform(["dog and man are friends"])
print("Representacion Tfidf para 'dog and man are friends':\n", temp.toarray())

#### **Explicación de resultados**

**Corpus original**

```python
docs_procesados = [
    'dog bites man', 
    'man bites dog', 
    'dog and dog are friends'
]
```

**Paso 1: Palabras en el vocabulario**

```python
['and', 'are', 'bites', 'dog', 'friends', 'man']
```

Esto es el vocabulario ordenado que el `TfidfVectorizer` extrajo. Cada posición del vector representa una de estas palabras.

**Paso 2: Valores IDF**

```python
[1.6931, 1.6931, 1.2877, 1.0000, 1.6931, 1.2877]
```

Esto nos dice qué tan **rara** es cada palabra en el corpus:

| Palabra   | IDF     | Significado                                      |
|-----------|---------|--------------------------------------------------|
| 'dog'     | 1.000   | Aparece en **todos** los documentos → menos útil |
| 'bites'   | 1.2877  | Aparece en 2/3 documentos                        |
| 'man'     | 1.2877  | Aparece en 2/3 documentos                        |
| 'and'     | 1.6931  | Solo aparece en 1 documento → más informativa   |
| 'are'     | 1.6931  | Solo aparece en 1 documento → más informativa   |
| 'friends' | 1.6931  | Solo aparece en 1 documento → más informativa   |

Cuanto **mayor el IDF**, más valiosa es la palabra como discriminante.

**Paso 3: Representación TF-IDF del corpus**

```python
[[0.         0.         0.6198  0.4813  0.         0.6198 ]
 [0.         0.         0.6198  0.4813  0.         0.6198 ]
 [0.4770     0.4770     0.       0.5634  0.4770     0.      ]]
```

Cada fila es un documento, y cada columna es una palabra del vocabulario:

Documento 1:`'dog bites man'`

| Palabra   | TF-IDF |
|-----------|--------|
| 'dog'     | 0.4813 |
| 'bites'   | 0.6198 |
| 'man'     | 0.6198 |

Las otras palabras no aparecen, por eso su valor es 0.

##### Documento 3: `'dog and dog are friends'`

| Palabra   | TF-IDF                             |
|-----------|-------------------------------------|
| `dog`     | 0.5634 (ocurre dos veces, pero es común) |
| `and`     | 0.4770                              |
| `are`     | 0.4770                              |
| `friends` | 0.4770                              |


##### Paso 4: TF-IDF para nuevo texto:  
`'dog and man are friends'`

```python
[[0.5046  0.5046  0.      0.2980  0.5046  0.3838]]
```

| Palabra   | TF-IDF                                 |
|-----------|-----------------------------------------|
| `dog`     | 0.2980 → común en el corpus             |
| `and`     | 0.5046 → rara en el corpus              |
| `are`     | 0.5046 → rara en el corpus              |
| `friends` | 0.5046 → rara en el corpus              |
| `man`     | 0.3838 → aparece moderadamente          |


Esto refleja que `'dog'` tiene **menos peso** que `'friends'`, `'are'`, `'and'`, etc., ya que aparece **en casi todos los documentos**, mientras que las otras solo aparecen en uno → son más informativas.


#### Visualización en Pandas

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# Corpus original
docs_procesados = ['dog bites man', 'man bites dog', 'dog and dog are friends']

# Instanciar y ajustar el vectorizador
tfidf = TfidfVectorizer()
bow_rep_tfidf = tfidf.fit_transform(docs_procesados)

# Obtener las palabras del vocabulario
palabras = tfidf.get_feature_names_out()

# Crear DataFrame para visualizar el corpus representado como TF-IDF
df_tfidf = pd.DataFrame(bow_rep_tfidf.toarray(), columns=palabras, index=[f'Doc_{i+1}' for i in range(len(docs_procesados))])
print("Representación TF-IDF del corpus:")
print(df_tfidf)
print("-" * 40)

# Transformar un nuevo texto
nuevo_texto = "dog and man are friends"
temp = tfidf.transform([nuevo_texto])

# Crear DataFrame para el nuevo texto
df_nuevo = pd.DataFrame(temp.toarray(), columns=palabras, index=['Nuevo texto'])
print("Representación TF-IDF para el nuevo texto:")
print(df_nuevo)


**Pregunta:** Enuncia las ventajas y desventajas que puedes encontrar en el método TF-IDF descrito con anterioridad.

In [None]:
#Tu respuesta

#### **Ejercicios**

1. Dado un pequeño conjunto de documentos (frases), implementa una función en Python que convierta cada palabra única en un vector one-hot. 

In [None]:
corpus = ['el gato come pescado', 'el perro come carne', 'el gato juega con el perro']

# Implementa la función de one-hot encoding aquí

2. Escribe una función en Python que tome como entrada el mismo conjunto de documentos del ejercicio anterior y devuelva una representación de bolsa de palabras de cada documento.

In [None]:
# Tu respuesta

3.Modifica la función de Bolsa de Palabras del ejercicio 2 para que ahora soporte n-gramas. Por simplicidad, considera bigramas (n=2) para este ejercicio.

In [None]:
# Tu respuesta

4.Implementa una función en Python que calcule la matriz TF-IDF para el mismo conjunto de documentos. Puedes usar `TfidfVectorizer` de sklearn para simplificar la implementación, pero intenta entender qué está haciendo.

In [None]:
# Tu respuesta

#### **Bolsa de subpalabras**

El concepto de **bolsa de subpalabras** es una extensión del enfoque **bolsa de palabras (BoW)**. En lugar de considerar cada palabra como una unidad independiente, se dividen las palabras en subpalabras o fragmentos más pequeños, como prefijos, sufijos o secuencias intermedias de caracteres. Esto es especialmente útil en lenguas con alta carga morfológica, donde las variaciones morfológicas pueden cambiar el significado o el contexto de una palabra, así como en idiomas con vocabularios extensos o con muchas palabras poco frecuentes.

En una **bolsa de subpalabras**, un documento se representa como un vector de frecuencias de subpalabras, en lugar de palabras completas. Este enfoque permite a los modelos manejar mejor las palabras desconocidas (*OOV*, *out-of-vocabulary*) o las variaciones morfológicas, y capturar relaciones entre palabras morfológicamente relacionadas.



#### Ejemplo

Supongamos que estamos procesando un corpus en inglés con las palabras `"running"`, `"runner"` y `"runs"`. Si utilizamos una **bolsa de subpalabras**, podríamos descomponer estas palabras en fragmentos como:

- `"run"`, `"ning"`, `"er"`, `"s"`

Así, el modelo puede reconocer que estas palabras están relacionadas, aunque no aparezcan de forma idéntica en el texto. En lugar de trabajar únicamente con palabras completas, se tiene en cuenta la estructura interna de las palabras. Por ejemplo, la palabra `"running"` podría descomponerse en los subwords `["run", "ning"]`.

Esto resulta especialmente útil en lenguas como el alemán o el finlandés, que presentan palabras compuestas largas y complejas, o en aplicaciones con vocabularios dinámicos como la generación de lenguaje o la traducción automática.

Un caso práctico es el uso de técnicas como **Byte-Pair Encoding (BPE)** o el **Unigram Language Model**, implementadas en herramientas como **SentencePiece**, que realizan esta segmentación en subpalabras. En modelos como **GPT** y **BERT**, las palabras se descomponen en subpalabras utilizando BPE para reducir el tamaño del vocabulario y manejar palabras desconocidas.


In [None]:
!pip install sentencepiece


In [None]:
import sentencepiece as spm

# Ejemplo de corpus (normalmente, esto sería un conjunto de textos más grande)
corpus = ["running", "runner", "runs", "jumping", "jumper", "jumps"]

# Guardamos el corpus en un archivo temporal
with open('corpus.txt', 'w') as f:
    for word in corpus:
        f.write(word + "\n")

# Entrenar un modelo BPE con SentencePiece
spm.SentencePieceTrainer.train('--input=corpus.txt --model_prefix=mymodel --vocab_size=30 --model_type=bpe')

# Cargar el modelo entrenado
sp = spm.SentencePieceProcessor(model_file='mymodel.model')

# Probar la tokenización de subpalabras en el corpus
test_words = ["running", "runner", "runs"]

for word in test_words:
    print(f"Word: {word}")
    subwords = sp.encode(word, out_type=str)
    print(f"Subwords: {subwords}")
    print()

# Ejemplo con una palabra nueva
new_word = "jumped"
print(f"Word: {new_word}")
subwords_new = sp.encode(new_word, out_type=str)
print(f"Subpalabras: {subwords_new}")


#### **Explicación de los resultados**

**¿Qué hace SentencePiece con BPE?**

- **BPE (Byte Pair Encoding)** aprende un vocabulario de subpalabras (fragmentos frecuentes de texto) a partir de un corpus.
- Cada palabra se divide en **subpalabras** (tokens) según esas unidades aprendidas.
- SentencePiece **no depende de espacios**: trata el texto como una secuencia de caracteres, lo que le permite ser más flexible.

**Corpus de entrenamiento**

```python
corpus = ["running", "runner", "runs", "jumping", "jumper", "jumps"]
```

Este conjunto contiene verbos con raíces similares: `"run"`, `"jump"`, y sus variaciones.

**Resultado del modelo entrenado**

- Palabra: **"running"**
```python
Subwords: ['▁runn', 'ing']
```

¿Qué significa?

- `'▁'` indica el **inicio de una nueva palabra** (parecido a un separador).
- SentencePiece ha aprendido que `"runn"` y `"ing"` son fragmentos frecuentes, así que los combina.
- Esto sugiere que `"runn"` es una raíz útil.

- Palabra: **"runner"**
```python
Subwords: ['▁runner']
```

¿Qué significa?*
- `"runner"` es probablemente una **unidad frecuente en el corpus**, así que no se divide.
- El modelo aprendió que esta palabra se puede manejar como un solo token.

- Palabra: **"runs"**
```python
Subwords: ['▁runs']
```

¿Qué significa?

- Similar a `"runner"`, `"runs"` es una palabra vista frecuentemente y no requiere segmentación.


- Palabra nueva: **"jumped"**
```python
Subpalabras: ['▁jump', 'e', 'd']
```

¿Qué significa?

- `"jumped"` **no estaba** en el corpus, así que el modelo intenta dividirla usando subpalabras conocidas.
- `"jump"` fue aprendida como raíz (vista en `"jumping"`, `"jumper"`, `"jumps"`).
- `"e"` y `"d"` son fragmentos pequeños que el modelo usa como piezas para completar la palabra.

Esto demuestra que BPE permite manejar palabras fuera del vocabulario (OOV) al dividirlas en fragmentos conocidos.


##### **En general**

- **"running" → ['▁runn', 'ing']**: aprendió a dividir en raíz + sufijo.
- **"runner", "runs" → ['▁runner'], ['▁runs']**: no divididas porque son frecuentes.
- **"jumped" → ['▁jump', 'e', 'd']**: manejada correctamente aunque no estaba en el corpus.



#### Representaciones a nivel de oración o documento

Mientras que los métodos anteriores se centran en representar palabras o secuencias cortas, las **representaciones a nivel de oración o documento** buscan capturar el significado global y la estructura completa del texto. Estas técnicas son cruciales para tareas en las que se necesita comprender el contexto extendido, como la clasificación de documentos, la detección de sentimientos o la búsqueda semántica.



#### **Doc2Vec: Representación de documentos**

**Doc2Vec** es una extensión del modelo Word2Vec que genera vectores representativos no solo para palabras, sino para documentos completos (incluyendo oraciones, párrafos, etc.). Doc2Vec aprende a representar un documento en un espacio vectorial donde los documentos con contenido similar están más cerca entre sí. Este enfoque es útil para tareas como la clasificación de documentos y la detección de similitud entre textos.

Para entrenar el modelo, Doc2Vec utiliza dos enfoques:
   - **Distributed memory (DM)**: Aprender representaciones vectoriales de documentos, manteniendo el contexto de las palabras presentes.
   - **Distributed bag of words (DBOW)**: Similar a Skip-Gram en Word2Vec, aprende representaciones de documentos prediciendo palabras aleatorias del documento.

Mediante este enfoque, documentos con contenido similar se ubican en regiones cercanas del espacio vectorial, lo cual es muy útil para la clasificación y la agrupación de textos.

**Ejemplo**: En un corpus de noticias, si tienes artículos sobre deportes y política, **Doc2Vec** generará representaciones vectoriales donde los documentos sobre deportes estarán cercanos entre sí en el espacio vectorial, y los artículos sobre política estarán en otro grupo.



#### **Universal Sentence Encoder (USE)**:

El **Universal Sentence Encoder**, desarrollado por Google, es un modelo basado en redes neuronales profundas (y transformers en su versión más avanzada) que convierte oraciones o documentos en vectores de alta dimensión. Estos vectores pueden ser utilizados para una variedad de tareas como análisis semántico, búsqueda de similitud de oraciones o detección de temas.

USE tiene la capacidad para manejar frases o documentos completos, representándolos de una manera que captura las relaciones de largo alcance en un texto. Esto es crucial para tareas como la clasificación de documentos, la traducción automática, y la búsqueda de información, donde la estructura completa del documento es relevante para comprender su significado

**Ejemplo**: Supongamos que tenemos dos oraciones: *"The cat is on the mat"* y *"A feline is resting on a rug"*. Aunque estas oraciones utilizan palabras diferentes, el **universal sentence encoder** generará representaciones vectoriales que estarán cercanas en el espacio vectorial porque capturan el significado semántico similar entre ambas oraciones. Esto hace que USE sea adecuado para tareas como la búsqueda semántica o la detección de parafraseo, donde oraciones con significados similares deben ser reconocidas, aunque usen diferentes palabras.


In [None]:
pip install tensorflow tensorflow_hub


In [None]:
import tensorflow_hub as hub
import numpy as np
import os
from sklearn.metrics.pairwise import cosine_similarity

os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'

# Cargar el modelo preentrenado de Universal Sentence Encoder desde TensorFlow Hub
modelo = hub.load("https://tfhub.dev/google/universal-sentence-encoder/4")

# Definir oraciones para generar representaciones
sentences = [
    "The cat is on the mat",
    "A feline is resting on a rug",
    "The dog barked at the stranger",
    "The mouse ran away from the cat"
]

# Generar las representaciones vectoriales de las oraciones
sentence_vectors = modelo(sentences)

# Calcular la similitud entre la primera oración y las demás
similarities = cosine_similarity([sentence_vectors[0]], sentence_vectors)

# Mostrar los resultados de similitud
for idx, similarity in enumerate(similarities[0]):
    print(f"Similaridad con la oracion {idx}: {similarity:.2f}")


#### **Explicación de los resultados**

**Oraciones comparadas:**

```python
sentences = [
    "The cat is on the mat",             # oracion 0
    "A feline is resting on a rug",      # oracion 1
    "The dog barked at the stranger",    # oracion 2
    "The mouse ran away from the cat"    # oracion 3
]
```

**Resultado de similitud (coseno):**

```
Similaridad con la oracion 0: 1.00
Similaridad con la oracion 1: 0.63
Similaridad con la oracion 2: 0.27
Similaridad con la oracion 3: 0.51
```

**Interpretación:**

| Comparación                         | Similaridad | Explicación |
|------------------------------------|-------------|-------------|
| Oración 0 vs oración 0             | 1.00        | Igual a sí misma, similitud perfecta. |
| Oración 0 vs oración 1             | 0.63        | "cat" ≈ "feline", "mat" ≈ "rug" → palabras relacionadas semánticamente. |
| Oración 0 vs oración 2             | 0.27        | Poca relación entre "cat on mat" y "dog barked at stranger". |
| Oración 0 vs oración 3             | 0.51        | Aparece "cat", y ambos involucran animales y acciones → relación parcial. |

El modelo USE captura **relaciones semánticas**, no solo palabras iguales. Por eso:
- `"cat"` y `"feline"` se entienden como similares.
- `"mat"` y `"rug"` también son conceptualmente parecidos.
- `"cat"` aparece en la oración 3, lo cual explica la similitud moderada.



#### Ejercicios

**Ejercicio 1: Entrenamiento y análisis con Doc2Vec**
1. **Entrena un modelo Doc2Vec** con un corpus de documentos de noticias que cubra al menos tres áreas temáticas diferentes (por ejemplo, deportes, política, tecnología). 
2. **Evalúa el modelo** generando representaciones vectoriales para los documentos y realiza las siguientes tareas:
   - Agrupa los documentos en función de su similitud, utilizando medidas de similitud como la **similitud coseno**.
   - Visualiza los documentos en un espacio bidimensional usando técnicas de reducción de dimensionalidad como **t-SNE** o **PCA** para observar cómo se agrupan los documentos.
3. **Pregunta reflexiva**: ¿Cómo afecta el tamaño del corpus y el número de dimensiones del vector al rendimiento del modelo y la calidad de las agrupaciones?

**Ejercicio 2: Comparación semántica con universal sentence encoder (USE)**
1. Carga un conjunto de oraciones que describan eventos similares con diferentes palabras (por ejemplo, *"The cat sat on the mat"* y *"A feline rested on a rug"*).
2. Genera las representaciones vectoriales de estas oraciones utilizando el **universal sentence encoder (USE)**.
3. **Mide la similitud semántica** entre las oraciones utilizando la similitud coseno y analiza los resultados.
   - ¿Qué patrones observas en las similitudes de oraciones con diferentes estructuras pero significados similares?
   - ¿Cómo responde el modelo USE a sinónimos y diferentes expresiones gramaticales?

**Ejercicio 3: Detección de parafraseo**
1. Recopila un conjunto de oraciones que sean parafraseos entre sí y un conjunto de oraciones no relacionadas.
2. Utiliza **Universal sentence encoder (USE)** para generar vectores de representación para todas las oraciones.
3. Calcula la similitud entre cada par de oraciones y clasifica si son parafraseos o no en función de un umbral de similitud.
   - **Pregunta reflexiva**: ¿Qué umbral de similitud es el más adecuado para detectar parafraseos? ¿Cómo cambiarías este umbral según el dominio (por ejemplo, noticias versus redes sociales)?

**Ejercicio 4: Clasificación de documentos con Doc2Vec**
1. Entrena un modelo **Doc2Vec** con un corpus de reseñas de productos de diferentes categorías (por ejemplo, tecnología, ropa, libros).
2. Genera las representaciones vectoriales de las reseñas y usa estos vectores como entradas para un modelo de **clasificación supervisada** (como un clasificador SVM o un perceptrón multicapa) para predecir la categoría de cada reseña.
3. **Pregunta reflexiva**: ¿Qué características del modelo Doc2Vec (como el tamaño de ventana o la cantidad de dimensiones) impactan más en el rendimiento del clasificador? ¿Qué observaciones puedes hacer al respecto?

**Ejercicio 5: Detección de tópicos con Doc2Vec**
1. Usando un corpus extenso (por ejemplo, artículos científicos o publicaciones de blogs), entrena un modelo **Doc2Vec**.
2. Agrupa los documentos utilizando técnicas no supervisadas como **k-means** o **DBSCAN** basadas en las representaciones vectoriales de los documentos.
3. **Pregunta reflexiva**: ¿Qué tópicos emergen de los documentos agrupados? ¿Los grupos formados por los documentos reflejan de manera precisa las categorías esperadas o aparecen relaciones temáticas nuevas y sorprendentes?

**Ejercicio 6: Búsqueda de documentos semánticamente similares**
1. Recopila un corpus de documentos cortos (por ejemplo, entradas de blog, descripciones de productos, artículos cortos).
2. Utiliza **universal sentence encoder (USE)** para generar embeddings vectoriales de estos documentos.
3. Implementa un sistema de búsqueda semántica: dado un documento de consulta, encuentra los documentos más similares en el corpus usando la similitud coseno.
   - **Pregunta reflexiva**: ¿Cómo influye la longitud del documento de consulta en la calidad de los documentos recuperados? ¿El modelo es capaz de capturar adecuadamente la semántica de consultas largas versus cortas?

**Ejercicio 7: Evaluación de modelos Doc2Vec vs USE**
1. Usando un conjunto de datos con documentos y oraciones, genera representaciones utilizando tanto **Doc2Vec** como **USE**.
2. Evalúa la similitud entre documentos o la clasificación de textos con ambos modelos y compara el rendimiento en términos de precisión, tiempo de ejecución, y similitud semántica capturada.
   - **Pregunta reflexiva**: ¿En qué tareas sobresale cada modelo? ¿Qué ventajas tiene el modelo USE frente a Doc2Vec y viceversa? ¿Cuál es más adecuado para conjuntos de datos pequeños versus grandes?

In [None]:
##Tus respuestas