## Representación de texto elemental

En el procesamiento del lenguaje natural, los vectores `x` se derivan de datos textuales para reflejar diversas propiedades lingüísticas del texto.  

— Yoav Goldberg.

La representación de texto en el procesamiento del lenguaje natural se refiere a los métodos y técnicas utilizados para convertir el texto en una forma que las computadoras puedan procesar de manera más eficiente. El objetivo de estas representaciones es capturar la información semántica y sintáctica del texto, de modo que sea posible realizar tareas como la clasificación de textos y la búsqueda de información.

Estos enfoques se clasifican en cuatro categorías:

- Enfoques básicos de vectorización
- Representaciones distribuidas
- Representación del lenguaje universal
- Características hechas a mano


### Modelos de espacios vectoriales

Los modelos de espacio vectorial son una familia de algoritmos utilizados en el procesamiento del lenguaje natural (NLP), la recuperación de información y otras áreas de la inteligencia artificial para representar elementos textuales, como palabras, frases, oraciones o documentos, como vectores en un espacio multidimensional. La idea clave detrás de estos modelos es que las entidades semánticamente similares se representan por puntos cercanos en el espacio vectorial, lo que facilita la comparación y el análisis de las relaciones entre ellas.

En el contexto de NLP y la recuperación de información, los modelos de espacio vectorial permiten realizar tareas como la búsqueda de documentos similares, la clasificación de textos y el análisis de sentimientos, entre otras, mediante técnicas matemáticas y estadísticas.

Algunos conceptos y técnicas importantes relacionados con los modelos de espacio vectorial incluyen:

- **Representación de texto**: Convertir texto en vectores numéricos. Técnicas como la bolsa de palabras (BoW) y TF-IDF son ejemplos clásicos de cómo se puede realizar esta conversión, asignando a cada palabra o término una dimensión en el espacio vectorial y utilizando la frecuencia de las palabras para determinar los valores en esas dimensiones.

- **Embeddings de palabras**: Métodos más avanzados como Word2Vec, GloVe y FastText aprenden representaciones vectoriales densas de palabras a partir de grandes corpus de texto. Estos embeddings capturan relaciones semánticas y sintácticas, de modo que palabras con significados similares se mapean a puntos cercanos en el espacio vectorial.

- **Similitud y distancia**: Una vez que se ha representado el texto como vectores, se pueden utilizar medidas de distancia o similitud, como la distancia euclidiana, la distancia de Manhattan o la similitud coseno, para evaluar qué tan cercanos o similares son dos textos en el espacio vectorial. La similitud coseno, en particular, es ampliamente utilizada para medir la similitud de dirección (independientemente de la magnitud) entre dos vectores, lo que es útil para comparar textos de diferentes longitudes.

- **Modelos basados en transformers**: Aunque no son exclusivamente modelos de espacio vectorial en el sentido clásico, los modelos basados en transformers, como BERT y GPT, utilizan técnicas de representación vectorial para codificar información textual en vectores de características de alta dimensión. Estos vectores capturan contextos complejos y pueden ser utilizados para tareas avanzadas de NLP.

La efectividad de los modelos de espacio vectorial radica en su capacidad para convertir texto, que es intrínsecamente no estructurado y variado, en una forma estructurada y numérica que puede ser procesada eficientemente por algoritmos computacionales. Esto permite descubrir patrones, realizar comparaciones y ejecutar análisis de manera escalable.

Todos los esquemas de representación de texto que estudiaremos en esta clase se enmarcan dentro del alcance de los modelos de espacio vectorial.

### Enfoques básicos de vectorización 

Asigne cada palabra en el vocabulario `(V)` del corpus de texto a una ID única (valor entero), luego represente cada oración o documento en el corpus como un vector de dimensión V. ¿Cómo ponemos en práctica esta idea?

Sea el siguiente corpus:

```
D1: Dog bites man. 

D2: Man bites dog. 

D3: Dog eats meat. 

D4: Man eats food
```

Cada documento de este corpus ahora se puede representar con un vector de tamaño seis.

#### Codificación one-hot 

El código que sigue implementa codificación one-hot. En proyectos del mundo real, utilizamos principalmente la implementación de codificación one-hot de scikit-learn, que está mucho más optimizada. 

In [None]:
documentos = ["Dog bites man.", "Man bites dog.", "Dog eats meat.", "Man eats food."]
docs_procesados = [doc.lower().replace(".","") for doc in documentos]
docs_procesados

In [None]:
#construir el vocabulario
vocab = {}
conteo = 0
for doc in docs_procesados:
    for palabra in doc.split():
        if palabra not in vocab:
            conteo = conteo +1
            vocab[palabra] = conteo
print(vocab)

Obtenemos una representación  para cualquier cadena basada en este vocabulario. Si la palabra existe en el vocabulario, se devuelve su representación, si no, se devuelve una lista de ceros para esa palabra.

In [None]:
def obtiene_vector_onehot(cadena):
    onehot_codificado = []
    for palabra in cadena.split():
        temp = [0]*len(vocab)
    ## Completar

#### Codificación one-hot usando scikit -learn
Codificamos nuestro corpus como una matriz numérica one-hot usando `OneHotEncoder` de scikit-learn.
Demostraremos:

- Codificación one-hot: en la codificación one-hot, a cada palabra `w` en el vocabulario del corpus se le asigna un ID entero único $w_{id}$ que está entre `1` y `|V|`, donde `V` es el conjunto de vocabulario del corpus. Luego, cada palabra se representa mediante un vector binario de dimensión `V` de `0` y `1`.

- Codificación de etiquetas: en codificación de etiquetas, cada palabra `w` en nuestro corpus se convierte en un valor numérico entre `0` y `n-1` (donde `n` se refiere al número de palabras únicas en nuestro corpus).

El enlace a la documentación oficial de ambos se puede encontrar [aquí](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html) y [aquí](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html) respectivamente.

In [None]:
S1 = 'dog bites man'
S2 = 'man bites dog'
S3 = 'dog eats meat'
S4 = 'man eats food'

In [None]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

data = [S1.split(), S2.split(), S3.split(), S4.split()]
valores = data[0]+data[1]+data[2]+data[3]
print("Los datos: ",valores)

#Label Encoding

#completa

# One-Hot Encoding

# Completa

Hoy en día, rara vez se utiliza el esquema de codificación one-hot. 

#### Bolsa de Palabras

La **Bolsa de Palabras** (BoW) es una técnica clásica de representación de texto. La idea clave detrás de esta técnica es representar el texto como una bolsa (o colección) de palabras, ignorando el orden y el contexto en el que aparecen. La intuición básica es que se asume que el texto perteneciente a una clase determinada dentro de un conjunto de datos está caracterizado por un conjunto único de palabras. Si dos fragmentos de texto contienen casi las mismas palabras, es probable que pertenezcan al mismo grupo (o clase). Así, al analizar las palabras presentes en un texto, es posible identificar la clase (o bolsa) a la que pertenece.

De manera similar a la codificación **one-hot**, BoW asigna a cada palabra un ID entero único entre `1` y `|V|` (el tamaño del vocabulario). Luego, cada documento del corpus se convierte en un vector de `|V|` dimensiones, donde el componente `i`, correspondiente a la palabra con ID `w_{id}`, representa simplemente el número de veces que dicha palabra `w` aparece en el documento. Es decir, calificamos cada palabra en `V` según su conteo de apariciones en el documento.

A continuación, realizaremos la tarea de encontrar la representación de una bolsa de palabras. Utilizaremos [CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) de sklearn.


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

#Lista de documentos
print("El corpus: ", docs_procesados)

count_vect = CountVectorizer()
#Construccion la representacion BOW para el corpus
# Completa

#Mapeo del vocabulario
print("El vocabulario: ", count_vect.vocabulary_)

#Ver la representacion BOW para los dos primeros documentos
print("Representacion BoW para 'dog bites man': ", bow_rep[0].toarray())
print("Representacion BoW para 'man bites dog: ",bow_rep[1].toarray())

# Representación usando este vocabulario, para un nuevo texto.
temp = count_vect.transform(["dog and dog are friends"])
print("Representacion Bow para  'dog and dog are friends':", temp.toarray())

En el código anterior, representamos el texto teniendo en cuenta la frecuencia de las palabras. Sin embargo, a veces, no nos importa mucho la frecuencia, solo queremos saber si una palabra apareció en un texto o no. Es decir, cada documento se representa como un vector de `0` y `1`. Usaremos la opción `binary=True` en `CountVectorizer` para este propósito.

In [None]:
#BoW con vectores binarios
# Completa
temp = count_vect.transform(["dog and dog are friends"])
print("Representacion Bow para 'dog and dog are friends':", temp.toarray())

Esto da como resultado una representación diferente para la misma oración. `CountVectorizer` admite n-gramas tanto de palabras como de caracteres. 

**Pregunta:** Enuncia las ventajas y desventajas que puedes encontrar en el método BoW descrito con anterioridad.

In [None]:
# Tu respuesta

#### Bolsa de N-Gramas

Los esquemas de representación que hemos visto hasta ahora tratan las palabras como unidades independientes, sin tener en cuenta frases ni el orden de las palabras. El enfoque de la **Bolsa de N-Gramas** (BoN) intenta remediar esta limitación dividiendo el texto en fragmentos de `n` palabras (o tokens) contiguas. Esto nos ayuda a captar algo de contexto, lo que los enfoques anteriores no lograban. Cada uno de estos fragmentos se denomina n-grama.

El vocabulario del corpus, `V`, es simplemente una colección de todos los n-gramas únicos presentes en el corpus de texto. Luego, cada documento del corpus se representa mediante un vector de longitud `|V|`, donde cada componente del vector contiene el recuento de frecuencia de los n-gramas presentes en el documento, y se asigna un valor de cero para los n-gramas que no aparecen.

En el ámbito del procesamiento del lenguaje natural (NLP), este esquema también se conoce como **selección de características de n-gramas**.


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Ejemplo de vectorización de n-gramas 
# Completa

#Construccion la representacion BOW para el corpus
bow_rep = count_vect.fit_transform(docs_procesados)

#Mapeo del vocabulario
print("El vocabulario: ", count_vect.vocabulary_)

#Ver la representacion BOW para los dos primeros documentos
print("Representacion BoW para 'dog bites man': ", bow_rep[0].toarray())
print("Representacion BoW para 'man bites dog: ",bow_rep[1].toarray())

# Representación usando este vocabulario, para un nuevo texto.
temp = count_vect.transform(["dog and dog are friends"])
print("Representacion Bow para  'dog and dog are friends':", temp.toarray


Ten en cuenta que la cantidad de características (y, por lo tanto, el tamaño del vector de características) aumentó mucho para los mismos datos, en comparación con otras representaciones basadas en una sola palabra.

**Pregunta:** Enuncia las ventajas y desventajas que puedes encontrar en el método BoN descrito con anterioridad.

In [None]:
# Tu respuesta

#### TF-IDF

**TF-IDF**, que significa "Frecuencia de Término - Frecuencia Inversa de Documento", es un método estadístico utilizado para evaluar la importancia de una palabra en un documento, en relación con una colección de documentos o corpus. La importancia de una palabra aumenta proporcionalmente al número de veces que aparece en el documento, pero se compensa con la frecuencia de la palabra en el corpus.

El cálculo de TF-IDF se compone de dos componentes principales:

- **Frecuencia de término (TF)**: Mide cuántas veces aparece un término en un documento. La idea es que cuanto más frecuentemente aparece una palabra en un documento, más importante es para ese documento. Sin embargo, en la práctica, la TF a menudo se ajusta para no favorecer injustamente a los documentos más largos. Esto se puede hacer dividiendo el número de apariciones de una palabra en un documento por el número total de palabras en ese documento.

- **Frecuencia inversa de documento (IDF)**: Mide la importancia del término en todo el corpus. La idea es que si un término aparece en muchos documentos, probablemente no sea un buen discriminador y debe recibir menos peso. La IDF se calcula tomando el logaritmo del número total de documentos en el corpus dividido por el número de documentos que contienen el término. Esto significa que los términos raros reciben más peso, ya que su presencia en menos documentos indica una mayor especificidad o relevancia.

El valor TF-IDF para un término en un documento específico se calcula multiplicando la TF de ese término en el documento por la IDF del término en el corpus:

$$
TF\text{-}IDF(t,d) = TF(t,d) \times IDF(t)
$$

Donde `t` es el término, `d` es el documento, y el corpus es el conjunto total de documentos.


El siguiente código muestra cómo usar TF-IDF para representar texto: 

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Completa

#IDF para todas las palabras en el vocabulario
print("IDF para todas las palabras en el vocabulario",tfidf.idf_)
print("-"*10)
#Todas las palabras en el vocabulario.
print("Todas las palabras en el vocabulario",tfidf.get_feature_names())
print("-"*10)

#Representacion TFIDF para todos los documentos en el corpus 
print("Representacion TFIDF para todos los documentos en el corpus \n",bow_rep_tfidf.toarray()) 
print("-"*10)

temp = tfidf.transform(["dog and man are friends"])
print("Representacion Tfidf para 'dog and man are friends':\n", temp.toarray())

**Pregunta:** Enuncia las ventajas y desventajas que puedes encontrar en el método TF-IDF descrito con anterioridad.

In [None]:
#Tu respuesta

### Ejercicios

1. Dado un pequeño conjunto de documentos (frases), implementa una función en Python que convierta cada palabra única en un vector one-hot. 

In [None]:
corpus = ['el gato come pescado', 'el perro come carne', 'el gato juega con el perro']

# Implementa la función de one-hot encoding aquí

2. Escribe una función en Python que tome como entrada el mismo conjunto de documentos del ejercicio anterior y devuelva una representación de bolsa de palabras de cada documento.

In [None]:
# Tu respuesta

3.Modifica la función de Bolsa de Palabras del ejercicio 2 para que ahora soporte n-gramas. Por simplicidad, considera bigramas (n=2) para este ejercicio.

In [None]:
# Tu respuesta

4.Implementa una función en Python que calcule la matriz TF-IDF para el mismo conjunto de documentos. Puedes usar `TfidfVectorizer` de sklearn para simplificar la implementación, pero intenta entender qué está haciendo.

In [None]:
# Tu respuesta

#### **Bag of subwords**

El concepto de **Bag de subwords** es una extensión del enfoque **bolsa de palabras (BoW)**, en el cual, en lugar de considerar cada palabra como una unidad independiente, se dividen las palabras en subpalabras o fragmentos más pequeños, como prefijos, sufijos o secuencias intermedias de caracteres. Esto es especialmente útil en lenguajes con alta morfología, donde las variaciones morfológicas de una palabra pueden cambiar su significado o contexto, y en lenguajes con grandes vocabularios o palabras raras. 

En **Bag de subwords**, un documento se representa como un vector de frecuencias de subpalabras, en lugar de palabras completas. Este enfoque permite que los modelos manejen mejor palabras desconocidas (OOV) o variaciones morfológicas y capture relaciones entre palabras relacionadas morfológicamente.

#### Ejemplo:
Supongamos que estamos procesando un corpus en inglés con las palabras "running", "runner", "runs". Si utilizamos **bag de subwords**, podríamos descomponer estas palabras en fragmentos como:

- "run", "ning", "er", "s".

Así, el modelo puede reconocer que estas palabras están relacionadas, aunque no aparezcan de manera idéntica en el texto. En vez de trabajar únicamente con las palabras completas, se toma en cuenta la estructura interna de las palabras. Por ejemplo, la palabra "running" se podría descomponer en los subwords `["run", "ning"]`.

Esto es particularmente útil para modelos de procesamiento de lenguaje en lenguajes como el alemán o el finlandés, que tienen palabras compuestas largas y complejas, o para manejar vocabularios en crecimiento en aplicaciones como modelos de generación de lenguaje o traducción automática.

Un caso práctico es el uso de **Byte-Pair Encoding (BPE)** o **Unigram Language Model** en herramientas como **SentencePiece**, que realizan esta segmentación en subpalabras. En modelos como **GPT** y **BERT**, las palabras se descomponen en subpalabras usando BPE para reducir el vocabulario y manejar palabras desconocidas.

#### Ventajas:
- Reduce el tamaño del vocabulario al considerar fragmentos comunes de palabras.
- Mejora el manejo de palabras raras o fuera de vocabulario (OOV).
- Captura relaciones morfológicas entre palabras.



In [None]:
!pip install sentencepiece


In [None]:
import sentencepiece as spm

# Ejemplo de corpus (normalmente, esto sería un conjunto de textos más grande)
corpus = ["running", "runner", "runs", "jumping", "jumper", "jumps"]

# Guardamos el corpus en un archivo temporal
with open('corpus.txt', 'w') as f:
    for word in corpus:
        f.write(word + "\n")

# Entrenar un modelo BPE con SentencePiece
spm.SentencePieceTrainer.train('--input=corpus.txt --model_prefix=mymodel --vocab_size=30 --model_type=bpe')

# Cargar el modelo entrenado
sp = spm.SentencePieceProcessor(model_file='mymodel.model')

# Probar la tokenización de subpalabras en el corpus
test_words = ["running", "runner", "runs"]

for word in test_words:
    print(f"Word: {word}")
    subwords = sp.encode(word, out_type=str)
    print(f"Subwords: {subwords}")
    print()

# Ejemplo con una palabra nueva
new_word = "jumped"
print(f"Word: {new_word}")
subwords_new = sp.encode(new_word, out_type=str)
print(f"Subpalabras: {subwords_new}")


#### **Representaciones a nivel de oración o documento**
Las **representaciones a nivel de oración o documento** buscan capturar el significado completo de una frase, párrafo o documento entero, en lugar de trabajar únicamente con palabras individuales. Estas representaciones intentan modelar el contexto global y las relaciones semánticas entre frases o secciones de un texto, lo que es fundamental para tareas como la clasificación de documentos, la detección de sentimientos y la recuperación de información.

A diferencia de los enfoques como la bolsa de palabras, que ignoran el orden de las palabras, estas representaciones tienen en cuenta tanto el contenido de las palabras como su secuencia o estructura en el texto.

#### Ejemplos:

1. **Doc2Vec (Paragraph Vectors)**:
**Doc2Vec** es una extensión del modelo Word2Vec que genera vectores representativos no solo para palabras, sino para documentos completos (incluyendo oraciones, párrafos, etc.). Doc2Vec aprende a representar un documento en un espacio vectorial donde los documentos con contenido similar están más cerca entre sí. Este enfoque es útil para tareas como la clasificación de documentos y la detección de similitud entre textos.

**Ejemplo**: En un corpus de noticias, si tienes artículos sobre deportes y política, **Doc2Vec** generará representaciones vectoriales donde los documentos sobre deportes estarán cercanos entre sí en el espacio vectorial, y los artículos sobre política estarán en otro grupo.

Para entrenar el modelo, Doc2Vec utiliza dos enfoques:
   - **Distributed Memory (DM)**: Aprender representaciones vectoriales de documentos, manteniendo el contexto de las palabras presentes.
   - **Distributed Bag of Words (DBOW)**: Similar a Skip-Gram en Word2Vec, aprende representaciones de documentos prediciendo palabras aleatorias del documento.

Esto permite no solo representar palabras, sino también representar documentos enteros, capturando el contexto y las relaciones semánticas a nivel de documento.

2. **Universal Sentence Encoder (USE)**:
   El **Universal Sentence Encoder**, desarrollado por Google, es un modelo basado en redes neuronales profundas (y transformers en su versión más avanzada) que convierte oraciones o documentos en vectores de alta dimensión. Estos vectores pueden ser utilizados para una variedad de tareas como análisis semántico, búsqueda de similitud de oraciones o detección de temas.

**Ejemplo**: Supongamos que tenemos dos oraciones: *"The cat is on the mat"* y *"A feline is resting on a rug"*. Aunque estas oraciones utilizan palabras diferentes, el **Universal Sentence Encoder** generará representaciones vectoriales que estarán cercanas en el espacio vectorial porque capturan el significado semántico similar entre ambas oraciones. Esto hace que USE sea adecuado para tareas como la búsqueda semántica o la detección de parafraseo, donde oraciones con significados similares deben ser reconocidas, aunque usen diferentes palabras.

Otra ventaja del USE es su capacidad para manejar frases o documentos completos, representándolos de una manera que captura las relaciones de largo alcance en un texto. Esto es crucial para tareas como la clasificación de documentos, la traducción automática, y la búsqueda de información, donde la estructura completa del documento es relevante para comprender su significado.



In [None]:
pip install tensorflow tensorflow_hub


In [None]:
import tensorflow_hub as hub
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# Cargar el modelo preentrenado de Universal Sentence Encoder desde TensorFlow Hub
model = hub.load("https://tfhub.dev/google/universal-sentence-encoder/4")

# Definir oraciones para generar representaciones
sentences = [
    "The cat is on the mat",
    "A feline is resting on a rug",
    "The dog barked at the stranger",
    "The mouse ran away from the cat"
]

# Generar las representaciones vectoriales de las oraciones
sentence_vectors = model(sentences)

# Calcular la similitud entre la primera oración y las demás
similarities = cosine_similarity([sentence_vectors[0]], sentence_vectors)

# Mostrar los resultados de similitud
for idx, similarity in enumerate(similarities[0]):
    print(f"Similaridad con la oracion {idx}: {similarity:.2f}")


#### Ejercicios

**Ejercicio 1: Entrenamiento y análisis con Doc2Vec**
1. **Entrena un modelo Doc2Vec** con un corpus de documentos de noticias que cubra al menos tres áreas temáticas diferentes (por ejemplo, deportes, política, tecnología). 
2. **Evalúa el modelo** generando representaciones vectoriales para los documentos y realiza las siguientes tareas:
   - Agrupa los documentos en función de su similitud, utilizando medidas de similitud como la **similitud coseno**.
   - Visualiza los documentos en un espacio bidimensional usando técnicas de reducción de dimensionalidad como **t-SNE** o **PCA** para observar cómo se agrupan los documentos.
3. **Pregunta reflexiva**: ¿Cómo afecta el tamaño del corpus y el número de dimensiones del vector al rendimiento del modelo y la calidad de las agrupaciones?

**Ejercicio 2: Comparación semántica con Universal Sentence Encoder (USE)**
1. Carga un conjunto de oraciones que describan eventos similares con diferentes palabras (por ejemplo, *"The cat sat on the mat"* y *"A feline rested on a rug"*).
2. Genera las representaciones vectoriales de estas oraciones utilizando el **Universal Sentence Encoder (USE)**.
3. **Mide la similitud semántica** entre las oraciones utilizando la similitud coseno y analiza los resultados.
   - ¿Qué patrones observas en las similitudes de oraciones con diferentes estructuras pero significados similares?
   - ¿Cómo responde el modelo USE a sinónimos y diferentes expresiones gramaticales?

**Ejercicio 3: Detección de parafraseo**
1. Recopila un conjunto de oraciones que sean parafraseos entre sí y un conjunto de oraciones no relacionadas.
2. Utiliza **Universal Sentence Encoder (USE)** para generar vectores de representación para todas las oraciones.
3. Calcula la similitud entre cada par de oraciones y clasifica si son parafraseos o no en función de un umbral de similitud.
   - **Pregunta reflexiva**: ¿Qué umbral de similitud es el más adecuado para detectar parafraseos? ¿Cómo cambiarías este umbral según el dominio (por ejemplo, noticias versus redes sociales)?

**Ejercicio 4: Clasificación de documentos con Doc2Vec**
1. Entrena un modelo **Doc2Vec** con un corpus de reseñas de productos de diferentes categorías (por ejemplo, tecnología, ropa, libros).
2. Genera las representaciones vectoriales de las reseñas y usa estos vectores como entradas para un modelo de **clasificación supervisada** (como un clasificador SVM o un perceptrón multicapa) para predecir la categoría de cada reseña.
3. **Pregunta reflexiva**: ¿Qué características del modelo Doc2Vec (como el tamaño de ventana o la cantidad de dimensiones) impactan más en el rendimiento del clasificador? ¿Qué observaciones puedes hacer al respecto?

**Ejercicio 5: Detección de tópicos con Doc2Vec**
1. Usando un corpus extenso (por ejemplo, artículos científicos o publicaciones de blogs), entrena un modelo **Doc2Vec**.
2. Agrupa los documentos utilizando técnicas no supervisadas como **k-means** o **DBSCAN** basadas en las representaciones vectoriales de los documentos.
3. **Pregunta reflexiva**: ¿Qué tópicos emergen de los documentos agrupados? ¿Los grupos formados por los documentos reflejan de manera precisa las categorías esperadas o aparecen relaciones temáticas nuevas y sorprendentes?

**Ejercicio 6: Búsqueda de documentos semánticamente similares**
1. Recopila un corpus de documentos cortos (por ejemplo, entradas de blog, descripciones de productos, artículos cortos).
2. Utiliza **Universal Sentence Encoder (USE)** para generar embeddings vectoriales de estos documentos.
3. Implementa un sistema de búsqueda semántica: dado un documento de consulta, encuentra los documentos más similares en el corpus usando la similitud coseno.
   - **Pregunta reflexiva**: ¿Cómo influye la longitud del documento de consulta en la calidad de los documentos recuperados? ¿El modelo es capaz de capturar adecuadamente la semántica de consultas largas versus cortas?

**Ejercicio 7: Evaluación de modelos Doc2Vec vs USE**
1. Usando un conjunto de datos con documentos y oraciones, genera representaciones utilizando tanto **Doc2Vec** como **USE**.
2. Evalúa la similitud entre documentos o la clasificación de textos con ambos modelos y compara el rendimiento en términos de precisión, tiempo de ejecución, y similitud semántica capturada.
   - **Pregunta reflexiva**: ¿En qué tareas sobresale cada modelo? ¿Qué ventajas tiene el modelo USE frente a Doc2Vec y viceversa? ¿Cuál es más adecuado para conjuntos de datos pequeños versus grandes?

In [None]:
##Tus respuestas