In [None]:
# Importar las librerías necesarias
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import numpy as np
from sentence_transformers import SentenceTransformer
import os
os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"

## Sentence Transformers: Generación de Embeddings para Oraciones

`Sentence Transformers` es una biblioteca de Python que facilita la obtención de embeddings de texto utilizando modelos de transformers preentrenados. Estos modelos están optimizados para generar representaciones vectoriales de texto que capturan significados semánticos complejos.

### ¿Cómo Funcionan los Sentence Transformers?

Los `Sentence Transformers` se basan en la arquitectura de los modelos de transformers, como BERT o RoBERTa. SLos `Sentence Transformers` están diseñados específicamente para generar embeddings:

1. **Eficiencia en la Generación de Embeddings**: Estos modelos están entrenados y optimizados para producir embeddings de alta calidad a partir de oraciones completas en una sola pasada, lo que mejora significativamente la eficiencia en comparación con el enfoque estándar de extraer embeddings de la capa oculta de un modelo BERT para cada token individualmente.

2. **Aprendizaje Supervisado**: Los `Sentence Transformers` son entrenados utilizando técnicas de aprendizaje supervisado, donde los modelos aprenden a producir embeddings similares para textos semánticamente similares y embeddings diferentes para textos que difieren en significado. E

### Aplicaciones de los Sentence Transformers

- **Clustering de Documentos**: Agrupar documentos en categorías basadas en la similitud semántica de su contenido.
- **Clasificación de Texto**: Asignar etiquetas a documentos basándose en su contenido, utilizando los embeddings como características de entrada para clasificadores.
- **Búsqueda Semántica**: Mejorar los motores de búsqueda permitiendo que las consultas encuentren resultados basados en la similitud del significado en lugar de la coincidencia exacta de palabras.



In [None]:
correos = [
    "Dear John, would you like to catch up over the weekend?",
    "Incredible discounts at your favorite store, don't miss out!",
    "Reminder: Project meeting is scheduled for Monday at 10 AM.",
    "Congratulations! You have been selected to receive an exclusive prize.",
    "Hello Maria, I have attached the report for last quarter in this email.",
    "Security alert: Your account has been accessed from an unknown location.",
    "Exclusive invitation to our VIP event, for special members only.",
    "Re: Your request for leave has been approved.",
    "Limited time offer: Buy one get one free, only this weekend.",
    "Personal note: Don't forget to pick up dog food tomorrow.",
    "Update required: Please update your account information to continue.",
    "Are you available for a quick call tomorrow about the new project?",
    "Flash sale: 50% off on all electronics for the next 24 hours only!",
    "Your package has been shipped and should arrive within 3 business days.",
    "We missed you at the webinar yesterday, here's a link to the recording.",
    "This is a confirmation of your doctor's appointment on Wednesday, 3 PM.",
    "You've won a coupon for 20% off your next purchase with us!",
    "Could you please send me the holiday schedule? I need to plan ahead.",
    "Warning: You have used 90% of your data plan. Top up now.",
    "Your subscription to our newsletter has been confirmed. Thank you!"
]



Cargar el modelo de Sentence Transformers

In [None]:
modelo = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2',device="mps")


Convertir cada correo en un vector usando el modelo de Sentence Transformers

In [None]:
vectores_correos = modelo.encode(correos)

Configuramos 4 clusters y generamos la predicción basados en los vectores

In [None]:
num_clusters = 4
modelo_kmeans = KMeans(n_clusters=num_clusters, random_state=1123345)
modelo_kmeans.fit(vectores_correos)

clusters = modelo_kmeans.labels_


Mostrar los correos y su cluster asignado

In [None]:
correos_clusters ={}
for i, cluster in enumerate(clusters):
    if cluster in correos_clusters:
        correos_clusters[cluster].append(correos[i])
    else:
        correos_clusters[cluster] = [correos[i]]

for c in correos_clusters:
    print(f"Cluster {c}:")
    for correo in correos_clusters[c]:
        print(f"\t\t{correo}")