In [None]:
# Importar las librerías necesarias
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import numpy as np



# Clustering utilizando TF-IDF y Kmeans


TF-IDF es un algortimo que viene del modelo vectorial de recuperación de información para reflejar *la importancia de una palabra en un documento en relación con una colección de documentos*.

### Componentes de TF-IDF:

- **TF (Term Frequency)**: Mide la frecuencia de una palabra en un documento particular. TF se calcula dividiendo el número de veces que la palabra aparece en el documento por el total de palabras en ese documento. Esto normaliza la frecuencia de la palabra, permitiendo que sea comparada entre documentos de diferentes longitudes.

- **IDF (Inverse Document Frequency)**: Mide la importancia de la palabra en el conjunto completo de documentos (o corpus). El IDF de una palabra se calcula tomando el logaritmo de la fracción del total de documentos en el corpus dividido por el número de documentos que contienen la palabra. 

### Cálculo de TF-IDF:

El TF-IDF de una palabra en un documento se calcula como el producto de su TF y su IDF:

$$
\text{TF-IDF}(t, d) = \text{TF}(t, d) \times \text{IDF}(t)
$$

donde \( t \) representa la palabra, y \( d \) representa el documento.

### Uso de TF-IDF:

La transformación TF-IDF convierte los textos a un formato numérico adecuado para el procesamiento por modelos de machine learning, resaltando las palabras que son más descriptivas en un documento dado. Este método es particularmente útil para filtrar 'ruido', es decir, palabras comunes que no agregan mucho significado al contenido del documento.

En la aplicación de clustering, por ejemplo, TF-IDF puede ayudar a agrupar documentos en categorías basadas en sus temas dominantes, ya que los documentos que comparten palabras importantes similares serán agrupados juntos.


In [None]:
correos = [
    "Dear John, would you like to catch up over the weekend?",
    "Incredible discounts at your favorite store, don't miss out!",
    "Reminder: Project meeting is scheduled for Monday at 10 AM.",
    "Congratulations! You have been selected to receive an exclusive prize.",
    "Hello Maria, I have attached the report for last quarter in this email.",
    "Security alert: Your account has been accessed from an unknown location.",
    "Exclusive invitation to our VIP event, for special members only.",
    "Re: Your request for leave has been approved.",
    "Limited time offer: Buy one get one free, only this weekend.",
    "Personal note: Don't forget to pick up dog food tomorrow.",
    "Update required: Please update your account information to continue.",
    "Are you available for a quick call tomorrow about the new project?",
    "Flash sale: 50% off on all electronics for the next 24 hours only!",
    "Your package has been shipped and should arrive within 3 business days.",
    "We missed you at the webinar yesterday, here's a link to the recording.",
    "This is a confirmation of your doctor's appointment on Wednesday, 3 PM.",
    "You've won a coupon for 20% off your next purchase with us!",
    "Could you please send me the holiday schedule? I need to plan ahead.",
    "Warning: You have used 90% of your data plan. Top up now.",
    "Your subscription to our newsletter has been confirmed. Thank you!"
]



Crear un vectorizador TF-IDF para transformar los textos en una matriz de características TF-IDF

In [None]:

vectorizador = TfidfVectorizer(stop_words='english')
X = vectorizador.fit_transform(correos)

print(X)

Configuramos 4 clusters y generamos la predicción basados en los vectores

In [None]:
num_clusters = 4
modelo_kmeans = KMeans(n_clusters=num_clusters, random_state=1123345)
modelo_kmeans.fit(X)

clusters = modelo_kmeans.labels_


Mostrar los correos y su cluster asignado

In [None]:
correos_clusters ={}
for i, cluster in enumerate(clusters):
    if cluster in correos_clusters:
        correos_clusters[cluster].append(correos[i])
    else:
        correos_clusters[cluster] = [correos[i]]
#     print(f"Correo: '{correos[i]}'\nCluster: {cluster}\n")

for c in correos_clusters:
    print(f"Cluster {c}:")
    for correo in correos_clusters[c]:
        print(f"\t\t{correo}")

Extraer los términos mas importantes de cada cluster. Para esto utilizamos el peso que tienen según TF-IDF

In [None]:
# Explorar los términos más importantes en cada cluster
print("Términos más importantes por cluster:")
orden_centroides = modelo_kmeans.cluster_centers_.argsort()[:, ::-1]
terminos = vectorizador.get_feature_names_out()
for i in range(num_clusters):
    print(f"Cluster {i}: ", end='')
    for ind in orden_centroides[i, :10]:  # Mostrar los 10 términos más importantes
        print(f'{terminos[ind]} ', end='')
    print("\n")