# üìä √çndice de Jaccard: Medici√≥n de Similitud entre Conjuntos

Este notebook explora el **√çndice de Jaccard**, una m√©trica fundamental en an√°lisis de datos para cuantificar la similitud entre conjuntos.

## üéØ ¬øQu√© es el √çndice de Jaccard?

El **√çndice de Jaccard** ($I_J$), tambi√©n conocido como **Coeficiente de Jaccard**, es una m√©trica estad√≠stica utilizada para medir el grado de similitud entre dos conjuntos finitos, independientemente del tipo de elementos que contengan.

### üìê Formulaci√≥n Matem√°tica

$$
J(A, B) = \frac{|A \cap B|}{|A \cup B|}
$$

Donde:
- $|A \cap B|$ representa la cardinalidad de la **intersecci√≥n** de ambos conjuntos (elementos comunes)
- $|A \cup B|$ representa la cardinalidad de la **uni√≥n** de ambos conjuntos (elementos totales √∫nicos)

### üìà Propiedades

- **Rango**: El √≠ndice siempre toma valores entre **0** y **1**
  - $J = 0$: Los conjuntos son completamente disjuntos (sin elementos en com√∫n)
  - $J = 1$: Los conjuntos son id√©nticos (igualdad total)
- **Simetr√≠a**: $J(A, B) = J(B, A)$
- **Interpretaci√≥n**: A mayor valor, mayor similitud entre los conjuntos

---

## üí° Caso de Uso 1: Detecci√≥n de Clusters Duplicados

En este ejemplo pr√°ctico, utilizamos el √≠ndice de Jaccard para identificar clusters de mensajes que son pr√°cticamente duplicados, bas√°ndonos en sus palabras clave (*keywords*). Esta t√©cnica es especialmente √∫til en:

- **An√°lisis de redes sociales**: Agrupar conversaciones similares
- **Sistemas de recomendaci√≥n**: Evitar contenido redundante
- **Procesamiento de texto**: Deduplicaci√≥n de documentos

In [12]:
# Ejemplo: Uso del √≠ndice de Jaccard para detectar clusters duplicados
# ===============================================================

def jaccard_similarity(set1, set2):
    """
    Calcula la similitud de Jaccard entre dos conjuntos.
    """
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    return intersection / union if union != 0 else 0


# Supongamos que tenemos clusters de mensajes representados por keywords
clusters = [
    {"ai", "model", "training", "data"},
    {"deep", "learning", "neural", "network"},
    {"ai", "model", "training", "dataset"},
    {"coffee", "break", "meeting"},
    {"neural", "network", "deep", "learning"},
]

# Umbral de similitud para considerar duplicados
threshold = 0.7

# Detectar duplicados
duplicates = []
visited = set()

for i in range(len(clusters)):
    for j in range(i+1, len(clusters)):
        sim = jaccard_similarity(clusters[i], clusters[j])
        if sim >= threshold:
            duplicates.append((i, j, sim))
            visited.add(j)

# Mostrar resultados
print("Clusters originales:")
for idx, c in enumerate(clusters):
    print(f"{idx}: {c}")

print("\nPosibles duplicados (√≠ndice1, √≠ndice2, similitud):")
for dup in duplicates:
    print(dup)

# Filtrar clusters √∫nicos
unique_clusters = [c for idx, c in enumerate(clusters) if idx not in visited]

print("\nClusters despu√©s de eliminar duplicados:")
for c in unique_clusters:
    print(c)


Clusters originales:
0: {'model', 'data', 'training', 'ai'}
1: {'learning', 'network', 'neural', 'deep'}
2: {'model', 'dataset', 'training', 'ai'}
3: {'meeting', 'break', 'coffee'}
4: {'learning', 'network', 'neural', 'deep'}

Posibles duplicados (√≠ndice1, √≠ndice2, similitud):
(1, 4, 1.0)

Clusters despu√©s de eliminar duplicados:
{'model', 'data', 'training', 'ai'}
{'learning', 'network', 'neural', 'deep'}
{'model', 'dataset', 'training', 'ai'}
{'meeting', 'break', 'coffee'}


---

## üõí Caso de Uso 2: Sistemas de Recomendaci√≥n de Productos

En este ejemplo, aplicamos el √≠ndice de Jaccard para construir un **motor de recomendaci√≥n colaborativo** basado en el historial de compras de usuarios. 

### üéØ Objetivo

Medir la similitud entre usuarios seg√∫n sus productos adquiridos para:
- Recomendar productos que compraron usuarios similares
- Identificar patrones de compra
- Personalizar la experiencia de compra

### üîç Metodolog√≠a

Comparamos los conjuntos de productos de diferentes usuarios y utilizamos el √≠ndice de Jaccard como m√©trica de similitud para determinar qu√© usuarios tienen preferencias similares.

In [13]:
def jaccard_similarity(set1, set2):
    """
    Calcula la similitud de Jaccard entre dos conjuntos.
    """
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    return intersection / union if union != 0 else 0


# Historial de compras de usuarios
user_A = {"laptop", "mouse", "keyboard", "monitor"}
user_B = {"laptop", "mouse", "tablet"}
user_C = {"shoes", "t-shirt", "jeans"}

# Calcular similitud
sim_A_B = jaccard_similarity(user_A, user_B)
sim_A_C = jaccard_similarity(user_A, user_C)

print("Similitud entre Usuario A y Usuario B:", sim_A_B)
print("Similitud entre Usuario A y Usuario C:", sim_A_C)

# Decidir recomendaciones
if sim_A_B > sim_A_C:
    print("\nUsuario A y B son m√°s similares ‚Üí recomendar productos de B a A")


Similitud entre Usuario A y Usuario B: 0.4
Similitud entre Usuario A y Usuario C: 0.0

Usuario A y B son m√°s similares ‚Üí recomendar productos de B a A


In [None]:
# üîç Caso de Uso 3: Detecci√≥n de Preguntas Similares mediante Tokenizaci√≥n
# ============================================================================
# Este an√°lisis identifica preguntas redundantes en un conjunto de preguntas
# para eventos, utilizando tokenizaci√≥n simple (divisi√≥n por palabras).

def jaccard_similarity(set1, set2):
    """
    Calcula la similitud de Jaccard entre dos conjuntos de palabras.
    """
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    return intersection / union if union != 0 else 0


# Preguntas para un evento sobre ciencia de datos y experiencias personales
questions = [
    "¬øCu√°l ha sido tu mayor reto aprendiendo ciencia de datos?",
    "¬øCu√°l ha sido tu mayor reto personal aprendiendo ciencia de datos avanzado?",
    "¬øPuedes compartir una experiencia personal aplicando ciencia de datos en tu trabajo?",
    "¬øCu√°l consideras la habilidad m√°s importante para un cient√≠fico de datos?",
    "¬øQu√© consejo le dar√≠as a alguien que empieza en ciencia de datos?",
    "¬øC√≥mo enfrentaste dificultades en proyectos de ciencia de datos pasados?",
    "¬øQu√© frameworks prefieres para machine learning y por qu√©?",
    "¬øCu√°l ha sido tu experiencia m√°s significativa aplicando modelos predictivos?",
    "¬øQu√© aprendiste de tus primeros proyectos en ciencia de datos?",
    "¬øC√≥mo manejas los errores y aprendizajes en proyectos de ciencia de datos?"
]

# Convertimos cada pregunta en un conjunto de palabras (tokens)
# Eliminamos signos de interrogaci√≥n para el an√°lisis
question_sets = [set(q.lower().replace("¬ø","").replace("?","").split()) for q in questions]

# Umbral de similitud: solo consideramos pares con similitud >= 0.8
threshold = 0.8

# Comparar todas las preguntas entre s√≠
similar_pairs = []
for i in range(len(question_sets)):
    for j in range(i+1, len(question_sets)):
        sim = jaccard_similarity(question_sets[i], question_sets[j])
        if sim >= threshold:
            similar_pairs.append(((questions[i], questions[j]), sim))

# Mostrar resultados ordenados por similitud (descendente)
print("üîé Pares de preguntas similares (threshold =", threshold, "):\n")
for pair, sim in sorted(similar_pairs, key=lambda x: x[1], reverse=True):
    print(f"- [{sim:.2f}] '{pair[0]}'\n          vs\n          '{pair[1]}'\n")

In [None]:
# üß† Mejora mediante Lematizaci√≥n con SpaCy
# ==========================================
# En este enfoque avanzado, utilizamos lematizaci√≥n para normalizar las palabras
# (ej: "aprendiendo" ‚Üí "aprender", "datos" ‚Üí "dato"), eliminando variaciones
# morfol√≥gicas y mejorando la detecci√≥n de similitud sem√°ntica.

import spacy

# Cargar modelo de lenguaje en espa√±ol
nlp = spacy.load("es_core_news_sm")

def lemmatize_text(text):
    """
    Recibe un string y devuelve un conjunto de lemas (lemmas).
    Elimina stopwords y signos de puntuaci√≥n para optimizar el an√°lisis.
    """
    doc = nlp(text.lower().replace("¬ø","").replace("?",""))
    return {token.lemma_ for token in doc if not token.is_punct and not token.is_stop}

# Funci√≥n Jaccard
def jaccard_similarity(set1, set2):
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    return intersection / union if union != 0 else 0


# üîπ 20 preguntas (10 originales + 10 nuevas variantes)
questions = [
    # === Preguntas originales ===
    "¬øCu√°l ha sido tu mayor reto aprendiendo ciencia de datos?",
    "¬øCu√°l ha sido tu mayor reto personal aprendiendo ciencia de datos avanzado?",
    "¬øPuedes compartir una experiencia personal aplicando ciencia de datos en tu trabajo?",
    "¬øCu√°l consideras la habilidad m√°s importante para un cient√≠fico de datos?",
    "¬øQu√© consejo le dar√≠as a alguien que empieza en ciencia de datos?",
    "¬øC√≥mo enfrentaste dificultades en proyectos de ciencia de datos pasados?",
    "¬øQu√© frameworks prefieres para machine learning y por qu√©?",
    "¬øCu√°l ha sido tu experiencia m√°s significativa aplicando modelos predictivos?",
    "¬øQu√© aprendiste de tus primeros proyectos en ciencia de datos?",
    "¬øC√≥mo manejas los errores y aprendizajes en proyectos de ciencia de datos?",

    # === Nuevas variantes (algunas muy similares, otras distintas) ===
    "¬øCu√°l fue tu mayor reto cuando comenzaste a estudiar ciencia de datos?",
    "¬øPuedes contar una experiencia positiva aplicando ciencia de datos en un proyecto?",
    "¬øQu√© habilidades blandas consideras necesarias para trabajar en ciencia de datos?",
    "¬øQu√© opinas sobre la importancia de la √©tica en proyectos de inteligencia artificial?",
    "¬øCu√°l ha sido la herramienta m√°s √∫til para ti en proyectos de machine learning?",
    "¬øQu√© recomendar√≠as a alguien que quiere especializarse en big data?",
    "¬øC√≥mo describir√≠as tu curva de aprendizaje en ciencia de datos?",
    "¬øQu√© importancia le das al trabajo en equipo en proyectos de ciencia de datos?",
    "¬øCu√°l es tu framework favorito para deep learning y por qu√©?",
    "¬øQu√© retos ves en el futuro de la ciencia de datos en Am√©rica Latina?"
]


# Convertimos cada pregunta a conjunto de lemas
question_sets = [lemmatize_text(q) for q in questions]

# Umbral de similitud reducido a 0.5 para captar m√°s variaciones
threshold = 0.5

# Comparar todas las preguntas
similar_pairs = []
for i in range(len(question_sets)):
    for j in range(i+1, len(question_sets)):
        sim = jaccard_similarity(question_sets[i], question_sets[j])
        if sim >= threshold:
            similar_pairs.append(((questions[i], questions[j]), sim))

# Mostrar resultados ordenados por similitud
print("üîé Pares de preguntas similares con lematizaci√≥n (threshold =", threshold, "):\n")
for pair, sim in sorted(similar_pairs, key=lambda x: x[1], reverse=True):
    print(f"- [{sim:.2f}] '{pair[0]}'\n          vs\n          '{pair[1]}'\n")

In [None]:
# üéØ Clustering Autom√°tico de Preguntas Similares
# ================================================
# Este algoritmo agrupa preguntas similares en clusters utilizando el √≠ndice de Jaccard
# con lematizaci√≥n. Es √∫til para organizar preguntas en categor√≠as tem√°ticas autom√°ticamente.

import spacy

# Cargar modelo en espa√±ol
nlp = spacy.load("es_core_news_sm")

def lemmatize_text(text):
    """
    Recibe un string y devuelve un conjunto de lemas (lemmas).
    """
    doc = nlp(text.lower().replace("¬ø","").replace("?",""))
    return {token.lemma_ for token in doc if not token.is_punct and not token.is_stop}

# Funci√≥n Jaccard
def jaccard_similarity(set1, set2):
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    return intersection / union if union != 0 else 0

# üìã Dataset ampliado: Preguntas generales + temporales
questions = [
    # === Preguntas sobre experiencia y aprendizaje ===
    "¬øCu√°l ha sido tu mayor reto aprendiendo ciencia de datos?",
    "¬øCu√°l ha sido tu mayor reto personal aprendiendo ciencia de datos avanzado?",
    "¬øPuedes compartir una experiencia personal aplicando ciencia de datos en tu trabajo?",
    "¬øCu√°l consideras la habilidad m√°s importante para un cient√≠fico de datos?",
    "¬øQu√© consejo le dar√≠as a alguien que empieza en ciencia de datos?",
    "¬øC√≥mo enfrentaste dificultades en proyectos de ciencia de datos pasados?",
    "¬øQu√© frameworks prefieres para machine learning y por qu√©?",
    "¬øCu√°l ha sido tu experiencia m√°s significativa aplicando modelos predictivos?",
    "¬øQu√© aprendiste de tus primeros proyectos en ciencia de datos?",
    "¬øC√≥mo manejas los errores y aprendizajes en proyectos de ciencia de datos?",
    "¬øCu√°l fue tu mayor reto cuando comenzaste a estudiar ciencia de datos?",
    "¬øPuedes contar una experiencia positiva aplicando ciencia de datos en un proyecto?",
    "¬øQu√© habilidades blandas consideras necesarias para trabajar en ciencia de datos?",
    "¬øQu√© opinas sobre la importancia de la √©tica en proyectos de inteligencia artificial?",
    "¬øCu√°l ha sido la herramienta m√°s √∫til para ti en proyectos de machine learning?",
    "¬øQu√© recomendar√≠as a alguien que quiere especializarse en big data?",
    "¬øC√≥mo describir√≠as tu curva de aprendizaje en ciencia de datos?",
    "¬øQu√© importancia le das al trabajo en equipo en proyectos de ciencia de datos?",
    "¬øCu√°l es tu framework favorito para deep learning y por qu√©?",
    "¬øQu√© retos ves en el futuro de la ciencia de datos en Am√©rica Latina?",
    
    # === Preguntas sobre trayectoria temporal ===
    "¬øA qu√© edad empezaste a estudiar ciencia de datos?",
    "¬øCu√°ntos a√±os llevas aprendiendo ciencia de datos?",
    "¬øHace cu√°nto tiempo comenzaste a interesarte en ciencia de datos?",
    "¬øCu√°nto tiempo te tom√≥ aprender los fundamentos de ciencia de datos?",
    "¬øEn qu√© a√±o iniciaste tu carrera en ciencia de datos?",
    "¬øCu√°nto tiempo dedicas semanalmente a proyectos de ciencia de datos?",
    "¬øC√≥mo ha evolucionado tu aprendizaje de ciencia de datos a lo largo de los a√±os?",
    "¬øCu√°ntos proyectos personales has hecho desde que comenzaste en ciencia de datos?",
    "¬øCu√°nto tiempo llevas aplicando ciencia de datos en el trabajo?",
    "¬øHace cu√°ntos a√±os escuchaste por primera vez sobre ciencia de datos?"
]

# Convertimos cada pregunta a conjunto de lemas
question_sets = [lemmatize_text(q) for q in questions]

# Umbral de similitud para clustering
threshold = 0.65

# üîπ Algoritmo de clustering simple basado en similitud Jaccard
clusters = []
used = set()

for i in range(len(questions)):
    if i in used:
        continue
    cluster = [(questions[i], question_sets[i])]
    used.add(i)
    for j in range(i+1, len(questions)):
        sim = jaccard_similarity(question_sets[i], question_sets[j])
        if sim >= threshold:
            cluster.append((questions[j], question_sets[j]))
            used.add(j)
    clusters.append(cluster)

# üìä Mostrar clusters con formato mejorado
print(f"üéØ Clusters de preguntas similares (threshold = {threshold}):\n")
print("=" * 80 + "\n")

for idx, cluster in enumerate(clusters, 1):
    print(f"üîπ **Grupo {idx}** ({len(cluster)} pregunta{'s' if len(cluster) > 1 else ''}):")
    for q, lemmas in cluster:
        print(f"   üìå {q}")
        print(f"      üî§ Lemmas: {lemmas}")
    print("\n" + "-" * 80 + "\n")

---

## üéì Conclusiones

El **√çndice de Jaccard** es una herramienta poderosa y vers√°til para medir similitud en diversos contextos:

### ‚úÖ Ventajas
- **Simplicidad**: F√°cil de implementar y comprender
- **Versatilidad**: Aplicable a cualquier tipo de conjunto (texto, productos, usuarios, etc.)
- **Interpretabilidad**: Valor normalizado entre 0 y 1, f√°cil de interpretar

### ‚ö†Ô∏è Limitaciones
- **Sensibilidad al tama√±o**: No considera la frecuencia de elementos
- **Tokenizaci√≥n b√°sica**: Requiere t√©cnicas adicionales (lematizaci√≥n, embeddings) para mejores resultados en texto
- **Contexto sem√°ntico**: No captura relaciones sem√°nticas profundas (sin√≥nimos, polisemia)

### üöÄ Aplicaciones Pr√°cticas
1. **Sistemas de recomendaci√≥n**: Usuarios o productos similares
2. **Deduplicaci√≥n**: Detectar contenido redundante
3. **An√°lisis de clustering**: Agrupar elementos similares
4. **Recuperaci√≥n de informaci√≥n**: B√∫squeda de documentos similares
5. **NLP**: Comparaci√≥n de textos, an√°lisis de similitud de preguntas

---

üìö **Referencias adicionales**:
- [Wikipedia: Jaccard Index](https://en.wikipedia.org/wiki/Jaccard_index)
- [SpaCy: Lematizaci√≥n en espa√±ol](https://spacy.io/models/es)