El **índice de Jaccard** ($I_J$) o **coeficiente de Jaccard** ($I_J$) mide el grado de similitud entre dos conjuntos, sea cual sea el tipo de elementos.

La formulación es la siguiente:

$$
J(A, B) = \frac{|A \cap B|}{|A \cup B|}
$$

Es decir, la cardinalidad de la intersección de ambos conjuntos dividida por la cardinalidad de su unión.

Siempre toma valores entre $0$ y $1$, correspondiendo este último a la igualdad total entre ambos conjuntos.

In [12]:
# Ejemplo: Uso del índice de Jaccard para detectar clusters duplicados
# ===============================================================

def jaccard_similarity(set1, set2):
    """
    Calcula la similitud de Jaccard entre dos conjuntos.
    """
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    return intersection / union if union != 0 else 0


# Supongamos que tenemos clusters de mensajes representados por keywords
clusters = [
    {"ai", "model", "training", "data"},
    {"deep", "learning", "neural", "network"},
    {"ai", "model", "training", "dataset"},
    {"coffee", "break", "meeting"},
    {"neural", "network", "deep", "learning"},
]

# Umbral de similitud para considerar duplicados
threshold = 0.7

# Detectar duplicados
duplicates = []
visited = set()

for i in range(len(clusters)):
    for j in range(i+1, len(clusters)):
        sim = jaccard_similarity(clusters[i], clusters[j])
        if sim >= threshold:
            duplicates.append((i, j, sim))
            visited.add(j)

# Mostrar resultados
print("Clusters originales:")
for idx, c in enumerate(clusters):
    print(f"{idx}: {c}")

print("\nPosibles duplicados (índice1, índice2, similitud):")
for dup in duplicates:
    print(dup)

# Filtrar clusters únicos
unique_clusters = [c for idx, c in enumerate(clusters) if idx not in visited]

print("\nClusters después de eliminar duplicados:")
for c in unique_clusters:
    print(c)


Clusters originales:
0: {'model', 'data', 'training', 'ai'}
1: {'learning', 'network', 'neural', 'deep'}
2: {'model', 'dataset', 'training', 'ai'}
3: {'meeting', 'break', 'coffee'}
4: {'learning', 'network', 'neural', 'deep'}

Posibles duplicados (índice1, índice2, similitud):
(1, 4, 1.0)

Clusters después de eliminar duplicados:
{'model', 'data', 'training', 'ai'}
{'learning', 'network', 'neural', 'deep'}
{'model', 'dataset', 'training', 'ai'}
{'meeting', 'break', 'coffee'}


Caso: Recomendación de productos
Supongamos que tenemos dos usuarios y cada uno tiene un conjunto de productos comprados. Queremos medir qué tan similares son dos usuarios según sus compras, para usarlos en un sistema de recomendaciones

In [13]:
def jaccard_similarity(set1, set2):
    """
    Calcula la similitud de Jaccard entre dos conjuntos.
    """
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    return intersection / union if union != 0 else 0


# Historial de compras de usuarios
user_A = {"laptop", "mouse", "keyboard", "monitor"}
user_B = {"laptop", "mouse", "tablet"}
user_C = {"shoes", "t-shirt", "jeans"}

# Calcular similitud
sim_A_B = jaccard_similarity(user_A, user_B)
sim_A_C = jaccard_similarity(user_A, user_C)

print("Similitud entre Usuario A y Usuario B:", sim_A_B)
print("Similitud entre Usuario A y Usuario C:", sim_A_C)

# Decidir recomendaciones
if sim_A_B > sim_A_C:
    print("\nUsuario A y B son más similares → recomendar productos de B a A")


Similitud entre Usuario A y Usuario B: 0.4
Similitud entre Usuario A y Usuario C: 0.0

Usuario A y B son más similares → recomendar productos de B a A


In [16]:
def jaccard_similarity(set1, set2):
    """
    Calcula la similitud de Jaccard entre dos conjuntos de palabras.
    """
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    return intersection / union if union != 0 else 0


# Preguntas para un evento sobre ciencia de datos y experiencias personales
questions = [
    "¿Cuál ha sido tu mayor reto aprendiendo ciencia de datos?",
    "¿Cuál ha sido tu mayor reto personal aprendiendo ciencia de datos avanzado?",
    "¿Puedes compartir una experiencia personal aplicando ciencia de datos en tu trabajo?",
    "¿Cuál consideras la habilidad más importante para un científico de datos?",
    "¿Qué consejo le darías a alguien que empieza en ciencia de datos?",
    "¿Cómo enfrentaste dificultades en proyectos de ciencia de datos pasados?",
    "¿Qué frameworks prefieres para machine learning y por qué?",
    "¿Cuál ha sido tu experiencia más significativa aplicando modelos predictivos?",
    "¿Qué aprendiste de tus primeros proyectos en ciencia de datos?",
    "¿Cómo manejas los errores y aprendizajes en proyectos de ciencia de datos?"
]

# Convertimos cada pregunta en un conjunto de palabras (tokens)
question_sets = [set(q.lower().replace("¿","").replace("?","").split()) for q in questions]

# Threshold de similitud
threshold = 0.8

# Comparar todas las preguntas entre sí
similar_pairs = []
for i in range(len(question_sets)):
    for j in range(i+1, len(question_sets)):
        sim = jaccard_similarity(question_sets[i], question_sets[j])
        if sim >= threshold:
            similar_pairs.append(((questions[i], questions[j]), sim))

# Mostrar resultados
print("Pares de preguntas similares (threshold =", threshold, "):\n")
for pair, sim in sorted(similar_pairs, key=lambda x: x[1], reverse=True):
    print(f"- [{sim:.2f}] '{pair[0]}'\n          vs\n          '{pair[1]}'\n")


Pares de preguntas similares (threshold = 0.8 ):

- [0.83] '¿Cuál ha sido tu mayor reto aprendiendo ciencia de datos?'
          vs
          '¿Cuál ha sido tu mayor reto personal aprendiendo ciencia de datos avanzado?'



In [5]:
import spacy

# Cargar modelo en español
nlp = spacy.load("es_core_news_sm")

def lemmatize_text(text):
    """
    Recibe un string y devuelve un conjunto de lemas (lemmas).
    """
    doc = nlp(text.lower().replace("¿","").replace("?",""))
    return {token.lemma_ for token in doc if not token.is_punct and not token.is_stop}

# Función Jaccard
def jaccard_similarity(set1, set2):
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    return intersection / union if union != 0 else 0


# Preguntas
# 🔹 20 preguntas (10 originales + 10 nuevas)
questions = [
    # Originales
    "¿Cuál ha sido tu mayor reto aprendiendo ciencia de datos?",
    "¿Cuál ha sido tu mayor reto personal aprendiendo ciencia de datos avanzado?",
    "¿Puedes compartir una experiencia personal aplicando ciencia de datos en tu trabajo?",
    "¿Cuál consideras la habilidad más importante para un científico de datos?",
    "¿Qué consejo le darías a alguien que empieza en ciencia de datos?",
    "¿Cómo enfrentaste dificultades en proyectos de ciencia de datos pasados?",
    "¿Qué frameworks prefieres para machine learning y por qué?",
    "¿Cuál ha sido tu experiencia más significativa aplicando modelos predictivos?",
    "¿Qué aprendiste de tus primeros proyectos en ciencia de datos?",
    "¿Cómo manejas los errores y aprendizajes en proyectos de ciencia de datos?",

    # Nuevas (algunas muy similares y otras distintas)
    "¿Cuál fue tu mayor reto cuando comenzaste a estudiar ciencia de datos?",
    "¿Puedes contar una experiencia positiva aplicando ciencia de datos en un proyecto?",
    "¿Qué habilidades blandas consideras necesarias para trabajar en ciencia de datos?",
    "¿Qué opinas sobre la importancia de la ética en proyectos de inteligencia artificial?",
    "¿Cuál ha sido la herramienta más útil para ti en proyectos de machine learning?",
    "¿Qué recomendarías a alguien que quiere especializarse en big data?",
    "¿Cómo describirías tu curva de aprendizaje en ciencia de datos?",
    "¿Qué importancia le das al trabajo en equipo en proyectos de ciencia de datos?",
    "¿Cuál es tu framework favorito para deep learning y por qué?",
    "¿Qué retos ves en el futuro de la ciencia de datos en América Latina?"
]


# Convertimos cada pregunta a conjunto de lemas
question_sets = [lemmatize_text(q) for q in questions]

# Threshold de similitud
threshold = 0.5

# Comparar todas las preguntas
similar_pairs = []
for i in range(len(question_sets)):
    for j in range(i+1, len(question_sets)):
        sim = jaccard_similarity(question_sets[i], question_sets[j])
        if sim >= threshold:
            similar_pairs.append(((questions[i], questions[j]), sim))

# Mostrar resultados
print("Pares de preguntas similares (threshold =", threshold, "):\n")
for pair, sim in sorted(similar_pairs, key=lambda x: x[1], reverse=True):
    print(f"- [{sim:.2f}] '{pair[0]}'\n          vs\n          '{pair[1]}'\n")


Pares de preguntas similares (threshold = 0.5 ):

- [0.67] '¿Cuál ha sido tu mayor reto aprendiendo ciencia de datos?'
          vs
          '¿Cuál ha sido tu mayor reto personal aprendiendo ciencia de datos avanzado?'

- [0.50] '¿Cuál ha sido tu mayor reto aprendiendo ciencia de datos?'
          vs
          '¿Cuál fue tu mayor reto cuando comenzaste a estudiar ciencia de datos?'



In [12]:
import spacy

# Cargar modelo en español
nlp = spacy.load("es_core_news_sm")

def lemmatize_text(text):
    """
    Recibe un string y devuelve un conjunto de lemas (lemmas).
    """
    doc = nlp(text.lower().replace("¿","").replace("?",""))
    return {token.lemma_ for token in doc if not token.is_punct and not token.is_stop}

# Función Jaccard
def jaccard_similarity(set1, set2):
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    return intersection / union if union != 0 else 0

# Preguntas (originales + personales)
questions = [
    "¿Cuál ha sido tu mayor reto aprendiendo ciencia de datos?",
    "¿Cuál ha sido tu mayor reto personal aprendiendo ciencia de datos avanzado?",
    "¿Puedes compartir una experiencia personal aplicando ciencia de datos en tu trabajo?",
    "¿Cuál consideras la habilidad más importante para un científico de datos?",
    "¿Qué consejo le darías a alguien que empieza en ciencia de datos?",
    "¿Cómo enfrentaste dificultades en proyectos de ciencia de datos pasados?",
    "¿Qué frameworks prefieres para machine learning y por qué?",
    "¿Cuál ha sido tu experiencia más significativa aplicando modelos predictivos?",
    "¿Qué aprendiste de tus primeros proyectos en ciencia de datos?",
    "¿Cómo manejas los errores y aprendizajes en proyectos de ciencia de datos?",
    "¿Cuál fue tu mayor reto cuando comenzaste a estudiar ciencia de datos?",
    "¿Puedes contar una experiencia positiva aplicando ciencia de datos en un proyecto?",
    "¿Qué habilidades blandas consideras necesarias para trabajar en ciencia de datos?",
    "¿Qué opinas sobre la importancia de la ética en proyectos de inteligencia artificial?",
    "¿Cuál ha sido la herramienta más útil para ti en proyectos de machine learning?",
    "¿Qué recomendarías a alguien que quiere especializarse en big data?",
    "¿Cómo describirías tu curva de aprendizaje en ciencia de datos?",
    "¿Qué importancia le das al trabajo en equipo en proyectos de ciencia de datos?",
    "¿Cuál es tu framework favorito para deep learning y por qué?",
    "¿Qué retos ves en el futuro de la ciencia de datos en América Latina?",
    "¿A qué edad empezaste a estudiar ciencia de datos?",
    "¿Cuántos años llevas aprendiendo ciencia de datos?",
    "¿Hace cuánto tiempo comenzaste a interesarte en ciencia de datos?",
    "¿Cuánto tiempo te tomó aprender los fundamentos de ciencia de datos?",
    "¿En qué año iniciaste tu carrera en ciencia de datos?",
    "¿Cuánto tiempo dedicas semanalmente a proyectos de ciencia de datos?",
    "¿Cómo ha evolucionado tu aprendizaje de ciencia de datos a lo largo de los años?",
    "¿Cuántos proyectos personales has hecho desde que comenzaste en ciencia de datos?",
    "¿Cuánto tiempo llevas aplicando ciencia de datos en el trabajo?",
    "¿Hace cuántos años escuchaste por primera vez sobre ciencia de datos?"
]

# Convertimos cada pregunta a conjunto de lemas
question_sets = [lemmatize_text(q) for q in questions]

# Threshold
threshold = 0.65

# 🔹 Clustering simple basado en similitud Jaccard
clusters = []
used = set()

for i in range(len(questions)):
    if i in used:
        continue
    cluster = [(questions[i], question_sets[i])]
    used.add(i)
    for j in range(i+1, len(questions)):
        sim = jaccard_similarity(question_sets[i], question_sets[j])
        if sim >= threshold:
            cluster.append((questions[j], question_sets[j]))
            used.add(j)
    clusters.append(cluster)

# Mostrar clusters
print("Clusters de preguntas similares (threshold =", threshold, "):\n")
for idx, cluster in enumerate(clusters, 1):
    print(f"🔹 Grupo {idx}:")
    for q, lemmas in cluster:
        print("   -", q)
        print("      Lemmas:", lemmas)
    print()


Clusters de preguntas similares (threshold = 0.65 ):

🔹 Grupo 1:
   - ¿Cuál ha sido tu mayor reto aprendiendo ciencia de datos?
      Lemmas: {'aprender', 'reto', 'dato', 'ciencia'}
   - ¿Cuál ha sido tu mayor reto personal aprendiendo ciencia de datos avanzado?
      Lemmas: {'aprender', 'personal', 'avanzado', 'reto', 'dato', 'ciencia'}

🔹 Grupo 2:
   - ¿Puedes compartir una experiencia personal aplicando ciencia de datos en tu trabajo?
      Lemmas: {'dato', 'poder', 'personal', 'compartir', 'experiencia', 'aplicar', 'ciencia', 'trabajo'}

🔹 Grupo 3:
   - ¿Cuál consideras la habilidad más importante para un científico de datos?
      Lemmas: {'considera', 'científico', 'habilidad', 'dato', 'importante'}

🔹 Grupo 4:
   - ¿Qué consejo le darías a alguien que empieza en ciencia de datos?
      Lemmas: {'dariar', 'consejo', 'alguien', 'empezar', 'dato', 'ciencia'}

🔹 Grupo 5:
   - ¿Cómo enfrentaste dificultades en proyectos de ciencia de datos pasados?
      Lemmas: {'proyecto', 'pasado