# Tutorial: Reglas de Asociación
## Unidad 4 - Materia Data Mining

Este tutorial cubre los conceptos fundamentales de las Reglas de Asociación, incluyendo conceptos básicos, algoritmo Apriori y medidas de evaluación.

### Contenido:
1. [Introducción a las Reglas de Asociación](#introduccion)
2. [Conceptos Básicos](#conceptos)
3. [Algoritmo Apriori](#apriori)
4. [Medidas de Evaluación](#medidas)
5. [Ejemplos Prácticos](#ejemplos)


## 1. Introducción a las Reglas de Asociación {#introduccion}

Las **Reglas de Asociación** son una técnica de minería de datos no supervisada que busca identificar relaciones frecuentes entre diferentes elementos en un conjunto de datos.

### ¿Qué son?
Una regla de asociación es una expresión del tipo: **X → Y** donde:
- **X** (antecedente): conjunto de elementos que aparecen juntos
- **Y** (consecuente): elemento o conjunto que tiende a aparecer cuando X está presente

### Ejemplo clásico:
En un supermercado: **{Pan, Mantequilla} → {Leche}**
- Significa: "Las personas que compran pan y mantequilla tienden a comprar también leche"

### Aplicaciones:
- **Retail**: Análisis de canasta de compras
- **Web**: Páginas visitadas conjuntamente
- **Medicina**: Síntomas que aparecen juntos
- **Recomendaciones**: Productos o contenido sugerido


## 2. Conceptos Básicos {#conceptos}

### 2.1 Itemset
Un **itemset** es un conjunto de uno o más elementos (items) que aparecen juntos en una transacción.

**Ejemplos:**
- Itemset de tamaño 1: {Pan}, {Leche}, {Huevos}
- Itemset de tamaño 2: {Pan, Mantequilla}, {Leche, Huevos}
- Itemset de tamaño 3: {Pan, Mantequilla, Leche}

### 2.2 Itemset Frecuente
Un itemset es **frecuente** si aparece en al menos un número mínimo de transacciones, definido por el **soporte mínimo**.

**Soporte de un itemset I** = (Número de transacciones que contienen I) / (Total de transacciones)

### 2.3 Itemset Máximo
Un itemset frecuente es **máximo** si no es subconjunto de ningún otro itemset frecuente más grande.

### 2.4 Itemset Cerrado
Un itemset frecuente es **cerrado** si no existe un superconjunto inmediato con el mismo soporte.


In [1]:
# Ejemplo práctico: Dataset sintético de supermercado
import pandas as pd
import numpy as np
from itertools import combinations

# Crear dataset sintético
transacciones = [
    ['Pan', 'Mantequilla', 'Leche'],
    ['Pan', 'Huevos'],
    ['Mantequilla', 'Leche'],
    ['Pan', 'Mantequilla', 'Huevos', 'Leche'],
    ['Huevos', 'Leche'],
    ['Pan', 'Mantequilla'],
    ['Pan', 'Leche'],
    ['Mantequilla', 'Huevos']
]

print("Dataset de transacciones:")
for i, transaccion in enumerate(transacciones, 1):
    print(f"T{i}: {transaccion}")

print(f"\nTotal de transacciones: {len(transacciones)}")

# Obtener todos los items únicos
items = set()
for transaccion in transacciones:
    items.update(transaccion)
print(f"Items únicos: {sorted(items)}")


Dataset de transacciones:
T1: ['Pan', 'Mantequilla', 'Leche']
T2: ['Pan', 'Huevos']
T3: ['Mantequilla', 'Leche']
T4: ['Pan', 'Mantequilla', 'Huevos', 'Leche']
T5: ['Huevos', 'Leche']
T6: ['Pan', 'Mantequilla']
T7: ['Pan', 'Leche']
T8: ['Mantequilla', 'Huevos']

Total de transacciones: 8
Items únicos: ['Huevos', 'Leche', 'Mantequilla', 'Pan']


In [2]:
# Función para calcular soporte de un itemset
def calcular_soporte(itemset, transacciones):
    """Calcula el soporte de un itemset en las transacciones"""
    contador = 0
    for transaccion in transacciones:
        if set(itemset).issubset(set(transaccion)):
            contador += 1
    return contador / len(transacciones)

# Ejemplos de cálculo de soporte
print("=== CÁLCULO DE SOPORTE ===")
print("Soporte mínimo establecido: 0.25 (25%)")
print()

# Itemsets de tamaño 1
itemsets_1 = [['Pan'], ['Mantequilla'], ['Leche'], ['Huevos']]
print("Itemsets de tamaño 1:")
for itemset in itemsets_1:
    soporte = calcular_soporte(itemset, transacciones)
    frecuente = "✓ Frecuente" if soporte >= 0.25 else "✗ No frecuente"
    print(f"  {itemset}: soporte = {soporte:.3f} ({soporte*100:.1f}%) - {frecuente}")

print()

# Itemsets de tamaño 2
itemsets_2 = [['Pan', 'Mantequilla'], ['Pan', 'Leche'], ['Mantequilla', 'Leche'], ['Pan', 'Huevos'], ['Huevos', 'Leche']]
print("Itemsets de tamaño 2:")
for itemset in itemsets_2:
    soporte = calcular_soporte(itemset, transacciones)
    frecuente = "✓ Frecuente" if soporte >= 0.25 else "✗ No frecuente"
    print(f"  {itemset}: soporte = {soporte:.3f} ({soporte*100:.1f}%) - {frecuente}")


=== CÁLCULO DE SOPORTE ===
Soporte mínimo establecido: 0.25 (25%)

Itemsets de tamaño 1:
  ['Pan']: soporte = 0.625 (62.5%) - ✓ Frecuente
  ['Mantequilla']: soporte = 0.625 (62.5%) - ✓ Frecuente
  ['Leche']: soporte = 0.625 (62.5%) - ✓ Frecuente
  ['Huevos']: soporte = 0.500 (50.0%) - ✓ Frecuente

Itemsets de tamaño 2:
  ['Pan', 'Mantequilla']: soporte = 0.375 (37.5%) - ✓ Frecuente
  ['Pan', 'Leche']: soporte = 0.375 (37.5%) - ✓ Frecuente
  ['Mantequilla', 'Leche']: soporte = 0.375 (37.5%) - ✓ Frecuente
  ['Pan', 'Huevos']: soporte = 0.250 (25.0%) - ✓ Frecuente
  ['Huevos', 'Leche']: soporte = 0.250 (25.0%) - ✓ Frecuente


## 3. Algoritmo Apriori {#apriori}

El **algoritmo Apriori** es el método clásico para encontrar itemsets frecuentes y generar reglas de asociación.

### Principio Fundamental (Propiedad Apriori):
> **"Si un itemset es frecuente, entonces todos sus subconjuntos también son frecuentes"**

**Contraposición:** Si un itemset no es frecuente, entonces todos sus superconjuntos tampoco pueden ser frecuentes.

### Fases del Algoritmo:

#### Fase 1: Encontrar Itemsets Frecuentes
1. **L₁**: Encontrar itemsets frecuentes de tamaño 1
2. **C₂**: Generar candidatos de tamaño 2 a partir de L₁
3. **L₂**: Filtrar candidatos frecuentes de tamaño 2
4. **Repetir** hasta que no haya más itemsets frecuentes

#### Fase 2: Generar Reglas de Asociación
- A partir de cada itemset frecuente, generar todas las reglas posibles
- Evaluar cada regla con medidas de calidad


In [3]:
# Implementación simple del algoritmo Apriori

def generar_candidatos_1(transacciones):
    """Genera candidatos de tamaño 1"""
    candidatos = set()
    for transaccion in transacciones:
        for item in transaccion:
            candidatos.add(frozenset([item]))
    return list(candidatos)

def generar_candidatos_k(itemsets_frecuentes, k):
    """Genera candidatos de tamaño k a partir de itemsets frecuentes de tamaño k-1"""
    candidatos = []
    itemsets_frecuentes = [set(itemset) for itemset in itemsets_frecuentes]
    
    for i in range(len(itemsets_frecuentes)):
        for j in range(i + 1, len(itemsets_frecuentes)):
            # Unir dos itemsets si difieren en exactamente un elemento
            union = itemsets_frecuentes[i].union(itemsets_frecuentes[j])
            if len(union) == k:
                candidatos.append(frozenset(union))
    
    return list(set(candidatos))

def filtrar_frecuentes(candidatos, transacciones, soporte_min):
    """Filtra candidatos que cumplen el soporte mínimo"""
    frecuentes = []
    for candidato in candidatos:
        soporte = calcular_soporte(list(candidato), transacciones)
        if soporte >= soporte_min:
            frecuentes.append(candidato)
    return frecuentes

def apriori(transacciones, soporte_min):
    """Algoritmo Apriori completo"""
    print(f"=== ALGORITMO APRIORI (soporte mínimo: {soporte_min}) ===")
    
    # Paso 1: Candidatos de tamaño 1
    candidatos_1 = generar_candidatos_1(transacciones)
    frecuentes_1 = filtrar_frecuentes(candidatos_1, transacciones, soporte_min)
    
    print(f"L₁ (itemsets frecuentes de tamaño 1): {len(frecuentes_1)} items")
    for itemset in frecuentes_1:
        soporte = calcular_soporte(list(itemset), transacciones)
        print(f"  {set(itemset)}: {soporte:.3f}")
    
    todos_frecuentes = [frecuentes_1]
    k = 2
    
    # Pasos siguientes
    while True:
        candidatos_k = generar_candidatos_k(todos_frecuentes[-1], k)
        if not candidatos_k:
            break
            
        frecuentes_k = filtrar_frecuentes(candidatos_k, transacciones, soporte_min)
        if not frecuentes_k:
            break
            
        print(f"L₍{k}₎ (itemsets frecuentes de tamaño {k}): {len(frecuentes_k)} items")
        for itemset in frecuentes_k:
            soporte = calcular_soporte(list(itemset), transacciones)
            print(f"  {set(itemset)}: {soporte:.3f}")
        
        todos_frecuentes.append(frecuentes_k)
        k += 1
    
    return todos_frecuentes

# Ejecutar Apriori
itemsets_frecuentes = apriori(transacciones, 0.25)


=== ALGORITMO APRIORI (soporte mínimo: 0.25) ===
L₁ (itemsets frecuentes de tamaño 1): 4 items
  {'Pan'}: 0.625
  {'Huevos'}: 0.500
  {'Mantequilla'}: 0.625
  {'Leche'}: 0.625
L₍2₎ (itemsets frecuentes de tamaño 2): 6 items
  {'Mantequilla', 'Leche'}: 0.375
  {'Huevos', 'Mantequilla'}: 0.250
  {'Huevos', 'Leche'}: 0.250
  {'Mantequilla', 'Pan'}: 0.375
  {'Leche', 'Pan'}: 0.375
  {'Huevos', 'Pan'}: 0.250
L₍3₎ (itemsets frecuentes de tamaño 3): 1 items
  {'Mantequilla', 'Pan', 'Leche'}: 0.250


## 4. Medidas de Evaluación {#medidas}

Una vez obtenidos los itemsets frecuentes, el siguiente paso es generar reglas de asociación y evaluarlas.

### 4.1 Generación de Reglas
Para cada itemset frecuente de tamaño ≥ 2, se generan todas las reglas posibles:
- Itemset {A, B, C} → Reglas: A→BC, B→AC, C→AB, AB→C, AC→B, BC→A

### 4.2 Medidas de Calidad

#### **Soporte (Support)**
Frecuencia del itemset completo en las transacciones.

**Soporte(X → Y) = P(X ∪ Y) = |T(X ∪ Y)| / |T|**

#### **Confianza (Confidence)**
Probabilidad condicional de que Y aparezca dado que X aparece.

**Confianza(X → Y) = P(Y|X) = Soporte(X ∪ Y) / Soporte(X)**

#### **Lift (Elevación)**
Medida que compara la probabilidad observada vs. la esperada si X e Y fueran independientes.

**Lift(X → Y) = Confianza(X → Y) / Soporte(Y) = P(Y|X) / P(Y)**

- **Lift > 1**: Asociación positiva (X favorece Y)
- **Lift = 1**: Independencia (X no afecta Y)
- **Lift < 1**: Asociación negativa (X desfavorece Y)


In [4]:
# Generación de reglas de asociación y cálculo de medidas

def generar_reglas(itemsets_frecuentes, transacciones, confianza_min=0.5):
    """Genera reglas de asociación a partir de itemsets frecuentes"""
    reglas = []
    
    # Para cada nivel de itemsets (tamaño >= 2)
    for nivel in itemsets_frecuentes[1:]:  # Saltar itemsets de tamaño 1
        for itemset in nivel:
            itemset_lista = list(itemset)
            
            # Generar todas las particiones posibles del itemset
            for i in range(1, len(itemset_lista)):
                for antecedente in combinations(itemset_lista, i):
                    antecedente = list(antecedente)
                    consecuente = [item for item in itemset_lista if item not in antecedente]
                    
                    # Calcular medidas
                    soporte_union = calcular_soporte(itemset_lista, transacciones)
                    soporte_antecedente = calcular_soporte(antecedente, transacciones)
                    soporte_consecuente = calcular_soporte(consecuente, transacciones)
                    
                    if soporte_antecedente > 0:  # Evitar división por cero
                        confianza = soporte_union / soporte_antecedente
                        
                        if soporte_consecuente > 0:  # Evitar división por cero
                            lift = confianza / soporte_consecuente
                        else:
                            lift = 0
                        
                        if confianza >= confianza_min:
                            reglas.append({
                                'antecedente': antecedente,
                                'consecuente': consecuente,
                                'soporte': soporte_union,
                                'confianza': confianza,
                                'lift': lift
                            })
    
    return reglas

# Generar reglas
print("=== GENERACIÓN DE REGLAS DE ASOCIACIÓN ===")
reglas = generar_reglas(itemsets_frecuentes, transacciones, confianza_min=0.5)

print(f"Reglas encontradas (confianza mínima: 0.5): {len(reglas)}")
print()

# Mostrar reglas ordenadas por confianza
reglas_ordenadas = sorted(reglas, key=lambda x: x['confianza'], reverse=True)

for i, regla in enumerate(reglas_ordenadas, 1):
    ant = regla['antecedente']
    cons = regla['consecuente']
    print(f"Regla {i}: {ant} → {cons}")
    print(f"  Soporte: {regla['soporte']:.3f} ({regla['soporte']*100:.1f}%)")
    print(f"  Confianza: {regla['confianza']:.3f} ({regla['confianza']*100:.1f}%)")
    print(f"  Lift: {regla['lift']:.3f}")
    
    # Interpretación del lift
    if regla['lift'] > 1:
        interpretacion = "Asociación positiva (se favorecen mutuamente)"
    elif regla['lift'] == 1:
        interpretacion = "Independientes"
    else:
        interpretacion = "Asociación negativa (se desfavorecen)"
    print(f"  Interpretación: {interpretacion}")
    print()


=== GENERACIÓN DE REGLAS DE ASOCIACIÓN ===
Reglas encontradas (confianza mínima: 0.5): 12

Regla 1: ['Mantequilla', 'Pan'] → ['Leche']
  Soporte: 0.250 (25.0%)
  Confianza: 0.667 (66.7%)
  Lift: 1.067
  Interpretación: Asociación positiva (se favorecen mutuamente)

Regla 2: ['Mantequilla', 'Leche'] → ['Pan']
  Soporte: 0.250 (25.0%)
  Confianza: 0.667 (66.7%)
  Lift: 1.067
  Interpretación: Asociación positiva (se favorecen mutuamente)

Regla 3: ['Pan', 'Leche'] → ['Mantequilla']
  Soporte: 0.250 (25.0%)
  Confianza: 0.667 (66.7%)
  Lift: 1.067
  Interpretación: Asociación positiva (se favorecen mutuamente)

Regla 4: ['Mantequilla'] → ['Leche']
  Soporte: 0.375 (37.5%)
  Confianza: 0.600 (60.0%)
  Lift: 0.960
  Interpretación: Asociación negativa (se desfavorecen)

Regla 5: ['Leche'] → ['Mantequilla']
  Soporte: 0.375 (37.5%)
  Confianza: 0.600 (60.0%)
  Lift: 0.960
  Interpretación: Asociación negativa (se desfavorecen)

Regla 6: ['Mantequilla'] → ['Pan']
  Soporte: 0.375 (37.5%)
  Co

## 5. Ejemplo Práctico Completo {#ejemplos}

### Análisis de Resultados

Vamos a analizar las reglas encontradas en nuestro ejemplo del supermercado:

#### Interpretación de las mejores reglas:

1. **Reglas con alta confianza**: Indican patrones de compra muy consistentes
2. **Reglas con alto lift**: Muestran asociaciones más fuertes de lo esperado por casualidad
3. **Reglas con alto soporte**: Representan patrones que ocurren frecuentemente

### Aplicaciones Prácticas:

1. **Marketing**: Ubicación estratégica de productos
2. **Promociones**: Ofertas combinadas basadas en reglas fuertes
3. **Gestión de inventario**: Planificación de stock conjunto
4. **Recomendaciones**: Sugerir productos adicionales


In [5]:
# Ejemplo adicional: Análisis con diferentes umbrales

print("=== ANÁLISIS CON DIFERENTES UMBRALES ===")
print()

# Probar con soporte mínimo más estricto
print("1. Soporte mínimo más estricto (0.4):")
itemsets_estricto = apriori(transacciones, 0.4)
reglas_estricto = generar_reglas(itemsets_estricto, transacciones, 0.6)
print(f"Reglas encontradas: {len(reglas_estricto)}")
print()

# Probar con soporte mínimo más permisivo
print("2. Soporte mínimo más permisivo (0.1):")
itemsets_permisivo = apriori(transacciones, 0.1)
reglas_permisivo = generar_reglas(itemsets_permisivo, transacciones, 0.3)
print(f"Reglas encontradas: {len(reglas_permisivo)}")

# Análisis de itemsets máximos y cerrados
print("\n=== ANÁLISIS DE ITEMSETS ESPECIALES ===")

def encontrar_itemsets_maximos(itemsets_frecuentes):
    """Encuentra itemsets máximos"""
    todos_itemsets = []
    for nivel in itemsets_frecuentes:
        todos_itemsets.extend(nivel)
    
    maximos = []
    for itemset in todos_itemsets:
        es_maximo = True
        for otro_itemset in todos_itemsets:
            if itemset != otro_itemset and set(itemset).issubset(set(otro_itemset)):
                es_maximo = False
                break
        if es_maximo:
            maximos.append(itemset)
    
    return maximos

itemsets_maximos = encontrar_itemsets_maximos(itemsets_frecuentes)
print(f"Itemsets máximos encontrados: {len(itemsets_maximos)}")
for itemset in itemsets_maximos:
    print(f"  {set(itemset)}")


=== ANÁLISIS CON DIFERENTES UMBRALES ===

1. Soporte mínimo más estricto (0.4):
=== ALGORITMO APRIORI (soporte mínimo: 0.4) ===
L₁ (itemsets frecuentes de tamaño 1): 4 items
  {'Pan'}: 0.625
  {'Huevos'}: 0.500
  {'Mantequilla'}: 0.625
  {'Leche'}: 0.625
Reglas encontradas: 0

2. Soporte mínimo más permisivo (0.1):
=== ALGORITMO APRIORI (soporte mínimo: 0.1) ===
L₁ (itemsets frecuentes de tamaño 1): 4 items
  {'Pan'}: 0.625
  {'Huevos'}: 0.500
  {'Mantequilla'}: 0.625
  {'Leche'}: 0.625
L₍2₎ (itemsets frecuentes de tamaño 2): 6 items
  {'Mantequilla', 'Leche'}: 0.375
  {'Huevos', 'Mantequilla'}: 0.250
  {'Huevos', 'Leche'}: 0.250
  {'Mantequilla', 'Pan'}: 0.375
  {'Leche', 'Pan'}: 0.375
  {'Huevos', 'Pan'}: 0.250
L₍3₎ (itemsets frecuentes de tamaño 3): 4 items
  {'Huevos', 'Mantequilla', 'Leche'}: 0.125
  {'Mantequilla', 'Pan', 'Leche'}: 0.250
  {'Huevos', 'Mantequilla', 'Pan'}: 0.125
  {'Huevos', 'Leche', 'Pan'}: 0.125
L₍4₎ (itemsets frecuentes de tamaño 4): 1 items
  {'Huevos', 'Mant

## 6. Resumen y Conceptos Clave

### Conceptos Fundamentales Aprendidos:

1. **Itemset**: Conjunto de elementos que aparecen juntos
2. **Itemset Frecuente**: Cumple el umbral de soporte mínimo
3. **Itemset Máximo**: No es subconjunto de otro itemset frecuente
4. **Itemset Cerrado**: No tiene superconjunto con el mismo soporte
5. **Algoritmo Apriori**: Método sistemático para encontrar itemsets frecuentes
6. **Propiedad Apriori**: Si un itemset es frecuente, todos sus subconjuntos también lo son

### Medidas de Evaluación:

- **Soporte**: Frecuencia del patrón en los datos
- **Confianza**: Fiabilidad de la regla (probabilidad condicional)
- **Lift**: Fuerza de la asociación comparada con independencia

### Pasos del Proceso:

1. **Preparación**: Formatear datos en transacciones
2. **Configuración**: Definir umbrales (soporte y confianza mínimos)
3. **Apriori**: Encontrar itemsets frecuentes iterativamente
4. **Generación**: Crear reglas de asociación
5. **Evaluación**: Calcular medidas y filtrar reglas interesantes
6. **Interpretación**: Analizar resultados en contexto del dominio

---

## 7. Ejercicios Prácticos

### Ejercicio 1: Modificar Umbrales
Experimenta con diferentes valores de soporte mínimo (0.1, 0.3, 0.5) y confianza mínima (0.4, 0.7, 0.9). ¿Cómo afecta esto al número de reglas encontradas?

### Ejercicio 2: Nuevo Dataset
Crea un dataset de 10 transacciones con 5 productos diferentes y aplica el algoritmo Apriori.

### Ejercicio 3: Interpretación
Para cada regla encontrada en tu dataset, proporciona una interpretación práctica de negocio.

### Ejercicio 4: Implementación
Implementa una función para encontrar itemsets cerrados y compara con los itemsets máximos.
