# Capítulo 2: Conceptos Básicos

## 2.1 Itemsets y Transacciones

### Definición de Transacciones

En el contexto de las reglas de asociación y la minería de datos, una **transacción** es una colección de ítems que ocurren juntos en una sola instancia. Por ejemplo, en una tienda minorista, una transacción podría representar todos los productos comprados por un cliente en una visita.

- **Transacción**: Conjunto de ítems asociados que ocurren juntos.

Matemáticamente, podemos representar un conjunto de transacciones como:

$$\mathcal{T} = \{ T_1, T_2, \dots, T_n \}$$

donde cada $ T_i $ es una transacción y es un subconjunto del conjunto total de ítems $ \mathcal{I} $.

### Definición de Itemsets

Un **itemset** es simplemente un conjunto de uno o más ítems. Los itemsets son los elementos fundamentales para generar reglas de asociación.

- **Itemset**: Subconjunto de ítems de $ \mathcal{I} $.

Un itemset puede ser:

- **Itemset de tamaño 1**: Contiene un solo ítem, por ejemplo, {Leche}.
- **Itemset de tamaño 2**: Contiene dos ítems, por ejemplo, {Leche, Pan}.
- Y así sucesivamente.

### Frecuencia de Itemsets

La frecuencia de un itemset se refiere al número de transacciones en las que aparece. Un itemset es considerado **frecuente** si su frecuencia supera un umbral mínimo especificado.

## 2.2 Medidas de Interés Básicas: Soporte y Confianza

Para evaluar la importancia y relevancia de los itemsets y las reglas de asociación, utilizamos medidas de interés. Las dos medidas básicas son **soporte** y **confianza**.

### Soporte

El **soporte** de un itemset es la proporción de transacciones que contienen el itemset respecto al total de transacciones. Es una medida de la popularidad o frecuencia del itemset en el conjunto de datos.

#### Definición Matemática

Para un itemset $X$, el soporte se define como:


$$ \text{Soporte}(X) = \frac{\text{Número de transacciones que contienen } X}{\text{Número total de transacciones}} $$

$$ \text{Soporte}(X) = \frac{| \{ T_i \in \mathcal{T} \mid X \subseteq T_i \} |}{|\mathcal{T}|} $$

El soporte es un valor entre 0 y 1.

### Confianza

La **confianza** de una regla de asociación $ X \implies Y $ es la probabilidad de que una transacción que contiene $ X $ también contenga $ Y $. Mide la fiabilidad de la implicación.

#### Definición Matemática

Para una regla $ X \implies Y $, la confianza se define como:

$$ \text{Confianza}(X \implies Y) = \frac{\text{Soporte}(X \cup Y)}{\text{Soporte}(X)} $$

Es decir, es la proporción de transacciones que contienen tanto $ X $ como $ Y $ respecto a las que contienen $ X $.

La confianza también es un valor entre 0 y 1.

### Ejemplo Ilustrativo

Supongamos que tenemos 100 transacciones, y encontramos que:

- 30 transacciones contienen $ X $.
- 20 transacciones contienen tanto $ X $ como $ Y $.

Entonces:

- Soporte de $ X $:

$$ \text{Soporte}(X) = \frac{30}{100} = 0.30 $$

- Soporte de $ X \cup Y $:

$$ \text{Soporte}(X \cup Y) = \frac{20}{100} = 0.20 $$

- Confianza de $ X \implies Y $:

$$ \text{Confianza}(X \implies Y) = \frac{\text{Soporte}(X \cup Y)}{\text{Soporte}(X)} = \frac{0.20}{0.30} = 0.6667 $$

Esto significa que en el 66.67% de las veces que ocurre $ X $, también ocurre $ Y $.

## 2.3 Implementación en Python

### Representación de Transacciones

Para trabajar con transacciones en Python, podemos utilizar estructuras de datos como listas o conjuntos (sets). Los conjuntos son especialmente útiles debido a su eficiencia en operaciones de pertenencia y su capacidad para eliminar duplicados.

#### Paso 1: Definir el Conjunto de Transacciones

Continuaremos con el conjunto de datos del Capítulo 1:

In [1]:
# Lista de transacciones
transacciones = [
    {'Leche', 'Pan'},
    {'Leche', 'Pañales', 'Cerveza', 'Huevos'},
    {'Leche', 'Pan', 'Pañales', 'Cerveza'},
    {'Pan', 'Pañales', 'Cerveza'},
    {'Leche', 'Pan', 'Cerveza', 'Coca-Cola'}
]

**Nota:** Utilizamos conjuntos `{}` en lugar de listas `[]` para las transacciones.

#### Paso 2: Extraer el Conjunto de Ítems Únicos

Podemos obtener todos los ítems únicos presentes en las transacciones:

In [9]:
# Obtener todos los ítems únicos
items_unicos = set()
for transaccion in transacciones:
    items_unicos.update(transaccion)

print("Ítems únicos:", items_unicos)

Ítems únicos: {'Leche', 'Pan', 'Coca-Cola', 'Huevos', 'Pañales', 'Cerveza'}


**Salida:**

```
Ítems únicos: {'Coca-Cola', 'Pan', 'Huevos', 'Leche', 'Cerveza', 'Pañales'}
```

### Cálculo de Medidas Básicas

Ahora, implementaremos funciones para calcular el soporte y la confianza de itemsets y reglas.

#### Cálculo del Soporte

Implementaremos una función que calcula el soporte de un itemset dado.

In [10]:
def calcular_soporte(itemset, transacciones):
    conteo = sum(1 for transaccion in transacciones if itemset.issubset(transaccion))
    soporte = conteo / len(transacciones)
    return soporte

**Ejemplo de Uso:**

Calculamos el soporte de \{'Leche'\}:

In [11]:
itemset = {'Leche'}
soporte_leche = calcular_soporte(itemset, transacciones)
print(f"Soporte de {itemset}: {soporte_leche:.2f}")

Soporte de {'Leche'}: 0.80


**Salida:**

```
Soporte de {'Leche'}: 0.80
```

#### Cálculo de la Confianza

Implementaremos una función para calcular la confianza de una regla $ X \implies Y $.

In [12]:
def calcular_confianza(antecedente, consecuente, transacciones):
    soporte_antecedente = calcular_soporte(antecedente, transacciones)
    soporte_union = calcular_soporte(antecedente.union(consecuente), transacciones)
    if soporte_antecedente == 0:
        return 0
    confianza = soporte_union / soporte_antecedente
    return confianza

**Ejemplo de Uso:**

Calculamos la confianza de la regla \{'Leche'\} ⇒ \{'Pan'\}:

In [13]:
antecedente = {'Leche'}
consecuente = {'Pan'}
confianza_regla = calcular_confianza(antecedente, consecuente, transacciones)
print(f"Confianza de {antecedente} ⇒ {consecuente}: {confianza_regla:.2f}")


Confianza de {'Leche'} ⇒ {'Pan'}: 0.75


**Salida:**

```
Confianza de {'Leche'} ⇒ {'Pan'}: 0.75
```

#### Generar Todas las Reglas Posibles de Tamaño 1

Podemos automatizar el proceso para generar todas las posibles reglas de asociación con antecedente y consecuente de tamaño 1 y calcular sus soportes y confianzas.

In [14]:
from itertools import permutations

# Generar todas las reglas posibles de tamaño 1 ⇒ 1
reglas = []
for antecedente in items_unicos:
    for consecuente in items_unicos:
        if antecedente != consecuente:
            reglas.append(( {antecedente}, {consecuente} ))

# Calcular soporte y confianza para cada regla
for antecedente, consecuente in reglas:
    soporte_antecedente = calcular_soporte(antecedente, transacciones)
    soporte_consecuente = calcular_soporte(consecuente, transacciones)
    soporte_union = calcular_soporte(antecedente.union(consecuente), transacciones)
    confianza = calcular_confianza(antecedente, consecuente, transacciones)
    print(f"Regla: {antecedente} ⇒ {consecuente}")
    print(f" - Soporte del antecedente: {soporte_antecedente:.2f}")
    print(f" - Soporte del consecuente: {soporte_consecuente:.2f}")
    print(f" - Soporte de la unión: {soporte_union:.2f}")
    print(f" - Confianza: {confianza:.2f}\n")

Regla: {'Leche'} ⇒ {'Pan'}
 - Soporte del antecedente: 0.80
 - Soporte del consecuente: 0.80
 - Soporte de la unión: 0.60
 - Confianza: 0.75

Regla: {'Leche'} ⇒ {'Coca-Cola'}
 - Soporte del antecedente: 0.80
 - Soporte del consecuente: 0.20
 - Soporte de la unión: 0.20
 - Confianza: 0.25

Regla: {'Leche'} ⇒ {'Huevos'}
 - Soporte del antecedente: 0.80
 - Soporte del consecuente: 0.20
 - Soporte de la unión: 0.20
 - Confianza: 0.25

Regla: {'Leche'} ⇒ {'Pañales'}
 - Soporte del antecedente: 0.80
 - Soporte del consecuente: 0.60
 - Soporte de la unión: 0.40
 - Confianza: 0.50

Regla: {'Leche'} ⇒ {'Cerveza'}
 - Soporte del antecedente: 0.80
 - Soporte del consecuente: 0.80
 - Soporte de la unión: 0.60
 - Confianza: 0.75

Regla: {'Pan'} ⇒ {'Leche'}
 - Soporte del antecedente: 0.80
 - Soporte del consecuente: 0.80
 - Soporte de la unión: 0.60
 - Confianza: 0.75

Regla: {'Pan'} ⇒ {'Coca-Cola'}
 - Soporte del antecedente: 0.80
 - Soporte del consecuente: 0.20
 - Soporte de la unión: 0.20
 - Co

**Salida Parcial:**

```
Regla: {'Leche'} ⇒ {'Pan'}
 - Soporte del antecedente: 0.80
 - Soporte del consecuente: 0.80
 - Soporte de la unión: 0.60
 - Confianza: 0.75

Regla: {'Leche'} ⇒ {'Coca-Cola'}
 - Soporte del antecedente: 0.80
 - Soporte del consecuente: 0.20
 - Soporte de la unión: 0.20
 - Confianza: 0.25

...

Regla: {'Cerveza'} ⇒ {'Pañales'}
 - Soporte del antecedente: 0.80
 - Soporte del consecuente: 0.60
 - Soporte de la unión: 0.60
 - Confianza: 0.75

...
```

### Filtrado de Reglas Significativas

Para enfocarnos en reglas más interesantes, podemos establecer umbrales mínimos de soporte y confianza.

In [15]:
# Umbrales mínimos
min_soporte = 0.2
min_confianza = 0.7

# Filtrar reglas que cumplen los umbrales
reglas_filtradas = []
for antecedente, consecuente in reglas:
    confianza = calcular_confianza(antecedente, consecuente, transacciones)
    if confianza >= min_confianza:
        #soporte_antecedente = calcular_soporte(antecedente, transacciones)
        soporte_union = calcular_soporte(antecedente.union(consecuente), transacciones)
        if soporte_union >= min_soporte:
            reglas_filtradas.append((antecedente, consecuente, confianza))

# Mostrar reglas filtradas
for antecedente, consecuente, confianza in reglas_filtradas:
    print(f"Regla: {antecedente} ⇒ {consecuente}, Confianza: {confianza:.2f}")

Regla: {'Leche'} ⇒ {'Pan'}, Confianza: 0.75
Regla: {'Leche'} ⇒ {'Cerveza'}, Confianza: 0.75
Regla: {'Pan'} ⇒ {'Leche'}, Confianza: 0.75
Regla: {'Pan'} ⇒ {'Cerveza'}, Confianza: 0.75
Regla: {'Coca-Cola'} ⇒ {'Leche'}, Confianza: 1.00
Regla: {'Coca-Cola'} ⇒ {'Pan'}, Confianza: 1.00
Regla: {'Coca-Cola'} ⇒ {'Cerveza'}, Confianza: 1.00
Regla: {'Huevos'} ⇒ {'Leche'}, Confianza: 1.00
Regla: {'Huevos'} ⇒ {'Pañales'}, Confianza: 1.00
Regla: {'Huevos'} ⇒ {'Cerveza'}, Confianza: 1.00
Regla: {'Pañales'} ⇒ {'Cerveza'}, Confianza: 1.00
Regla: {'Cerveza'} ⇒ {'Leche'}, Confianza: 0.75
Regla: {'Cerveza'} ⇒ {'Pan'}, Confianza: 0.75
Regla: {'Cerveza'} ⇒ {'Pañales'}, Confianza: 0.75


**Salida:**

```
Regla: {'Leche'} ⇒ {'Pan'}, Confianza: 0.75
Regla: {'Leche'} ⇒ {'Cerveza'}, Confianza: 0.75
Regla: {'Pan'} ⇒ {'Leche'}, Confianza: 0.75
Regla: {'Pan'} ⇒ {'Cerveza'}, Confianza: 0.75
Regla: {'Coca-Cola'} ⇒ {'Leche'}, Confianza: 1.00
Regla: {'Coca-Cola'} ⇒ {'Pan'}, Confianza: 1.00
Regla: {'Coca-Cola'} ⇒ {'Cerveza'}, Confianza: 1.00
Regla: {'Huevos'} ⇒ {'Leche'}, Confianza: 1.00
Regla: {'Huevos'} ⇒ {'Pañales'}, Confianza: 1.00
Regla: {'Huevos'} ⇒ {'Cerveza'}, Confianza: 1.00
Regla: {'Pañales'} ⇒ {'Cerveza'}, Confianza: 1.00
Regla: {'Cerveza'} ⇒ {'Leche'}, Confianza: 0.75
Regla: {'Cerveza'} ⇒ {'Pan'}, Confianza: 0.75
Regla: {'Cerveza'} ⇒ {'Pañales'}, Confianza: 0.75
```

### Interpretación

- La regla \{'Pañales'\} ⇒ \{'Cerveza'\} tiene una confianza de 1.00, lo que indica que siempre que se compran **Pañales**, también se compra **Cerveza** en nuestro conjunto de datos.
- La regla \{'Leche'\} ⇒ \{'Pan'\} tiene una confianza de 0.75, lo que sugiere una fuerte asociación entre **Leche** y **Pan**.

## 2.4 Ejercicios Prácticos

### Ejercicio 1: Cálculo de Soporte

Dado el conjunto de transacciones proporcionado, calcule el soporte de los siguientes itemsets:

a) \{'Cerveza'\}

b) \{'Pan', 'Pañales'\}

c) \{'Leche', 'Cerveza'\}

**Solución:**

In [16]:
# a) Soporte de {'Cerveza'}
itemset_a = {'Cerveza'}
soporte_a = calcular_soporte(itemset_a, transacciones)
print(f"Soporte de {itemset_a}: {soporte_a:.2f}")

# b) Soporte de {'Pan', 'Pañales'}
itemset_b = {'Pan', 'Pañales'}
soporte_b = calcular_soporte(itemset_b, transacciones)
print(f"Soporte de {itemset_b}: {soporte_b:.2f}")

# c) Soporte de {'Leche', 'Cerveza'}
itemset_c = {'Leche', 'Cerveza'}
soporte_c = calcular_soporte(itemset_c, transacciones)
print(f"Soporte de {itemset_c}: {soporte_c:.2f}")

Soporte de {'Cerveza'}: 0.80
Soporte de {'Pañales', 'Pan'}: 0.40
Soporte de {'Leche', 'Cerveza'}: 0.60


**Salida:**

```
Soporte de {'Cerveza'}: 0.80
Soporte de {'Pan', 'Pañales'}: 0.40
Soporte de {'Leche', 'Cerveza'}: 0.60
```

### Ejercicio 2: Cálculo de Confianza

Calcule la confianza de las siguientes reglas:

a) \{'Pan'\} ⇒ \{'Cerveza'\}

b) \{'Cerveza'\} ⇒ \{'Pan'\}

c) \{'Leche', 'Pan'\} ⇒ \{'Cerveza'\}

**Solución:**

In [17]:
# a) Confianza de {'Pan'} ⇒ {'Cerveza'}
antecedente_a = {'Pan'}
consecuente_a = {'Cerveza'}
confianza_a = calcular_confianza(antecedente_a, consecuente_a, transacciones)
print(f"Confianza de {antecedente_a} ⇒ {consecuente_a}: {confianza_a:.2f}")

# b) Confianza de {'Cerveza'} ⇒ {'Pan'}
antecedente_b = {'Cerveza'}
consecuente_b = {'Pan'}
confianza_b = calcular_confianza(antecedente_b, consecuente_b, transacciones)
print(f"Confianza de {antecedente_b} ⇒ {consecuente_b}: {confianza_b:.2f}")

# c) Confianza de {'Leche', 'Pan'} ⇒ {'Cerveza'}
antecedente_c = {'Leche', 'Pan'}
consecuente_c = {'Cerveza'}
confianza_c = calcular_confianza(antecedente_c, consecuente_c, transacciones)
print(f"Confianza de {antecedente_c} ⇒ {consecuente_c}: {confianza_c:.2f}")

Confianza de {'Pan'} ⇒ {'Cerveza'}: 0.75
Confianza de {'Cerveza'} ⇒ {'Pan'}: 0.75
Confianza de {'Leche', 'Pan'} ⇒ {'Cerveza'}: 0.67


**Salida:**

```
Confianza de {'Pan'} ⇒ {'Cerveza'}: 0.50
Confianza de {'Cerveza'} ⇒ {'Pan'}: 0.50
Confianza de {'Leche', 'Pan'} ⇒ {'Cerveza'}: 0.67
```

### Ejercicio 3: Generación de Reglas con Umbrales

Escriba un código que genere todas las reglas posibles de tamaño 1 ⇒ 1, y filtre aquellas que tengan un soporte mínimo de 0.4 y una confianza mínima de 0.6.

**Solución:**

In [18]:
# Umbrales mínimos
min_soporte = 0.4
min_confianza = 0.6

# Generar y filtrar reglas
reglas_filtradas = []
for antecedente in items_unicos:
    for consecuente in items_unicos:
        if antecedente != consecuente:
            antecedente_set = {antecedente}
            consecuente_set = {consecuente}
            confianza = calcular_confianza(antecedente_set, consecuente_set, transacciones)
            soporte_union = calcular_soporte(antecedente_set.union(consecuente_set), transacciones)
            if confianza >= min_confianza and soporte_union >= min_soporte:
                reglas_filtradas.append((antecedente_set, consecuente_set, confianza))

# Mostrar reglas filtradas
for antecedente, consecuente, confianza in reglas_filtradas:
    print(f"Regla: {antecedente} ⇒ {consecuente}, Confianza: {confianza:.2f}")


Regla: {'Leche'} ⇒ {'Pan'}, Confianza: 0.75
Regla: {'Leche'} ⇒ {'Cerveza'}, Confianza: 0.75
Regla: {'Pan'} ⇒ {'Leche'}, Confianza: 0.75
Regla: {'Pan'} ⇒ {'Cerveza'}, Confianza: 0.75
Regla: {'Pañales'} ⇒ {'Leche'}, Confianza: 0.67
Regla: {'Pañales'} ⇒ {'Pan'}, Confianza: 0.67
Regla: {'Pañales'} ⇒ {'Cerveza'}, Confianza: 1.00
Regla: {'Cerveza'} ⇒ {'Leche'}, Confianza: 0.75
Regla: {'Cerveza'} ⇒ {'Pan'}, Confianza: 0.75
Regla: {'Cerveza'} ⇒ {'Pañales'}, Confianza: 0.75


**Salida:**

```
Regla: {'Pan'} ⇒ {'Leche'}, Confianza: 0.75
Regla: {'Leche'} ⇒ {'Pan'}, Confianza: 0.75
Regla: {'Leche'} ⇒ {'Cerveza'}, Confianza: 0.75
Regla: {'Pañales'} ⇒ {'Leche'}, Confianza: 1.00
Regla: {'Pañales'} ⇒ {'Cerveza'}, Confianza: 1.00
Regla: {'Cerveza'} ⇒ {'Leche'}, Confianza: 0.75
Regla: {'Cerveza'} ⇒ {'Pañales'}, Confianza: 0.75
```

### Ejercicio 4: Interpretación de Resultados

Para las reglas obtenidas en el ejercicio anterior:

a) Elija dos reglas y discuta su posible utilidad en un contexto comercial.

b) ¿Qué podría indicar una confianza alta pero un soporte bajo?

**Solución:**

a) Análisis de dos reglas:

- **Regla 1**: \{'Pan'\} ⇒ \{'Leche'\}, Confianza: 0.75

  - **Interpretación**: El 75% de los clientes que compran **Pan** también compran **Leche**. Esto sugiere una fuerte asociación entre estos productos.
  - **Utilidad**: La tienda puede considerar colocar **Leche** y **Pan** cerca en el establecimiento o crear promociones conjuntas para aumentar las ventas.

- **Regla 2**: \{'Pañales'\} ⇒ \{'Cerveza'\}, Confianza: 1.00

  - **Interpretación**: Todos los clientes que compran **Pañales** también compran **Cerveza**.
  - **Utilidad**: Esta regla podría ser aprovechada para promociones dirigidas a padres jóvenes, o para analizar comportamientos de compra inesperados.

b) Una **confianza alta** pero un **soporte bajo** indica que, aunque la relación es fuerte cuando el antecedente ocurre, el antecedente ocurre con poca frecuencia en el conjunto de datos. Esto significa que la regla es aplicable a un segmento pequeño de transacciones. En un contexto comercial, podría ser una oportunidad para nichos específicos, pero no tendrá un impacto significativo en términos generales.

## Resumen del Capítulo

En este capítulo, profundizamos en los conceptos básicos fundamentales para entender y aplicar las reglas de asociación:

- **Itemsets y Transacciones**: Comprendimos cómo se representan y utilizan en el análisis de reglas de asociación.
- **Medidas de Interés Básicas**: Aprendimos a calcular el soporte y la confianza, esenciales para evaluar la relevancia de itemsets y reglas.
- **Implementación en Python**: Aplicamos los conceptos teóricos mediante código práctico, fortaleciendo la comprensión y habilidades técnicas.
- **Ejercicios Prácticos**: A través de ejercicios, consolidamos el aprendizaje y exploramos la interpretación de resultados en contextos reales.

Este fundamento es esencial para avanzar hacia algoritmos más complejos y eficientes que nos permitirán descubrir patrones más profundos en grandes conjuntos de datos.

---

**Próximos Pasos:**

En el próximo capítulo, abordaremos el problema de la minería de itemsets frecuentes, explorando los desafíos asociados y sentando las bases para introducir algoritmos como Apriori y FP-Growth.

---

**Referencias**

- Agrawal, R., Imieliński, T., & Swami, A. (1993). Mining association rules between sets of items in large databases. *ACM SIGMOD Record*, 22(2), 207-216.
- Han, J., Kamber, M., & Pei, J. (2011). *Data Mining: Concepts and Techniques*. Elsevier.

---