## Introducción a las Reglas de Asociación

Las reglas de asociación son una técnica de minería de datos que permite descubrir relaciones interesantes entre variables en grandes conjuntos de datos. Estas reglas son especialmente útiles en el análisis de datos de transacciones, como los registros de ventas en un supermercado. Vamos a crear un ejemplo didáctico para entender cómo funcionan.



### Definiciones 

**Ítem (Item)**: Un ítem es un producto o artículo individual que se vende en una transacción. En el contexto de las reglas de asociación, un conjunto de ítems se refiere a uno o más productos que se compran juntos en una transacción.

1. **Soporte (Support)**: Es la proporción de transacciones que contienen un conjunto de ítems específico. Ayuda a identificar cuán común es un conjunto de ítems en el conjunto de datos.
   
    $$
    \text{Soporte} = \frac{\text{Número de transacciones que contienen el conjunto de ítems}}{\text{Número total de transacciones}}
    $$

   - **Explicación**: 
     - El soporte mide la frecuencia con la que un conjunto de ítems aparece en el conjunto de datos. 
     - Es útil porque nos ayuda a identificar cuáles combinaciones de productos son comunes en nuestras transacciones. 
     - Por ejemplo, si el soporte de "leche y pan" es alto, significa que estos productos se compran juntos con frecuencia.

2. **Confianza (Confidence)**: Es la proporción de transacciones que contienen el conjunto de ítems A que también contienen el conjunto de ítems B. Indica la probabilidad de que B se compre cuando A se compra.
   
    $$
    \text{Confianza}(A \rightarrow B) = \frac{\text{Soporte}(A \cup B)}{\text{Soporte}(A)}
    $$

   - **Explicación**: 
     - La confianza mide la probabilidad de que el ítem B sea comprado cuando el ítem A ya ha sido comprado. 
     - Es útil para entender la fuerza de la regla de asociación. 
     - Por ejemplo, una confianza del 75% para la regla "leche $\rightarrow$ pan" significa que el 75% de las veces que los clientes compran leche, también compran pan.

3. **Lift**: Mide la relación entre la ocurrencia de A y B. Indica cuánto más probable es que B se compre cuando A se compra, en comparación con la probabilidad de comprar B sin A.
   
    $$
    \text{Lift}(A \rightarrow B) = \frac{\text{Confianza}(A \rightarrow B)}{\text{Soporte}(B)}
    $$

   - **Explicación**: 
     - El lift mide la relación entre la ocurrencia de A y B en comparación con su ocurrencia esperada si fueran independientes. 
     - Un lift mayor a 1 indica que A y B ocurren juntos más a menudo de lo esperado si fueran independientes. 
     - Es útil para identificar relaciones significativas entre productos. 
     - Por ejemplo, si el lift de "leche $\rightarrow$ pan" es 1.125, significa que los clientes que compran leche son 1.125 veces más propensos a comprar pan que el promedio de todos los clientes.


### Ejemplo 

- Imaginemos que gestionas un pequeño supermercado y tienes los datos de las transacciones de los últimos meses. 
- Quieres analizar estos datos para descubrir patrones en las compras de tus clientes, es decir, qué productos suelen comprarse juntos.

### Datos

Supongamos que tenemos las siguientes transacciones:

- Transacción 1: Leche, Pan, Mantequilla
- Transacción 2: Leche, Pan
- Transacción 3: Leche, Manzana
- Transacción 4: Pan, Mantequilla 
- Transacción 5: Leche, Pan, Mantequilla, Manzana 
- Transacción 6: Manzana, Mantequilla

#### Paso 1: Crear la Matriz de Transacciones
- Primero, representamos las transacciones en una matriz donde cada fila representa una transacción y cada columna representa un producto. 
- Usamos 1 para indicar que un producto se compró en esa transacción y 0 en caso contrario.

|       | Leche | Pan | Mantequilla | Manzana |
|-------|-------|-----|-------------|---------|
| T1    | 1     | 1   | 1           | 0       |
| T2    | 1     | 1   | 0           | 0       |
| T3    | 1     | 0   | 0           | 1       |
| T4    | 0     | 1   | 1           | 0       |
| T5    | 1     | 1   | 1           | 1       |
| T6    | 0     | 0   | 1           | 1       |


#### Paso 2: Identificar Patrones Frecuentes

- Para identificar patrones frecuentes, calculamos el soporte de cada combinación de productos.
- El soporte es la proporción de transacciones en las que aparece una combinación de productos.

Soporte: 

- **Soporte de $\{Leche\}$** = 4/6
- **Soporte de $\{Pan\}$** = 4/6
- **Soporte de $\{Mantequilla\}$** = 4/6
- **Soporte de $\{Manzana\}$** = 3/6
- **Soporte de $\{Leche, Pan\}$** = 3/6
- **Soporte de $\{Leche, Mantequilla\}$** = 2/6
- **Soporte de $\{Pan, Mantequilla\}$** = 3/6
- **Soporte de $\{Leche, Manzana\}$** = 2/6
- **Soporte de $\{Pan, Manzana\}$** = 1/6
- **Soporte de $\{Mantequilla, Manzana\}$** = 2/6


#### Paso 3: Generar Reglas de Asociación

- Una vez identificados los patrones frecuentes, generamos reglas de asociación.
- Estas reglas tienen la forma $A \rightarrow B$, donde **A** (antecedente) y **B**  (consecuente) son conjuntos de productos.
- Para cada regla, calculamos la confianza y el lift.
- Una vez identificados los patrones frecuentes, generamos reglas de asociación. 

Reglas:

  - **Regla**: $\{Leche\} -> \{Pan\}$
    - $$Confianza = \frac{\text{Soporte}(\{Leche, Pan\})}{\text{Soporte}(\{Leche\})} = \frac{3/6}{4/6} = 0.75$$
    - $$Lift = \frac{\text{Confianza}}{\text{Soporte}(\{Pan\})} = \frac{0.75}{4/6} = 1.125$$

  - **Regla**: \{Pan\} -> \{Leche\}
    - $$Confianza = \frac{\text{Soporte}(\{Leche, Pan\})}{\text{Soporte}(\{Pan\})} = \frac{3/6}{4/6} = 0.75$$
    - $$Lift = \frac{\text{Confianza}}{\text{Soporte}(\{Leche\})} = \frac{0.75}{4/6} = 1.125$$


#### Paso 4: Interpretación

- La regla $\{Leche\} \rightarrow \{Pan\}$ con una confianza de 0.75 significa que el 75% de las veces que los clientes compran leche, también compran pan.
- Un lift de 1.125 indica una leve relación positiva entre la compra de leche y pan, sugiriendo que comprar leche aumenta la probabilidad de que también se compre pan.


In [None]:
import pandas as pd

# Crear el dataframe con las transacciones
data = {
    'Leche': [1, 1, 1, 0, 1, 0],
    'Pan': [1, 1, 0, 1, 1, 0],
    'Mantequilla': [1, 0, 0, 1, 1, 1],
    'Manzana': [0, 0, 1, 0, 1, 1]
}

df = pd.DataFrame(data, index=['T1', 'T2', 'T3', 'T4', 'T5', 'T6'])
print(df)

    Leche  Pan  Mantequilla  Manzana
T1      1    1            1        0
T2      1    1            0        0
T3      1    0            0        1
T4      0    1            1        0
T5      1    1            1        1
T6      0    0            1        1
