# Análisis a priori
---

El análisis a priori es una técnica de **descubrimiento de patrones** dentro de grandes conjuntos de datos transaccionales. Su objetivo es encontrar **asociaciones o relaciones frecuentes** entre ítems en bases de datos, típicamente en el contexto de ventas, comportamientos de usuario, registros médicos, etc.

Se le llama "a priori" porque:

- Se basa en conocimientos previos (frecuencias mínimas de ocurrencia).

- Utiliza la propiedad de los subconjuntos frecuentes: si un conjunto de ítems es infrecuente, entonces todos sus superconjuntos también lo serán → esto permite podar la búsqueda y ganar eficiencia.

---

## ¿Cuándo es útil utilizarlo?
### Análisis de Canasta de Compras (Market Basket Analysis)
- Detectar qué productos suelen comprarse juntos:

    - Si un cliente compra pan y leche, es probable que también compre mantequilla.

### Recomendadores
- Sistemas tipo Amazon o Netflix que te sugieren:

    - “Otros usuarios que vieron esto también vieron…”

### Medicina
- Co-ocurrencia de síntomas, diagnósticos o medicamentos:

    - Fiebre + tos → alta probabilidad de neumonía

### Telecomunicaciones
- Asociación de servicios contratados:

    - Clientes con plan ilimitado + Netflix → alta probabilidad de HBO

### Detección de Fraude
- Patrones inusuales de transacciones:

    - Múltiples compras pequeñas + país no habitual = posible fraude

---

## Terminología y Conceptos Clave

### **Transacción**
Una fila o evento donde ocurren simultáneamente varios ítems o variables.
- Transacción 1: {Leche, Pan, Mantequilla}
- Transacción 2: {Pan, Mantequilla}


### **Item / Ítem**
Elemento individual dentro de una transacción.

- Leche, Pan, Mantequilla son ítems.


### **Itemset (Conjunto de Ítems)**
Grupo de uno o más ítems que se analizan en conjunto.

- {Leche, Pan} es un itemset de tamaño 2 (llamado 2-itemset).


### **Soporte (Support)**
Mide la frecuencia relativa con la que aparece un itemset en el total de transacciones.

$$
\text{Support}(X) = \frac{\text{Nº de transacciones que contienen } X}{\text{Total de transacciones}}
$$
​
 
Ejemplo:

Si {Leche, Pan} aparece en 3 de 5 transacciones, su soporte es 0.6.

> El soporte se usa como filtro para encontrar patrones “suficientemente comunes”.



### **Confianza (Confidence)**
Mide la probabilidad condicional de que ocurra el consecuente B dado que ocurrió el antecedente A.


$$
\text{Confidence}(A \Rightarrow B) = \frac{\text{Support}(A \cup B)}{\text{Support}(A)}
$$

**Ejemplo:**  
Si \{Leche, Pan\} aparece en 3 transacciones y \{Leche\} aparece en 4, entonces:

$$
\text{Confidence}(\text{Leche} \Rightarrow \text{Pan}) = \frac{3}{4} = 0.75
$$


> Una alta confianza indica que cuando A ocurre, B es muy probable que también ocurra.



### **Lift (Elevación)**
Indica cuánto más probable es que ocurra B dado A, en comparación con que B ocurra por azar.



$$
\text{Lift}(A \Rightarrow B) = \frac{\text{Confidence}(A \Rightarrow B)}{\text{Support}(B)}
$$

​
 
Interpretación:

- Lift > 1: A y B están positivamente correlacionados (complementarios).

- Lift = 1: A y B son independientes.

- Lift < 1: A y B están negativamente correlacionados.

> Es útil para filtrar reglas que parecen fuertes (por confianza), pero ocurren simplemente porque B es muy frecuente.



### **Regla de Asociación**

Expresión del tipo:


Si $A$ entonces $B$, es decir, $A \Rightarrow B$,  
donde $A$ y $B$ son conjuntos de ítems disjuntos.


Cada regla se evalúa con:

- Soporte

- Confianza

- Lift

---

# Teoría estadística y computacional

### **Modelo Subyacente**
El análisis a priori trabaja con conteo de frecuencias (frequentist approach) y probabilidad condicional:


$$
P(B \mid A) = \frac{P(A \cap B)}{P(A)} = \text{confidence}(A \Rightarrow B)
$$


>El soporte equivale a estimaciones de probabilidad empírica.




### **Teorema de Anti-monotonía (propiedad clave del algoritmo)**
Si un conjunto de ítems no es frecuente, entonces ningún superconjunto de este será frecuente.

Esto permite podar la búsqueda, evitando la evaluación de millones de combinaciones.

---

# Implementación


1. Contar soporte de todos los 1-itemsets (frecuentes).

2. Generar combinaciones de tamaño 2 (2-itemsets) con los ítems frecuentes.

3. Eliminar los que no alcanzan el soporte mínimo.

4. Generar 3-itemsets a partir de los 2-itemsets frecuentes.

5. Repetir hasta que no haya más combinaciones posibles.

6. Este enfoque es:

7. Bottom-up: construye reglas desde lo más pequeño hacia lo más complejo.

8. Iterativo: en cada paso, reduce el espacio de búsqueda.

# Ventajas y desventajas


| ✅ Ventajas                                             | ❌ Desventajas                                                                 |
|--------------------------------------------------------|--------------------------------------------------------------------------------|
| Muy interpretables para humanos                        | Alta complejidad con muchos ítems                                              |
| Basado en probabilidad → fácil de explicar             | Puede producir muchas reglas poco útiles                                       |
| Personalización de reglas mediante filtros             | Requiere definir umbrales subjetivos (`min_support`, `min_confidence`)        |
| Funciona bien con datos categóricos                    | No tiene en cuenta el orden o tiempo *(ver FP-Growth, Sequence Mining)*       |


# Interpretación de Métricas en Reglas de Asociación — Tabla Completa

| Métrica              | ¿Cómo se interpreta?                                                                 | Ejemplo práctico                                                                 |
|----------------------|--------------------------------------------------------------------------------------|----------------------------------------------------------------------------------|
| antecedent support   | Qué tan común es el antecedente A                                                   | `{leche}` en 4 de 10 transacciones → **0.4**                                    |
| consequent support   | Qué tan común es el consecuente B                                                   | `{pan}` en 6 de 10 transacciones → **0.6**                                      |
| support              | Qué tan frecuente ocurre A y B juntos                                               | `{leche, pan}` en 3 de 10 → **0.3**                                             |
| confidence           | Qué tan probable es B cuando ocurre A                                               | 3 de 4 veces que hay leche también hay pan → **0.75**                           |
| lift                 | Qué tan más probable es A y B juntos que por azar                                   | `0.75 / 0.6 = 1.25` → 25% más probable juntos                                   |
| leverage             | Cuánto difiere la coocurrencia observada respecto a la esperada si fueran independientes | `0.3 - (0.4 * 0.6) = 0.06`                                                      |
| conviction           | Qué tan dependiente es B de A (valores >>1 indican fuerte dependencia)              | `1 - 0.6 ≈ 0.4`, `1 - 0.75 ≈ 0.25` → `conviction ≈ 0.4 / 0.25 = 1.6`             |
| representativity     | Qué tan bien el antecedente representa al consecuente                               | Alta si la mayoría de las veces que pasa A también pasa B                      |
| zhangs_metric        | Medida simétrica entre -1 y 1; más cerca de 1 = más fuerte asociación                | `≈ 0.3` puede indicar leve asociación                                           |
| jaccard              | Qué proporción de transacciones contiene A o B, que también contiene A y B          | `support(A∩B) / support(A∪B)` → `0.3 / (0.4 + 0.6 - 0.3) = 0.3 / 0.7 ≈ 0.43`     |
| certainty            | Mide qué tan confiable es que B ocurra si A ocurre                                 | Similar a confidence, pero más robusta si B es muy frecuente                   |
| kulczynski           | Promedio de la confianza directa e inversa A⇒B y B⇒A                                 | `(confidence(A⇒B) + confidence(B⇒A)) / 2` → `(0.75 + 0.5)/2 = 0.625`            |


## Ejemplo de Regla: `{leche} ⇒ {pan}` (sobre 10 transacciones)

| Métrica            | Valor      | ¿Qué nos dice?                                                            |
|--------------------|------------|---------------------------------------------------------------------------|
| support            | 0.3        | El 30% de las transacciones contienen ambos productos                     |
| confidence         | 0.75       | El 75% de las veces que se compra leche, también se compra pan            |
| lift               | 1.25       | 25% más probabilidad de comprarlos juntos que por azar                    |
| leverage           | 0.06       | Hay un 6% más de transacciones con ambos de lo que esperaríamos por azar |
| conviction         | 1.6        | La regla es 1.6 veces más confiable que si fueran independientes          |
| jaccard            | 0.43       | 43% de las transacciones que tienen al menos uno, tienen ambos            |
| kulczynski         | 0.625      | Confianza promedio mutua entre leche y pan                                |
| zhangs_metric      | ~0.3       | Asociación leve, no aleatoria                                             |
| representativity   | Alta       | Leche representa bien a pan (con alta confianza y lift)                   |
| certainty          | Media      | Hay confianza moderada en predecir pan si hay leche                       |



# Métricas y Valores Esperados

| Métrica                   | Valor Típico Esperado                        | ¿Depende de la cantidad de datos? | ¿Depende de la cantidad de ítems? | Comentario                                                                 |
|---------------------------|---------------------------------------------|------------------------------------|------------------------------------|---------------------------------------------------------------------------|
| **Soporte (`support`)**   | `> 0.01` (1%) a `> 0.05` (5%)               | ✅ Sí                              | ✅ Sí                              | Con muchos datos, incluso un soporte bajo puede ser relevante.           |
| **Confianza (`confidence`)** | `> 0.6` (60%) a `> 0.8` (80%)            | ⚠️ Leve                           | ❌ No                              | Mide cuán confiable es la regla. Umbrales bajos generan muchas reglas débiles. |
| **Lift**                  | `> 1` deseable, `> 1.5` buena, `> 2` excelente | ❌ No                              | ❌ No                              | Mide cuánto más probable es B dado A frente a su ocurrencia independiente. |


#### **Consideraciones Clave**

- **Cantidad de datos (transacciones):**
  - Con millones de registros, un soporte de `0.005` (0.5%) puede ser útil.
  - Con pocos datos, se recomienda usar `min_support` más alto (ej. `0.05` o `0.1`).

- **Cantidad de ítems:**
  - A más ítems, más combinaciones posibles → el soporte individual disminuye.
  - Ajustar `min_support` **más bajo** si hay muchos ítems (como en catálogos grandes).

- **Evitar reglas triviales:**
  - El uso de **lift** y otras métricas como **leverage** o **convicción** ayuda a filtrar reglas donde B es simplemente muy frecuente.


#### **Recomendaciones según tamaño del dataset**

| Tamaño del Dataset         | `min_support`     | `min_confidence` | Recomendación breve                                 |
|----------------------------|-------------------|-------------------|-----------------------------------------------------|
| Pequeño (< 1,000 transacciones)   | `0.1 – 0.3`       | `0.6 – 0.9`       | Usar umbrales altos para reducir ruido.             |
| Medio (1,000 – 100,000)          | `0.01 – 0.1`      | `0.6 – 0.85`      | Buen balance entre cantidad y calidad de reglas.    |
| Grande (> 100,000)              | `0.001 – 0.01`    | `0.6 – 0.8`       | Se pueden aceptar soportes bajos sin perder valor.  |
