La minería de datos frecuentes, también conocida como minería de conjuntos de ítems frecuentes, es un aspecto crucial en el análisis de datos, especialmente en el contexto de reglas de asociación y patrones de compra. Esta técnica se centra en identificar conjuntos de ítems que aparecen juntos con frecuencia en un conjunto de datos. A continuación, se detallan algunos conceptos clave y algoritmos relacionados:

### Conceptos
1. **Conjuntos de Ítems**: grupos de elementos que aparecen juntos en una transacción o evento.
2. **Soporte**: la frecuencia relativa de un conjunto de ítems en el conjunto de datos. Es una medida de cuán a menudo aparece un conjunto de ítems en el conjunto de datos.
3. **Confianza**: una medida de cuán a menudo los ítems en un conjunto de ítems ocurren juntos, dado que otros ítems están presentes.
4. **Reglas de Asociación**: Implicaciones en forma de A => B, donde A y B son conjuntos de ítems. Indica que cuando A ocurre, B también suele ocurrir.

### Principales algoritmos
1. **Apriori**: utiliza un enfoque iterativo basado en el nivel para construir conjuntos de ítems frecuentes. Comienza con conjuntos de un solo ítem y aumenta su tamaño en cada iteración, utilizando la propiedad de que un subconjunto de un conjunto de ítems frecuente también debe ser frecuente.

2. **FP-Growth (Frequent Pattern Growth)**: construye un árbol especial (FP-tree) para comprimir el conjunto de datos y luego extrae los conjuntos de ítems frecuentes directamente de esta estructura. Es eficiente en términos de velocidad y uso de memoria, especialmente en grandes bases de datos.

3. **Eclat (Equivalence Class Clustering and Bottom-Up Lattice Traversal)**: Trabaja con una representación vertical del conjunto de datos, realizando intersecciones de conjuntos para encontrar ítems frecuentes. Es particularmente eficaz en conjuntos de datos con una estructura densa.

### Aplicaciones
- **Análisis de mercado y cestas de compra**: identificar productos que se compran frecuentemente juntos.
- **Análisis de fraudes**: detectar patrones de comportamiento sospechoso.
- **Bioinformática**: encontrar patrones comunes en secuencias de ADN o proteínas.



## Ejemplo del algoritmo Apriori

In [7]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori

# Conjunto de datos de ejemplo
dataset = [['Pan', 'Leche'],
           ['Pan', 'Pañales', 'Cerveza', 'Huevos'],
           ['Leche', 'Pañales', 'Cerveza', 'Pepsi'],
           ['Pan', 'Leche', 'Pañales', 'Cerveza'],
           ['Pan', 'Leche', 'Coca Cola']]

# Transformar los datos a formato de matriz binaria
te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)

# Aplicar el algoritmo Apriori
frequent_itemsets = apriori(df, min_support=0.5, use_colnames=True)

# Mostrar los resultados
print(frequent_itemsets)


   support            itemsets
0      0.6           (Cerveza)
1      0.8             (Leche)
2      0.8               (Pan)
3      0.6           (Pañales)
4      0.6  (Cerveza, Pañales)
5      0.6        (Pan, Leche)


  and should_run_async(code)


1. **Cerveza (support = 0.6)**: el ítem 'Cerveza' aparece en el 60% de todas las transacciones.

2. **Leche (support = 0.8)**: el ítem 'Leche' se encuentra en el 80% de las transacciones.

3. **Pan (support = 0.8)**: el ítem 'Pan' también aparece en el 80% de las transacciones.

4. **Pañales (support = 0.6)**: 'Pañales' se encuentra en el 60% de las transacciones.

5. **Pañales, Cerveza (support = 0.6)**: el conjunto de ítems 'Pañales' y 'Cerveza' aparece juntos en el 60% de las transacciones. Esto sugiere una fuerte relación entre la compra de 'Pañales' y 'Cerveza'.

6. **Pan, Leche (support = 0.6)**: el conjunto de 'Pan' y 'Leche' se encuentra en el 60% de las transacciones, indicando que estos dos ítems a menudo se compran juntos.

La interpretación de estos resultados puede ser útil para comprender los patrones de compra de los clientes. Por ejemplo, los ítems con mayor soporte individual (como 'Leche' y 'Pan' en este caso) suelen ser productos básicos o esenciales. Por otro lado, conjuntos de ítems con alto soporte, como 'Pañales y Cerveza' o 'Pan y Leche', pueden indicar que estos productos se compran juntos con frecuencia, lo que podría ser relevante para estrategias de marketing, como promociones cruzadas o la colocación de productos en una tienda.

## Ejemplo del algoritmo FP-Growt

In [5]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import fpgrowth, association_rules

# Supongamos que 'data' es tu DataFrame cargado con transacciones
# Deberás ajustar esto para que coincida con la estructura de tus datos reales
data = [['Milk', 'Bread', 'Wheat'],
        ['Milk', 'Cheese'],
        ['Cheese', 'Boots'],
        ['Cheese', 'Milk', 'Bread', 'Wheat'],
        ['Milk', 'Bread', 'Wheat']]

# Transformar los datos a formato de matriz binaria
te = TransactionEncoder()
te_ary = te.fit(data).transform(data)
df = pd.DataFrame(te_ary, columns=te.columns_)

# Aplicar el algoritmo FP-Growth
frequent_itemsets = fpgrowth(df, min_support=0.3, use_colnames=True)

# Generar reglas de asociación
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7)

# Mostrar los resultados
print(frequent_itemsets)
print(rules)


   support              itemsets
0      0.8                (Milk)
1      0.6               (Wheat)
2      0.6               (Bread)
3      0.6              (Cheese)
4      0.6         (Milk, Wheat)
5      0.6        (Wheat, Bread)
6      0.6         (Milk, Bread)
7      0.6  (Milk, Bread, Wheat)
8      0.4        (Cheese, Milk)
       antecedents     consequents  antecedent support  consequent support  \
0           (Milk)         (Wheat)                 0.8                 0.6   
1          (Wheat)          (Milk)                 0.6                 0.8   
2          (Wheat)         (Bread)                 0.6                 0.6   
3          (Bread)         (Wheat)                 0.6                 0.6   
4           (Milk)         (Bread)                 0.8                 0.6   
5          (Bread)          (Milk)                 0.6                 0.8   
6    (Milk, Bread)         (Wheat)                 0.6                 0.6   
7    (Milk, Wheat)         (Bread)            

  and should_run_async(code)


In [None]:
!pip install pyECLAT
from pyECLAT import Example1, Example2
ex1 = Example1().get()
ex2 = Example2().get()



  and should_run_async(code)




In [None]:
from pyECLAT import ECLAT
eclat_instance = ECLAT(data=ex1, verbose=True)
eclat_instance.df_bin   #generate a binary dataframe, that can be used for other analyzes.
eclat_instance.uniq_    #a list with all the names of the different items
get_ECLAT_indexes, get_ECLAT_supports = eclat_instance.fit(min_support=0.08,
                                                           min_combination=1,
                                                           max_combination=3,
                                                           separator=' & ',
                                                           verbose=True)
get_ECLAT_indexes
get_ECLAT_supports

  and should_run_async(code)
100%|██████████| 7/7 [00:00<00:00, 674.79it/s]
100%|██████████| 7/7 [00:00<00:00, 42612.67it/s]
100%|██████████| 7/7 [00:00<00:00, 1377.70it/s]


Combination 1 by 1


7it [00:00, 156.44it/s]


Combination 2 by 2


21it [00:00, 213.69it/s]


Combination 3 by 3


35it [00:00, 236.38it/s]


{'coffe': 0.3,
 'beer': 0.2,
 'rice': 0.2,
 'bread': 0.5,
 'milk': 0.2,
 'bean': 0.2,
 'butter': 0.5,
 'coffe & bread': 0.3,
 'coffe & milk': 0.1,
 'coffe & butter': 0.3,
 'beer & bread': 0.1,
 'beer & milk': 0.1,
 'beer & butter': 0.1,
 'rice & bean': 0.1,
 'bread & milk': 0.2,
 'bread & butter': 0.4,
 'milk & butter': 0.2,
 'coffe & bread & milk': 0.1,
 'coffe & bread & butter': 0.3,
 'coffe & milk & butter': 0.1,
 'beer & bread & milk': 0.1,
 'beer & bread & butter': 0.1,
 'beer & milk & butter': 0.1,
 'bread & milk & butter': 0.2}

Taller

https://www.kaggle.com/datasets/newshuntkannada/dataset-for-apriori-and-fp-growth-algorithm

Acceda a la base de datos del enlace y aplique los tres algoritmos revisados. Genere un breve informe con los resultados.