# Introducción
En este notebook, exploraremos dos algoritmos fundamentales para la minería de reglas de asociación: Apriori y FP-Growth. Las reglas de asociación se utilizan para encontrar relaciones interesantes entre conjuntos de datos grandes. Estos algoritmos son especialmente útiles en el análisis de la canasta de mercado y ventas.

### Bibliotecas a Utilizar
Para implementar estos algoritmos, utilizaremos las siguientes bibliotecas de Python:

- Pandas: Para la manipulación y análisis de datos. Es una herramienta poderosa y flexible para trabajar con datos estructurados (tablas, series temporales, matrices).
- Mlxtend: Una biblioteca de Python que proporciona implementaciones de varios algoritmos de aprendizaje automático y minería de datos, incluyendo Apriori y FP-Growth.
- PyFPGrowth: Una biblioteca para implementar el algoritmo FP-Growth, que es más eficiente que Apriori para grandes conjuntos de datos.

#### Reseña de Bibliotecas Disponibles
- Pandas: Es la biblioteca estándar para la manipulación y análisis de datos en Python. Proporciona estructuras de datos de alto rendimiento (como DataFrames) y herramientas de análisis de datos fáciles de usar.

- Mlxtend: Esta biblioteca complementa a scikit-learn y ofrece implementaciones adicionales para algoritmos de minería de datos y aprendizaje automático. Incluye funciones para encontrar conjuntos frecuentes y reglas de asociación, además de otras funcionalidades de clasificación, regresión, y selección de características.

- PyFPGrowth: Es una biblioteca dedicada exclusivamente a la implementación del algoritmo FP-Growth, el cual es eficiente para grandes bases de datos debido a su enfoque de construcción de un árbol de patrones frecuentes (FP-Tree).

### ¿Por Qué Usamos Estas Bibliotecas?

- Mlxtend proporciona implementaciones optimizadas de Apriori y FP-Growth, con funciones adicionales para la evaluación y visualización de las reglas de asociación.
- PyFPGrowth ofrece una implementación específica y eficiente de FP-Growth, adecuada para conjuntos de datos grandes donde Apriori podría ser demasiado costoso en términos computacionales.


In [None]:
!pip install pyfpgrowth

Collecting pyfpgrowth
  Downloading pyfpgrowth-1.0.tar.gz (1.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m13.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyfpgrowth
  Building wheel for pyfpgrowth (setup.py) ... [?25l[?25hdone
  Created wheel for pyfpgrowth: filename=pyfpgrowth-1.0-py2.py3-none-any.whl size=5489 sha256=617b261c15ab9a660f5595b6aa5ccb6025e957376d0ec5ed37251653a60021fd
  Stored in directory: /root/.cache/pip/wheels/09/fc/dc/afff211038bfc745722d8d7e846e854e5791968b22c570a530
Successfully built pyfpgrowth
Installing collected packages: pyfpgrowth
Successfully installed pyfpgrowth-1.0


In [None]:
# Importación de bibliotecas necesarias
import pandas as pd
from mlxtend.frequent_patterns import apriori, association_rules
import pyfpgrowth


In [None]:
# Ejemplo de datos
# Generación de un dataset de ejemplo más grande
data = {
    'Leche': [1, 0, 1, 1, 0, 1, 0, 1, 0, 1],
    'Pan': [1, 1, 0, 1, 0, 1, 1, 0, 0, 1],
    'Mantequilla': [0, 1, 0, 1, 0, 1, 0, 1, 1, 0],
    'Cerveza': [1, 1, 0, 0, 0, 1, 0, 1, 1, 1],
    'Manzanas': [0, 1, 0, 0, 1, 0, 1, 0, 0, 0],
    'Pollo': [1, 0, 1, 1, 1, 0, 1, 1, 1, 0],
}

df = pd.DataFrame(data)
df


  and should_run_async(code)


Unnamed: 0,Leche,Pan,Mantequilla,Cerveza,Manzanas,Pollo
0,1,1,0,1,0,1
1,0,1,1,1,1,0
2,1,0,0,0,0,1
3,1,1,1,0,0,1
4,0,0,0,0,1,1
5,1,1,1,1,0,0
6,0,1,0,0,1,1
7,1,0,1,1,0,1
8,0,0,1,1,0,1
9,1,1,0,1,0,0


In [None]:
# Aplicar el algoritmo Apriori
frequent_itemsets = apriori(df, min_support=0.3, use_colnames=True)
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)


# Mostrar resultados
print("Frequent Itemsets:\n", frequent_itemsets)
print("\nAssociation Rules:\n", rules)

Frequent Itemsets:
     support                itemsets
0       0.6                 (Leche)
1       0.6                   (Pan)
2       0.5           (Mantequilla)
3       0.6               (Cerveza)
4       0.3              (Manzanas)
5       0.7                 (Pollo)
6       0.4            (Pan, Leche)
7       0.3    (Mantequilla, Leche)
8       0.4        (Cerveza, Leche)
9       0.4          (Pollo, Leche)
10      0.3      (Pan, Mantequilla)
11      0.4          (Pan, Cerveza)
12      0.3            (Pan, Pollo)
13      0.4  (Cerveza, Mantequilla)
14      0.3    (Pollo, Mantequilla)
15      0.3        (Pollo, Cerveza)
16      0.3   (Pan, Cerveza, Leche)

Association Rules:
          antecedents       consequents  antecedent support  \
0              (Pan)           (Leche)                 0.6   
1            (Leche)             (Pan)                 0.6   
2      (Mantequilla)           (Leche)                 0.5   
3            (Leche)     (Mantequilla)                 0.6   
4

  and should_run_async(code)


In [None]:
# Aplicar el algoritmo Apriori
frequent_itemsets = apriori(df, min_support=0.4, use_colnames=True)
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)

# Mostrar resultados
print("Frequent Itemsets:\n", frequent_itemsets)
print("\nAssociation Rules:\n", rules)

Frequent Itemsets:
    support                itemsets
0      0.6                 (Leche)
1      0.6                   (Pan)
2      0.5           (Mantequilla)
3      0.6               (Cerveza)
4      0.7                 (Pollo)
5      0.4            (Pan, Leche)
6      0.4        (Cerveza, Leche)
7      0.4          (Pollo, Leche)
8      0.4          (Pan, Cerveza)
9      0.4  (Cerveza, Mantequilla)

Association Rules:
      antecedents    consequents  antecedent support  consequent support  \
0          (Pan)        (Leche)                 0.6                 0.6   
1        (Leche)          (Pan)                 0.6                 0.6   
2      (Cerveza)        (Leche)                 0.6                 0.6   
3        (Leche)      (Cerveza)                 0.6                 0.6   
4          (Pan)      (Cerveza)                 0.6                 0.6   
5      (Cerveza)          (Pan)                 0.6                 0.6   
6      (Cerveza)  (Mantequilla)                 0

  and should_run_async(code)


In [None]:
# Importar la biblioteca necesaria
from mlxtend.frequent_patterns import fpgrowth

# Aplicar el algoritmo FP-Growth
frequent_itemsets_fp = fpgrowth(df, min_support=0.3, use_colnames=True)
rules_fp = association_rules(frequent_itemsets_fp, metric="lift", min_threshold=1)

# Mostrar resultados
print("Frequent Itemsets (FP-Growth):\n", frequent_itemsets_fp)
print("\nAssociation Rules (FP-Growth):\n", rules_fp)


Frequent Itemsets (FP-Growth):
     support                itemsets
0       0.7                 (Pollo)
1       0.6               (Cerveza)
2       0.6                   (Pan)
3       0.6                 (Leche)
4       0.5           (Mantequilla)
5       0.3              (Manzanas)
6       0.3        (Pollo, Cerveza)
7       0.4          (Pan, Cerveza)
8       0.3            (Pan, Pollo)
9       0.4            (Pan, Leche)
10      0.4        (Cerveza, Leche)
11      0.4          (Pollo, Leche)
12      0.3   (Pan, Cerveza, Leche)
13      0.4  (Cerveza, Mantequilla)
14      0.3      (Pan, Mantequilla)
15      0.3    (Mantequilla, Leche)
16      0.3    (Pollo, Mantequilla)

Association Rules (FP-Growth):
          antecedents       consequents  antecedent support  \
0              (Pan)         (Cerveza)                 0.6   
1          (Cerveza)             (Pan)                 0.6   
2              (Pan)           (Leche)                 0.6   
3            (Leche)             (Pan) 

  and should_run_async(code)


# Demostración Práctica
Utilizaremos el conjunto de datos "Online Retail" disponible públicamente en el repositorio UCI Machine Learning Repository. Este dataset contiene transacciones de una tienda minorista en línea. Realizaremos el preprocesamiento de datos, incluida la codificación one-hot, y luego aplicaremos el algoritmo Apriori.

## Preprocesamiento de Datos y Aplicación del Algoritmo Apriori
### Paso 1: Cargar el Dataset
Primero, cargamos el conjunto de datos y realizamos algunas operaciones de preprocesamiento para preparar los datos para el análisis.

In [2]:
!pip install mlxtend

Collecting mlxtend
  Downloading mlxtend-0.23.2-py3-none-any.whl.metadata (7.3 kB)
Downloading mlxtend-0.23.2-py3-none-any.whl (1.4 MB)
   ---------------------------------------- 0.0/1.4 MB ? eta -:--:--
   ------- -------------------------------- 0.3/1.4 MB ? eta -:--:--
   ------------------------------- -------- 1.0/1.4 MB 3.6 MB/s eta 0:00:01
   ---------------------------------------- 1.4/1.4 MB 3.5 MB/s eta 0:00:00
Installing collected packages: mlxtend
Successfully installed mlxtend-0.23.2


In [None]:
# Importar las bibliotecas necesarias
import pandas as pd
from mlxtend.frequent_patterns import apriori, association_rules

# Cargar el conjunto de datos
url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/00352/Online%20Retail.xlsx'
df = pd.read_excel(url)

# Mostrar las primeras filas del conjunto de datos
df.head()

### Paso 2: Preprocesamiento de Datos
Eliminamos las transacciones con valores nulos y aquellas que no tienen información relevante para nuestro análisis.

In [None]:
# Eliminar filas con valores nulos
df.dropna(subset=['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate', 'UnitPrice', 'CustomerID', 'Country'], inplace=True)

# Eliminar transacciones que no sean ventas (por ejemplo, cancelaciones)
df = df[df['Quantity'] > 0]

# Convertir el tipo de dato de 'InvoiceNo' a string
df['InvoiceNo'] = df['InvoiceNo'].astype(str)