| **Inicio** | **atrás 20** | **Siguiente 22** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./20_%20Entropia_en_Machine_Learning.ipynb)| [⏩](./22_Modelos_de_Regresion.ipynb)|

# **21. Identifica Patrones y extrae Reglas de Asociación con el Algoritmo APRIORI usando Python**

## **Introducción**

El algoritmo Apriori es un algoritmo de minería de datos utilizado para identificar patrones y extraer reglas de asociación en conjuntos de datos. Las reglas de asociación son relaciones entre elementos en un conjunto de datos que ocurren con cierta frecuencia. El algoritmo Apriori busca patrones frecuentes en los datos y los utiliza para generar reglas de asociación.

La idea principal detrás del algoritmo Apriori es que si un conjunto de elementos es frecuente (aparece con frecuencia en el conjunto de datos), entonces sus subconjuntos también deben ser frecuentes. El algoritmo se basa en el principio del "apriori", que significa que si un conjunto de elementos satisface un umbral mínimo de frecuencia, entonces cualquier subconjunto de ese conjunto también debe satisfacer el umbral de frecuencia.

Aquí hay una explicación general de cómo funciona el algoritmo Apriori:

1. **Generar conjuntos de un solo elemento:** El algoritmo comienza generando conjuntos de un solo elemento que ocurren con una frecuencia mayor o igual al umbral mínimo.

2. **Combinar conjuntos para obtener conjuntos más grandes:** El algoritmo combina los conjuntos de un solo elemento para formar conjuntos más grandes (de dos elementos, tres elementos, etc.). Luego, verifica la frecuencia de estos conjuntos y descarta aquellos que no cumplen con el umbral mínimo.

3. **Repetir el proceso:** El algoritmo repite el proceso de combinar y verificar la frecuencia hasta que ya no es posible generar conjuntos más grandes que cumplan con el umbral mínimo.

4. **Generar reglas de asociación:** Una vez que se han identificado los conjuntos frecuentes, el algoritmo genera reglas de asociación a partir de estos conjuntos. Una regla de asociación generalmente toma la forma de "Si A, entonces B", donde A y B son conjuntos de elementos.

Vamos a ver un ejemplo simple de cómo usar el algoritmo Apriori en Python utilizando la biblioteca `mlxtend`:

In [2]:
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

# Ejemplo de datos
data = {'ID': [1, 2, 3, 4, 5],
        'Leche': [1, 1, 0, 1, 1],
        'Pan': [1, 1, 1, 1, 0],
        'Cerveza': [0, 1, 0, 1, 0]}

import pandas as pd

df = pd.DataFrame(data, columns=['ID', 'Leche', 'Pan', 'Cerveza'])
df.set_index('ID', inplace=True)

# Aplicar el algoritmo Apriori
frequent_itemsets = apriori(df, min_support=0.2, use_colnames=True)
rules = association_rules(frequent_itemsets, metric='lift', min_threshold=0.5)
print(rules)

         antecedents       consequents  antecedent support  \
0            (Leche)             (Pan)                 0.8   
1              (Pan)           (Leche)                 0.8   
2          (Cerveza)           (Leche)                 0.4   
3            (Leche)         (Cerveza)                 0.8   
4          (Cerveza)             (Pan)                 0.4   
5              (Pan)         (Cerveza)                 0.8   
6   (Cerveza, Leche)             (Pan)                 0.4   
7     (Cerveza, Pan)           (Leche)                 0.4   
8       (Leche, Pan)         (Cerveza)                 0.6   
9          (Cerveza)      (Leche, Pan)                 0.4   
10           (Leche)    (Cerveza, Pan)                 0.8   
11             (Pan)  (Cerveza, Leche)                 0.8   

    consequent support  support  confidence      lift  leverage  conviction  \
0                  0.8      0.6    0.750000  0.937500     -0.04         0.8   
1                  0.8      0.6    



En este ejemplo, estamos utilizando un conjunto de datos simple que representa compras de productos. Aplicamos el algoritmo Apriori para encontrar conjuntos frecuentes y luego generamos reglas de asociación utilizando el umbral de elevación (`lift`) como criterio. El resultado será un conjunto de reglas de asociación que muestran la relación entre los productos comprados.

## **Reglas de asociación**

Las reglas de asociación son un concepto importante en el análisis de datos y la minería de datos, especialmente en el ámbito del comercio minorista y el estudio de patrones de compra. Estas reglas permiten identificar relaciones significativas entre diferentes elementos en un conjunto de datos, lo que puede ayudar a tomar decisiones informadas y estratégicas.

En esencia, las reglas de asociación se refieren a relaciones entre conjuntos de elementos en los que la presencia de ciertos elementos en un conjunto (llamado "antecedente") implica la presencia de otros elementos en otro conjunto (llamado "consecuente"). Estas reglas se expresan en forma de declaraciones "si-entonces", donde "si" representa el antecedente y "entonces" representa el consecuente.

El algoritmo Apriori es una técnica popular para descubrir estas reglas de asociación en grandes conjuntos de datos. A continuación, un ejemplo detallado para comprender mejor el concepto de reglas de asociación:

Supongamos que tenemos una tienda minorista y deseamos analizar los patrones de compra de los clientes para identificar relaciones entre los productos que suelen comprar juntos. Para esto, contamos con un registro de transacciones de compra que incluye los productos comprados por cada cliente.

Ejemplo de transacciones:

```
Transacción 1: Pan, Leche, Huevos
Transacción 2: Leche, Huevos, Queso
Transacción 3: Pan, Leche, Huevos, Queso
Transacción 4: Leche, Huevos
```

Ahora, utilizando el algoritmo Apriori, podemos identificar las reglas de asociación. Supongamos que estamos interesados en encontrar reglas con un nivel de confianza mínimo del 70% y un soporte mínimo del 50%.

Regla de asociación: Pan -> Huevos (Confianza: 100%, Soporte: 25%)
Esto significa que el 25% de las transacciones incluye pan y huevos, y todas las transacciones que contienen pan también contienen huevos.

Regla de asociación: Leche, Huevos -> Queso (Confianza: 100%, Soporte: 25%)
Esta regla indica que el 25% de las transacciones incluye leche y huevos, y todas las transacciones que contienen leche y huevos también contienen queso.

Estas reglas de asociación nos permiten comprender mejor los hábitos de compra de los clientes. Por ejemplo, podríamos utilizar esta información para colocar productos relacionados cerca uno del otro en la tienda, mejorar la estrategia de precios o promociones, y personalizar las recomendaciones de productos para los clientes.

En resumen, las reglas de asociación son una herramienta poderosa para descubrir patrones y relaciones ocultas en conjuntos de datos, lo que puede llevar a decisiones comerciales más informadas y estratégicas.

## **Algoritmo Apriori**

El algoritmo Apriori es una técnica fundamental en minería de datos y análisis de datos que se utiliza para descubrir reglas de asociación entre elementos en conjuntos de datos. El algoritmo busca patrones en los datos para identificar qué elementos tienden a aparecer juntos en transacciones o conjuntos de datos. Esta información es valiosa para comprender relaciones entre elementos y tomar decisiones informadas en áreas como el comercio minorista, el análisis de cestas de compra y la recomendación de productos.

**Funcionamiento del algoritmo Apriori:**

1. **Definición de soporte mínimo:** El algoritmo comienza con la definición de un soporte mínimo, que es el umbral que establece la frecuencia mínima con la que un conjunto de elementos debe aparecer en los datos para considerarse relevante. Por ejemplo, si el soporte mínimo es 0.2 (20%), el algoritmo buscará conjuntos de elementos que aparezcan en al menos el 20% de las transacciones.

2. **Generación de conjuntos candidatos:** Inicialmente, el algoritmo identifica los elementos individuales que cumplen con el soporte mínimo. Luego, genera conjuntos de elementos candidatos que tienen un tamaño mayor, combinando elementos individuales. Estos conjuntos candidatos son generados a través de un proceso llamado "join" y "prune", donde se unen conjuntos más pequeños y se eliminan aquellos que no cumplen con el soporte mínimo.

3. **Cálculo de soporte:** El algoritmo calcula el soporte de cada conjunto candidato, es decir, la frecuencia con la que aparece en los datos.

4. **Filtrado por soporte mínimo:** Los conjuntos candidatos que no cumplen con el soporte mínimo son descartados.

5. **Generación de reglas de asociación:** Con los conjuntos que pasaron el filtrado por soporte mínimo, el algoritmo genera reglas de asociación al evaluar diferentes combinaciones de antecedentes y consecuentes. Se calcula la confianza de cada regla, que representa la probabilidad de que el consecuente ocurra cuando el antecedente está presente.

6. **Filtrado por confianza mínima:** Las reglas de asociación que no cumplen con una confianza mínima predefinida también son descartadas.

**Ejemplo de Apriori:**

Supongamos que tenemos datos de transacciones en una tienda y queremos encontrar reglas de asociación. Aquí están algunas transacciones ficticias:

```
Transacción 1: Pan, Leche
Transacción 2: Leche, Huevos, Queso
Transacción 3: Pan, Huevos, Queso
Transacción 4: Leche, Huevos
Transacción 5: Pan, Leche, Huevos, Queso
```

Si establecemos un soporte mínimo del 40% y una confianza mínima del 60%, el proceso del algoritmo Apriori sería:

1. Identificación de elementos individuales: Pan, Leche, Huevos, Queso.

2. Generación de conjuntos candidatos: {Pan, Leche}, {Pan, Huevos}, {Pan, Queso}, {Leche, Huevos}, {Leche, Queso}, {Huevos, Queso}.

3. Cálculo de soporte: Los conjuntos candidatos se evalúan para determinar su frecuencia.

4. Filtrado por soporte mínimo: Se descartan los conjuntos que no cumplen con el soporte mínimo.

5. Generación de reglas de asociación: Se generan las reglas con diferentes antecedentes y consecuentes, y se calcula la confianza.

6. Filtrado por confianza mínima: Se descartan las reglas que no cumplen con la confianza mínima.

Al final del proceso, podríamos obtener reglas de asociación como:
- {Pan} -> {Leche} (Confianza: 100%, Soporte: 40%)
- {Huevos} -> {Queso} (Confianza: 100%, Soporte: 40%)
- {Leche, Huevos} -> {Queso} (Confianza: 100%, Soporte: 40%)

Estas reglas indican patrones de compra en la tienda, como la tendencia de los clientes a comprar queso cuando compran huevos.

En resumen, el algoritmo Apriori es una herramienta poderosa para descubrir reglas de asociación en conjuntos de datos, lo que puede ayudar a comprender patrones y tomar decisiones informadas en diversos campos.

## **Datos de transacciones**

Por supuesto, aquí tienes un conjunto de datos ficticio que representa transacciones en una tienda. Usaremos estos datos para ilustrar cómo funciona el algoritmo Apriori y cómo se extraen reglas de asociación.

```plaintext
Transacción 1: Pan, Leche, Huevos
Transacción 2: Leche, Huevos, Queso
Transacción 3: Pan, Huevos, Queso
Transacción 4: Leche, Huevos
Transacción 5: Pan, Leche, Huevos, Queso
Transacción 6: Pan, Leche, Queso
Transacción 7: Leche, Huevos
Transacción 8: Pan, Leche, Huevos, Queso
Transacción 9: Pan, Queso
Transacción 10: Leche, Huevos, Queso
```

Ahora, podemos utilizar la biblioteca `mlxtend` de Python para aplicar el algoritmo Apriori a estos datos y extraer reglas de asociación.

In [4]:
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules
import pandas as pd

# Crear el dataframe de transacciones
data = [
    ['Pan', 'Leche', 'Huevos'],
    ['Leche', 'Huevos', 'Queso'],
    ['Pan', 'Huevos', 'Queso'],
    ['Leche', 'Huevos'],
    ['Pan', 'Leche', 'Huevos', 'Queso'],
    ['Pan', 'Leche', 'Queso'],
    ['Leche', 'Huevos'],
    ['Pan', 'Leche', 'Huevos', 'Queso'],
    ['Pan', 'Queso'],
    ['Leche', 'Huevos', 'Queso']
]

df = pd.DataFrame(data, columns=['Producto1', 'Producto2', 'Producto3', 'Producto4'])

# Codificar los productos como valores binarios
df_encoded = pd.get_dummies(df)

# Aplicar el algoritmo Apriori
frequent_itemsets = apriori(df_encoded, min_support=0.3, use_colnames=True)

# Generar reglas de asociación
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.6)

print("Reglas de Asociación:")
print(rules)

Reglas de Asociación:
                            antecedents                        consequents  \
0                    (Producto2_Huevos)                  (Producto1_Leche)   
1                     (Producto1_Leche)                 (Producto2_Huevos)   
2                       (Producto1_Pan)                  (Producto2_Leche)   
3                     (Producto2_Leche)                    (Producto1_Pan)   
4                    (Producto3_Huevos)                    (Producto1_Pan)   
5                     (Producto3_Queso)                 (Producto2_Huevos)   
6                    (Producto2_Huevos)                  (Producto3_Queso)   
7                    (Producto3_Huevos)                  (Producto2_Leche)   
8                     (Producto2_Leche)                 (Producto3_Huevos)   
9     (Producto1_Pan, Producto3_Huevos)                  (Producto2_Leche)   
10     (Producto1_Pan, Producto2_Leche)                 (Producto3_Huevos)   
11  (Producto2_Leche, Producto3_Huevos)   

En este ejemplo, estamos utilizando un soporte mínimo del 30% y una confianza mínima del 60% para extraer las reglas de asociación. Las reglas resultantes mostrarán qué productos tienden a aparecer juntos en las transacciones. Puedes ajustar estos valores según tus necesidades y los datos que estés utilizando.

Las reglas de asociación resultantes te darán información sobre qué productos suelen comprarse juntos y con qué nivel de confianza. Esto puede ser útil para comprender los patrones de compra de los clientes y tomar decisiones informadas sobre la disposición de los productos en la tienda, estrategias de promoción, etc.

## **Conjuntos de elementos**

Un conjunto de elementos, también conocido como conjunto de ítems, es una colección de elementos únicos y no ordenados. En el contexto del algoritmo Apriori y las reglas de asociación, estos conjuntos de elementos representan los productos o artículos que se compran en una transacción o registro.

En el algoritmo Apriori, los conjuntos de elementos son esenciales para descubrir patrones y relaciones de asociación en los datos. Cada conjunto de elementos representa un grupo de productos que se compraron juntos en una transacción específica. El algoritmo busca conjuntos de elementos que ocurren con una frecuencia mínima (umbral de soporte) en el conjunto de datos.

Por ejemplo, si consideramos un conjunto de transacciones de compras en un supermercado:

1. Transacción: Pan, Leche, Huevos
2. Transacción: Leche, Huevos, Queso
3. Transacción: Pan, Huevos, Queso
4. ...

Los conjuntos de elementos serían {Pan, Leche, Huevos}, {Leche, Huevos, Queso}, {Pan, Huevos, Queso}, etc. El algoritmo Apriori analiza estos conjuntos de elementos para identificar patrones de compra frecuentes y generar reglas de asociación, como "Si se compra Pan y Leche, entonces es probable que también se compren Huevos".

Estos conjuntos de elementos son la base para el cálculo de la frecuencia de soporte, confianza, lift y otras métricas que se utilizan para generar reglas de asociación significativas.

En resumen, los conjuntos de elementos son una representación fundamental en el algoritmo Apriori para descubrir patrones y reglas de asociación a partir de conjuntos de datos transaccionales.

## **Soporte de un conjunto**

El soporte de un conjunto de elementos en el contexto del algoritmo Apriori y las reglas de asociación es una medida que indica la frecuencia con la que aparece ese conjunto en el conjunto total de transacciones. En otras palabras, el soporte mide la proporción de transacciones que contienen ese conjunto de elementos en relación con el total de transacciones.

El cálculo del soporte se expresa generalmente como un porcentaje y se utiliza para determinar la popularidad de un conjunto de elementos en los datos. Un alto valor de soporte indica que el conjunto de elementos es común y se compra con frecuencia, mientras que un valor bajo de soporte sugiere que el conjunto de elementos es menos frecuente.

La fórmula para calcular el soporte de un conjunto de elementos es la siguiente:

Soporte(X) = (Número de transacciones que contienen X) / (Total de transacciones)

Donde:

- X es el conjunto de elementos que se está evaluando.
- El numerador es el número de transacciones que contienen el conjunto de elementos X.
- El denominador es el total de transacciones en el conjunto de datos.

Un umbral de soporte se establece como criterio para considerar un conjunto de elementos como frecuente. Si el soporte de un conjunto de elementos es igual o mayor que el umbral de soporte establecido, se considera que el conjunto es frecuente y es candidato para la generación de reglas de asociación.

Por ejemplo, si tenemos un conjunto de transacciones de un supermercado y queremos calcular el soporte del conjunto {Leche, Pan}:

- Número de transacciones que contienen {Leche, Pan} = 25
- Total de transacciones = 100
- Soporte({Leche, Pan}) = 25 / 100 = 0.25

En este caso, el soporte del conjunto {Leche, Pan} es 0.25, lo que significa que este conjunto de elementos aparece en el 25% de las transacciones.

El umbral de soporte se elige según el análisis de los datos y el objetivo del estudio. Conjuntos con un soporte igual o mayor al umbral se consideran significativos para la generación de reglas de asociación.

## **Conjuntos de elementos frecuentes**

En el contexto del algoritmo Apriori y las reglas de asociación, los conjuntos de elementos frecuentes son aquellos conjuntos cuyo soporte es igual o mayor que un umbral predefinido. Estos conjuntos son de interés porque representan combinaciones de elementos que ocurren con suficiente frecuencia en el conjunto de datos. Los conjuntos de elementos frecuentes son la base para generar reglas de asociación, ya que son los candidatos que pueden conducir a reglas con alta confianza.

El proceso de encontrar conjuntos de elementos frecuentes se denomina "minería de conjuntos de elementos frecuentes" o "mining frequent itemsets". La idea es buscar combinaciones de elementos que cumplan con el umbral de soporte establecido. El algoritmo Apriori es uno de los métodos más comunes para realizar esta tarea.

El algoritmo Apriori opera en iteraciones, donde cada iteración busca conjuntos de elementos de tamaño n+1 basados en conjuntos de elementos de tamaño n que se consideran frecuentes en la iteración anterior. El proceso continúa hasta que no se pueden encontrar más conjuntos de elementos frecuentes.

Un ejemplo de conjuntos de elementos frecuentes podría ser:

Supongamos que tenemos un conjunto de transacciones de un supermercado:

```
Transacción 1: Leche, Pan, Huevos
Transacción 2: Leche, Pan
Transacción 3: Leche, Huevos
Transacción 4: Pan, Huevos
Transacción 5: Leche
```

Si establecemos un umbral de soporte del 40%, los conjuntos de elementos frecuentes serían aquellos que aparecen en al menos 2 de las 5 transacciones (40% de 5). En este caso, los conjuntos de elementos frecuentes serían {Leche, Pan}, {Leche, Huevos}, {Pan, Huevos} y {Leche}.

Estos conjuntos de elementos frecuentes son los candidatos a partir de los cuales se pueden generar reglas de asociación con alta confianza. Por ejemplo, si tenemos el conjunto frecuente {Leche, Pan}, podríamos generar la regla {Leche} -> {Pan} si la confianza de la regla es lo suficientemente alta.

En resumen, los conjuntos de elementos frecuentes son combinaciones de elementos que ocurren con suficiente frecuencia en los datos y son la base para generar reglas de asociación en el proceso de minería de datos.

## **Creación de reglas**

La creación de reglas de asociación implica identificar patrones interesantes y significativos entre los conjuntos de elementos frecuentes. Estas reglas se expresan en la forma de "antecedentes" y "consecuentes", donde los antecedentes son un conjunto de elementos y los consecuentes son otro conjunto de elementos. La idea es encontrar reglas que muestren relaciones fuertes entre los elementos antecedentes y consecuentes basados en el soporte y la confianza.

En el contexto del algoritmo Apriori, las reglas de asociación se generan a partir de los conjuntos de elementos frecuentes encontrados previamente. Para cada conjunto frecuente, se pueden generar varias reglas de asociación considerando diferentes combinaciones de antecedentes y consecuentes. Sin embargo, no todas estas reglas serán interesantes o significativas.

Las métricas clave utilizadas para evaluar la calidad de las reglas de asociación son el soporte, la confianza y el lift:

1. Soporte: Mide la frecuencia con la que ocurre una regla en el conjunto de datos. Es la proporción de transacciones que contienen tanto el antecedente como el consecuente.

2. Confianza: Mide la probabilidad de que el consecuente ocurra dado que el antecedente ya ha ocurrido. Es la proporción de transacciones que contienen tanto el antecedente como el consecuente con respecto a las transacciones que contienen el antecedente.

3. Lift: Mide cuánto más probable es que ocurra el consecuente dado el antecedente en comparación con si fueran independientes. Un lift mayor que 1 indica una relación positiva entre el antecedente y el consecuente.

El proceso de creación de reglas de asociación implica:

1. Tomar cada conjunto frecuente y generar todas las combinaciones posibles de antecedentes y consecuentes.

2. Calcular el soporte y la confianza para cada regla.

3. Filtrar las reglas basadas en umbrales de soporte y confianza predefinidos.

4. Opcionalmente, evaluar el lift para identificar relaciones interesantes y significativas.

5. Presentar las reglas de asociación que cumplen con los criterios establecidos.

Un ejemplo de regla de asociación podría ser:

Conjunto frecuente: {Leche, Pan}
Regla: {Leche} -> {Pan}
Soporte: 0.4 (40% de las transacciones contienen tanto Leche como Pan)
Confianza: 0.8 (80% de las transacciones que contienen Leche también contienen Pan)
Lift: 1.33 (Pan es 1.33 veces más probable dado que Leche ya ha ocurrido)

En resumen, la creación de reglas de asociación implica encontrar patrones interesantes entre los conjuntos de elementos frecuentes utilizando métricas como el soporte, la confianza y el lift. Estas reglas pueden proporcionar información valiosa sobre las relaciones entre los elementos en un conjunto de datos, lo que puede ser útil en la toma de decisiones y en la generación de estrategias de marketing y ventas.

## **Métricas para las reglas**

En el contexto de las reglas de asociación, existen varias métricas que se utilizan para evaluar la calidad y la relevancia de las reglas generadas por algoritmos como Apriori. Estas métricas ayudan a identificar qué reglas son interesantes y significativas en función de la frecuencia de los elementos y las relaciones entre ellos. Algunas de las métricas más comunes son:

1. Soporte:
El soporte de una regla es la proporción de transacciones en las que aparecen tanto el antecedente como el consecuente. Cuanto mayor sea el soporte, más frecuente es la regla en el conjunto de datos. Una regla con alto soporte indica que es común y puede no ser muy interesante por sí sola.

2. Confianza:
La confianza de una regla mide la probabilidad de que ocurra el consecuente dado que ya ha ocurrido el antecedente. Una alta confianza indica una relación fuerte entre los elementos antecedentes y consecuentes. La confianza se calcula dividiendo el soporte conjunto de antecedente y consecuente entre el soporte del antecedente.

3. Lift (Elevación):
El lift mide cuánto más probable es que ocurra el consecuente dado el antecedente en comparación con si fueran independientes. Un lift mayor que 1 indica que el consecuente es más probable dado el antecedente. Un lift igual a 1 significa que el antecedente y el consecuente son independientes. El lift se calcula dividiendo el soporte conjunto de antecedente y consecuente entre el producto de los soportes del antecedente y el consecuente.

4. Leverage (Apalancamiento):
El leverage mide la diferencia entre el soporte conjunto de antecedente y consecuente y el producto de los soportes del antecedente y el consecuente. Un leverage mayor que 0 indica que los elementos antecedentes y consecuentes tienden a aparecer juntos más de lo esperado si fueran independientes.

5. Conviction:
La convicción mide cuánto más probable es que ocurra el consecuente dado que no ocurrió el antecedente. Cuanto mayor sea la convicción, más fuerte es la relación entre el antecedente y el consecuente. La convicción se calcula dividiendo el soporte del consecuente entre el complemento de la confianza del antecedente.

Estas métricas ayudan a los analistas a filtrar y seleccionar reglas de asociación relevantes y útiles. Sin embargo, es importante recordar que no existe una métrica única que sea adecuada para todos los casos. La elección de las métricas depende del contexto y los objetivos del análisis. En algunos casos, puede ser necesario usar varias métricas en conjunto para tomar decisiones informadas sobre qué reglas son valiosas y merecen atención.

## **Soporte de una regla**

El soporte de una regla de asociación es una métrica que indica la proporción de transacciones en un conjunto de datos en las que aparecen tanto el antecedente como el consecuente de esa regla. En otras palabras, el soporte mide la frecuencia con la que la regla se cumple en relación con el total de transacciones.

La fórmula para calcular el soporte de una regla es la siguiente:

$\text{Soporte}(\text{antecedente} \rightarrow \text{consecuente}) = \frac{\text{Número de transacciones que contienen antecedente y consecuente}}{\text{Total de transacciones en el conjunto de datos}}$

Dónde:

- Número de transacciones que contienen antecedente y consecuente es la cantidad de transacciones en las que se encuentran tanto el antecedente como el consecuente de la regla.
- Total de transacciones en el conjunto de datos es la cantidad total de transacciones en el conjunto de datos.

Un alto valor de soporte indica que la regla es común en el conjunto de datos, mientras que un valor bajo de soporte sugiere que la regla es menos común.

Vamos a ilustrar esto con un ejemplo:

Supongamos que tenemos un conjunto de datos de transacciones que registra la compra de productos en una tienda. Queremos calcular el soporte de la regla de asociación "Leche -> Pan", lo que significa que queremos determinar la frecuencia con la que los clientes compran leche y pan juntos.

- Número de transacciones que contienen "Leche" y "Pan": 25 transacciones
- Total de transacciones en el conjunto de datos: 100 transacciones

$\text{Soporte}(\text{Leche} \rightarrow \text{Pan}) = \frac{25}{100} = 0.25$

En este caso, el soporte de la regla "Leche -> Pan" es 0.25, lo que significa que el 25% de las transacciones en el conjunto de datos contienen tanto leche como pan.

El soporte es una medida importante en el análisis de reglas de asociación, ya que nos ayuda a identificar qué reglas son frecuentes y, por lo tanto, potencialmente interesantes para comprender patrones de comportamiento en los datos.

## **Confianza de una regla**

La confianza de una regla de asociación es una métrica que indica la probabilidad de que el consecuente ocurra dado que el antecedente ya ha ocurrido. En otras palabras, mide la proporción de veces que el consecuente aparece en las transacciones en las que el antecedente también aparece.

La fórmula para calcular la confianza de una regla es la siguiente:

$\text{Confianza}(\text{antecedente} \rightarrow \text{consecuente}) = \frac{\text{Número de transacciones que contienen antecedente y consecuente}}{\text{Número de transacciones que contienen antecedente}}$

Dónde:

- Número de transacciones que contienen antecedente y consecuente es la cantidad de transacciones en las que se encuentran tanto el antecedente como el consecuente de la regla.
- Número de transacciones que contienen antecedente es la cantidad de transacciones en las que se encuentra el antecedente de la regla.

La confianza varía entre 0 y 1, donde 1 indica una confianza completa, lo que significa que el consecuente siempre ocurre cuando el antecedente está presente en una transacción.

Vamos a usar el mismo ejemplo para ilustrar esto:

Supongamos que queremos calcular la confianza de la regla "Leche -> Pan" en nuestro conjunto de datos de transacciones.

- Número de transacciones que contienen "Leche" y "Pan": 25 transacciones
- Número de transacciones que contienen "Leche": 40 transacciones

$\text{Confianza}(\text{Leche} \rightarrow \text{Pan}) = \frac{25}{40} = 0.625$

En este caso, la confianza de la regla "Leche -> Pan" es 0.625, lo que significa que el 62.5% de las veces que los clientes compran leche también compran pan.

La confianza es una medida útil para evaluar cuán sólida es una regla y cuánta información nueva proporciona el consecuente una vez que se ha observado el antecedente. Sin embargo, la confianza por sí sola no considera la frecuencia de ocurrencia del consecuente por sí mismo, lo que puede llevar a interpretaciones sesgadas en ciertos casos.

## **Lift de una regla**

El Lift (elevación) es una métrica utilizada en el análisis de reglas de asociación para evaluar la importancia y la fuerza de una regla en términos de la relación entre el antecedente y el consecuente. El Lift compara la confianza observada de una regla con la confianza esperada en caso de que el antecedente y el consecuente fueran independientes. En esencia, el Lift nos dice cuánto más probable es que ocurra el consecuente cuando se cumple el antecedente en comparación con su ocurrencia aleatoria.

La fórmula para calcular el Lift de una regla es la siguiente:

$\text{Lift}(\text{antecedente} \rightarrow \text{consecuente}) = \frac{\text{Confianza}(\text{antecedente} \rightarrow \text{consecuente})}{\text{Soporte}(\text{consecuente})}$

Dónde:

- Confianza($\text{antecedente} \rightarrow \text{consecuente}$) es la confianza de la regla entre el antecedente y el consecuente.

- Soporte($\text{consecuente}$) es el soporte del consecuente, es decir, la proporción de transacciones en las que aparece el consecuente.

El Lift tiene los siguientes valores posibles:
- Lift > 1: Indica que la ocurrencia del antecedente aumenta la probabilidad de ocurrencia del consecuente. Cuanto mayor es el Lift, más fuerte es la relación.
- Lift = 1: Indica que el antecedente y el consecuente son independientes, ya que la confianza observada es igual a la confianza esperada en caso de independencia.
- Lift < 1: Indica que la ocurrencia del antecedente disminuye la probabilidad de ocurrencia del consecuente.

Vamos a utilizar el mismo ejemplo para ilustrar esto:

Supongamos que queremos calcular el Lift de la regla "Leche -> Pan" en nuestro conjunto de datos de transacciones.

- Confianza(\text{Leche} \rightarrow \text{Pan}) = 0.625 (calculado previamente)
- Soporte(\text{Pan}) = 70 / 100 = 0.7 (el 70% de las transacciones contiene pan)

$\text{Lift}(\text{Leche} \rightarrow \text{Pan}) = \frac{0.625}{0.7} \approx 0.893$

En este caso, el Lift de la regla "Leche -> Pan" es aproximadamente 0.893. Esto indica que la ocurrencia de "Leche" disminuye la probabilidad de que ocurra "Pan". Un Lift menor a 1 sugiere que esta regla podría no ser tan significativa en términos de asociación entre los productos.

El Lift es una métrica importante ya que permite comprender si una regla es más que simplemente el resultado de una ocurrencia aleatoria. Si el Lift es significativamente mayor a 1, es posible que la regla sea útil para tomar decisiones basadas en patrones de compra reales.

## **Algoritmo Apriori con Python**

El algoritmo Apriori es ampliamente utilizado para la extracción de reglas de asociación en conjuntos de datos transaccionales. Aquí te mostraré cómo implementar el algoritmo Apriori utilizando la biblioteca `mlxtend` en Python.

Antes de comenzar, asegúrate de tener la biblioteca `mlxtend` instalada. Puedes instalarla usando el siguiente comando si aún no lo has hecho:

```bash
pip install mlxtend
```

Ahora, vamos a implementar el algoritmo Apriori en Python:

In [7]:
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules
import pandas as pd

# Crear el dataframe de transacciones (ejemplo)
data = {'Transaccion': ['T1', 'T2', 'T3', 'T4', 'T5'],
        'Productos': [['Leche', 'Pan', 'Huevos'],
                      ['Leche', 'Pan'],
                      ['Leche', 'Huevos'],
                      ['Pan', 'Huevos'],
                      ['Leche', 'Pan', 'Huevos']]}
df = pd.DataFrame(data)

# Convertir la lista de productos en un conjunto para cada transacción
df['Productos'] = df['Productos'].apply(set)

# Crear un DataFrame de ceros y unos para representar la presencia de productos en cada transacción
oht = df['Productos'].apply(lambda x: pd.Series([1 if item in x else 0 for item in df['Productos'][0]]))
oht.columns = df['Productos'][0]

# Aplicar el algoritmo Apriori
frequent_itemsets = apriori(oht, min_support=0.4, use_colnames=True)

# Imprimir los conjuntos de elementos frecuentes
print("Conjuntos de elementos frecuentes:")
print(frequent_itemsets)

# Generar las reglas de asociación
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.6)

# Imprimir las reglas de asociación
print("\nReglas de asociación:")
print(rules)



Conjuntos de elementos frecuentes:
   support              itemsets
0      0.8              (Huevos)
1      0.8               (Leche)
2      0.8                 (Pan)
3      0.6       (Huevos, Leche)
4      0.6         (Huevos, Pan)
5      0.6          (Leche, Pan)
6      0.4  (Huevos, Leche, Pan)

Reglas de asociación:
       antecedents consequents  antecedent support  consequent support  \
0         (Huevos)     (Leche)                 0.8                 0.8   
1          (Leche)    (Huevos)                 0.8                 0.8   
2         (Huevos)       (Pan)                 0.8                 0.8   
3            (Pan)    (Huevos)                 0.8                 0.8   
4          (Leche)       (Pan)                 0.8                 0.8   
5            (Pan)     (Leche)                 0.8                 0.8   
6  (Huevos, Leche)       (Pan)                 0.6                 0.8   
7    (Huevos, Pan)     (Leche)                 0.6                 0.8   
8     (Leche

En este ejemplo, hemos creado un DataFrame `df` que contiene las transacciones y los conjuntos de productos correspondientes. Luego, convertimos las listas de productos en conjuntos para que el algoritmo Apriori pueda trabajar con ellas.

Usamos la función `apriori` para encontrar los conjuntos de elementos frecuentes con un umbral de soporte mínimo de 0.4. Luego, utilizamos la función `association_rules` para generar las reglas de asociación con un umbral mínimo de confianza del 60%.

La salida mostrará los conjuntos de elementos frecuentes y las reglas de asociación encontradas.

Recuerda que este es solo un ejemplo simple. En aplicaciones prácticas, puedes usar conjuntos de datos más grandes y ajustar los parámetros del algoritmo según tus necesidades.

| **Inicio** | **atrás 20** | **Siguiente 22** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./20_%20Entropia_en_Machine_Learning.ipynb)| [⏩](./22_Modelos_de_Regresion.ipynb)|