# Reglas de asociación

## Definición

Una regla de asociación es una expresión $X \rightarrow Y$ donde $X$ es un conjunto de artículos y $Y$ es solo un artículo. Es decir la asociación entre los artículos de $X$ con el artículo de $Y$.

![Market basket analysis](https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fhamzic.files.wordpress.com%2F2016%2F12%2Fmarket-basket-analysis.jpg%3Fw%3D500&f=1&nofb=1)

![Market basket analysis transactions](https://external-content.duckduckgo.com/iu/?u=http%3A%2F%2Fres.cloudinary.com%2Fdyd911kmh%2Fimage%2Fupload%2Ff_auto%2Cq_auto%3Abest%2Fv1530898580%2FImage_1_ip8nzc.png&f=1&nofb=1)

Para ello, el algoritmo apriori es uno de los más utilizados en este tema y permite encontrar de forma eficiente conjuntos de items frecuentes, los cuales sirven de base para generar reglas de asociación entre los items.

La forma de generar las reglas de asociación consta de dos pasos:

- *Generación de combinaciones frecuentes:* cuyo objetivo es encontrar aquellos conjuntos que sean frecuentes en la base de datos. Para determinar la frecuencia se establece un umbral.

- *Generación de reglas:* A partir de los conjuntos frecuentes se crean las reglas en base al ordenamiento de un índice que establece los grupos de items o productos frecuentes.

# Support


El parámetro “support”, refleja  que tan popular es el artículo, lo cual demuestra la proporción que este aparece en la totalidad de las transacciones

$support = \frac{frecuency(X, Y)}{N}$

Donde:

- $X$ = Es un conjunto de artículos
- $Y$ = Un solo artículo a relacionar
- $N$ = Cantidad de artículos en total de la canasta

![Support](https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fannalyzin.files.wordpress.com%2F2016%2F04%2Fassociation-rules-support-example.png%3Fw%3D389%26h%3D237&f=1&nofb=1)


# Confidence

El parámetro “Confidence”, refleja  que tan posible es que se compre el producto $Y$ cuando se compre el producto $X$ y se expresa de manera : ${X \rightarrow Y}$
Se mide por la proporción en que el producto $Y$ aparece cuando se compra el producto $X$.

$confidence = \frac{frecuency(X, Y)}{frecuency(X)}$

![Confidence](https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fannalyzin.files.wordpress.com%2F2016%2F04%2Fassociation-rules-confidence-lift-example.png%3Fw%3D897%26h%3D189&f=1&nofb=1)

# Lift

El parámetro “Lift”, refleja  que tan posible es que se compre el producto $Y$ cuando se compre el producto $X$, pero controlando que tan popular es Y. 
El Lift de nuestra en la tabla ${Manzana \rightarrow Cerveza} = 1$ lo que significa que no existe asociación  entre los productos. 

Entre mas alto se encuentre el lift, es mas probable que se compren esos productos juntos.

$lift = \frac{support}{support(X)support(Y)}$

![Lift](https://qph.fs.quoracdn.net/main-qimg-48f9336a3f687bf7d88742252a6fc893)

# Algoritmo

- Paso 1. Se establecen los valores mínimos para el soporte y la confidencia
- Paso 2. Se toman todos los subconjuntos de transacciones que tienen un - soporte mayor al valor del soporte mínimo.
- Paso 3. Tomar todas las reglas de estos subconjuntos que tengan una confidencia mayor al valor de la confidencia mínima.
- Paso 4. Ordenar las reglas de forma decreciente en base al valor del lift.

# Aplicación

Para trabajar se puede importa datos desde el repositorio de datos para aprendizaje automático de la Universidad de California, Irvine. El conjunto de datos se encuentra en formato de Microsoft Excel, por lo que se puede cargar utilizando las funciones de pandas para archivos xls.

In [18]:
# Cargamos las librerias necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

df= pd.read_csv('Market_Basket_Optimisation.csv', header = None)
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,,,,,,,,,,,,,,,,,
2,chutney,,,,,,,,,,,,,,,,,,,
3,turkey,avocado,,,,,,,,,,,,,,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,,,,,,,,,,,


## Transformación

Transformando las listas dentro de otras listas de las columnas

In [20]:
transactions = []
for i in range(0, df.shape[0]):
    transactions.append([str(df.values[i, j]) for j in range(0, 20)])

print(transactions[0])

['shrimp', 'almonds', 'avocado', 'vegetables mix', 'green grapes', 'whole weat flour', 'yams', 'cottage cheese', 'energy drink', 'tomato juice', 'low fat yogurt', 'green tea', 'honey', 'salad', 'mineral water', 'salmon', 'antioxydant juice', 'frozen smoothie', 'spinach', 'olive oil']


# Obtención de reglas de asociación

Ahora se pude utilizar la función `apriori` para obtener los productos con un mínimo de soporte y todas las características que necesitamos en los hiperparámetros.


In [22]:
!pip install apyori

Collecting apyori
  Downloading https://files.pythonhosted.org/packages/5e/62/5ffde5c473ea4b033490617ec5caa80d59804875ad3c3c57c0976533a21a/apyori-1.1.2.tar.gz
Building wheels for collected packages: apyori
  Building wheel for apyori (setup.py) ... [?25l[?25hdone
  Created wheel for apyori: filename=apyori-1.1.2-cp36-none-any.whl size=5975 sha256=a6feffd8f50a6f3074196e14985a0c29ab04618ca1ec72bc4f74ab4ee784b23a
  Stored in directory: /root/.cache/pip/wheels/5d/92/bb/474bbadbc8c0062b9eb168f69982a0443263f8ab1711a8cad0
Successfully built apyori
Installing collected packages: apyori
Successfully installed apyori-1.1.2


In [28]:
from apyori import apriori

rules = apriori(transactions, min_support = 0.003, min_confidence = 0.2, min_lift = 3, min_length = 2)  

In [29]:
results = list(rules)

print(results)

[RelationRecord(items=frozenset({'light cream', 'chicken'}), support=0.004532728969470737, ordered_statistics=[OrderedStatistic(items_base=frozenset({'light cream'}), items_add=frozenset({'chicken'}), confidence=0.29059829059829057, lift=4.84395061728395)]), RelationRecord(items=frozenset({'mushroom cream sauce', 'escalope'}), support=0.005732568990801226, ordered_statistics=[OrderedStatistic(items_base=frozenset({'mushroom cream sauce'}), items_add=frozenset({'escalope'}), confidence=0.3006993006993007, lift=3.790832696715049)]), RelationRecord(items=frozenset({'pasta', 'escalope'}), support=0.005865884548726837, ordered_statistics=[OrderedStatistic(items_base=frozenset({'pasta'}), items_add=frozenset({'escalope'}), confidence=0.3728813559322034, lift=4.700811850163794)]), RelationRecord(items=frozenset({'honey', 'fromage blanc'}), support=0.003332888948140248, ordered_statistics=[OrderedStatistic(items_base=frozenset({'fromage blanc'}), items_add=frozenset({'honey'}), confidence=0.24

In [30]:
def inspect(results):
    rh          = [tuple(result[2][0][0]) for result in results]
    lh          = [tuple(result[2][0][1]) for result in results]
    supports    = [result[1] for result in results]
    confidences = [result[2][0][2] for result in results]
    lifts       = [result[2][0][3] for result in results]
    return list(zip(rh, lh, supports, confidences, lifts))

In [33]:
# Este comamdo crea un frame para ver los datos resultados
resultDataFrame=pd.DataFrame(inspect(results),
                columns=['X','Y','support','confidence','lift'])

In [34]:
resultDataFrame

Unnamed: 0,X,Y,support,confidence,lift
0,"(light cream,)","(chicken,)",0.004533,0.290598,4.843951
1,"(mushroom cream sauce,)","(escalope,)",0.005733,0.300699,3.790833
2,"(pasta,)","(escalope,)",0.005866,0.372881,4.700812
3,"(fromage blanc,)","(honey,)",0.003333,0.245098,5.164271
4,"(herb & pepper,)","(ground beef,)",0.015998,0.323450,3.291994
...,...,...,...,...,...
155,"(olive oil, ground beef)","(spaghetti, nan, mineral water)",0.003066,0.216981,3.632981
156,"(pancakes, ground beef)","(spaghetti, nan, mineral water)",0.003066,0.211009,3.532991
157,"(tomatoes, ground beef)","(spaghetti, nan, mineral water)",0.003066,0.261364,4.376091
158,"(spaghetti, milk, mineral water)","(nan, olive oil)",0.003333,0.211864,3.223519
