# Association Rule Learning Con Algoritmo Apriori
#### Carlos Paredes Robles
##### cparedesr@uc.cl

ARL es una tecnica de Machine Learning para identificar relaciones de eventos, y posteriormente utilizarlas en contextos de recomendacion o analisis. 
Supongase el caso de un supermercado, donde por cada cliente existe una lista de compra, nuestro algoritmo ha de ser capaz de reconocer la relacion de que productos se compran juntos, luego con esa data se pueden realizar optimizaciones respecto a la organizacion del supermercado

un ejemplo mas claro es el siguiente  

<div>
<img src="https://cdn.business2community.com/wp-content/uploads/2019/09/amazonfrequently-bought-together.png" width="500"/>
</div>

donde se hacen recomendaciones de compra segun los productos que se compran en conjunto.

### Teoria

El algoritmo permite descubrir relaciones entre eventos de alguna base de datos mediante diferentes reglas, en particular aplicaremos la regla “apriori”
Apriori se basa en el análisis de 3 relaciones

**Support**: Probabilidad de que ocurra el evento $A$.
$$\frac{\# evento A}{\# eventos \  totales}$$

**Confidence**:Probabilidad que ocurra $B$, dado $A$.
$$\frac{\# evento A \land B}{\# evento A}$$

**Lift** : Cuanto aumenta la popularidad de $B$ gracias a $A$.
$$\frac{Confidence(A\rightarrow B)}{Support(B)}$$

Luego se calculan todos los soportes, confianzas y lift entre los datos, para evitar muchos calculos, se determinan umbrales minimos para cada una de las variables, *(puede que un producto se compre muy poco y por lo tanto a priori se que no existen relaciones claras)*

### Codigo

Al igual que muchas cosas en machine learning con python, este algoritmo esta en gran parte implentado en diversas librerias, una de las mas utilizadas siendo *apyori*, (se puede tambien utilizar scikit-learn para mayor eficiencia) y debido a que la implementacion es muy muy rapida

In [24]:
# Importamos las librerias a usar
from apyori import apriori
from math import trunc
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [6]:
# con pandas cargamos el dataset como dataframe

df = pd.read_csv('./data/store.csv', header=None)

In [7]:
# Observamos como se distribuye el dataset
df.tail()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
7496,butter,light mayo,fresh bread,,,,,,,,,,,,,,,,,
7497,burgers,frozen vegetables,eggs,french fries,magazines,green tea,,,,,,,,,,,,,,
7498,chicken,,,,,,,,,,,,,,,,,,,
7499,escalope,green tea,,,,,,,,,,,,,,,,,,
7500,eggs,frozen smoothie,yogurt cake,low fat yogurt,,,,,,,,,,,,,,,,


In [9]:
# hemos de convertir nuestro dataset en una lista de listas
compras = []
for i in range(0, 7501): #cantidad de rows
    compras.append([str(df.values[i,j]) for j in range(0, 20)]) # 20 = cantidad de columnas

Tal como se menciono antes, idealmente hemos de setear tresholds o si no seria muy ineficiente nuestro calculo al utilizar recursos sobre operaciones innescesarias, estos son *min_support*, *min_lift* y *min_confidence*, tambien podemos agregar otra variable sobre el minimo largo de nuestras relaciones *min_length*

In [29]:
reglas_de_asociacion = apriori(compras, min_support=0.0040, min_confidence=0.18, min_lift=3, min_length=2)
resultados = list(reglas_de_asociacion)


In [32]:
# Funcion auxiliar para el print

def truncate(number, digits) -> float:
    stepper = 10.0 ** digits
    return trunc(stepper * number) / stepper

In [38]:
for item in resultados:

    # first index of the inner list
    # Contains base item and add item
    pair = item[0] 
    items = [x for x in pair]
    items_str = ", ".join(items)
    print("regla: {" + items[0] + " -> " + items_str + "}")
    print("Support: " + str( truncate(item[1], 3)) + " | " + "Confidence: " + str(truncate(item[2][0][2], 3)) + " | " + "Lift: " + str(truncate(item[2][0][3], 3)))

    print("------------------------------------------------")

regla: {chicken -> chicken, light cream}
Support: 0.004 | Confidence: 0.29 | Lift: 4.843
------------------------------------------------
regla: {escalope -> escalope, mushroom cream sauce}
Support: 0.005 | Confidence: 0.3 | Lift: 3.79
------------------------------------------------
regla: {escalope -> escalope, pasta}
Support: 0.005 | Confidence: 0.372 | Lift: 4.7
------------------------------------------------
regla: {ground beef -> ground beef, herb & pepper}
Support: 0.015 | Confidence: 0.323 | Lift: 3.291
------------------------------------------------
regla: {tomato sauce -> tomato sauce, ground beef}
Support: 0.005 | Confidence: 0.377 | Lift: 3.84
------------------------------------------------
regla: {whole wheat pasta -> whole wheat pasta, olive oil}
Support: 0.007 | Confidence: 0.271 | Lift: 4.122
------------------------------------------------
regla: {shrimp -> shrimp, pasta}
Support: 0.005 | Confidence: 0.322 | Lift: 4.506
----------------------------------------------