<img src="newlogomioti.png" style="height: 100px">
<center style="color:#888">Módulo Data Science in IoT<br/>Asignatura Machine Learning 2 (Unsupervised learning)</center>

# Worksheet S6: Reglas de asociación

## Objetivos

El objetivo de este worksheet es conocer y saber utilizar las reglas de asociación. Entre otros:

* Utilidad de las reglas de asociación
* Soporte, confianza y lift
* Limitaciones de las reglas de asociación
* Librerías de Python para su cálculo

## Introducción

Las reglas de asociación es un método no supervisado de Machine Learning para descubrir **relaciones interesantes** entre variables de un conjunto de datos. Su objetivo es identificar una serie de reglas en bases de datos a partir de una medida de interés.


Basadas en el concepto de reglas 'fuertes' publicado por *Rakesh Agrawal, Tomasz Imieliński and Arun Swami* en [1](https://dl.acm.org/citation.cfm?doid=170035.170072). Originalmente se aplicó a descubrir **patrones en tickets de venta de supermercados** del estilo:

$ \left\{ cebolla, patatas\right\}  \Rightarrow \left\{ hamburguesa \right\}$


Las reglas de asociación proporcionan información muy útil para la toma de decisiones en:

* análisis de cesta de la compra (precios promocionales, product placement, promociones cruzadas, etc.)
* web mining
* detección de intrusos
* ...

## Definición

La definición parte de dos conceptos:

* Conjunto de **items**  $ I = \left\{ i_1, i_2, ..., i_n \right\} $
* Conjunto de **transacciones** $ D = \left\{ t_1, t_2, ..., t_m \right\} $

Cada transacción contiene un subconjunto de items de $I$. 

Una **regla de asociación** se representa como una implicación con la siguiente forma:

$ X \Rightarrow\ Y $

A los conjuntos de items $X$ y $Y$ se les llama respectivamente **"antecedente"** y **"consecuente"**.

## Ejemplo

Para entender mejor todos estos conceptos, vamos a plantear un escenario basado en las ventas de un supermercado. En este caso nuestro conjunto de items a considerar será el siguiente:

$ I = \left\{ Cocacola, Patatas, Aguacate, Tomate \right\} $

Que han generado la siguiente base de datos de transacciones (o tickets de la compra en este caso):

ID |  Cocacola | Patatas | Aguacate | Tomate
--- | --- | --- | --- | ---
1 | 1 | 1 | 0 | 0
2 | 0 | 0 | 1 | 1
3 | 0 | 1 | 0 | 0
4 | 1 | 0 | 1 | 0
5 | 1 | 1 | 1 | 0

Donde el valor de '1' significa que el item está presente en la transacción y '0' significa que no está presente.

Una regla ejemplo podría ser la siguiente:

$ \left\{Cocacola, Patatas\right\} \Rightarrow\ \left\{Aguacate\right\} $

## Reglas de asociación útiles

Para poder seleccionar las reglas más interesantes o significativas entre todas las posibles de una base datos, se usan los umbrales basados en:

#### -  Soporte
***

El soporte de un conjunto de items $X$ sobre unas transacciones $D$, es la **proporción de transacciones que contiene dicho conjunto**:

$sop(X) = \frac{|X|}{|D|} $

Retomando el ejemplo anterior:

$sop(\left\{Cocacola\right\}) = \frac{3}{5} = 0.6 $

$sop(\left\{Cocacola,Patatas\right\}) = \frac{2}{5} = 0.4 $

$sop(\left\{Cocacola,Patatas, Aguacate\right\}) = \frac{1}{5} = 0.2 $

#### -  Confianza
***

La confianza es una medida de **cuantas veces se ha dado esa regla**:

$conf(X \Rightarrow Y) = \frac{sop(\left\{X,Y\right\})}{sop(X)} $

Retomando el ejemplo anterior:

$ conf(\left\{Cocacola, Patatas\right\} \Rightarrow\ \left\{Aguacate\right\}) = \frac{sop(\left\{Cocacola, Patatas, Aguacate\right\})}{sop(Cocacola, Patatas)}  = \frac{0.2}{0.4} = 0.5 $

Esto significa que la regla $\left\{Cocacola, Patatas\right\} \Rightarrow\ \left\{Aguacate\right\}$ es cierta en el 50% de los casos. 

También se puede interpretar como $ P( Aguacate | \left\{Cocacola, Patatas\right\}) $

**¡ OJO ! NO ES SIMÉTRICA:    $ conf(X \Rightarrow Y) \neq conf(Y \Rightarrow X) $ **

Normalmente, se establecen unos **umbrales mínimos de soporte y confianza** para poder obtener las reglas más interesantes.

#### -  Lift
***

El lift es una métrica usada para medir cuanto de más el antecedente y consecuente de una regla $X \Rightarrow Y$ aparecen juntos si supusiésemos que son estadísticamente independientes.

$ lift(X \Rightarrow Y) =  \frac{sop(\left\{X,Y\right\})}{sop(X) sop(Y)}$

Retomando el ejemplo anterior:

$ lift(\left\{Cocacola, Patatas\right\} \Rightarrow\ \left\{Aguacate\right\}) = \frac{sop(\left\{Cocacola, Patatas, Aguacate\right\})}{sop(Cocacola, Patatas)*sop(Aguacate)}  = \frac{0.2}{0.4*0.6} = 0.83 $

Valores esperados:

* $=1$ : $X$ y $Y$ son independientes el uno del otro
* $>1$ : $X$ y $Y$ son dependientes el uno del otro
* $<1$ : $X$ y $Y$ son substituos el uno del otro (la presencia de $X$ tiene efecto negativo sobre la presencia de $Y$ y viceversa)

**¡ OJO ! SÍ ES SIMÉTRICA:    $ lift(X \Rightarrow Y) = lift(Y \Rightarrow X) $ **

## Limitaciones

#### Computacional

Es costoso buscar todos los posibles subconjuntos de items frecuentes en base de datos (tamaño $2^n-1$). En el ejemplo anterior:

* $\left\{ Aguacate \right\} $
* $\left\{ Cocacola \right\} $
* $\left\{ Patatas \right\} $
* $\left\{ Tomate \right\} $
* $\left\{ Aguacate, Cocacola \right\} $
* $\left\{ Aguacate, Patatas \right\} $
* $\left\{ Aguacate, Tomate \right\} $
* $\left\{ Cocacola, Patatas \right\} $
* $...$
* ( $2^5 -1 = 31 $ subconjuntos)

Existen algoritmos eficientes como *Apriori*, *Eclat* o *FP-growth* que explotan la propiedad *"downward-closure"* (pertencias de items en conjuntos y subconjuntos), para hacer esta búsqueda más eficiente.

#### Asociaciones estadísticamente significativas

Por la propia naturaleza de las reglas de asociación, hay riesgo de encontrar **asociaciones espúreas**. Esto es, subconjuntos de items que co-ocurren con una inesperada alta frecuencia en los datos, pero únicamente por casualidad.

## Librerías de Python para su cálculo

Existen una gran cantidad de librerías de Python que implementan funcionalidad relacionada con reglas de asociación. Entre las más destacadas podemos mencionar:

* [MLxtend](http://rasbt.github.io/mlxtend/) (implementa Apriori)
* [fp-growth](https://github.com/enaeseth/python-fp-growth) y [pyfpgrowth](https://github.com/evandempsey/fp-growth) (implementan FP-growth)

Ahora, vamos a resolver el ejemplo planteado más arriba mediante `mlxtend`. Comenzamos instalando e importando los módulos necesarios:

In [9]:
# Descomentar esto para instalar paquete mlxtend
#import sys
#!{sys.executable} -m pip install mlxtend
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

Definimos nuestro conjunto de transacciones a través de una lista de listas:

In [10]:
dataset = [
    ['Cocacola', 'Patatas'],
    ['Aguacate', 'Tomate'],
    ['Patatas'],
    ['Cocacola', 'Aguacate'],
    ['Cocacola', 'Patatas', 'Aguacate']
]

Utilizamos funciones auxiliares de `mlxtend` que nos permiten convertir este formato de lista en un Dataframe de ocurrencias binario:

In [11]:
te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)
df

Unnamed: 0,Aguacate,Cocacola,Patatas,Tomate
0,False,True,True,False
1,True,False,False,True
2,False,False,True,False
3,True,True,False,False
4,True,True,True,False


Una vez preparada la entrada de datos, lo primero que tenemos que hacer es calcular el soporte de nuestros items:

In [12]:
frequent_itemsets = apriori(df, min_support=0.1, use_colnames=True)
frequent_itemsets

Unnamed: 0,support,itemsets
0,0.6,(Aguacate)
1,0.6,(Cocacola)
2,0.6,(Patatas)
3,0.2,(Tomate)
4,0.4,"(Aguacate, Cocacola)"
5,0.2,"(Patatas, Aguacate)"
6,0.2,"(Aguacate, Tomate)"
7,0.4,"(Patatas, Cocacola)"
8,0.2,"(Patatas, Aguacate, Cocacola)"


El parámetro `min_support` permite definir cual es el soporte mínimo que se considerará para su cálculo. Este valor es de suma importancia en aquellos conjunto de datos de un tamaño considerable, ya que permitirá al algoritmo apriori terminar en un tiempo razonable.

Ahora, vamos a generar las reglas de asociación de acuerdo distintas métricas (parámetro `metric`) y umbrales mínimos (parámetro `min_threshold`). Primero, tomando la confianza con un valor mínimo de 0.5:

In [14]:
association_rules?
as_conf = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.5)
as_conf

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(Aguacate),(Cocacola),0.6,0.6,0.4,0.666667,1.111111,0.04,1.2
1,(Cocacola),(Aguacate),0.6,0.6,0.4,0.666667,1.111111,0.04,1.2
2,(Tomate),(Aguacate),0.2,0.6,0.2,1.0,1.666667,0.08,inf
3,(Patatas),(Cocacola),0.6,0.6,0.4,0.666667,1.111111,0.04,1.2
4,(Cocacola),(Patatas),0.6,0.6,0.4,0.666667,1.111111,0.04,1.2
5,"(Patatas, Aguacate)",(Cocacola),0.2,0.6,0.2,1.0,1.666667,0.08,inf
6,"(Patatas, Cocacola)",(Aguacate),0.4,0.6,0.2,0.5,0.833333,-0.04,0.8
7,"(Aguacate, Cocacola)",(Patatas),0.4,0.6,0.2,0.5,0.833333,-0.04,0.8


[0;31mSignature:[0m
[0massociation_rules[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mdf[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mmetric[0m[0;34m=[0m[0;34m'confidence'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mmin_threshold[0m[0;34m=[0m[0;36m0.8[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msupport_only[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Generates a DataFrame of association rules including the
metrics 'score', 'confidence', and 'lift'

Parameters
-----------
df : pandas DataFrame
  pandas DataFrame of frequent itemsets
  with columns ['support', 'itemsets']

metric : string (default: 'confidence')
  Metric to evaluate if a rule is of interest.
  **Automatically set to 'support' if `support_only=True`.**
  Otherwise, supported metrics are 'support', 'confidence', 'lift',
  'leverage', and 'conviction'
  These metrics are computed as follows:

  - support(A->C) = support(A+C) 

Segundo, tomando el lift con un valor mínimo de 0.8:

In [15]:
as_lift = association_rules(frequent_itemsets, metric="lift", min_threshold=0.8)
as_lift

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(Aguacate),(Cocacola),0.6,0.6,0.4,0.666667,1.111111,0.04,1.2
1,(Cocacola),(Aguacate),0.6,0.6,0.4,0.666667,1.111111,0.04,1.2
2,(Aguacate),(Tomate),0.6,0.2,0.2,0.333333,1.666667,0.08,1.2
3,(Tomate),(Aguacate),0.2,0.6,0.2,1.0,1.666667,0.08,inf
4,(Patatas),(Cocacola),0.6,0.6,0.4,0.666667,1.111111,0.04,1.2
5,(Cocacola),(Patatas),0.6,0.6,0.4,0.666667,1.111111,0.04,1.2
6,"(Patatas, Aguacate)",(Cocacola),0.2,0.6,0.2,1.0,1.666667,0.08,inf
7,"(Patatas, Cocacola)",(Aguacate),0.4,0.6,0.2,0.5,0.833333,-0.04,0.8
8,"(Aguacate, Cocacola)",(Patatas),0.4,0.6,0.2,0.5,0.833333,-0.04,0.8
9,(Patatas),"(Aguacate, Cocacola)",0.6,0.4,0.2,0.333333,0.833333,-0.04,0.9


Podemos comprobar que los valores obtenidos coinciden con los previamente calculados a mano en la parte teórica del Worksheet.

Finalmente, podemos filtrar los resultados obtenidos de acuerdo a diversos criterios, al tratarse estos de un DataFrame de pandas:

In [16]:
as_lift[ (as_lift['confidence'] > 0.7) & (as_lift['lift'] > 1.0) ]

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
3,(Tomate),(Aguacate),0.2,0.6,0.2,1.0,1.666667,0.08,inf
6,"(Patatas, Aguacate)",(Cocacola),0.2,0.6,0.2,1.0,1.666667,0.08,inf


In [17]:
as_lift[ (as_lift['antecedents'] == {'Aguacate', 'Patatas'})]

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
6,"(Patatas, Aguacate)",(Cocacola),0.2,0.6,0.2,1.0,1.666667,0.08,inf


## Quizz

* ¿Cómo crees que se podría mejorar el rendimiento de los métodos de extracción de reglas de asociación?
* ¿Cuales crees que son los principales problemas de las métricas presentadas en este notebook (soporte, confianza y lift)? ¿Existe alguna otra métrica en reglas de asociación?
* Además de las presentadas en este notebook, ¿qué otras aplicaciones de las reglas de asociación se te ocurren?