# El algoritmo Apriori 

En este notebook vamos a aprender a usar una libreria para calcular reglas de asociación. 
Vamos a usar el paquete **efficient-apriori**, cuya documentación se encuentra en https://pypi.org/project/efficient-apriori/. 

## Instalación, usos básicos

In [1]:
### Usar pip para cargar el paquete en nuestro ambiente actual - omitir si el paquete ya está instalado!
import sys


In [2]:
### Un primer uso (extraído de la documentación oficial): 

from efficient_apriori import apriori 

### Cargamos las transacciones como una lista, con elementos. En este caso son tres compras.  

transactions = [('eggs', 'bacon', 'soup'),('eggs', 'bacon', 'apple'),('soup', 'bacon', 'banana')]

### Y corremos nuestro modelo. Definimos el soporte como 0.6, y la confianza en 1. 

itemsets, rules = apriori(transactions, min_support=0.3, min_confidence=1) 




In [3]:
### Imprimimos las reglas. 

### En este caso, como la confianza es 1, tomamos solo las reglas que siempre se cumplen en todas las canastas 
### donde aparece el lado izquierdo.

### El soporte de 0.66 requiere que al menos 2 de 3 de las canastas soporten esta regla, es decir, que tengan 
### los elementos de ambos lados de la regla.
print(rules) 


[{apple} -> {bacon}, {apple} -> {eggs}, {banana} -> {bacon}, {eggs} -> {bacon}, {soup} -> {bacon}, {banana} -> {soup}, {apple, eggs} -> {bacon}, {apple, bacon} -> {eggs}, {apple} -> {bacon, eggs}, {banana, soup} -> {bacon}, {bacon, banana} -> {soup}, {banana} -> {bacon, soup}, {eggs, soup} -> {bacon}]


In [4]:
### Podemos imprimir también el conteo de todos los conjuntos de elementos que tienen soporte sobre el 
### minimo que definimos, en este caso 0.66

print(itemsets) 

{1: {('eggs',): 2, ('bacon',): 3, ('soup',): 2, ('apple',): 1, ('banana',): 1}, 2: {('apple', 'bacon'): 1, ('apple', 'eggs'): 1, ('bacon', 'banana'): 1, ('bacon', 'eggs'): 2, ('bacon', 'soup'): 2, ('banana', 'soup'): 1, ('eggs', 'soup'): 1}, 3: {('apple', 'bacon', 'eggs'): 1, ('bacon', 'banana', 'soup'): 1, ('bacon', 'eggs', 'soup'): 1}}


### Desde csv a apriori

Vamos a cargar un conjunto de datos almacenados en un archivo *canastas.csv*. Los cargaremos a una lista llamada datos, que tiene una tupla con los elementos por lista. 

In [5]:
import csv

with open('canastas.csv', 'r', newline='', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile)
    datos = [tuple(row) for row in reader]
    


In [6]:
len(datos)

1001

In [7]:
print(datos[0])

('salsa barbacoa', 'uvas', 'salsa alioli', 'sal', 'judías verdes', 'moras', 'manzanas', 'guisantes', 'orégano', 'maíz', 'peras', 'arroz', 'aguacates', 'bacalao', 'espárragos')


Ahora usamos estos datos en el código que teníamos antes. 

In [29]:
transactions = datos
itemsets, rules = apriori(transactions, min_support=0.01, min_confidence=0.3) 


In [30]:
print(rules)

[{tomates} -> {ajo}]


¿Qué pasó? Las listas involucran muchos elementos, y ya es muy poco probable que una regla tenga confianza de 1. 

Recordemos: El soporte es el porcentaje de las canastas donde si aplica esta regla. Un umbral de soporte más alto filtra más, y por lo tanto se generan menos reglas. 

La confianza es la proporcion de canastas que tienen el lado izquierdo de la regla, y el lado derecho, contra las canastas que solo tienen el lado izquierdo. Un umbral de confianza más alto filtra más, y por lo tanto se generan menos reglas. 

En el retail es usual ver un soporte de 0.01 a 0.05 (osea, buscar reglas que se apliquen en un 1%-5% de las canastas), y una confianza idealmente mayor a 0.5. Pero estos valores siempre van a depender de la naturaleza de los datos. 

Veamos qué pasa si ahora bajamos el soporte a 0.01 y la confianza a 0.3

In [22]:
transactions = datos
itemsets, rules = apriori(transactions, min_support=0.01, min_confidence=0.3) 

print(rules)

[{tomates} -> {ajo}]


Parece ser que tomates y ajo van bien juntos! 
Esta regla nos dice que
- (por el soporte mínimo): al menos el 1% de las compras incluyen tomates y ajos 
- (por la confianza mínima): al menos un 30% de las compras que incluyen tomates incluyen también ajos. 

Puedes jugar con los umbrales de soporte y confianza, y descubrir nuevas reglas de asociación? Lógiamente, este descubrimiento tiene que involucrar un menor umbral de soporte, o una menor confianza, o ambas. 