# Introducción 
Los algoritmos de reglas de asociación tienen como objetivo encontrar relaciones dentro un conjunto de transacciones, en concreto, items o atributos que tienden a ocurrir de forma conjunta. En este contexto, el término transacción hace referencia a cada grupo de eventos que están asociados de alguna forma, por ejemplo:
* La cesta de la compra en un supermercado.
* Los libros que compra un cliente en una librería.
* Las páginas web visitadas por un usuario.
* Las características que aparecen de forma conjunta.


A cada uno de los eventos o elementos que forman parte de una transacción se le conoce como item y a un conjunto de ellos itemset. Una transacción puede estar formada por uno o varios items, en el caso de ser varios, cada posible subconjunto de ellos es un itemset distinto.
Por ejemplo, la transacción T = {A,B,C} está formada por 3 items (A, B y C) y sus posibles itemsets son: {A,B,C}, {A,B}, {B,C}, {A,C}, {A}, {B} y {C}.
# Reglas de asociacion
Una regla de asociación se define como una implicación del tipo “si $X$ entonces $Y$” $(X⇒Y)$, donde $X$ e $Y$ son itemsets o items individuales. El lado izquierdo de la regla recibe el nombre de antecedente o lenft-hand-side (LHS) y el lado derecho el nombre de consecuente o right-hand-side (RHS). Por ejemplo, la regla {A,B} => {C} significa que, cuando ocurren $A$ y $B$, también ocurre $C$.
# Apriori 
El algoritmo a priori es un algoritmo de aprendizaje automático que se utiliza para obtener información sobre las relaciones estructuradas entre los diferentes elementos involucrados, es decir, nos permite encontrar de forma eficiente conjuntos de items frecuentes, los cuales sirven de base para generar reglas de asociación entre los items.
 
La aplicación práctica más destacada del algoritmo es recomendar productos basados en los productos ya presentes en el carrito del usuario, esto identificando los items individuales frecuentes dentro del conjunto de datos para luego extenderlo a un conjunto de mayor tamaño siempre y cuando esos conjuntos de datos aparezcan constantemente y de manera frecuente de acuerdo con un umbral establecido. 
 
El algoritmo se aplica principalmente en el análisis de transacciones comerciales y en los problemas de predicción. Es por ello que el algoritmo está diseñado para trabajar con bases de datos que contienen transacciones como los productos o artículos comprados por consumidores, o detalles sobre las visitas a un sitio web, etc. 
 
La forma de generar las reglas de asociación consta de dos pasos: 
* Generación de combinaciones frecuentes: cuyo objetivo es encontrar aquellos conjuntos que sean frecuentes en la base de datos. Para determinar la frecuencia se establece un umbral.
* Generación de reglas: A partir de los conjuntos frecuentes se crean las reglas en base al ordenamiento de un índice que establece los grupos de items o productos frecuentes.
 
El índice para la generación de combinaciones se llama soporte y el índice para la generación de reglas se llama confidencia. 
# Algoritmo Apriori 
Antes de entrar en los detalles del algoritmo, conviene definir una serie de conceptos: 
* Soporte: El soporte del item o itemset $X$ es el número de transacciones que contienen $X$ dividido entre el total de transacciones. 
* Confidencia: La confidencia de una regla “Si $X$ entonces $Y$” se define acorde a la ecuación 
 
$confianza(X=>Y)=\frac{soporte(unión(X,Y))}{soporte(X)}$ 
 
 donde $unión(XY)$ es el itemset que contienen todos los items de $X$ y de $Y$. La confianza se interpreta como la probabilidad $P(Y|X)$, es decir, la probabilidad de que una transacción que contiene los items de $X$, también contenga los items de $Y$. 
 
 Definido lo anterior a continuacion se enlistan los pasos para realizar el algoritmo:
* Paso 1: Se establecen los valores mínimos para el soporte y la confidencia 
* Paso 2: Se toman todos los subconjuntos de transacciones que tienen un soporte mayor al valor del soporte mínimo.
* Paso 3: Tomar todas las reglas de estos subconjuntos que tengan una confidencia mayor al valor de la confidencia mínima.
* Paso 4: Ordenar las reglas de forma decreciente en base al valor del lift.

 Veamos un ejemplo: 

 Si tenemos un conjunto de 5 transacciones con diversos productos en cada una de ellas de acuerdo con la siguiente tabla: 

| Número de transacción | Articulos o Items | 
|:---------:|:--------------------------------:|
| 1 | Pan, leche, pañales | 
| 2 | Pan, pañales, cerveza, huevo | 
| 3 | Leche, pañales, cerveza, refresco, café | 
| 4 | Pan, leche, pañales, cerveza | 
| 5 | Pan, refresco, leche, pañales | 

El primer paso es generar las combinaciones frecuentes, y, si queremos un soporte superior al 50%, entonces contamos la frecuencia de cada uno de los artículos, es decir, en cuantas transacciones aparecen cada uno de los artículos.

| Articulo | Transacciones |
|:---------:|:-----:|
| Cerveza | 3 |
| Pan | 4 |
| Refresco | 2 |
| Pañales | 5 |
| Leche | 4 |
| Huevos | 1 |
| Café | 1 |

Para calcular el soporte de cada artículo dividimos la cantidad de transacciones de cada artículo, entre el total de transacciones. Es decir, para cerveza tenemos que aparece en 3 de las 5 transacciones, entonces es 3/5 = 0.6 que representa el 60%. Para el resto de los artículos tenemos lo siguiente:

| Articulo | Soporte |
|:---------:|:-----:|
| Cerveza | 60% |
| Pan | 80% |
| Refresco | 40% |
| Pañales | 100% |
| Leche | 80% |
| Huevos | 20% |
| Café | 20% |

Como se requiere un soporte superior al 50% entonces eliminamos todos los artículos que están por abajo de este umbral: refresco, huevo y café. El siguiente paso es generar las combinaciones con los productos que quedaron para iterar primero con combinaciones de dos, calculamos el soporte y después con combinaciones de 3 y así sucesivamente.

| Conjuntos | Frecuencia | Soporte |
|:---------:|:----:|:-----:|
| Cerveza, Pan | 2 | 40% |
| Cerveza, Pañales | 3 | 60% |
| Cerveza, Leche | 2 | 40% |
| Pan, Pañales | 4 | 80% |
| Pan, Leche | 3 | 60% |
| Pañales, Leche | 4 | 80% |

Eliminamos los que están por abajo del 50% y nos quedamos con los primeros conjuntos frecuentes cuyo soporte es superior al 50%

| Conjuntos |
|:---------:|
| Cerveza, Pañales |
| Pan, Pañales |
| Pan, Leche |
| Pañales, Leche |

A partir de los conjuntos generados, creamos conjuntos de tres artículos y calculamos su soporte

| Conjuntos | Frecuencia | Soporte |
|:---------:|:----:|:-----:|
| Cerveza, Pañales, Pan | 2 | 40% |
| Cerveza, Pañales, Leche | 2 | 40% |
| Pan, Pañales, Leche | 3 | 60% |
| Pan, Leche, Cerveza | 1 | 20% |

En estas combinaciones de tres, únicamente nos quedamos con el conjunto formado por pan, pañales y leche, el cual utilizamos para hacer combinaciones de 4 artículos, sin embargo, para este caso, tienen soporte de 20% por lo cual, aquí termina el algoritmo. El resultado arrojo un elemento de 3 artículos y cuatro de 2 artículos:

| Conjuntos |
|:---------:|
| Cerveza, Pañales |
| Pan, Pañales, Leche |
| Pan, Pañales |
| Pañales, Leche |
| Pan, Leche |

A partir de estos 5 conjuntos obtenemos las reglas de asociación, para lo cual, establecemos que también queremos un índice superior 50%. Este índice es la confidencia y lo calculamos dividiendo las repeticiones de las observaciones del conjunto entre las repeticiones de la regla: tomando el primer conjunto de pan, pañales, leche, las reglas posibles son:
* Pan => Pañales, Leche
* Pañales => Pan, Leche
* Leche => Pan, Pañales
* Pan, Pañales => Leche
* Pan, Leche => Pañales
* Leche, Pañales => Pan

Si tomamos la primera regla: Pan => Pañales, Leche observamos que en las transacciones originales que Pan, Pañales, Leche aparece en 3 transacciones y la regla Pan aparece en 4 transacciones, entonces la confidencia es 3/4 = 0.75 que es el 75%

Para la regla formada por: Pan, Pañales => Leche tenemos que la combinación Pan, Pañales, Leche aparece en 3 transacciones y la regla Pañales, Leche en 4 transacciones por lo que su confidencia es del 75% también, es decir 3/4 = 0.75

Una vez que calculamos la confidencia de todas las reglas, las ordenamos de mayor a menor en base a esa confidencia calculada y obtenemos las reglas de asociación para todo el conjunto, que es como funciona el algoritmo A Priori.

Veamos ahora la aplicación del algoritmo en python:

Antes de empezar cabe resaltar que necesitamos instalar la libreria de `efficient-apriori` que puedes encontrar aqui: https://pypi.org/project/efficient-apriori/

#Funcion de Apriori

´efficient_apriori.apriori(transactions: Iterable[Union[set, tuple, list]], min_support: float = 0.5, min_confidence: float = 0.5, max_length: int = 8, verbosity: int = 0, output_transaction_ids: bool = False)´

El algoritmo Apriori funciona en dos fases. La fase 1 itera sobre las transacciones varias veces para crear conjuntos de elementos del nivel de soporte deseado. La Fase 2 construye reglas de asociación de la confianza deseada dados los conjuntos de elementos encontrados en la Fase 1. Ambas fases pueden implementarse correctamente agotando el espacio de búsqueda, es decir, generando todos los conjuntos de elementos posibles y comprobando su soporte. El Apriori poda el espacio de búsqueda de manera eficiente al decidir a priori si un conjunto de elementos posiblemente tiene el soporte deseado, antes de iterar sobre todo el conjunto de datos y verificar.

Parametros:
* **transactions** (lista de transacciones (conjuntos/tuplas/listas) Cada elemento en): las transacciones deben ser 'hashable'.
* **min_support** (flotante): el soporte mínimo de las reglas devueltas. El soporte es la frecuencia con la que los elementos de la regla aparecen juntos en el conjunto de datos.
* **min_confidence** (flotante): la confianza mínima de las reglas devueltas. Dada una regla X -> Y, la confianza es la probabilidad de Y, dada X, es decir, P(Y|X) = conf(X -> Y)
* **max_length** (int): la longitud máxima de los conjuntos de elementos y las reglas.
* **verbosity** (int): el nivel de detalle de impresión cuando se ejecuta el algoritmo 0, 1 o 2.
* **output_transaction_ids** (bool): si se establece en verdadero, la salida contiene los identificadores de las transacciones que contienen un conjunto de elementos frecuente. Los ids son la enumeración de las transacciones en la secuencia en que aparecen.

Veamos ahora la aplicación en codigo:













In [1]:
from efficient_apriori import apriori #Libreria a importar
transacciones = [('huevos', 'tocino', 'sopa'),
                ('huevos', 'tocino', 'manzana'),
                ('sopa', 'tocino', 'platano')]
itemsets, reglas = apriori(transacciones, min_support=0.5,  min_confidence=1)
print(reglas)  # [{huevos} -> {tocino}, {sopa} -> {tocino}]


[{huevos} -> {tocino}, {sopa} -> {tocino}]


In [None]:
import random
x = random.random() 
a = str(input("Escoge, ¿aguila o sol? "))
print("")
if x < 0.5:
  if a = = 'aguila':
    print ("Aguila, ¡Ganaste!")
  else:
    print ("Aguila, ¡Perdiste! xD")
else:
  if a = = 'sol':
    print ("Sol, ¡Ganaste!")
  else:
    print ("Sol, ¡Perdiste! xD")


##    b) Usar la función random( ) para simular 1000 volados.


In [None]:
import randomx = random.random() 
b = str(input("Escoge, ¿aguila o sol? "))
print("")
count = 0 
sol = 0 
aguila = 0 
while count < 1000:
  y = random.random()
  if y < 0.5:
    sol = sol+1 
  else:
    aguila = aguila+1 
  count = count+1 
if sol < aguila:
  if b = = 'aguila':
    print ("Aguila, ¡Ganaste!")
  else:
    print ("Aguila, ¡Perdiste! xD")
else:
  if b = = 'sol':
    print ("Sol, ¡Ganaste!")
  else:
    print ("Sol, ¡Perdiste! xD")


##    c) Determinar de b) la probabilidad de que ocurra "sol" en un volado.


In [None]:
import randomx = random.random() 
b = str(input("Escoge, ¿aguila o sol? "))
print("")
count = 0 
sol = 0 
aguila = 0 
while count < 1000:
  y = random.random()
  if y < 0.5:
    sol = sol+1 
  else:
    aguila = aguila+1 
  count = count+1 
PA = aguila/count 
PS = sol/count 
print("")
print("La probabilidad de obtener aguila era de: ",PA)
print("La probabilidad de obtener sol era de: ",PS)
print("")
