# ALGORITMO APRIORI

#Descripción:

El algoritmo Apriori es un algoritmo ampliamente utilizado en minería de datos y análisis de datos para encontrar patrones de asociación en conjuntos de datos. Fue propuesto por Rakesh Agrawal y Ramakrishnan Srikant en 1994 y es uno de los algoritmos más fundamentales en el campo de la minería de datos.

El objetivo principal del algoritmo Apriori es descubrir conjuntos de ítems que tienden a aparecer juntos en un conjunto de datos. Esto se utiliza comúnmente en aplicaciones como recomendación de productos, análisis de cestas de compra en tiendas, análisis de clics en sitios web y más.

El algoritmo Apriori se basa en el principio de apriori, que establece que si un conjunto de ítems es frecuente, entonces todos sus subconjuntos también deben ser frecuentes. El algoritmo opera en tres pasos principales:

* Generación de conjuntos de ítems frecuentes: El algoritmo comienza encontrando los ítems individuales que son frecuentes en el conjunto de datos, es decir, aquellos que aparecen con una frecuencia mayor que un umbral predefinido (llamado "soporte mínimo"). Luego, se generan conjuntos de ítems candidatos más grandes al combinar estos ítems frecuentes.

* Prueba de conjuntos candidatos: El algoritmo escanea el conjunto de datos nuevamente para contar la frecuencia de ocurrencia de los conjuntos candidatos generados en el paso anterior. Solo los conjuntos cuya frecuencia supera el umbral de soporte mínimo se consideran frecuentes.

* Generación de reglas de asociación: Una vez que se han identificado los conjuntos de ítems frecuentes, el algoritmo Apriori se utiliza para generar reglas de asociación. Las reglas de asociación son declaraciones en la forma "Si A, entonces B", donde A y B son conjuntos de ítems. Estas reglas indican la probabilidad de que un conjunto de ítems aparezca si otro conjunto de ítems está presente, y se calculan utilizando métricas como el soporte y la confianza.

Las reglas de asociación generadas por el algoritmo Apriori son útiles para descubrir patrones interesantes en los datos, como productos que se compran juntos con frecuencia en una tienda o páginas web que los usuarios visitan en secuencia. Estas reglas pueden ser valiosas para la toma de decisiones en marketing, recomendación de productos y análisis de comportamiento del consumidor, entre otros campos.

#Bibtext y Referencias

@inproceedings{agrawal1994fast,
  title={Fast algorithms for mining association rules},
  author={Agrawal, Rakesh and Srikant, Ramakrishnan and others},
  booktitle={Proc. 20th int. conf. very large data bases, VLDB},
  volume={1215},
  pages={487--499},
  year={1994},
  organization={Santiago, Chile}
}

# Herramientas utilizadas:
* Obtención de información: https://chat.openai.com/
* https://www.perplexity.ai/search/0d504068-30a3-4fd6-a727-5a2683f00db6?s=u
* https://ieeexplore.ieee.org/abstract/document/6781357
* Dataset: https://github.com/gitganeshnethi/Datasets/blob/master/store_data.csv


#Tipo de Modelo:

* MODELO DE APRENDIZAJE: No supervisado
* POR PARAMETROS: No parametrico
* DATOS APRENDIZAJE: Offline
* RESULTADOS DEL ENTRENAMIENTO: Instancias

#Supuestos y Restricciones



#Supuestos

* Este algoritmo se basa en el principio de apriori, que establece que si un conjunto de ítems es frecuente, entonces todos sus subconjuntos también deben ser frecuentes. Este supuesto ayuda a reducir el espacio de búsqueda y a hacer que el algoritmo sea eficiente.

* Sensibilidad a valores de umbral: La efectividad del algoritmo Apriori depende en gran medida de la elección adecuada de valores de umbral, como el umbral de soporte mínimo. Si estos valores no se establecen correctamente, es posible que se encuentren pocos o demasiados conjuntos de ítems frecuentes, lo que puede llevar a resultados insatisfactorios

#Restricciones


* Espacio de búsqueda grande: El algoritmo Apriori puede generar un gran número de candidatos y conjuntos de ítems frecuentes en conjuntos de datos grandes. Esto puede llevar a una alta carga computacional y requerir una cantidad significativa de memoria.


* Solo maneja datos binarios: El algoritmo Apriori está diseñado principalmente para trabajar con datos binarios, donde se registra la presencia o ausencia de un ítem en una transacción. No es tan adecuado para datos numéricos o categóricos con múltiples valores.

* No considera relaciones temporales: Apriori no tiene en cuenta la secuencia temporal de las transacciones. No puede identificar patrones de asociación que dependan del orden de las transacciones.

* No maneja datos continuos: El algoritmo Apriori no es adecuado para conjuntos de datos que contienen atributos continuos, ya que requiere que los datos se conviertan en binarios o categóricos.



#Ejemplo en codigo

In [2]:
# Instala la biblioteca `mlxtend` para utilizar Apriori
!pip install mlxtend



In [3]:
# Importa las bibliotecas necesarias
import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules


In [4]:
# Carga los datos desde el archivo CSV
data = pd.read_csv('store_data.csv')

  and should_run_async(code)


In [5]:
data

  and should_run_async(code)


Unnamed: 0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
0,burgers,meatballs,eggs,,,,,,,,,,,,,,,,,
1,chutney,,,,,,,,,,,,,,,,,,,
2,turkey,avocado,,,,,,,,,,,,,,,,,,
3,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,,,,,,,,,,,
4,low fat yogurt,,,,,,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7495,butter,light mayo,fresh bread,,,,,,,,,,,,,,,,,
7496,burgers,frozen vegetables,eggs,french fries,magazines,green tea,,,,,,,,,,,,,,
7497,chicken,,,,,,,,,,,,,,,,,,,
7498,escalope,green tea,,,,,,,,,,,,,,,,,,


In [6]:
# Convertir a matriz de formato binario
encoded_dataset = pd.get_dummies(data.apply(pd.Series).stack()).sum(level=0)

  and should_run_async(code)
  encoded_dataset = pd.get_dummies(data.apply(pd.Series).stack()).sum(level=0)


In [7]:
encoded_dataset

  and should_run_async(code)


Unnamed: 0,asparagus,almonds,antioxydant juice,asparagus.1,avocado,babies food,bacon,barbecue sauce,black tea,blueberries,...,turkey,vegetables mix,water spray,white wine,whole weat flour,whole wheat pasta,whole wheat rice,yams,yogurt cake,zucchini
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,1,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7495,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7496,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7497,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7498,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [11]:
def encode_units(x):
    if x <= 0:
        return 0
    if x >= 1:
        return 1
store_prods = encoded_dataset.applymap(encode_units)
store_prods

  and should_run_async(code)


Unnamed: 0,asparagus,almonds,antioxydant juice,asparagus.1,avocado,babies food,bacon,barbecue sauce,black tea,blueberries,...,turkey,vegetables mix,water spray,white wine,whole weat flour,whole wheat pasta,whole wheat rice,yams,yogurt cake,zucchini
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,1,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7495,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7496,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7497,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7498,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [12]:
# Aplica Aprioi para encontrar conjuntos de productos frecuentes
frequent_itemsets = apriori(store_prods, min_support=0.01, use_colnames=True)

  and should_run_async(code)


In [13]:
frequent_itemsets

  and should_run_async(code)


Unnamed: 0,support,itemsets
0,0.020267,(almonds)
1,0.033200,(avocado)
2,0.010800,(barbecue sauce)
3,0.014267,(black tea)
4,0.011467,(body spray)
...,...,...
254,0.011067,"(mineral water, milk, ground beef)"
255,0.017067,"(spaghetti, mineral water, ground beef)"
256,0.015733,"(spaghetti, mineral water, milk)"
257,0.010267,"(spaghetti, olive oil, mineral water)"


In [16]:
# Genera reglas de asociación a partir de los conjuntos de ítems frecuentes
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1.0)

  and should_run_async(code)


In [17]:
rules

  and should_run_async(code)


Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
0,(mineral water),(avocado),0.238267,0.033200,0.011467,0.048125,1.449559,0.003556,1.015680,0.407144
1,(avocado),(mineral water),0.033200,0.238267,0.011467,0.345382,1.449559,0.003556,1.163629,0.320785
2,(burgers),(cake),0.087200,0.081067,0.011467,0.131498,1.622103,0.004398,1.058068,0.420154
3,(cake),(burgers),0.081067,0.087200,0.011467,0.141447,1.622103,0.004398,1.063185,0.417349
4,(burgers),(chocolate),0.087200,0.163867,0.017067,0.195719,1.194377,0.002777,1.039603,0.178291
...,...,...,...,...,...,...,...,...,...,...
403,"(spaghetti, pancakes)",(mineral water),0.025200,0.238267,0.011467,0.455026,1.909736,0.005462,1.397744,0.488682
404,"(mineral water, pancakes)",(spaghetti),0.033733,0.174133,0.011467,0.339921,1.952073,0.005593,1.251163,0.504751
405,(spaghetti),"(mineral water, pancakes)",0.174133,0.033733,0.011467,0.065850,1.952073,0.005593,1.034381,0.590560
406,(mineral water),"(spaghetti, pancakes)",0.238267,0.025200,0.011467,0.048125,1.909736,0.005462,1.024084,0.625373
