# ALGORITMO ECLAT

#Descripción:

El algoritmo ECLAT (Equivalence Class Transformation) es un algoritmo utilizado en minería de datos para descubrir patrones de co-ocurrencia frecuente en conjuntos de transacciones. Su enfoque radica en construir una estructura de datos llamada "tabla de cierre" (closure table) para representar las relaciones de co-ocurrencia entre los elementos del conjunto de datos. A partir de esta estructura, ECLAT puede identificar rápidamente los conjuntos de elementos que cumplen con un umbral de soporte mínimo, lo que facilita la detección de reglas de asociación significativas.

**Umbral de soporte minimo:**  El umbral de soporte se expresa como un valor entre 0 y 1. Si estableces un umbral de soporte mínimo alto, solo se considerarán los conjuntos de elementos que sean extremadamente frecuentes en los datos. Por otro lado, si estableces un umbral de soporte mínimo bajo, se considerarán conjuntos de elementos más amplios.

Por ejemplo, si tienes un conjunto de transacciones de compras y estableces un umbral de soporte mínimo del 0.05 (5%), significa que solo considerarás los conjuntos de productos que aparecen en al menos el 5% de las transacciones

**Donde nos puede servir mas la implementación del algoritmo de ECLAT:**
El algoritmo ECLAT es especialmente útil en situaciones donde los conjuntos de datos son extensos y la memoria disponible es un recurso limitado. Algunas de sus aplicaciones y usos son:

* Análisis de mercado: Al igual que Apriori, el algoritmo ECLAT se utiliza para
descubrir patrones de co-ocurrencia frecuente en conjuntos de transacciones, lo que puede proporcionar información valiosa para estrategias de ventas y marketing.

* Análisis de canasta de compras: ECLAT es efectivo para entender qué productos se compran juntos con frecuencia, lo que ayuda a optimizar la disposición de productos en tiendas físicas o plataformas en línea.

* Segmentación de clientes: Al identificar grupos de productos que suelen ser comprados en conjunto, ECLAT puede contribuir a segmentar a los clientes en categorías más específicas para estrategias de marketing dirigidas.

* Recomendación de productos: Puede utilizarse para generar recomendaciones de productos basadas en las co-ocurrencias frecuentes entre los elementos comprados.

* Gestión de inventario: Ayuda a predecir qué productos podrían ser comprados juntos en el futuro, lo que permite una mejor planificación de la gestión de inventario.

#Bibtext y Referencias

@article{kaur2015advanced,
  title={Advanced eclat algorithm for frequent itemsets generation},
  author={Kaur, Manjit and Garg, Urvashi and Kaur, Sarbjit},
  journal={International Journal of Applied Engineering Research},
  volume={10},
  number={9},
  pages={23263--23279},
  year={2015}
}

# Herramientas utilizadas:
* Obtención de información: https://chat.openai.com/
* https://www.perplexity.ai/search/0d504068-30a3-4fd6-a727-5a2683f00db6?s=u
* Para el primer dataset: https://www.kaggle.com/datasets/heeraldedhia/groceries-dataset
* PYECLAT info: https://pypi.org/project/pyECLAT/

#Tipo de Modelo:

* MODELO DE APRENDIZAJE: No supervisado
* POR PARAMETROS: No parametrico
* DATOS APRENDIZAJE: Offline
* RESULTADOS DEL ENTRENAMIENTO: Instancias

#Supuestos y Restricciones



#Supuestos

* Datos transaccionales: cada transacción es una lista de elementos, no es apto para datos numéricos o continuos.

* Frecuencia: los datos más frecuentes son más interesantes y por lo tanto le da mas atencion a los mismos.

#Restricciones

* El conjunto de datos tiene que ser relativamente pequeño.

* Tiende a enfocarse en elementos muy frecuentes y puede pasar por alto patrones interesantes que ocurren con menos frecuencia.

* ECLAT requiere un umbral de soporte predefinido para determinar qué patrones considerar significativos.

* Se utiliza principalmente para encontrar patrones de al menos dos elementos en una transacción.



#Ejemplo en codigo

In [None]:
# Instala la biblioteca `mlxtend` para utilizar ECLAT
!pip install mlxtend



In [None]:
# Importa las bibliotecas necesarias
import pandas as pd
from mlxtend.frequent_patterns import apriori


In [None]:

# Carga los datos desde el archivo CSV
data = pd.read_csv('Groceries_dataset.csv')



  and should_run_async(code)


In [None]:
# Split items into separate columns
split_items = data['itemDescription'].str.split(',')

# Convert to binary matrix format
encoded_dataset = pd.get_dummies(split_items.apply(pd.Series).stack()).sum(level=0)

  and should_run_async(code)
  encoded_dataset = pd.get_dummies(split_items.apply(pd.Series).stack()).sum(level=0)


In [None]:
encoded_dataset

  and should_run_async(code)


Unnamed: 0,Instant food products,UHT-milk,abrasive cleaner,artif. sweetener,baby cosmetics,bags,baking powder,bathroom cleaner,beef,berries,...,turkey,vinegar,waffles,whipped/sour cream,whisky,white bread,white wine,whole milk,yogurt,zwieback
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
38760,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
38761,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
38762,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
38763,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [None]:
# Aplica ECLAT para encontrar conjuntos de productos frecuentes
frequent_itemsets = apriori(encoded_dataset, min_support=0.01, max_len=2, use_colnames=True)

  and should_run_async(code)


In [None]:
frequent_itemsets

  and should_run_async(code)


Unnamed: 0,support,itemsets
0,0.013311,(beef)
1,0.017722,(bottled beer)
2,0.024068,(bottled water)
3,0.01473,(brown bread)
4,0.013775,(butter)
5,0.018496,(canned beer)
6,0.010886,(chicken)
7,0.020947,(citrus fruit)
8,0.012279,(coffee)
9,0.013259,(curd)


Usando pyECLAT

In [None]:
%pip install pyECLAT
%pip install numpy
%pip install pandas
%pip install plotly



In [None]:
# importando data set #example2 es un ejemplo propio de puECLAT
from pyECLAT import Example2
# almecenando el dataset a una variable
dataset = Example2().get()
dataset.head()

Unnamed: 0,0,1,2,3,4,5,6
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams
1,burgers,meatballs,eggs,,,,
2,chutney,,,,,,
3,turkey,avocado,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,


In [None]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3001 entries, 0 to 3000
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3001 non-null   object
 1   1       2315 non-null   object
 2   2       1774 non-null   object
 3   3       1374 non-null   object
 4   4       1048 non-null   object
 5   5       775 non-null    object
 6   6       581 non-null    object
dtypes: object(7)
memory usage: 164.2+ KB


In [None]:
# importar modulo ecat
from pyECLAT import ECLAT
# Cargando el DataFrame de transacciones en la clase ECLAT
eclat = ECLAT(data=dataset)
# DataFrame con valores binarios
eclat.df_bin

Unnamed: 0,soda,fresh bread,gluten free bar,milk,burger sauce,french fries,bramble,salmon,green beans,protein bar,...,zucchini,chili,spinach,ground beef,eggplant,chocolate bread,nonfat milk,soup,sandwich,herb & pepper
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2996,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2997,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2998,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
2999,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [None]:
#Conteo de cada item
items_total = eclat.df_bin.astype(int).sum(axis=0)
items_total

soda                18
fresh bread         91
gluten free bar     14
milk               381
burger sauce        20
                  ... 
chocolate bread     10
nonfat milk         29
soup               163
sandwich            12
herb & pepper      151
Length: 119, dtype: int64

In [None]:
# Conteo items por columna
items_per_transaction = eclat.df_bin.astype(int).sum(axis=1)
items_per_transaction

0       7
1       3
2       1
3       2
4       5
       ..
2996    1
2997    2
2998    3
2999    7
3000    5
Length: 3001, dtype: int64

In [None]:
import pandas as pd
# Cargando items por columna stats en el DataFrame
df = pd.DataFrame({'items': items_total.index, 'transactions': items_total.values})
# Clonando el DataFrame por motivos de visualizazion
df_table = df.sort_values("transactions", ascending=False)
#  Top 5 productos mas populares
df_table.head(5).style.background_gradient(cmap='Blues')

Unnamed: 0,items,transactions
53,mineral water,711
94,spaghetti,549
69,eggs,532
74,chocolate,485
5,french fries,463


In [None]:
# Creacion de un tree map
import plotly.express as px
df_table["all"] = "Tree Map"
# creando el tree map usindo plotly
fig = px.treemap(df_table.head(50), path=['all', "items"], values='transactions',
                  color=df_table["transactions"].head(50), hover_data=['items'],
                  color_continuous_scale='Blues',
                )
fig.show()

In [None]:
# El item debera aparecer por lo menos en un 5% de las transacciones
min_support = 5/100
# Usar transacciones que contienen al menos 2 items
min_combination = 2
# número máximo de elementos por transacción.
max_combination = max(items_per_transaction)
rule_indices, rule_supports = eclat.fit(min_support=min_support,
                                                 min_combination=min_combination,
                                                 max_combination=max_combination,
                                                 separator=' & ',
                                                 verbose=True)

Combination 2 by 2


253it [00:01, 232.36it/s]


Combination 3 by 3


1771it [00:08, 207.83it/s]


Combination 4 by 4


8855it [00:45, 192.69it/s]


Combination 5 by 5


33649it [02:59, 187.75it/s]


Combination 6 by 6


100947it [09:41, 173.51it/s]


Combination 7 by 7


245157it [24:01, 170.07it/s]
