### **INTRODUCCIÓN A LA MINERÍA DE DATOS**
#### **Práctica 3: Reglas de asociación**
- **Universidad de Córdoba**
- **Escuela Politécnica Superior de Córdoba**
- **Grado en Ingeniería Informática**
- **Mención: Computación**
- **Cuarto año - Primer cuatrimestre**
- **Autor:** Ventura Lucena Martínez
- **Email:** <i72lumav@uco.es>
---

#### **NOTAS:**

- **Soporte:** número de veces que la regla aparece en nuetro dataset.
- **Confianza:** cuantas veces aparece la regla frente a las veces que aparece el antecedente.
- ***Lift*:** se refiere al aumento en la razón de venta de B cuando se vende A. Mide cuántas veces más aparece el antecedente junto al consecuente que sin él. Lift nos dice que la probabilidad de comprar X e Y juntos es 3.33 veces mayor que la probabilidad de comprar sólo Y. Un lift de 1 significa que no hay asociación entre los productos X e Y. El aumento de más de 1 significa que es más probable que los productos X e Y se compren juntos. Finalmente, Lift de menos de 1 se refiere al caso en el que es poco probable que se compren dos productos juntos.

$L(X \rightarrow Y) = \frac{Confidence(X \rightarrow Y)}{Support(Y)}$

Buscamos reglas con un soporte bajo y confianza alta. Cuando el *lift* también será mejor:

- Soporte ALTO y Confianza ALTA: es una buena regla pero suelen ser Reglas ya conocidas.
- Soporte ALTO y Confianza BAJA: la regla aparece mucho pero no se suele cumplir.
- Soporte BAJO y Confianza BAJA: la regla aparece poco y además no se suele cumplir.
- Soporte BAJO y Confianza ALTA: la regla aparece poco pero cuando aparece se cumple.

In [1]:
from apyori import apriori
import pandas as pd

def apply_apriori_algorithm(path):
	dataset = pd.read_csv(path)
	print(dataset.shape)

	# Transforming the list into a list of lists, so that each transaction can be indexed easier
	transactions = []
	for i in range(0, dataset.shape[0]):
		transactions.append([str(dataset.values[i, j])
							for j in range(0, dataset.shape[1])])


	# Please download this as a custom package --> type "apyori"
	# To load custom packages, do not refresh the page. Instead, click on the reset button on the Console.

	rules = apriori(transactions, min_support=0.005,
					min_confidence=0.25, min_lift=3, min_length=2)
	# Support: number of transactions containing set of times / total number of transactions
	# .      --> products that are bought at least 3 times a day --> 21 / 7501 = 0.0027
	# Confidence: Should not be too high, as then this wil lead to obvious rules

	# Try many combinations of values to experiment with the model

	results = []
	for item in rules:

		# first index of the inner list
		# Contains base item and add item
		pair = item[0]
		items = [x for x in pair]
		#print("Rule: " + items[0] + " -> " + items[1])

		# second index of the inner list
		#print("Support: " + str(item[1]))

		# third index of the list located at 0th
		# of the third index of the inner list

		#print("Confidence: " + str(item[2][0][2]))
		#print("Lift: " + str(item[2][0][3]))
		#print("=====================================")

		results.append(item)


	# viewing the rules
	print(len(results))

	# Transferring the list to a table
	results = pd.DataFrame(results)

	elite = results.head(5)

	elite = elite.sort_values(by=['support'], ascending=True)

	print(elite)
	print()

	for i in elite['ordered_statistics']:
		print(i)
		print()

In [2]:
apply_apriori_algorithm("datasets/store_data.csv")

(7500, 20)
28
                              items   support  \
3       (tomato sauce, ground beef)  0.005333   
0  (escalope, mushroom cream sauce)  0.005733   
1                 (escalope, pasta)  0.005867   
4    (olive oil, whole wheat pasta)  0.008000   
2      (ground beef, herb & pepper)  0.016000   

                                  ordered_statistics  
3  [((tomato sauce), (ground beef), 0.37735849056...  
0  [((mushroom cream sauce), (escalope), 0.300699...  
1  [((pasta), (escalope), 0.37288135593220345, 4....  
4  [((whole wheat pasta), (olive oil), 0.27149321...  
2  [((herb & pepper), (ground beef), 0.3234501347...  

[OrderedStatistic(items_base=frozenset({'tomato sauce'}), items_add=frozenset({'ground beef'}), confidence=0.37735849056603776, lift=3.840147461662528)]

[OrderedStatistic(items_base=frozenset({'mushroom cream sauce'}), items_add=frozenset({'escalope'}), confidence=0.30069930069930073, lift=3.7903273197390845)]

[OrderedStatistic(items_base=frozenset({'pasta

Se identificarán como reglas importantes aquellas en las que el soporte tenga un valor bajo y la confianza tenga un valor alto. Dado que el **soporte** da una referencia de cuánto se cumple una regla en el conjunto y la **confianza** da una referencia de cuántas veces aparece la regla en lugar de únicamente el antecendete, la reglas importantes serán reglas que tengan poca frecuencia de aparición pero que cuando aparece se cumple (aparecen ambos, antecendete y consecuente).

Por tanto, se han identificado las siguientes reglas:

- Regla 1 - Bajo soporte pero baja confianza:
	- Rule: pasta -> shrimp
	- Support: 0.005066666666666666
	- Confidence: 0.3220338983050848
	- Lift: 4.514493901473151

- Regla más interesante - Bajo soporte y alta confianza:
	- Rule: spaghetti -> ground beef
	- Support: 0.006
	- Confidence: 0.5232558139534884
	- Lift: 3.004914704939635

Esta última regla nos indica que los espaguetis y la carne picada se vende con frecuencia, con una confianza que nos indica que es probable que de todas las transacciones que que contienen espaguetis, es probable que el 52.32% de transacciones también contiengan carne picada; y un *lift* con valor 3, que indica que los espaguetis tienen 3 veces más probabilidades de ser comprados por los clientes que compran carne picada que en comparación a su venta por separado (única).

In [3]:
apply_apriori_algorithm("datasets/bank-data-final.csv")

(600, 11)
270
                         items   support  \
2        (43759_max, RURAL, 3)  0.013333   
0       (43759_max, 52_max, 1)  0.026667   
1       (43759_max, 52_max, 2)  0.036667   
4    (43759_max, 52_max, MALE)  0.058333   
3  (43759_max, 52_max, FEMALE)  0.068333   

                                  ordered_statistics  
2  [((43759_max, 3), (RURAL), 1.0, 6.25), ((RURAL...  
0  [((43759_max, 1), (52_max), 1.0, 3.14136125654...  
1  [((43759_max), (52_max, 2), 0.275, 3.510638297...  
4  [((43759_max), (52_max, MALE), 0.4375, 3.28125...  
3  [((43759_max, FEMALE), (52_max), 1.0, 3.141361...  

[OrderedStatistic(items_base=frozenset({'43759_max', '3'}), items_add=frozenset({'RURAL'}), confidence=1.0, lift=6.25), OrderedStatistic(items_base=frozenset({'RURAL', '3'}), items_add=frozenset({'43759_max'}), confidence=0.4444444444444445, lift=3.3333333333333335), OrderedStatistic(items_base=frozenset({'43759_max', 'RURAL'}), items_add=frozenset({'3'}), confidence=0.4, lift=3.52941176

- Regla 2: la mejor combinación encontrada para los productos seleccionados es la siguiente:
{'3', '43759_max'} --> {'RURAL'}
	- Soporte=0.01333
	- Confianza=100%
	- *Lift*=6.25.

- Regla 0: la única regla encontrada es:
{'43759_max', '1'} --> {'52_max'}
	- Soporte=0.026667
	- Confianza=100%
	- *Lift*=3.1413

- Regla 1: la mejor combinación para los productos seleccionados es la siguiente:
{'43759_max', '2'} --> {'52_max'}
	- Soporte=0.036667
	- Confianza=95.65%
	- *Lift*=3.0047

- Regla 4: no importa la combinación a escoger, dado que los valores de las métricas son idénticos
{'43759_max'} --> {'52_max', 'MALE'}
{'MALE', '52_max'} --> {'43759_max'}
	- Soporte=0.058333
	- Confianza=43.75%
	- *Lift*=3.28125

- Regla 3: la única regla encontrada es:
{'43759_max', 'FEMALE'} --> {'52_max'}
	- Soporte=0.068333
	- Confianza=100%
	- *Lift*=3.1413

In [4]:
apply_apriori_algorithm("datasets/car.csv")

(1728, 6)
19
                   items   support  \
0        (2, big, vgood)  0.005787   
3  (high, 2, big, vgood)  0.005787   
4  (high, big, vgood, 3)  0.005787   
2    (high, vgood, more)  0.020255   
1     (high, big, vgood)  0.023148   

                                  ordered_statistics  
0                    [((2, vgood), (big), 1.0, 3.0)]  
3  [((2, vgood), (high, big), 1.0, 6.0), ((high, ...  
4  [((vgood, 3), (high, big), 0.6666666666666666,...  
2  [((vgood), (high, more), 0.5384615384615384, 3...  
1  [((vgood), (high, big), 0.6153846153846153, 3....  

[OrderedStatistic(items_base=frozenset({'2', 'vgood'}), items_add=frozenset({'big'}), confidence=1.0, lift=3.0)]

[OrderedStatistic(items_base=frozenset({'2', 'vgood'}), items_add=frozenset({'high', 'big'}), confidence=1.0, lift=6.0), OrderedStatistic(items_base=frozenset({'high', '2', 'vgood'}), items_add=frozenset({'big'}), confidence=1.0, lift=3.0)]

[OrderedStatistic(items_base=frozenset({'vgood', '3'}), items_add=froze

- Regla 0: la única regla encontrada es:
{'vgood', '2'} --> {'big'}
	- Soporte=0.005787
	- Confianza=100%
	- *Lift*=3

- Regla 3: la mejor combinación para los productos seleccionados es la siguiente:
{'vgood', '2'} --> {'high', 'big'}
	- Soporte=0.005787
	- Confianza=100%
	- *Lift*=6

- Regla 4: la única regla encontrada es:
{'vgood', '3'} --> {'high', 'big'}
	- Soporte=0.005787
	- Confianza=66.66%
	- *Lift*=4

- Regla 2: la única regla encontrada es:
{'vgood'} --> {'high', 'more'}
	- Soporte=0.020255
	- Confianza=53.84%
	- *Lift*=3.2307

- Regla 1: la única regla encontrada es:
{'vgood'} --> {'high', 'big'}
	- Soporte=0.023148
	- Confianza=61.53%
	- *Lift*=3.6923