<a href="https://colab.research.google.com/github/rasecotineb/datascience/blob/master/datamining/Itemset_Pattern.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Frequent Itemset Pattern Mining

In [None]:
#Se instala la librería pymining si es necesario
#pip install pymining
import sys
!{sys.executable} -m pip install --user pymining

Collecting pymining
  Downloading https://files.pythonhosted.org/packages/8d/e2/0bd08d25d0a72e1a32b2665b7a1395ae7b7e6beba748f8aaaecc89515598/pymining-0.2-py2.py3-none-any.whl
Installing collected packages: pymining
Successfully installed pymining-0.2


In [3]:
#setea para la sesion la ruta relativa donde se encuentra el modulo "prefixspan"
sys.path.insert(1, "/root/.local/lib/python3.6/site-packages")

In [4]:
#Se importa el módulo itemmining
from pymining import itemmining
#Crea base de datos de transacciones
transactions = (('a', 'b', 'c'), ('b'), ('a'), ('a', 'c', 'd'), ('b', 'c'), ('b', 'c'))
transactions

(('a', 'b', 'c'), 'b', 'a', ('a', 'c', 'd'), ('b', 'c'), ('b', 'c'))

In [6]:
#Se extraer el conjunto de itemset frecuente
relim_input = itemmining.get_relim_input(transactions)
#min_support es el "sigma" (soporte minimo absoluto) -> Los elementos del itemset deben aparecer al menos 2 veces en las transacciones
item_sets = itemmining.relim(relim_input, min_support=2)
#print (item_sets)
for itemset in item_sets:
  print (itemset)

frozenset({'a'})
frozenset({'c', 'a'})
frozenset({'b'})
frozenset({'c', 'b'})
frozenset({'c'})


In [7]:
#Importa modulo para implementar reglas de asociacion
from pymining import assocrules
#se construyen las reglas de asociacion
rules = assocrules.mine_assoc_rules(item_sets, min_support=2, min_confidence=0.5)
for rule in rules:
  print (rule)



(frozenset({'a'}), frozenset({'c'}), 2, 0.6666666666666666)
(frozenset({'c'}), frozenset({'a'}), 2, 0.5)
(frozenset({'b'}), frozenset({'c'}), 3, 0.75)
(frozenset({'c'}), frozenset({'b'}), 3, 0.75)


#Trabajo en Clase


Como ya discutimos en clases teoricas, el pre-procesamiento de los datos es una etapa importante, la
cual consume mucho tiempo (ahora veremos por qué). Para este trabajo práctico, tenemos una muy pequeña
base de transacciones la cual representa la compra realizada por 50 clientes durante 1 mes. Dichos clientes,
solamente podían escoger entre 20 productos de un catálogo en línea, es decir, que tenemos solamente 20
items representados por sus códigos numéricos. Por ejemplo, el item 12 representa el producto lentes de sol.
Los datos los podran encontrar en el archivo ***Datos Compras.csv.***
En este trabajo se pide:
1. Importar el archivo csv en python mediante Pandas
2. Mostrar la información siguiente:
a) La transacción con mayor número de objetos comprados.
b) El promedio del número de items comprados en la base de transacciones.
c) El producto más vendido.
d) El producto menos vendido.
3. Transformar el dataframe de Pandas en un el formato que pueda ser leído por la librería pymining (ver
Sección 2).
4. Extraer las reglas de asociación existentes en los datos. Probar con diferentes umbrales, por ejemplo,
puede ser muy específico (valores altos para el soporte minimal y para la confianza minimal).
5. Utilice diferentes valores en los umbrales para encontrar la cantidad “correcta” de patrones
6. Implemente un algoritmo que, a partir del vector de reglas de asociación, selecciones los top-5 patrones.
Puede usar diferentes criterios, por ejemplo, aquellos que contienen la mayor cantidad de items o
aquellos que tienen una mayor confianza, o incluso, aquellos que contienen un producto en especial.
Respalde su respuesta.

In [8]:
import pandas as pd
from pymining import itemmining
from pymining import assocrules

df = pd.read_csv('https://drive.google.com/uc?id=15S4lUzXkT0J6xZksZJTCtmdFPJIVbTRS&export=download', header=None)
df


Unnamed: 0,0,1,2,3,4,5,6,7,8
0,T1,6,3.0,1.0,9.0,,,,
1,T2,13,17.0,10.0,2.0,16.0,4.0,,
2,T3,15,9.0,4.0,,,,,
3,T4,11,18.0,,,,,,
4,T5,16,7.0,11.0,14.0,10.0,9.0,12.0,4.0
5,T6,16,20.0,2.0,15.0,,,,
6,T7,7,20.0,17.0,2.0,10.0,16.0,,
7,T8,6,20.0,2.0,18.0,11.0,7.0,19.0,
8,T9,2,,,,,,,
9,T10,12,16.0,14.0,5.0,13.0,,,


In [None]:
#Se obtienen las transacciones con el mayor número de items comprados
serie = df.groupby(by=0).count().sum(axis=1).sort_values(ascending= False)
serie

0
T5     8
T49    8
T12    8
T41    8
T23    7
T36    7
T27    7
T14    7
T32    7
T34    7
T30    7
T42    7
T8     7
T31    6
T21    6
T2     6
T35    6
T50    6
T7     6
T28    5
T26    5
T29    5
T25    5
T20    5
T40    5
T16    5
T15    5
T10    5
T19    4
T17    4
T22    4
T13    4
T18    4
T1     4
T48    4
T6     4
T24    3
T3     3
T43    3
T44    3
T11    3
T33    2
T39    2
T4     2
T45    2
T46    2
T37    1
T38    1
T47    1
T9     1
dtype: int64

In [None]:
#Promedio de numero de items por transaccion
promedio = serie.sum()/len(serie)
promedio


4.74

In [None]:
#El producto mas vendido. 
cols=[1,2,3,4,5,6,7,8]
suma = pd.Series()
for i in cols:
  res = df[i].value_counts()  
#Suma de series
  suma = suma.add(res, fill_value=0)
suma.sort_values(ascending=False)

  This is separate from the ipykernel package so we can avoid doing imports until


20.0    22.0
11.0    18.0
1.0     16.0
2.0     15.0
13.0    15.0
4.0     14.0
3.0     12.0
8.0     12.0
7.0     11.0
10.0    11.0
16.0    11.0
18.0    11.0
12.0    10.0
17.0    10.0
6.0      9.0
9.0      8.0
14.0     8.0
5.0      8.0
19.0     7.0
15.0     7.0
0.0      2.0
dtype: float64

Como resultado se obtiene que el más vendido es el **item 20** con 22 unidades y el  menos vendido es el **item 0** con 2 unidades

In [None]:
#Se transforma el dataframe al formato de tupla/lista considerando las columnas que contiene los items comprados
cols = [1,2,3,4,5,6,7,8]
transacciones = tuple(df[cols].to_records(index=False).tolist())
#Es necesario eliminar los valores 'nan' para poder procesar posteriormente las reglas de asociacion
trans = []   #lista vacia

for i in range(0,len(transacciones)):
# Convierte a serie cada uno de los registros y elimina los 'nan'. Los añade a una lista de tuplas
  trans.append(tuple(pd.Series(transacciones[i]).dropna()))  
#Ahora convierte la lista de tuplas en una tupla de tuplas  
trans = tuple(trans)
trans

((6.0, 3.0, 1.0, 9.0),
 (13.0, 17.0, 10.0, 2.0, 16.0, 4.0),
 (15.0, 9.0, 4.0),
 (11.0, 18.0),
 (16.0, 7.0, 11.0, 14.0, 10.0, 9.0, 12.0, 4.0),
 (16.0, 20.0, 2.0, 15.0),
 (7.0, 20.0, 17.0, 2.0, 10.0, 16.0),
 (6.0, 20.0, 2.0, 18.0, 11.0, 7.0, 19.0),
 (2.0,),
 (12.0, 16.0, 14.0, 5.0, 13.0),
 (18.0, 19.0, 4.0),
 (7.0, 13.0, 3.0, 4.0, 8.0, 1.0, 20.0, 2.0),
 (20.0, 15.0, 17.0, 4.0),
 (10.0, 3.0, 14.0, 15.0, 12.0, 19.0, 17.0),
 (1.0, 14.0, 16.0, 8.0, 18.0),
 (1.0, 13.0, 3.0, 18.0, 11.0),
 (7.0, 1.0, 20.0, 4.0),
 (11.0, 1.0, 7.0, 20.0),
 (7.0, 6.0, 13.0, 3.0),
 (4.0, 1.0, 8.0, 20.0, 1.0),
 (5.0, 7.0, 17.0, 20.0, 11.0, 12.0),
 (4.0, 11.0, 1.0, 8.0),
 (5.0, 2.0, 6.0, 20.0, 14.0, 1.0, 15.0),
 (13.0, 18.0, 6.0),
 (10.0, 5.0, 16.0, 4.0, 13.0),
 (2.0, 11.0, 13.0, 19.0, 2.0),
 (11.0, 8.0, 9.0, 12.0, 1.0, 13.0, 20.0),
 (13.0, 0.0, 16.0, 3.0, 15.0),
 (10.0, 2.0, 9.0, 5.0, 11.0),
 (2.0, 6.0, 16.0, 12.0, 8.0, 11.0, 3.0),
 (16.0, 14.0, 10.0, 9.0, 3.0, 15.0),
 (12.0, 20.0, 8.0, 1.0, 12.0, 13.0, 3.0),
 (17.0

In [None]:
#Se extraer el conjunto de itemset frecuente
relim_input = itemmining.get_relim_input(trans)
#min_support es el "sigma" (soporte minimo absoluto) -> Los elementos del itemset deben aparecer al menos N veces en las transacciones
min_support = 5
item_sets = itemmining.relim(relim_input, min_support=min_support)

for itemset in item_sets:
  print (itemset)

frozenset({15.0})
frozenset({19.0})
frozenset({5.0})
frozenset({9.0})
frozenset({9.0, 11.0})
frozenset({14.0})
frozenset({6.0})
frozenset({2.0, 6.0})
frozenset({20.0, 6.0})
frozenset({12.0})
frozenset({11.0, 12.0})
frozenset({17.0})
frozenset({17.0, 11.0})
frozenset({17.0, 20.0})
frozenset({7.0})
frozenset({11.0, 7.0})
frozenset({20.0, 7.0})
frozenset({10.0})
frozenset({16.0, 10.0})
frozenset({10.0, 4.0})
frozenset({16.0})
frozenset({18.0})
frozenset({18.0, 11.0})
frozenset({18.0, 20.0})
frozenset({3.0})
frozenset({3.0, 13.0})
frozenset({1.0, 3.0})
frozenset({8.0})
frozenset({8.0, 1.0})
frozenset({8.0, 1.0, 20.0})
frozenset({8.0, 11.0})
frozenset({8.0, 20.0})
frozenset({2.0})
frozenset({2.0, 13.0})
frozenset({2.0, 11.0})
frozenset({2.0, 20.0})
frozenset({4.0})
frozenset({1.0, 4.0})
frozenset({4.0, 20.0})
frozenset({13.0})
frozenset({20.0, 13.0})
frozenset({1.0})
frozenset({1.0, 11.0})
frozenset({1.0, 11.0, 20.0})
frozenset({1.0, 20.0})
frozenset({11.0})
frozenset({11.0, 20.0})
frozense

In [None]:
#se construyen las reglas de asociacion con un nivel de confianza X
min_confidence = 0.7
rules = assocrules.mine_assoc_rules(item_sets, min_support=min_support, min_confidence=min_confidence)
for rule in rules:
  print (rule)

(frozenset({7.0}), frozenset({20.0}), 9, 0.8181818181818182)


In [None]:
#Se convierte el objeto lista que contiene la regla de asociacion a DataFrame
df_rule=pd.DataFrame(rules)
#Se procede a ordenar por el nivel de confianza y luego por la cantidad de incidencias que se cumple la regla de asociacion
df_rule.sort_values(ascending=False,by=[3,2])

Unnamed: 0,0,1,2,3
2,"(2.0, 7.0)",(20.0),4,1.0
3,"(1.0, 7.0)",(20.0),4,1.0
6,"(8.0, 4.0)",(1.0),4,1.0
7,"(8.0, 13.0)",(20.0),4,1.0
8,(7.0),(20.0),9,0.818182
0,"(20.0, 6.0)",(2.0),4,0.8
1,"(2.0, 6.0)",(20.0),4,0.8
4,"(11.0, 7.0)",(20.0),4,0.8
5,"(1.0, 4.0)",(8.0),4,0.8
