In [2]:
import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

#df = pd.read_excel('http://archive.ics.uci.edu/ml/machine-learning-databases/00352/Online Retail.xlsx')

df = pd.read_excel('learningMachineLearning/14zOnline Retail.xlsx')

df.head()

#para ordenar un poco los datos hay que eliminar algunas de las descripciones. También eliminaremos las filas que no tienen número de factura y eliminaremos las transacciones de crédito (aquellas con números de factura que contengan C).

df['Description'] = df['Description'].str.strip()
df.dropna(axis=0, subset=['InvoiceNo'], inplace=True)
df['InvoiceNo']=df['InvoiceNo'].astype('str')
df=df[~df['InvoiceNo'].str.contains('C')]


#después de la limpieza, necesitamos consolidar los elementos en 1 transacción por fila con cada producto codificado en ONE HOT. E n aras de mantener el conjunto de datos pequeño, sólo trabajaremos con las ventas de Francia. Sin embargo, en el código después se compararán estos resultados con las ventas de Alemania. Sería interesante investigar más comparaciones de paises.


basket = df[df['Country'] == "France"].groupby(['InvoiceNo', 'Description'])['Quantity'].sum().unstack().reset_index().fillna(0).set_index('InvoiceNo')

#hay muchos ceros en los datos, pero también debemos asegurarnos de que los valores positivos se conviertan en 1 y cualquier cosa menos que el 0 se establezca en 0. Este paso completará la codificacion ONE HOT de los datos y eliminará la columna de franqueo - postage (ya que ese cargo no es uno que deseemos explorar):

def encode_units(x):
    if x <= 0:
        return 0
    if x >= 1:
        return 1

basket_sets = basket.applymap(encode_units)
basket_sets.drop('POSTAGE', inplace=True, axis=1)

#ahora que los datos están estructurados correctamente, podemos generar conjuntos de elementos frecuentes que tengan un soporte de al menos el 7% (este numero nos permite obtener suficientes ejemplos útiles):

frequent_itemsets = apriori(basket_sets, min_support=0.07, use_colnames=True)

#el paso final es generar las reglas con su correspondiente apoyo, confianza y lift:

rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)
rules.head()

#ahora viene la parte de interpretar los datos. Por ejemplo, podemos ver que hay bastantes reglas con un alto valor de elevación, lo que significa que ocurre con más frecuencua de lo que cabría esperar dado el número de combinaciones de transacciones y productos. También podemos ver varios datos donde la confianza es alta también. Esta parte del análisis es donde el conocimiento del dominio será útil.

#podemos filtrar el dataframe usando código pandas estándar. En este caso, buscamos un lift grande (6) y una alta confianza(.8):

rules[(rules['lift'] >= 6) & (rules['confidence'] >= 0.8)]



Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
2,(ALARM CLOCK BAKELIKE RED),(ALARM CLOCK BAKELIKE GREEN),0.094388,0.096939,0.079082,0.837838,8.642959,0.069932,5.568878
3,(ALARM CLOCK BAKELIKE GREEN),(ALARM CLOCK BAKELIKE RED),0.096939,0.094388,0.079082,0.815789,8.642959,0.069932,4.916181
17,(SET/6 RED SPOTTY PAPER PLATES),(SET/20 RED RETROSPOT PAPER NAPKINS),0.127551,0.132653,0.102041,0.8,6.030769,0.085121,4.336735
18,(SET/6 RED SPOTTY PAPER CUPS),(SET/6 RED SPOTTY PAPER PLATES),0.137755,0.127551,0.122449,0.888889,6.968889,0.104878,7.852041
19,(SET/6 RED SPOTTY PAPER PLATES),(SET/6 RED SPOTTY PAPER CUPS),0.127551,0.137755,0.122449,0.96,6.968889,0.104878,21.556122
20,"(SET/20 RED RETROSPOT PAPER NAPKINS, SET/6 RED...",(SET/6 RED SPOTTY PAPER PLATES),0.102041,0.127551,0.09949,0.975,7.644,0.086474,34.897959
21,"(SET/20 RED RETROSPOT PAPER NAPKINS, SET/6 RED...",(SET/6 RED SPOTTY PAPER CUPS),0.102041,0.137755,0.09949,0.975,7.077778,0.085433,34.489796
22,"(SET/6 RED SPOTTY PAPER CUPS, SET/6 RED SPOTTY...",(SET/20 RED RETROSPOT PAPER NAPKINS),0.122449,0.132653,0.09949,0.8125,6.125,0.083247,4.62585
