<h1><center> Frequent Itemset Mining </center></h1>

Para este exercício exploramos os dados de uma competição no Kaggle, disponível no link abaixo:

https://www.kaggle.com/c/instacart-market-basket-analysis

A empresa Instacart fornece serviços de compra e entrega através de um App. Entre seus objetivos estão identificar quais produtos os clientes:

- Comprariam novamente;
- Tentariam usar pela primeira vez;
- Deixariam para a próxima compra;

Usaremos a base transacional fornecida para buscar regras de associação. A idéia é buscar produtos que são frequentemente comprados em conjunto para orientar estratégias de cross-selling.

Para não implementar o algoritmo do zero, a biblioteca MLxtend será aplicada. Segue abaixo o link com detalhes da sua instalação no ambiente Anaconda;

https://anaconda.org/conda-forge/mlxtend

## Carregando os dados

In [87]:
import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules
import gc

Carrega cestas de compra em um dataframe. Em função do volume de dados frequentemente usaremos estratégias para reduzir o uso de memória. Neste caso carregamos apenas as colunas indispensáveis: código da compra e do produto.

In [88]:
url = r"https://raw.githubusercontent.com/brvnl/AplicacoesAprendizadoMaquina/main/order_products__train.csv"
df_raw = pd.read_csv(url, usecols=["order_id", "product_id"])

Checando o número de linhas, colunas e a memória ocupada:

In [89]:
df_raw.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1384617 entries, 0 to 1384616
Data columns (total 2 columns):
 #   Column      Non-Null Count    Dtype
---  ------      --------------    -----
 0   order_id    1384617 non-null  int64
 1   product_id  1384617 non-null  int64
dtypes: int64(2)
memory usage: 21.1 MB


Analisando uma amostra dos dados:

In [55]:
df_raw.head(3)

Unnamed: 0,order_id,product_id
0,1,49302
1,1,11109
2,1,10246


Verificando carcaterísticas do dataset:

In [56]:
print("Quantas compras diferentes? %d." %(len(df_raw["order_id"].unique())))
print("Quantos produtos diferentes? %d." %(len(df_raw["product_id"].unique())))

Quantas compras diferentes? 131209.
Quantos produtos diferentes? 39123.


Carregando tabela com nomes dos produtos e convertendo em um dicionário:

In [90]:
url_p = r"https://raw.githubusercontent.com/brvnl/AplicacoesAprendizadoMaquina/main/products.csv"
df_products_lookup = pd.read_csv(url_p)

d = dict(zip(df_products_lookup["product_id"], df_products_lookup["product_name"]))
del df_products_lookup

# Filtrando os dados

Por questão de uso de memória, pode ser necessário executar a análise por partes. Para isso, o código abaixo permite filtrar apenas compras/produtos de uma ilha ou departamento.

In [91]:
def filter_aisle_department(df, aisle = None, department = None):
    url = r"https://github.com/brvnl/AplicacoesAprendizadoMaquina/blob/main/product_aisle_department_lookup.xlsx?raw=true"
    
    if aisle is not None:
        dft = pd.read_excel(url, sheet_name="Products", usecols=["product_id", "aisle"])
        dft = pd.merge(df, dft, left_on="product_id", right_on="product_id")
        dft = dft[dft["aisle"].isin(aisle)]
        dft.drop(columns="aisle", inplace=True)
        
    elif department is not None:
        dft = pd.read_excel(url, sheet_name="Products", usecols=["product_id", "department"])
        dft = pd.merge(df, dft, left_on="product_id", right_on="product_id")
        dft = dft[dft["department"].isin(department)]
        dft.drop(columns="department", inplace=True)
    
    else:
        dft = df
    
    print("Quantas compras diferentes? %d." %(len(dft["order_id"].unique())))
    print("Quantos produtos diferentes? %d." %(len(dft["product_id"].unique())))
    
    return dft

- Os parametros aisle e department devem ser sempre **None** ou na forma de lista (mesmo com um único elemento). 
- Na implementação atual o fitro ocorre ou por ilha ou por departamento, mas não junto. Adapte o código caso deseje o filtor duplo.

Segue abaixo alguns exemplos de uso:

In [129]:
url = r"https://raw.githubusercontent.com/brvnl/AplicacoesAprendizadoMaquina/main/order_products__train.csv"
df_raw = pd.read_csv(url, usecols=["order_id", "product_id"])

# Ex1.: Procurando relações entre produtos nos departamentos "personal care", "meat seafood", "missing"
df_raw = filter_aisle_department(df_raw, aisle = None, department = ["personal care"])

# Ex2.: Procurando relações entre produtos na ilha de congelados
#df_raw = filter_aisle_department(df_raw, aisle = ["frozen meals"], department = None)

Quantas compras diferentes? 14908.
Quantos produtos diferentes? 4314.


## Ajustando o layout

Como estamos interessados em analisar características das compras individualmente, precisamos transformar os dados de forma que cada registro represente uma ordem. Para isso vamos distribuir o **order_id** nas linhas e **product_id** nas colunas com codificação One Hot Encoding. 

Poderiamos usar a coluna **add_to_cart_order** como valor, mas como só nos interessa se o produto foi comprado ou não, adicionamos uma nova coluna com a flag **1** nos produtos, que irá será usada para o One Hot Encoding.

In [130]:
df_raw["comprado"] = 1

Abaixo executamos o pivot table para obter o novo layout. Nesta etapa o uso de memória cresce bastante, passando facilmente dos 16Gb de Ram. Para controlar este comportamento, ajuste a quantidade de linhas na função _head()_.

In [155]:
# Para dados full podemos filtrar pela função head.
#df1 = df_raw.sample(40000).pivot_table(index='order_id', columns='product_id', values="comprado", fill_value=0)

# Caso os dados já estejam previamente filtrados podemos usar o dataframe diretamente
df1 = df_raw.pivot_table(index='order_id', columns='product_id', values="comprado", fill_value=0)

Verificando quantidade de linhas, colunas e memória consumida pelo dataframe:

In [163]:
df1.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
Int64Index: 14908 entries, 98 to 3420857
Columns: 4314 entries, 13 to 49688
dtypes: int64(4314)
memory usage: 490.8 MB


**_Caso o dataframe estaja ocupando muita memoria, execute o comando abaixo para desalocar RAM e tente uma quantidade menor de linhas no código de pivoteamento da tabela. Caso o uso de memória não diminua, reinicie o kernel do jupyter e execute o código desde o início._**

In [154]:
del df1
gc.collect()

299

## Buscando regras com APRIORI

A biblioteca MLxtend trabalha com a mineração de regras em duas etapas:

- Na primeira são procurados conjuntos frequentes de acordo com um threshold para a métrica __suporte__.
- Na segunda etapa são avaliados dentre os conjuntos identificados, quais atendem um threshold mínimo de uma outra variável.

Mais detalhes sobre o uso da biblioteca estão disponíveis no link:
http://rasbt.github.io/mlxtend/api_subpackages/mlxtend.frequent_patterns/

In [164]:
# Acha os conjuntos frequentes que atendem um suporte minimo (%)
frequent_itemsets = apriori(df1, min_support=0.009)

# Filtra os conjuntos pela métrica confiança
if len(frequent_itemsets):
    selected = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.02)
else:
    print("Não há itemsets que atendam ao mínimo suporte fornecido.")

Abaixo apresentamos os resultados, trocando os códigos dos produtos por sua descrição.

In [160]:
def int_from_frozenset(row):
    return d[list(row)[0]]

if len(frequent_itemsets):
    selected["antecedents_name"] = selected["antecedents"].apply(int_from_frozenset)
    selected["consequents_name"] = selected["consequents"].apply(int_from_frozenset)
    selected.drop(columns=["antecedents", "consequents"])
else:
    print("Não há itemsets que atendam ao mínimo suporte fornecido.")

## Relações encontradas

Descreva no campo abaixo as relações mais interessantes encontradas e como você chegou a elas.

Sua resposta:

In [196]:
# COLUNA MISSING

url = r"https://raw.githubusercontent.com/brvnl/AplicacoesAprendizadoMaquina/main/order_products__train.csv"
df_raw = pd.read_csv(url, usecols=["order_id", "product_id"])

# Ex1.: Procurando relações entre produtos nos departamentos "personal care", "meat seafood", "missing"
df_raw = filter_aisle_department(df_raw, aisle = None, department = ["missing"])
df_raw["comprado"] = 1

# Caso os dados já estejam previamente filtrados podemos usar o dataframe diretamente
df1 = df_raw.pivot_table(index='order_id', columns='product_id', values="comprado", fill_value=0)


# Acha os conjuntos frequentes que atendem um suporte minimo (%)
frequent_itemsets = apriori(df1, min_support=0.0006)

# Filtra os conjuntos pela métrica confiança
if len(frequent_itemsets):
    selected = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.02)
else:
    print("Não há itemsets que atendam ao mínimo suporte fornecido.")
    
if len(frequent_itemsets):
    selected["antecedents_name"] = selected["antecedents"].apply(int_from_frozenset)
    selected["consequents_name"] = selected["consequents"].apply(int_from_frozenset)
    selected.drop(columns=["antecedents", "consequents"])
else:
    print("Não há itemsets que atendam ao mínimo suporte fornecido.")
    

selected[selected['support'] == max(selected['support'])]

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,antecedents_name,consequents_name
34,(211),(110),0.028126,0.037646,0.006635,0.235897,6.266195,0.005576,1.259457,Gluten Free Organic Cereal Coconut Maple Vanilla,Uncured Turkey Bologna
35,(110),(211),0.037646,0.028126,0.006635,0.176245,6.266195,0.005576,1.179809,Uncured Turkey Bologna,Gluten Free Organic Cereal Coconut Maple Vanilla


In [197]:
# COLUNA "personal care"

url = r"https://raw.githubusercontent.com/brvnl/AplicacoesAprendizadoMaquina/main/order_products__train.csv"
df_raw = pd.read_csv(url, usecols=["order_id", "product_id"])

# Ex1.: Procurando relações entre produtos nos departamentos "personal care", "meat seafood", "missing"
df_raw = filter_aisle_department(df_raw, aisle = None, department = ["personal care"])
df_raw["comprado"] = 1

# Caso os dados já estejam previamente filtrados podemos usar o dataframe diretamente
df1 = df_raw.pivot_table(index='order_id', columns='product_id', values="comprado", fill_value=0)


# Acha os conjuntos frequentes que atendem um suporte minimo (%)
frequent_itemsets = apriori(df1, min_support=0.005)

# Filtra os conjuntos pela métrica confiança
if len(frequent_itemsets):
    selected = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.02)
else:
    print("Não há itemsets que atendam ao mínimo suporte fornecido.")
    
if len(frequent_itemsets):
    selected["antecedents_name"] = selected["antecedents"].apply(int_from_frozenset)
    selected["consequents_name"] = selected["consequents"].apply(int_from_frozenset)
    selected.drop(columns=["antecedents", "consequents"])
else:
    print("Não há itemsets que atendam ao mínimo suporte fornecido.")
    
if len(selected):
    selected[selected['support'] == max(selected['support'])]

Quantas compras diferentes? 14908.
Quantos produtos diferentes? 4314.


ValueError: max() arg is an empty sequence