# Regras de Associação

- [apriori](http://rasbt.github.io/mlxtend/user_guide/frequent_patterns/apriori/)
- [association_rules](http://rasbt.github.io/mlxtend/user_guide/frequent_patterns/association_rules/)

## Carregar Bibliotecas

In [3]:
import pandas as pd 
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules

## Exemplo 

- Conjunto de dados de exemplo, uma lista de compras

In [6]:
dataset = [
    ['Milk', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs', 'Yogurt'],
    ['Dill', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs', 'Yogurt'],
    ['Milk', 'Apple', 'Kidney Beans', 'Eggs'],
    ['Milk', 'Unicorn', 'Corn', 'Kidney Beans', 'Yogurt'],
    ['Milk', 'Onion', 'Onion', 'Kidney Beans', 'IceCream', 'Eggs']
]

## Transformar uma Lista em Formato de Transação

In [7]:
encoder = TransactionEncoder()
transactions = encoder.fit(dataset).transform(dataset)
df = pd.DataFrame(transactions, columns=encoder.columns_)
df.head()

Unnamed: 0,Apple,Corn,Dill,Eggs,IceCream,Kidney Beans,Milk,Nutmeg,Onion,Unicorn,Yogurt
0,False,False,False,True,False,True,True,True,True,False,True
1,False,False,True,True,False,True,False,True,True,False,True
2,True,False,False,True,False,True,True,False,False,False,False
3,False,True,False,False,False,True,True,False,False,True,True
4,False,False,False,True,True,True,True,False,True,False,False


## Itemsets frequentes

- O algoritmo **apriori** retorna os itemsets mais frequêntes dentre as transações
- **min_support**: float (padrão: 0,5) - Uma flutuação entre 0 e 1 para suporte mínimo dos conjuntos de itens retornados. O suporte é calculado como a fração transaction_where_item (s) _occur / total_transactions.
- **use_colnames**: bool (padrão: False) - Se True, usa os nomes das colunas dos DataFrames no DataFrame retornado em vez dos índices das colunas.
- **max_len**: int (padrão: nenhum) - Comprimento máximo dos conjuntos de itens gerados. Se Nenhum (padrão), todos os comprimentos de conjuntos de itens possíveis (sob a condição a priori) são avaliados.
- **detalhado**: int (padrão: 0) - Mostra o número de iterações se> = 1 e low_memory for True. Se = 1 e low_memory é False, mostra o número de combinações.
- **low_memory**: bool (padrão: False) - Se True, usa um iterador para pesquisar combinações acima de min_support. Observe que embora low_memory = True só deve ser usado para grandes conjuntos de dados se os recursos de memória forem limitados, porque esta implementação é de aprox. 3-6x mais lento que o padrão 

In [8]:
freq_itemset = apriori(
    df,
    min_support=0.6,
    use_colnames=True
)

freq_itemset

Unnamed: 0,support,itemsets
0,0.8,(Eggs)
1,1.0,(Kidney Beans)
2,0.8,(Milk)
3,0.6,(Onion)
4,0.6,(Yogurt)
5,0.8,"(Kidney Beans, Eggs)"
6,0.6,"(Eggs, Milk)"
7,0.6,"(Eggs, Onion)"
8,0.8,"(Kidney Beans, Milk)"
9,0.6,"(Kidney Beans, Onion)"


## Calcular a Regra de Associação

- Precisamos usar os itemsets frequentes como entrada para a função **association_rules**
    - **metric** - Metrica que deve ser usada para avaliar os associações
    - **min_threshold** - O valor mínimo para a métrica do itemset ser considerado

In [9]:
rules = association_rules(
    freq_itemset,
    metric='confidence',
    min_threshold=0.1
)

rules

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(Kidney Beans),(Eggs),1.0,0.8,0.8,0.8,1.0,0.0,1.0
1,(Eggs),(Kidney Beans),0.8,1.0,0.8,1.0,1.0,0.0,inf
2,(Eggs),(Milk),0.8,0.8,0.6,0.75,0.9375,-0.04,0.8
3,(Milk),(Eggs),0.8,0.8,0.6,0.75,0.9375,-0.04,0.8
4,(Eggs),(Onion),0.8,0.6,0.6,0.75,1.25,0.12,1.6
5,(Onion),(Eggs),0.6,0.8,0.6,1.0,1.25,0.12,inf
6,(Kidney Beans),(Milk),1.0,0.8,0.8,0.8,1.0,0.0,1.0
7,(Milk),(Kidney Beans),0.8,1.0,0.8,1.0,1.0,0.0,inf
8,(Kidney Beans),(Onion),1.0,0.6,0.6,0.6,1.0,0.0,1.0
9,(Onion),(Kidney Beans),0.6,1.0,0.6,1.0,1.0,0.0,inf


# Exemplo 02

## Carregar Base de Dados

In [10]:
df = pd.read_excel('../datasets/Online Retail.xlsx')
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


## Pré-processamento de Dados

1. Remover espaços em branco do começo e do fim da descrição, para evitar os mesmos produtos sejam considerados diferentes. 
    - A função **strip** remove os espaços sobrando
2. Remover linhas que não possuem Identificador
3. Converter ID para String
4. Criar uma cesta da França, agrupando o ID com Description e filtrando valores nulos por 5. Converter a quantidade de itens vendidos para 1 (venda), e caso seja 0, devemos manter.
6. Remover a Coluna POSTAGE - que indica o local de envio, e não um produto.

In [12]:
# 1
df['Description'] = df['Description'].str.strip()

# 2
df.dropna(axis=0, subset=['InvoiceNo'], inplace=True)

# 3
df['InvoiceNo'] = df['InvoiceNo'].astype('str')

# 4
france_itemsets = (
    df[df['Country'] == 'France']
    .groupby(['InvoiceNo', 'Description'])['Quantity']
    .sum().unstack().reset_index().fillna(0)
    .set_index('InvoiceNo')
)

#5
def encode_units(x):
    if x <= 0:
        return 0
    else: 
        return 1
    
france_itemsets = france_itemsets.applymap(encode_units)

#6
france_itemsets.drop('POSTAGE', inplace=True, axis=1)
france_itemsets.head()

Description,10 COLOUR SPACEBOY PEN,12 COLOURED PARTY BALLOONS,12 EGG HOUSE PAINTED WOOD,12 MESSAGE CARDS WITH ENVELOPES,12 PENCIL SMALL TUBE WOODLAND,12 PENCILS SMALL TUBE RED RETROSPOT,12 PENCILS SMALL TUBE SKULL,12 PENCILS TALL TUBE POSY,12 PENCILS TALL TUBE RED RETROSPOT,12 PENCILS TALL TUBE WOODLAND,...,WRAP VINTAGE PETALS DESIGN,YELLOW COAT RACK PARIS FASHION,YELLOW GIANT GARDEN THERMOMETER,YELLOW SHARK HELICOPTER,ZINC STAR T-LIGHT HOLDER,ZINC FOLKART SLEIGH BELLS,ZINC HERB GARDEN CONTAINER,ZINC METAL HEART DECORATION,ZINC T-LIGHT HOLDER STAR LARGE,ZINC T-LIGHT HOLDER STARS SMALL
InvoiceNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
536370,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
536852,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
536974,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
537065,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
537463,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


## Itemsets frequentes

- O algoritmo **apriori** retorna os itemsets mais frequêntes dentre as transações
- **min_support**: float (padrão: 0,5) - Uma flutuação entre 0 e 1 para suporte mínimo dos conjuntos de itens retornados. O suporte é calculado como a fração transaction_where_item (s) _occur / total_transactions.
- **use_colnames**: bool (padrão: False) - Se True, usa os nomes das colunas dos DataFrames no DataFrame retornado em vez dos índices das colunas.
- **max_len**: int (padrão: nenhum) - Comprimento máximo dos conjuntos de itens gerados. Se Nenhum (padrão), todos os comprimentos de conjuntos de itens possíveis (sob a condição a priori) são avaliados.
- **detalhado**: int (padrão: 0) - Mostra o número de iterações se> = 1 e low_memory for True. Se = 1 e low_memory é False, mostra o número de combinações.
- **low_memory**: bool (padrão: False) - Se True, usa um iterador para pesquisar combinações acima de min_support. Observe que embora low_memory = True só deve ser usado para grandes conjuntos de dados se os recursos de memória forem limitados, porque esta implementação é de aprox. 3-6x mais lento que o padrão 

In [13]:
freq_france_itemset = apriori(
    france_itemsets,
    min_support=0.02,
    use_colnames=True
)

freq_france_itemset

Unnamed: 0,support,itemsets
0,0.026030,(10 COLOUR SPACEBOY PEN)
1,0.030369,(3 PIECE SPACEBOY COOKIE CUTTER SET)
2,0.039046,(36 PENCILS TUBE RED RETROSPOT)
3,0.060738,(4 TRADITIONAL SPINNING TOPS)
4,0.021692,(6 GIFT TAGS VINTAGE CHRISTMAS)
...,...,...
800,0.026030,"(SET/6 RED SPOTTY PAPER CUPS, PACK OF 6 SKULL ..."
801,0.023861,"(SET/6 RED SPOTTY PAPER CUPS, SET/20 RED RETRO..."
802,0.026030,"(SET/6 RED SPOTTY PAPER CUPS, SET/20 RED RETRO..."
803,0.026030,"(SET/20 RED RETROSPOT PAPER NAPKINS, SET/6 RED..."


## Calcular a Regra de Associação

- Precisamos usar os itemsets frequentes como entrada para a função **association_rules**
    - **metric** - Metrica que deve ser usada para avaliar os associações
    - **min_threshold** - O valor mínimo para a métrica do itemset ser considerado. 'support', 'confidence', 'lift'. 


In [19]:
rules_france = association_rules( 
    freq_france_itemset,
    metric= 'confidence',
    min_threshold= 0.4,
    
)

rules_france.head()

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(ALARM CLOCK BAKELIKE IVORY),(ALARM CLOCK BAKELIKE GREEN),0.02603,0.08243,0.021692,0.833333,10.109649,0.019546,5.505423
1,(ALARM CLOCK BAKELIKE ORANGE),(ALARM CLOCK BAKELIKE GREEN),0.036876,0.08243,0.0282,0.764706,9.27709,0.02516,3.899675
2,(ALARM CLOCK BAKELIKE GREEN),(ALARM CLOCK BAKELIKE PINK),0.08243,0.086768,0.062907,0.763158,8.795395,0.055754,3.855869
3,(ALARM CLOCK BAKELIKE PINK),(ALARM CLOCK BAKELIKE GREEN),0.086768,0.08243,0.062907,0.725,8.795395,0.055754,3.33662
4,(ALARM CLOCK BAKELIKE GREEN),(ALARM CLOCK BAKELIKE RED),0.08243,0.08026,0.067245,0.815789,10.164296,0.060629,4.992873
