# $$Sistema~de~Recomendação:Regras~de~Associação$$

### $$CONCEITO:$$




Regras de Associação são padrões descritivos que representam a probabilidade de que um conjunto de itens apareça em uma transação visto que outro conjunto está presente





A temática da descoberta de Regras de Associação foi introduzida por Agrawal & Srikan (1994) como uma maneira de encontrar padrões associativos a partir de dados de um cesto de supermercado(Market Basket Analysis)







A Market Basket Analysis analisa as relações entre itens em cestos de mercado usando regras de associação





**Tipo de dados:** Categóricos





## $$Medidas~usadas$$



**Nas regras de associação, as medidas mais usadas são: Conjuntos de itens frequentes(Suporte), Confiança e Alavancagem**



### **Suporte:** 



Representa a porcentagem de transações da base de dados que contêm os itens A e B



**Calculo:** Número de transações em que A e B ocorrem simultaneamente dividido pelo número total de transações da base de dados





### **Confiança:** 



Mede a probabilidade condicional de ocorrer B dado que ocorreu A



**Calculo:** Número de transações em que A e B ocorrem simultaneamente pela quantidade de transações em que o item A ocorre





### **Alavancagem:** 



Quanto mais frequente se torna B quando ocorre A



**Calculo:** Conf(A Þ B) ÷ Sup(B)





### $$Problemas~ com ~sistema~ de~ recomendação:$$



**Cold Start:** Ele surge quando novos usuários e itens são adicionados ao sistema, enquanto você não tem dados nem interações implícitas e explícitas do usuário, não é possível encontrar conteúdos e perfis semelhantes.




__------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------__


__------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------__

## $$Objetivo:$$ 

## $$Criar~ um~sistema ~de~ recomendação, baseado~ em~ Regras ~de ~Associação$$

__------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------__


__------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------__

# Banco de dados 

In [1]:
import pandas as pd
import numpy as np
dados = pd.read_csv('Groceries.csv', header=None)
dados

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,22,23,24,25,26,27,28,29,30,31
0,citrus fruit,semi-finished bread,margarine,ready soups,,,,,,,...,,,,,,,,,,
1,tropical fruit,yogurt,coffee,,,,,,,,...,,,,,,,,,,
2,whole milk,,,,,,,,,,...,,,,,,,,,,
3,pip fruit,yogurt,cream cheese,meat spreads,,,,,,,...,,,,,,,,,,
4,other vegetables,whole milk,condensed milk,long life bakery product,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8997,,,,,,,,,,,...,,,,,,,,,,
8998,,,,,,,,,,,...,,,,,,,,,,
8999,,,,,,,,,,,...,,,,,,,,,,
9000,,,,,,,,,,,...,,,,,,,,,,


**Temos 9002 clientes que fizeram compras em um supermercado e 32 itens comprados no máximo em uma única transação, os NaNs representam que os clientes não fizeram compras dos produtos daquela categoria**

# Tratamento dos dados:

In [2]:
## Transformar os valores NaN em 0
dados.replace(np.nan, 0, inplace = True)
dados

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,22,23,24,25,26,27,28,29,30,31
0,citrus fruit,semi-finished bread,margarine,ready soups,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,tropical fruit,yogurt,coffee,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,whole milk,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,pip fruit,yogurt,cream cheese,meat spreads,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,other vegetables,whole milk,condensed milk,long life bakery product,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8997,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
8998,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
8999,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9000,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


**Transformamos os dados com valores NaN em 0 para depois criarmos um vetor apenas com o nome dos produtos**

In [3]:
## Transformar o dataset em uma lista com os nomes dos produtos

#Criar uma função para remover os dados com valor 0 e transformar os produtos em um vetor

def removerzeros(_list, value = 0):
    return list(filter(lambda x: x != value, _list))

lista_transacao = []

for index, row in dados.iterrows():
    list_single_transaction = row.values.tolist()
    list_single_transaction = removerzeros(list_single_transaction, 0)
    lista_transacao.append(list_single_transaction)
lista_transacao

[['citrus fruit', 'semi-finished bread', 'margarine', 'ready soups'],
 ['tropical fruit', 'yogurt', 'coffee'],
 ['whole milk'],
 ['pip fruit', 'yogurt', 'cream cheese ', 'meat spreads'],
 ['other vegetables',
  'whole milk',
  'condensed milk',
  'long life bakery product'],
 ['whole milk', 'butter', 'yogurt', 'rice', 'abrasive cleaner'],
 ['rolls/buns'],
 ['other vegetables',
  'UHT-milk',
  'rolls/buns',
  'bottled beer',
  'liquor (appetizer)'],
 ['pot plants'],
 ['whole milk', 'cereals'],
 ['tropical fruit',
  'other vegetables',
  'white bread',
  'bottled water',
  'chocolate'],
 ['citrus fruit',
  'tropical fruit',
  'whole milk',
  'butter',
  'curd',
  'yogurt',
  'flour',
  'bottled water',
  'dishes'],
 ['beef'],
 ['frankfurter', 'rolls/buns', 'soda'],
 ['chicken', 'tropical fruit'],
 ['butter', 'sugar', 'fruit/vegetable juice', 'newspapers'],
 ['fruit/vegetable juice'],
 ['packaged fruit/vegetables'],
 ['chocolate'],
 ['specialty bar'],
 ['other vegetables'],
 ['butter milk

**Temos somente os nomes dos produtos em formato de lista, agora conseguimos transformar cada produto em coluna**

In [4]:
# Colocar os nomes dos produtos em colunas e as compras em linhas
from mlxtend.preprocessing import TransactionEncoder

te = TransactionEncoder()

te_ary = te.fit(lista_transacao).transform(lista_transacao)
df = pd.DataFrame(te_ary, columns=te.columns_)

df

Unnamed: 0,Instant food products,UHT-milk,`,abrasive cleaner,artif. sweetener,baby cosmetics,baby food,bags,baking powder,bathroom cleaner,...,turkey,vinegar,waffles,whipped/sour cream,whisky,white bread,white wine,whole milk,yogurt,zwieback
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,True,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,True,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8997,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
8998,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
8999,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
9000,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


**Com os produtos sendo representados por colunas e cada compra em linhas, vamos conseguimos criar as regras de associação analisando a similaridade entre produtos**

# Regras de associação: 



# Suporte

- 1° Etapa: Definir os produtos a serem usados com base no suporte, para criação das regras de associação

- Vamos adotar um suporte de no mínimo 1% no total das compras, como temos 9002 compras, 1% significa estar em pelo menos 90 transações

## Verificar suporte com 1% e produtos com 1 ou mais itens na mesma transação

In [5]:
#Verificar o suporte acima de 1%
from mlxtend.frequent_patterns import apriori

frequent_itemsets = apriori(df, min_support = 0.01, use_colnames = True)
frequent_itemsets

Unnamed: 0,support,itemsets
0,0.028882,(UHT-milk)
1,0.015663,(baking powder)
2,0.044323,(beef)
3,0.028327,(berries)
4,0.023661,(beverages)
...,...,...
254,0.011331,"(root vegetables, rolls/buns, whole milk)"
255,0.013775,"(yogurt, rolls/buns, whole milk)"
256,0.011220,"(tropical fruit, whole milk, root vegetables)"
257,0.013664,"(yogurt, root vegetables, whole milk)"


**Temos 259 transações de produtos com no mínimo 1% de suporte**

## Verificar o máximo de itens por transação com suporte mínimo de 1%

In [61]:
freq1 = frequent_itemsets.copy()

#Separar os produtos com mais de 1 item por suportes
itens = freq1.itemsets.values.tolist()
itens = [list(x) for x in itens]
itens = pd.DataFrame(itens,columns=['1_Item','2_itens','3_itens'])

#Juntar as tabelas
itens_1 = freq1.join(itens)

itens_1

Unnamed: 0,support,itemsets,1_Item,2_itens,3_itens
0,0.028882,(UHT-milk),UHT-milk,,
1,0.015663,(baking powder),baking powder,,
2,0.044323,(beef),beef,,
3,0.028327,(berries),berries,,
4,0.023661,(beverages),beverages,,
...,...,...,...,...,...
254,0.011331,"(root vegetables, rolls/buns, whole milk)",root vegetables,rolls/buns,whole milk
255,0.013775,"(yogurt, rolls/buns, whole milk)",yogurt,rolls/buns,whole milk
256,0.011220,"(tropical fruit, whole milk, root vegetables)",tropical fruit,whole milk,root vegetables
257,0.013664,"(yogurt, root vegetables, whole milk)",yogurt,root vegetables,whole milk


**Dataset contém o máximo de 3 itens por transação com suporte mínimo de 1%**

## Verificar produtos com 1 item e suporte acima de 1%

In [63]:
freq1 = frequent_itemsets.copy()

#Separar os produtos com mais de 1 item por suportes
itens = freq1.itemsets.values.tolist()
itens = [list(x) for x in itens]
itens = pd.DataFrame(itens,columns=['1_Item','2_itens','3_itens'])

#Juntar as tabelas
itens_1 = freq1.join(itens)

#Filtrar dados com apenas 1 item
itens_1 = itens_1[itens_1["2_itens"].isnull()]


#Excluir as colunas  2_itens  e 3_Itens
itens_1 = itens_1[['support','1_Item']]
itens_1.sort_values('support',ascending=False)

Unnamed: 0,support,1_Item
75,0.222395,whole milk
47,0.167296,other vegetables
57,0.160853,rolls/buns
65,0.154410,soda
76,0.119307,yogurt
...,...,...
13,0.012775,canned fish
61,0.011886,seasonal products
48,0.011664,packaged fruit/vegetables
42,0.011553,mustard


**A tabela mostra a frequentes dos produtos mais comprados, suporte varia entre 22% a 1%**

## Verificar produtos com 2 item e suporte acima de 1%

In [67]:
#Regras de associação verificar o suporte acima de 1%
freq2 = frequent_itemsets.copy()

#Separar os produtos com mais de 1 item por suportes
itens = frequent_itemsets.itemsets.values.tolist()
itens = [list(x) for x in itens]
itens = pd.DataFrame(itens,columns=['1_Item','2_itens','3_itens'])

#Juntar as tabelas
itens_2 = freq2.join(itens)

#Filtrar dados com 2 itens
itens_2 = itens_2[(~itens_2["2_itens"].isnull())&(itens_2["3_itens"].isnull())]


#Excluir as colunas 3_Itens
itens_2 = itens_2[['support','1_Item','2_itens']]
itens_2.sort_values('support',ascending=False)

Unnamed: 0,support,1_Item,2_itens
186,0.064097,whole milk,other vegetables
209,0.050100,whole milk,rolls/buns
240,0.049433,yogurt,whole milk
216,0.043435,whole milk,root vegetables
179,0.041768,root vegetables,other vegetables
...,...,...,...
93,0.010220,bottled water,sausage
170,0.010109,tropical fruit,newspapers
81,0.010109,whole milk,berries
109,0.010109,canned beer,rolls/buns


**A tabela mostra os 10 maiores suportes de 2 produtos sendo comprado juntos, note que o suporte varia entre 3% a 6%**

## Verificar produtos com 3 item e suporte acima de 1%

In [68]:
#Regras de associação verificar o suporte acima de 1%
freq3 = frequent_itemsets.copy()

#Separar os produtos com mais de 1 item por suportes
itens = freq3.itemsets.values.tolist()
itens = [list(x) for x in itens]
itens = pd.DataFrame(itens,columns=['1_Item','2_itens','3_itens'])

#Juntar as tabelas
itens_3 = freq3.join(itens)

#Filtrar dados com 3 itens
itens_3 = itens_3[(~itens_3["2_itens"].isnull())&(~itens_3["3_itens"].isnull())]


#Excluir as colunas 3_Itens
itens_3 = itens_3[['support','1_Item','2_itens','3_itens']]
itens_3.sort_values('support',ascending=False)

Unnamed: 0,support,1_Item,2_itens,3_itens
247,0.020662,whole milk,root vegetables,other vegetables
253,0.019551,yogurt,other vegetables,whole milk
245,0.015774,whole milk,rolls/buns,other vegetables
250,0.014663,tropical fruit,whole milk,other vegetables
255,0.013775,yogurt,rolls/buns,whole milk
257,0.013664,yogurt,root vegetables,whole milk
258,0.013441,tropical fruit,yogurt,whole milk
252,0.012775,whole milk,whipped/sour cream,other vegetables
249,0.012331,soda,other vegetables,whole milk
248,0.011664,yogurt,root vegetables,other vegetables


**Note que temos 18 transações com suporte acima de 1% e 3 produtos sendo comprado juntos, suporte varia entre 1% a 2%**

## Conclusão: Suporte

**Usamos o critério de suporte acima de 1% para filtrar os produtos que tem a maior frequência nas transações, observe que conforme vai aumentando o número de itens o suporte vai diminuindo, começando com 22% com 1 item e terminando com 2% com 3 itens em conjunto na mesma transação** 

# Confiança

- 2° Etapa: Medir a probabilidade condicional de um produto dado outro


- Vamos definir uma confiança mínima de 30%

In [9]:
#Verificar a confiança acima de 30% do conjunto de itens
from mlxtend.frequent_patterns import association_rules

confident = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.3)
confident = confident.drop(['support','antecedent support', 'consequent support', 'leverage', 'conviction','lift'], axis=1)
confident

Unnamed: 0,antecedents,consequents,confidence
0,(beef),(other vegetables),0.358396
1,(beef),(root vegetables),0.340852
2,(beef),(whole milk),0.401003
3,(berries),(whole milk),0.356863
4,(bottled water),(whole milk),0.315006
...,...,...,...
92,"(tropical fruit, root vegetables)",(whole milk),0.577143
93,"(yogurt, root vegetables)",(whole milk),0.588517
94,"(whole milk, root vegetables)",(yogurt),0.314578
95,"(tropical fruit, yogurt)",(whole milk),0.540179


**Temos 97 regras de produtos que são comprados junto com outros produtos em mais de 30% das vezes**

## Verificar os maiores valores para a métrica de confiança para 1 item

In [41]:
confident_1 = confident.copy()

#Separar os produtos antecedents com mais de 1 item 
confident_ant_1 = confident_1.antecedents.values.tolist()
confident_ant_1 = [list(x) for x in confident_ant_1]
confident_ant_1 = pd.DataFrame(confident_ant_1,columns=['1_antecedents','2_antecedents' ])

#Separar os produtos consequents  
confident_consq_1 = confident_1.consequents.values.tolist()
confident_consq_1 = [list(x) for x in confident_consq_1]
confident_consq_1 = pd.DataFrame(confident_consq_1,columns=['1_consequents'])

#Unir dataframes
confidente_1 = confident.join(confident_ant_1)
confidente_1 = confidente_1.join(confident_consq_1)
confidente_1 = confidente_1.iloc[:,2:]

#Transformar NaN em 0
confidente_1.replace(np.nan, 0, inplace = True)

#Filtrar somente o valor 0 da coluna 2_antecedents 
confidente_1 = confidente_1[confidente_1['2_antecedents']==0]

#Excluindo a coluna 2_antecedents
confidente_1 = confidente_1.drop('2_antecedents',axis=1)

#Ordenar pela coluna confidence
confidente_1.sort_values(by=['confidence'], ascending = False)

Unnamed: 0,confidence,1_antecedents,1_consequents
7,0.501144,butter,whole milk
23,0.490000,domestic eggs,whole milk
19,0.489209,curd,whole milk
29,0.460000,ham,whole milk
53,0.453596,root vegetables,whole milk
...,...,...,...
54,0.318493,salty snack,whole milk
14,0.317697,coffee,whole milk
4,0.315006,bottled water,whole milk
47,0.312849,yogurt,other vegetables


**Praticamente todos os produtos com maior confiança tem como consequência a compra de whole milk**

## Verificar os maiores valores para a métrica de confiança para 2 item

In [43]:
confident_2 = confident.copy()

#Separar os produtos antecedents com mais de 1 item 
confident_ant_2 = confident_2.antecedents.values.tolist()
confident_ant_2 = [list(x) for x in confident_ant_2]
confident_ant_2 = pd.DataFrame(confident_ant_2,columns=['1_antecedents','2_antecedents' ])

#Separar os produtos consequents  
confident_consq_2 = confident_2.consequents.values.tolist()
confident_consq_2 = [list(x) for x in confident_consq_2]
confident_consq_2 = pd.DataFrame(confident_consq_2,columns=['1_consequents'])

#Unir dataframes
confidente_2 = confident.join(confident_ant_2)
confidente_2 = confidente_2.join(confident_consq_2)
confidente_2 = confidente_2.iloc[:,2:]

#Excluir valores NaN
confidente_2 = confidente_2.dropna()

#Ordenar pela coluna confidence
confidente_2.sort_values(by=['confidence'], ascending = False).head(10)

Unnamed: 0,confidence,1_antecedents,2_antecedents,1_consequents
93,0.588517,yogurt,root vegetables,whole milk
65,0.584795,other vegetables,domestic eggs,whole milk
71,0.582857,tropical fruit,root vegetables,other vegetables
92,0.577143,tropical fruit,root vegetables,whole milk
95,0.540179,tropical fruit,yogurt,whole milk
89,0.534031,root vegetables,rolls/buns,whole milk
86,0.52381,yogurt,other vegetables,whole milk
67,0.515464,other vegetables,pip fruit,whole milk
85,0.513393,other vegetables,whipped/sour cream,whole milk
76,0.502392,yogurt,root vegetables,other vegetables


**Na compra de 2 produtos temos como consequência a compra dos produtos: Whole milk ou other vegetables**

## Conclusão: Confiança

**Adotamos critério de 30% no nível de confiança, note que quanto maior o número de itens antecedentes, maior vai ser a confiança, pois os itens analisados juntos têm menos transações realizadas, isso aumenta o nível da confiança quando analisado com o produto consequente**

# Lift

- 3° Etapa: Na compra de um produto antecedente o quanto pode aumentar a venda do produto consequente

- Vamos definir o Lift sendo no minimo 2

In [12]:
#Verificar lift de todos os produtos acima de 2
lift = association_rules(frequent_itemsets, metric="lift", min_threshold=2)
lift = lift.drop(['support','antecedent support', 'consequent support', 'leverage', 'conviction','confidence'], axis=1)
lift.sort_values(by='lift',ascending=False)

Unnamed: 0,antecedents,consequents,lift
132,(root vegetables),"(tropical fruit, other vegetables)",3.887598
129,"(tropical fruit, other vegetables)",(root vegetables),3.887598
3,(beef),(root vegetables),3.559572
2,(root vegetables),(beef),3.559572
133,(other vegetables),"(tropical fruit, root vegetables)",3.483984
...,...,...,...
74,(tropical fruit),(other vegetables),2.007125
59,(whole milk),(hamburger meat),2.006408
58,(hamburger meat),(whole milk),2.006408
83,(pip fruit),(yogurt),2.004332


**Temos 198 regras com lift acima de 2**

## Verificar os maiores valores para a métrica de lift com 1 antecedentes e 1 consequente

In [44]:
lift_1= lift.copy()

#Separar os produtos lift 
lift1 = lift_1.antecedents.values.tolist()
lift1 = [list(x) for x in lift1]
lift1 = pd.DataFrame(lift1,columns=['1_antecedents','2_antecedents' ])

#Separar os produtos consequents  
lift1_consq_1 = lift_1.consequents.values.tolist()
lift1_consq_1 = [list(x) for x in lift1_consq_1]
lift1_consq_1 = pd.DataFrame(lift1_consq_1,columns=['1_consequents','2_consequents'])

#Juntas os dataframes
lift_1 = lift1.join(lift_1)
lift_1 = lift_1.join(lift1_consq_1)

#Transformar NaN em 0
lift_1.replace(np.nan, 0, inplace = True)

#Filtrar somente o valor 0 da coluna 2_antecedents e 2_consequents
lift_1 = lift_1[lift_1['2_antecedents']==0]
lift_1 = lift_1[lift_1['2_consequents']==0]

#Drop das colunas
lift_1 = lift_1.drop(['2_antecedents','antecedents','consequents','2_consequents'],axis=1)
lift_1 = lift_1[['1_antecedents','1_consequents','lift']]

lift_1.sort_values(by='lift',ascending=False)




Unnamed: 0,1_antecedents,1_consequents,lift
3,beef,root vegetables,3.559572
2,root vegetables,beef,3.559572
80,tropical fruit,pip fruit,2.951669
81,pip fruit,tropical fruit,2.951669
28,yogurt,cream cheese,2.866722
...,...,...,...
75,other vegetables,tropical fruit,2.007125
59,whole milk,hamburger meat,2.006408
58,hamburger meat,whole milk,2.006408
82,yogurt,pip fruit,2.004332


**Temos 106 regras com o valor de lift acima de 2, note que os valores de lift semelhantes é por causa do mesmo produto antecedente ser inverso do produto consequente**

## Verificar os maiores valores para a métrica de lift com 2 antecedentes e 1 consequente

In [49]:
lift_2_1= lift.copy()

#Separar os produtos lift 
lift2_1 = lift_2_1.antecedents.values.tolist()
lift2_1 = [list(x) for x in lift2_1]
lift2_1 = pd.DataFrame(lift2_1,columns=['1_antecedents','2_antecedents' ])

#Separar os produtos consequents  
lift1_consq_2_1 = lift_2_1.consequents.values.tolist()
lift1_consq_2_1 = [list(x) for x in lift1_consq_2_1]
lift1_consq_2_1 = pd.DataFrame(lift1_consq_2_1,columns=['1_consequents','2_consequents'])

#Juntas os dataframes
lift_2_1 = lift_2_1.join(lift2_1)
lift_2_1 = lift_2_1.join(lift1_consq_2_1)
lift_2_1 = lift_2_1.drop(['antecedents','consequents'],axis=1)

#Transformar NaN em 0
lift_2_1.replace(np.nan, 0, inplace = True)

#Filtrar somente o valor 0 da coluna 2_consequents 
lift_2_1 = lift_2_1[lift_2_1['2_consequents']==0]
#Filtrar somente valores diferente de 0 da coluna 2_antecedents
lift_2_1 = lift_2_1[lift_2_1['2_antecedents']!=0]

#Excluir coluna 2_consequents
lift_2_1 = lift_2_1.drop('2_consequents',axis=1)

#Ordenar lift
lift_2_1.sort_values('lift',ascending=False).head(10)

Unnamed: 0,lift,1_antecedents,2_antecedents,1_consequents
129,3.887598,tropical fruit,other vegetables,root vegetables
128,3.483984,tropical fruit,root vegetables,other vegetables
135,3.366424,whole milk,other vegetables,root vegetables
141,3.263486,yogurt,other vegetables,root vegetables
180,3.15796,tropical fruit,whole milk,root vegetables
161,3.147648,whole milk,other vegetables,whipped/sour cream
112,3.120277,whole milk,other vegetables,domestic eggs
156,3.119128,yogurt,other vegetables,tropical fruit
193,3.036502,tropical fruit,whole milk,yogurt
140,3.003012,yogurt,root vegetables,other vegetables


**Top 10 maiores valores de lift com 2 produtos antecedentes e 1 produto consequente**

## Verificar os maiores valores para a métrica de lift com 1 antecedentes e 2 consequente

In [15]:
lift_1_2= lift.copy()

#Separar os produtos lift 
lift1_2 = lift_1_2.antecedents.values.tolist()
lift1_2 = [list(x) for x in lift1_2]
lift1_2 = pd.DataFrame(lift1_2,columns=['1_antecedents','2_antecedents' ])

#Separar os produtos consequents  
lift1_consq_1_2 = lift_1_2.consequents.values.tolist()
lift1_consq_1_2 = [list(x) for x in lift1_consq_1_2]
lift1_consq_1_2 = pd.DataFrame(lift1_consq_1_2,columns=['1_consequents','2_consequents'])

#Juntas os dataframes
lift_1_2 = lift_1_2.join(lift1_2)
lift_1_2 = lift_1_2.join(lift1_consq_1_2)
lift_1_2 = lift_1_2.drop(['antecedents','consequents'],axis=1)

#Transformar NaN em 0
lift_1_2.replace(np.nan, 0, inplace = True)


#Filtrar somente valores diferente de 0 da coluna 2_antecedents
lift_1_2 = lift_1_2[lift_1_2['2_antecedents']==0]
lift_1_2 = lift_1_2[lift_1_2['2_consequents']!=0]

#Excluir coluna 2_antecedents
lift_1_2 = lift_1_2.drop('2_antecedents',axis=1)

#Ordenar pelos maiores lifts
lift_1_2.sort_values(by='lift',ascending=False).head(10)

Unnamed: 0,lift,1_antecedents,1_consequents,2_consequents
132,3.887598,root vegetables,tropical fruit,other vegetables
133,3.483984,other vegetables,tropical fruit,root vegetables
138,3.366424,root vegetables,whole milk,other vegetables
144,3.263486,root vegetables,yogurt,other vegetables
185,3.15796,root vegetables,tropical fruit,whole milk
164,3.147648,whipped/sour cream,whole milk,other vegetables
117,3.120277,domestic eggs,whole milk,other vegetables
157,3.119128,tropical fruit,yogurt,other vegetables
196,3.036502,yogurt,tropical fruit,whole milk
145,3.003012,other vegetables,yogurt,root vegetables


**Top 10 maiores valores de lift com 1 produtos antecedentes e 2 produto consequente**

**Observe que houve uma inversão dos produtos quando comparamos com o lift de 2 antecedentes e 1 consequente**

## Conclusão: Lift

**Há muitas transações feitas com lift entre 2 e 3, porém para a análise ter relevância precisamos verificar o suporte e a confiança para não indicar produtos com poucas transações**

# Regras de associação:  Suporte, Confiança e Lift

- Definindo os valores das métricas para gerar as regras de associação: Suporte > 0.01, Confiança > 0.3 e lift > 2

## Fazer uma análise dos produtos visualizando todas as métricas, sendo o suporte a única coluna com valor mínimo definido

In [69]:
#Definindo suporte >=0.01
sup = association_rules(frequent_itemsets, metric="support", min_threshold=0.01)
sup.sort_values(by=['support'], ascending = False).drop(['antecedent support', 
                                                         'consequent support', 'leverage', 'conviction'], axis=1)

Unnamed: 0,antecedents,consequents,support,confidence,lift
218,(whole milk),(other vegetables),0.064097,0.288212,1.722764
219,(other vegetables),(whole milk),0.064097,0.383134,1.722764
264,(whole milk),(rolls/buns),0.050100,0.225275,1.400499
265,(rolls/buns),(whole milk),0.050100,0.311464,1.400499
327,(whole milk),(yogurt),0.049433,0.222278,1.863076
...,...,...,...,...,...
63,(butter milk),(whole milk),0.010109,0.419355,1.885630
186,(tropical fruit),(newspapers),0.010109,0.111520,1.608813
187,(newspapers),(tropical fruit),0.010109,0.145833,1.608813
65,(rolls/buns),(canned beer),0.010109,0.062845,0.900849


**Apesar do alto valor de suporte para esse conjunto de dados, podemos perceber que o valor da confiança e do lift estão abaixo do exigido**

## Fazer uma análise dos produtos visualizando todas as medidas, sendo a confiança a única coluna com valor mínimo definido

In [70]:
#Definindo confiança >=0.3
conf = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.3)
conf.sort_values(by=['confidence'], ascending = False).drop(['antecedent support', 
                                                         'consequent support', 'leverage', 'conviction'], axis=1)

Unnamed: 0,antecedents,consequents,support,confidence,lift
93,"(yogurt, root vegetables)",(whole milk),0.013664,0.588517,2.646268
65,"(other vegetables, domestic eggs)",(whole milk),0.011109,0.584795,2.629534
71,"(tropical fruit, root vegetables)",(other vegetables),0.011331,0.582857,3.483984
92,"(tropical fruit, root vegetables)",(whole milk),0.011220,0.577143,2.595125
95,"(tropical fruit, yogurt)",(whole milk),0.013441,0.540179,2.428915
...,...,...,...,...,...
47,(yogurt),(other vegetables),0.037325,0.312849,1.870032
77,"(yogurt, other vegetables)",(root vegetables),0.011664,0.312500,3.263486
52,(rolls/buns),(whole milk),0.050100,0.311464,1.400499
88,"(whole milk, other vegetables)",(yogurt),0.019551,0.305026,2.556652


**Note que a confiança tendo o valor mínimo definido as outras métricas também tem um valor elevado, sendo todas as métricas com valor mínimo exigido**

**OBS: Para esse conjunto de dados essa regra serviu, porém a maioria do conjunto de dados isso pode não se repetir** 

## Fazer uma análise dos produtos visualizando todas as medidas, sendo o lift a única coluna com valor mínimo definido

In [71]:
#Definindo lift >=2
lif = association_rules(frequent_itemsets, metric="lift", min_threshold=2)
lif.sort_values(by=['lift'], ascending = False).drop(['antecedent support', 
                                                         'consequent support', 'leverage', 'conviction'], axis=1)

Unnamed: 0,antecedents,consequents,support,confidence,lift
132,(root vegetables),"(tropical fruit, other vegetables)",0.011331,0.118329,3.887598
129,"(tropical fruit, other vegetables)",(root vegetables),0.011331,0.372263,3.887598
3,(beef),(root vegetables),0.015108,0.340852,3.559572
2,(root vegetables),(beef),0.015108,0.157773,3.559572
133,(other vegetables),"(tropical fruit, root vegetables)",0.011331,0.067729,3.483984
...,...,...,...,...,...
74,(tropical fruit),(other vegetables),0.030438,0.335784,2.007125
59,(whole milk),(hamburger meat),0.012442,0.055944,2.006408
58,(hamburger meat),(whole milk),0.012442,0.446215,2.006408
83,(pip fruit),(yogurt),0.015885,0.239130,2.004332


**Note que com lift acima de 2, varios produtos não tem o mínimo exigido de confiança**

## Fazer uma análise dos produtos com o mínimo exigido para todas as métricas

In [20]:
#Criar as regras de associação
tot = association_rules(frequent_itemsets, metric="support", min_threshold=0.01)
tot = tot[tot['confidence']>=0.3]
tot = tot[tot['lift']>=2]

sup = round(tot['support'].min(),2)
conf = round(tot['confidence'].min(),2)
lif = round(tot['lift'].min(),2)

print(f'Suporte Minimo: {sup}')
print(f'Confiança Minima: {conf}')
print(f'Lift Minimo: {lif}')


Suporte Minimo: 0.01
Confiança Minima: 0.3
Lift Minimo: 2.01


**Verificamos que todas as métricas estão com valor mínimo exigido**

In [74]:
#Visualizar os produtos e as metricas
total = tot.sort_values(by=['lift'], ascending = False).drop(['antecedent support', 
                                                         'consequent support', 'leverage', 'conviction'], axis=1)

total

Unnamed: 0,antecedents,consequents,support,confidence,lift
359,"(tropical fruit, other vegetables)",(root vegetables),0.011331,0.372263,3.887598
5,(beef),(root vegetables),0.015108,0.340852,3.559572
358,"(tropical fruit, root vegetables)",(other vegetables),0.011331,0.582857,3.483984
365,"(whole milk, other vegetables)",(root vegetables),0.020662,0.322357,3.366424
371,"(yogurt, other vegetables)",(root vegetables),0.011664,0.3125,3.263486
418,"(tropical fruit, whole milk)",(root vegetables),0.01122,0.302395,3.15796
431,"(tropical fruit, whole milk)",(yogurt),0.013441,0.362275,3.036502
370,"(yogurt, root vegetables)",(other vegetables),0.011664,0.502392,3.003012
389,"(tropical fruit, other vegetables)",(yogurt),0.010553,0.346715,2.906081
346,"(root vegetables, rolls/buns)",(other vegetables),0.01022,0.481675,2.879178


**Temos 60 regras de associação com Suporte > 0.01, Confiança > 0.3 e lift > 2, todas essas regras são validas para apresentação, porém temos que verificar as que fazem mais sentido e fazer algum tipo de campanha para aumentar as vendas**

# Conclusão:

**O principal objetivo do algoritmo de regras de associação é aumentar o valor do suporte dos produtos e fazer com que esses produtos seja vendido com outros na mesma transação, por isso temos que tomar cuidado ao definir o mínimo de suporte, há alguns fatores que podemos destacar para que o produto esteja sendo vendido pouco e seu suporte seja baixo: Produto novo, difícil localização, alto valor, em falta no estoque, entre outros fatores, então não basta apenas usar o algoritmo para definir as regras, temos que conhecer o ambiente onde foi coletado os dados para fazer a análise preliminar e por fim gerar as melhores regras**