## ASSOCIATION RULES

"O ürünü alanlar bu ürünü de aldı" gibi cümleleresık sık denk gelmekteyiz. İşte birliktelik analizi tam da bu kısımda karşımızdadır. Tanım olarak, veri tabanları içerisinde ürünlerin birlikteliğini inceleyip, bu birlikteliklere göre tavsiye veya stratejiler alma imkanı sağlayan analiz türüdür.

Birliktelik analizi uygulamaları e-ticaret, perakendecilik gibi sektörlerde kendine yer bulmuştur. 

Birliktelik analizinde çeşitli yöntemler kullanılmaktadır.En çok karşımıza çıkan "Apriori Algritması" dır.

Apriori Algoritması

Birliktelik kuralı analizi bazı metrikler incelenerek gerçekleştirilir:

* Support
Support(X, Y) = Freq (X,Y)/ N

X: ürün Y: ürün N: toplam alışveriş

* Confidence
Confidence(X, Y) = Freq (X,Y) / Freq(X)

* Lift
Lift = Support (X, Y) / (Support(X) * Support(Y))

Bu projede kullanılan veri seti: https://www.kaggle.com/shazadudwadia/supermarket 

## DATA UNDERSTANDING 

* Import işlemleri

In [16]:
import pandas as pd
import numpy as np

#Birliktelik analizi için gerekli olan kütüphane kurulumu gerçekleştirilmiştir.
!pip install mlxtend  
from mlxtend.frequent_patterns import apriori, association_rules
from mlxtend.preprocessing import TransactionEncoder




* Datayı okuma

In [17]:
df = pd.read_csv('grocery_store.csv' , names =["Products"], header=None)
df.head() #Veri setinin ilk 5 gözlemi

Unnamed: 0,Products
0,"MILK,BREAD,BISCUIT"
1,"BREAD,MILK,BISCUIT,CORNFLAKES"
2,"BREAD,TEA,BOURNVITA"
3,"JAM,MAGGI,BREAD,MILK"
4,"MAGGI,TEA,BISCUIT"


In [18]:
#Veri setinin boyutları
df.shape 

(20, 1)

In [19]:
#Veri setinin boyut sayısı
df.ndim

2

## DATA PREPROCESSING

In [20]:
#unique değişkenlerime ulaştım bunları items olarak atadım.
items = df["Products"].unique()
items

array(['MILK,BREAD,BISCUIT', 'BREAD,MILK,BISCUIT,CORNFLAKES',
       'BREAD,TEA,BOURNVITA', 'JAM,MAGGI,BREAD,MILK', 'MAGGI,TEA,BISCUIT',
       'MAGGI,TEA,CORNFLAKES', 'MAGGI,BREAD,TEA,BISCUIT',
       'JAM,MAGGI,BREAD,TEA', 'BREAD,MILK',
       'COFFEE,COCK,BISCUIT,CORNFLAKES', 'COFFEE,SUGER,BOURNVITA',
       'BREAD,COFFEE,COCK', 'BREAD,SUGER,BISCUIT',
       'COFFEE,SUGER,CORNFLAKES', 'BREAD,SUGER,BOURNVITA',
       'BREAD,COFFEE,SUGER', 'TEA,MILK,COFFEE,CORNFLAKES'], dtype=object)

In [21]:
#df içerisinden products değişkeni seçilip burada products değişkeninde yer alan ürünler bir arada iken birbirlerinden ayrılarak listelenmiştir.
items = list(df['Products'].apply(lambda x : x.split(',')))
items

[['MILK', 'BREAD', 'BISCUIT'],
 ['BREAD', 'MILK', 'BISCUIT', 'CORNFLAKES'],
 ['BREAD', 'TEA', 'BOURNVITA'],
 ['JAM', 'MAGGI', 'BREAD', 'MILK'],
 ['MAGGI', 'TEA', 'BISCUIT'],
 ['BREAD', 'TEA', 'BOURNVITA'],
 ['MAGGI', 'TEA', 'CORNFLAKES'],
 ['MAGGI', 'BREAD', 'TEA', 'BISCUIT'],
 ['JAM', 'MAGGI', 'BREAD', 'TEA'],
 ['BREAD', 'MILK'],
 ['COFFEE', 'COCK', 'BISCUIT', 'CORNFLAKES'],
 ['COFFEE', 'COCK', 'BISCUIT', 'CORNFLAKES'],
 ['COFFEE', 'SUGER', 'BOURNVITA'],
 ['BREAD', 'COFFEE', 'COCK'],
 ['BREAD', 'SUGER', 'BISCUIT'],
 ['COFFEE', 'SUGER', 'CORNFLAKES'],
 ['BREAD', 'SUGER', 'BOURNVITA'],
 ['BREAD', 'COFFEE', 'SUGER'],
 ['BREAD', 'COFFEE', 'SUGER'],
 ['TEA', 'MILK', 'COFFEE', 'CORNFLAKES']]

In [22]:
#müşterinin sepetinde hangi ürünlerin olup olmadığı ONE-HOT ENCODING ile boolean yapılır

te = TransactionEncoder()
te_items = te.fit(items).transform(items)
items_df = pd.DataFrame(te_items,columns=te.columns_)
items_df

Unnamed: 0,BISCUIT,BOURNVITA,BREAD,COCK,COFFEE,CORNFLAKES,JAM,MAGGI,MILK,SUGER,TEA
0,True,False,True,False,False,False,False,False,True,False,False
1,True,False,True,False,False,True,False,False,True,False,False
2,False,True,True,False,False,False,False,False,False,False,True
3,False,False,True,False,False,False,True,True,True,False,False
4,True,False,False,False,False,False,False,True,False,False,True
5,False,True,True,False,False,False,False,False,False,False,True
6,False,False,False,False,False,True,False,True,False,False,True
7,True,False,True,False,False,False,False,True,False,False,True
8,False,False,True,False,False,False,True,True,False,False,True
9,False,False,True,False,False,False,False,False,True,False,False


### ASSOCIATION RULES 

In [23]:
#Esik değerini support'a göre belirlemek için support hesabı yaptık. Çıktıya göre 83 farklı kombinasyon ortaya çıktı. (11 tane ürünümüz vardı.) 
#Yorum örneği : Ekmek bütün alışverişlerin % 65'inde  bulunmaktadır.
freq_items  = apriori(items_df,min_support=0.01,use_colnames=True)
freq_items

Unnamed: 0,support,itemsets
0,0.35,(BISCUIT)
1,0.20,(BOURNVITA)
2,0.65,(BREAD)
3,0.15,(COCK)
4,0.40,(COFFEE)
...,...,...
78,0.05,"(MAGGI, BISCUIT, BREAD, TEA)"
79,0.10,"(COCK, BISCUIT, COFFEE, CORNFLAKES)"
80,0.05,"(JAM, MILK, BREAD, MAGGI)"
81,0.05,"(JAM, BREAD, TEA, MAGGI)"


In [24]:
final_tableau = association_rules(freq_items,metric="confidence",min_threshold = 0.6)
final_tableau

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(COCK),(BISCUIT),0.15,0.35,0.10,0.666667,1.904762,0.0475,1.950
1,(BOURNVITA),(BREAD),0.20,0.65,0.15,0.750000,1.153846,0.0200,1.400
2,(JAM),(BREAD),0.10,0.65,0.10,1.000000,1.538462,0.0350,inf
3,(MAGGI),(BREAD),0.25,0.65,0.15,0.600000,0.923077,-0.0125,0.875
4,(MILK),(BREAD),0.25,0.65,0.20,0.800000,1.230769,0.0375,1.750
...,...,...,...,...,...,...,...,...,...
81,"(CORNFLAKES, COFFEE, TEA)",(MILK),0.05,0.25,0.05,1.000000,4.000000,0.0375,inf
82,"(MILK, COFFEE, TEA)",(CORNFLAKES),0.05,0.30,0.05,1.000000,3.333333,0.0350,inf
83,"(MILK, COFFEE)","(CORNFLAKES, TEA)",0.05,0.10,0.05,1.000000,10.000000,0.0450,inf
84,"(MILK, TEA)","(CORNFLAKES, COFFEE)",0.05,0.20,0.05,1.000000,5.000000,0.0400,inf


## Çeşitli metrikler denersek

* Support'u %30 dan büyük ve confidence değeri %60 dan fazla olan değerleri seçme;

In [25]:
final_tableau[(final_tableau['confidence']>0.6) & (final_tableau['support']>0.3)]

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction


* Support değeri %30 dan fazla ve confidence değeri %60 dan fazla olan ürünler bulunmamaktadır. Support değerini %20 yaparsak;

In [26]:
final_tableau[(final_tableau['confidence']>0.6) & (final_tableau['support']>=0.2)]

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
4,(MILK),(BREAD),0.25,0.65,0.2,0.8,1.230769,0.0375,1.75
5,(SUGER),(BREAD),0.3,0.65,0.2,0.666667,1.025641,0.005,1.05
8,(CORNFLAKES),(COFFEE),0.3,0.4,0.2,0.666667,1.666667,0.08,1.8
9,(SUGER),(COFFEE),0.3,0.4,0.2,0.666667,1.666667,0.08,1.8
11,(MAGGI),(TEA),0.25,0.35,0.2,0.8,2.285714,0.1125,3.25


### Final tablosu üzerinden yorum yapacağız.

In [27]:
final_tableau

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(COCK),(BISCUIT),0.15,0.35,0.10,0.666667,1.904762,0.0475,1.950
1,(BOURNVITA),(BREAD),0.20,0.65,0.15,0.750000,1.153846,0.0200,1.400
2,(JAM),(BREAD),0.10,0.65,0.10,1.000000,1.538462,0.0350,inf
3,(MAGGI),(BREAD),0.25,0.65,0.15,0.600000,0.923077,-0.0125,0.875
4,(MILK),(BREAD),0.25,0.65,0.20,0.800000,1.230769,0.0375,1.750
...,...,...,...,...,...,...,...,...,...
81,"(CORNFLAKES, COFFEE, TEA)",(MILK),0.05,0.25,0.05,1.000000,4.000000,0.0375,inf
82,"(MILK, COFFEE, TEA)",(CORNFLAKES),0.05,0.30,0.05,1.000000,3.333333,0.0350,inf
83,"(MILK, COFFEE)","(CORNFLAKES, TEA)",0.05,0.10,0.05,1.000000,10.000000,0.0450,inf
84,"(MILK, TEA)","(CORNFLAKES, COFFEE)",0.05,0.20,0.05,1.000000,5.000000,0.0400,inf


In [28]:
final_tableau.sort_values(by="support",ascending=False).head(6)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
8,(CORNFLAKES),(COFFEE),0.3,0.4,0.2,0.666667,1.666667,0.08,1.8
11,(MAGGI),(TEA),0.25,0.35,0.2,0.8,2.285714,0.1125,3.25
9,(SUGER),(COFFEE),0.3,0.4,0.2,0.666667,1.666667,0.08,1.8
4,(MILK),(BREAD),0.25,0.65,0.2,0.8,1.230769,0.0375,1.75
5,(SUGER),(BREAD),0.3,0.65,0.2,0.666667,1.025641,0.005,1.05
6,(COCK),(COFFEE),0.15,0.4,0.15,1.0,2.5,0.09,inf


## Yorumlar

Sugar ve Bread ikilisi için incelediğimizde;

Support
* Alışverişlerde tek olarak sütün alınma olasılığı %25 iken ekmeğin alınması %65'dir. Süt ve ekmek ikilisi tüm alışverişlerin %20 sinde beraber alındığı görülmektedir.

Confidence
* Süt satıldığında ekmek satılma olasılığı 0,80 dir. Süt alanların %80'i ekmek de almaktadır. Bu sebeple süt ve ekmek genel ihtiyaçlar olduğundan birbirinden uzağa konulup araya da satmak istediğimiz ürünleri koyarsak müşteri birinden diğerine geçerken bunları farkedip almak isteyebilir.

Lift
* Süt satıldığında ekmek satılma olasılığı 1.23 kat artmaktadır.
