# BİRLİKTELİK ANALİZİ (APRİORİ ASSOCİATİON RULES)
**Birliktelik Kuralları Nedir?**

Veri içerisindeki pattern'leri (ilişkileri, yapıları) bulmak için kullanılan kural tabanlı bir makine öğrenmesi tekniğidir.


Birliktelik analizi uygulamaları veri biliminde en çok karşımıza çıkan uygulamalardandır. Tavsiye sistemleri olarak da denk gelmiş olacaktır.


Bu uygulamalar karşınıza şu şekillerde gelmiş olabilir "o ürünü alan bu ürünü de aldı" ya da "o ilana bakanlar bu ilanlara da baktı" ya da "senin için çalma listesi oluşturduk" ya da "sıradaki video için önerilen video" gibi.

Bu senaryolar e-ticaret veri bilimi veri madenciliği çalışmaları kapsamında en sık karşımıza çıkacak olan senaryolar.

Türkiye'deki ve dünyadaki büyük e-ticaret şirketleri, spotify, amazon, netflix gibi biraz daha yakından bilebileceğimiz birçok platform tavsiye sistemlerini kullanmaktadır.

Peki özetle ne yapmaktadır bu birliktelik analizleri?


**Apriori Algoritması**

Bu alanda en çok kullanılan yöntemdir. 

Birliktelik kuralı analizi bazı metrikler incelenerek gerçekleştirilir:

- Destek (Support)

Support(X, Y) = Freq(X,Y)/N

X: ürün
Y: ürün
N: toplam alışveriş

- Güven (Confidence)

Confidence(X, Y) = Freq(X,Y) / Freq(X)

- Lift

Lift = Support (X, Y) / ( Support(X) * Support(Y) ) 

Bu projede kullanılacak olan veri seti: https://www.kaggle.com/shazadudwadia/supermarket
Referans alınan notebook: 

In [36]:
#Gerekli import işlemleri gerçekleştirilmiştir. 

import pandas as pd
import numpy as np
from mlxtend.frequent_patterns import apriori, association_rules

In [9]:
#Veri seti okunmuştur.Veri setinde kolon (değişken) bulunmamaktaydı. Buraya names argümanı ile bir isim ekleyebiliriz. Products olarak. 
df = pd.read_csv("GroceryStoreDataSet.csv", names = ["products"], header = None)

In [10]:
#Veri Setine ait ilk 5 değer gözlemlenmiştir.
df.head()

Unnamed: 0,products
0,"MILK,BREAD,BISCUIT"
1,"BREAD,MILK,BISCUIT,CORNFLAKES"
2,"BREAD,TEA,BOURNVITA"
3,"JAM,MAGGI,BREAD,MILK"
4,"MAGGI,TEA,BISCUIT"


In [15]:
#Dataframe'in boyutu incelendi.
df.shape

(20, 1)

In [11]:
#Birliktelik analizi için gerekli olan kütüphane kurulumu gerçekleştirilmiştir.
!pip install mlxtend



In [23]:
#df içerisinden products değişkeni seçilip burada products değişkeninde yer alan ürünler bir arada iken isimsiz fonskiyon ile birbirlerinden ayrılmıştır. 
items = list(df["products"].apply(lambda x:x.split(',')))
items 

[['MILK', 'BREAD', 'BISCUIT'],
 ['BREAD', 'MILK', 'BISCUIT', 'CORNFLAKES'],
 ['BREAD', 'TEA', 'BOURNVITA'],
 ['JAM', 'MAGGI', 'BREAD', 'MILK'],
 ['MAGGI', 'TEA', 'BISCUIT'],
 ['BREAD', 'TEA', 'BOURNVITA'],
 ['MAGGI', 'TEA', 'CORNFLAKES'],
 ['MAGGI', 'BREAD', 'TEA', 'BISCUIT'],
 ['JAM', 'MAGGI', 'BREAD', 'TEA'],
 ['BREAD', 'MILK'],
 ['COFFEE', 'COCK', 'BISCUIT', 'CORNFLAKES'],
 ['COFFEE', 'COCK', 'BISCUIT', 'CORNFLAKES'],
 ['COFFEE', 'SUGER', 'BOURNVITA'],
 ['BREAD', 'COFFEE', 'COCK'],
 ['BREAD', 'SUGER', 'BISCUIT'],
 ['COFFEE', 'SUGER', 'CORNFLAKES'],
 ['BREAD', 'SUGER', 'BOURNVITA'],
 ['BREAD', 'COFFEE', 'SUGER'],
 ['BREAD', 'COFFEE', 'SUGER'],
 ['TEA', 'MILK', 'COFFEE', 'CORNFLAKES']]

In [27]:
#Birliktelik analizinde dataframe ya 1 ve 0'lardan ya da True False şeklinde Boolen veri yapısı tipinde olmak zorundadır. Bunu yapabilmek için mlxtend içinden TransactionEncoder fonk. aktif edilmiştir.
from mlxtend.preprocessing import TransactionEncoder

In [28]:
#TransactionEncoder fonk fit_transfor edilerek verilerimiz artık True ve False olarak dönüştürülmüştür. 
x = TransactionEncoder()
z = x.fit_transform(items)

In [51]:
x.columns_

['BISCUIT',
 'BOURNVITA',
 'BREAD',
 'COCK',
 'COFFEE',
 'CORNFLAKES',
 'JAM',
 'MAGGI',
 'MILK',
 'SUGER',
 'TEA']

In [48]:
#Dönüştürülen veri seti datafarme olarak kaydedildi ve değişken adına ürünlerin isimleri verilmiştir. 
df = pd.DataFrame(z,columns=x.columns_)

In [50]:
#Dataframe artık birliktelik analizi için uygun hale gelmiştir. Bir sonraki adım olan support ve confidence değerlerini hesaplayıp yorumlamak olacaktır.
df

Unnamed: 0,BISCUIT,BOURNVITA,BREAD,COCK,COFFEE,CORNFLAKES,JAM,MAGGI,MILK,SUGER,TEA
0,True,False,True,False,False,False,False,False,True,False,False
1,True,False,True,False,False,True,False,False,True,False,False
2,False,True,True,False,False,False,False,False,False,False,True
3,False,False,True,False,False,False,True,True,True,False,False
4,True,False,False,False,False,False,False,True,False,False,True
5,False,True,True,False,False,False,False,False,False,False,True
6,False,False,False,False,False,True,False,True,False,False,True
7,True,False,True,False,False,False,False,True,False,False,True
8,False,False,True,False,False,False,True,True,False,False,True
9,False,False,True,False,False,False,False,False,True,False,False


In [104]:
#Apriori en yaygın kullanılan fonk olarak da bilinmektedir. Support değeri için bir eşik değeri seçilir ve support değeri hesaplanır.
freq_items = apriori(df, min_support = 0.2, use_colnames = True, verbose = 1)

Processing 42 combinations | Sampling itemset size 3


In [105]:
#Ürünlerimizin support değerine ulaştık. Support 
freq_items.head()

Unnamed: 0,support,itemsets
0,0.35,(BISCUIT)
1,0.2,(BOURNVITA)
2,0.65,(BREAD)
3,0.4,(COFFEE)
4,0.3,(CORNFLAKES)


In [106]:
#association_rules fonk kullanılarak "confidence ve lift" değerlerimize erişmiş olduk. Peki bu değerler neyi ifade etmektedir.
#Support: Örneğin X ve Y ürünleim olsun. Bu ikisinin birlikte görülme olasılığını ifade etmektedir.
#Confidence: Örneğin X ve Y ürünleim olsun. X'i alanların % şu kadarı Y'yide alacaklar. Bu bize confidence değerini verecektir.
#Lift: Bir ürünün alınması diğer ürünün alınmasını % kaç arttırmaktadır. Bizlere bu bilgiyi vermektedir. 
#Bu bizim için aynı zamanda final tablosudur.

association_rules(freq_items, metric = "confidence", min_threshold = 0.5)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(BISCUIT),(BREAD),0.35,0.65,0.2,0.571429,0.879121,-0.0275,0.816667
1,(MILK),(BREAD),0.25,0.65,0.2,0.8,1.230769,0.0375,1.75
2,(SUGER),(BREAD),0.3,0.65,0.2,0.666667,1.025641,0.005,1.05
3,(TEA),(BREAD),0.35,0.65,0.2,0.571429,0.879121,-0.0275,0.816667
4,(COFFEE),(CORNFLAKES),0.4,0.3,0.2,0.5,1.666667,0.08,1.4
5,(CORNFLAKES),(COFFEE),0.3,0.4,0.2,0.666667,1.666667,0.08,1.8
6,(COFFEE),(SUGER),0.4,0.3,0.2,0.5,1.666667,0.08,1.4
7,(SUGER),(COFFEE),0.3,0.4,0.2,0.666667,1.666667,0.08,1.8
8,(TEA),(MAGGI),0.35,0.25,0.2,0.571429,2.285714,0.1125,1.75
9,(MAGGI),(TEA),0.25,0.35,0.2,0.8,2.285714,0.1125,3.25


# YORUMLAR
**Birliktelik analizi için gerekli olan değerlerimizi (support, confidence, lift) hesapladık ve buradan 3 çift seçilerek yorumlar yapılacaktır. Bu yorumlar için çiftler aşağıda yer almaktadır.**
- İlk olarak BISCUIT ve BREAD  ele alınacaktır. 

- Daha sonra COCK ve BISCUIT ele alınacaktır. 

- Son olarak (MILK, CORNFLAKES) ve (COFFEE, TEA) ele alınacaktır. 

**1)     BISCUIT ve BREAD ele alındığında;**
   - BISCUIT ve BREAD tüm alışverişlerin %20'sinde birlikte gözlenmektedir. Yani 100 alışverişin 20'sinde BISCUIT ve BREAD beraber alınmaktadır.

   - BISCUIT alan müşterilerin %57'si BREAD'da almaktadır. Yani 100 kişi BISCUIT alıyorsa 57 kişi BISCUIT'in yanına BREAD'de almaktadır. 

   - BISCUIT olan alışverişlerde BREAD ürünün satışı 0,87 kat artmaktadır. 

**2)     MAGGI ve TEA ele alındığında;**
   - MAGGI ve TEA tüm alışverişlerin %20'sinde birlilkte gözlenmektedir. Yani 100 alışverişin 20'sinde MAGGI ve TEA beraber alınmaktadır. 

   - MAGGI alan müşterilerin %80'i de TEA'de almaktadır. Yani 100 kişi MAGGI alıyorsa 80 kişi MAGGI'nin yanına TEA'de almaktadır. 

   - MAGGI olan alışverişlerde TEA ürünün satışı 2,28 kat artmaktadır. 
  
**3)     SUGER ve COFFEE ele alındığında;**
   - SUGER ve COFFEE tüm alışverişlerin %20'sinde birlilkte gözlenmektedir. Yani 100 alışverişin 20'sinde SUGER ve COFFEE beraber alınmaktadır.

   - SUGER alan müşterilerin %66'sı COFFEE'de almaktadır. Yani 100 kişi SUGER alıyorsa 66 kişi SUGER'ın yanına COFFEE'de almaktadır. 

   - SUGER olan alışverişlerde COFFEE ürünün satışı 1,66 kat artmaktadır.
   
**AKSİYON**

MAGGI alan müşterilerin TEA alma olasılığı %80'dir bu değer oldukça yüksektir. Bu demek oluyor ki; MAGGI alan müşteriler genelde TEA de almaktadır ve muhtemelen MAGGI aldıktan sonra TEA reyonunun yolunu tutacaktır. MAGGI ve TEA reyonları market içerisinde birbirinden uzak reyonlara konumlandırılarak, MAGGI alan müşterinin TEA reyonuna giderken, pek çok reyon geçmesi zorunlu kılınabilir. Böylece müşterinin yolculuğu sırasında herhangi bir ürün satın alma olasılığı arttırılabilir.

BISCUIT alan müşterilerin BREAD alma olasılığı % 57'dir bu değer biraz düşük görünüyor. BISCUIT'in tek başına alınma olasılığı da %35'dir bu değerde düşük görünüyor. BISCUIT satışını arttırmak için, BREAD rafının hemen yanına BISCUIT standı konularak farklı markalara ait BISCUIT'lere yer verilebilir, çünkü BREAD'ın tek başına alınma olasalığı %65'dir BISCUIT'e oranla oldukça yüksek bir rakamdır. Bu nedenle BREAD rafının hemen yanına BISCUIT standı konulursa ve fiyatlar koyu etiketle dikkat çekebilecek şekilde basılır ise satışların artması sağlanabilir.