# Business Problem

**Birliktelik Kuralları Nedir?**

Veri içerisindeki pattern'leri (ilişkileri, yapıları) bulmak için kullanılan kural tabanlı bir makine öğrenmesi tekniğidir.


Birliktelik analizi uygulamaları veri biliminde en çok karşımıza çıkan uygulamalardandır. Tavsiye sistemleri olarak da denk gelmiş olacaktır.


Bu uygulamalar karşınıza şu şekillerde gelmiş olabilir "o ürünü alan bu ürünü de aldı" ya da "o ilana bakanlar bu ilanlara da baktı" ya da "senin için çalma listesi oluşturduk" ya da "sıradaki video için önerilen video" gibi.

Bu senaryolar e-ticaret veri bilimi veri madenciliği çalışmaları kapsamında en sık karşımıza çıkacak olan senaryolar.

Türkiye'deki ve dünyadaki büyük e-ticaret şirketleri, spotify, amazon, netflix gibi biraz daha yakından bilebileceğimiz birçok platform tavsiye sistemlerini kullanmaktadır.

Peki özetle ne yapmaktadır bu birliktelik analizleri?


**Apriori Algoritması**

Bu alanda en çok kullanılan yöntemdir. 

Birliktelik kuralı analizi bazı metrikler incelenerek gerçekleştirilir:

- Destek (Support)

Support(X, Y) = Freq(X,Y)/N

X: ürün
Y: ürün
N: toplam alışveriş

- Güven (Confidence)

Confidence(X, Y) = Freq(X,Y) / Freq(X)

- Lift

Lift = Support (X, Y) / ( Support(X) * Support(Y) ) 



# Data Understanding

In [182]:
#!pip install mlxtend

In [183]:
import pandas as pd
import numpy as np
from mlxtend.frequent_patterns import apriori, association_rules

In [184]:
df = pd.read_csv('GroceryStoreDataSet.csv', sep=',',header=None)
data = list(df[0].apply(lambda x:x.split(',')))

In [186]:
items=[]
for row in data:
    uncommons = list(set(row) -set(items))
    for uc in uncommons:
        items.append(uc)
items

['MILK',
 'BREAD',
 'BISCUIT',
 'CORNFLAKES',
 'TEA',
 'BOURNVITA',
 'MAGGI',
 'JAM',
 'COFFEE',
 'COCK',
 'SUGER']

In [187]:
df=pd.DataFrame(data)

In [188]:
encoded_vals = []
for index, row in df.iterrows(): 
    labels = {}
    uncommons = list(set(items) - set(row))
    commons = list(set(items).intersection(row))
    for uc in uncommons:
        labels[uc] = 0
    for com in commons:
        labels[com] = 1
    encoded_vals.append(labels)
type(encoded_vals)

list

In [189]:
df=pd.DataFrame(encoded_vals)

from mlxtend.preprocessing import TransactionEncoder

te = TransactionEncoder()
te_data = te.fit(data).transform(data)

x=pd.DataFrame(te_data)

x.head()

In [190]:
freq_items = apriori(df, min_support = 0.10, use_colnames = True, verbose = 1)

Processing 110 combinations | Sampling itemset size 2Processing 159 combinations | Sampling itemset size 3Processing 40 combinations | Sampling itemset size 4


In [191]:
freq_items.head()

Unnamed: 0,support,itemsets
0,0.4,(COFFEE)
1,0.3,(CORNFLAKES)
2,0.25,(MAGGI)
3,0.2,(BOURNVITA)
4,0.15,(COCK)


In [192]:
ar=association_rules(freq_items, metric = "confidence", min_threshold = 0.8)
ar

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(COCK),(COFFEE),0.15,0.4,0.15,1.0,2.5,0.09,inf
1,(JAM),(MAGGI),0.1,0.25,0.1,1.0,4.0,0.075,inf
2,(MAGGI),(TEA),0.25,0.35,0.2,0.8,2.285714,0.1125,3.25
3,(JAM),(BREAD),0.1,0.65,0.1,1.0,1.538462,0.035,inf
4,(MILK),(BREAD),0.25,0.65,0.2,0.8,1.230769,0.0375,1.75
5,"(CORNFLAKES, COCK)",(COFFEE),0.1,0.4,0.1,1.0,2.5,0.06,inf
6,"(COFFEE, BISCUIT)",(CORNFLAKES),0.1,0.3,0.1,1.0,3.333333,0.07,inf
7,"(COFFEE, BISCUIT)",(COCK),0.1,0.15,0.1,1.0,6.666667,0.085,inf
8,"(BISCUIT, COCK)",(COFFEE),0.1,0.4,0.1,1.0,2.5,0.06,inf
9,"(CORNFLAKES, COCK)",(BISCUIT),0.1,0.35,0.1,1.0,2.857143,0.065,inf


In [193]:
ar[(ar.support>0.1)  &  (ar.confidence > 0.8) ]

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(COCK),(COFFEE),0.15,0.4,0.15,1.0,2.5,0.09,inf


In [None]:
ar