# Data Understanding

In [1]:
# .csv formatındaki veri setini okuma işlemi
# MILK,BREAD,BISCUIT olan sutün başlığını names=['products'] ile products'a çevirdik.

import pandas as pd
df = pd.read_csv("datasets_344_727_GroceryStoreDataSet.csv", names=['products'], header = None)
df.head()

Unnamed: 0,products
0,"MILK,BREAD,BISCUIT"
1,"BREAD,MILK,BISCUIT,CORNFLAKES"
2,"BREAD,TEA,BOURNVITA"
3,"JAM,MAGGI,BREAD,MILK"
4,"MAGGI,TEA,BISCUIT"


In [2]:
# 20 gözlem ve 1 sütun var.

df.shape

(20, 1)

In [3]:
# Sutün adı ve tipi.

df.columns

Index(['products'], dtype='object')

In [4]:
# Her satırda gözlenen gözlemler

df.values

array([['MILK,BREAD,BISCUIT'],
       ['BREAD,MILK,BISCUIT,CORNFLAKES'],
       ['BREAD,TEA,BOURNVITA'],
       ['JAM,MAGGI,BREAD,MILK'],
       ['MAGGI,TEA,BISCUIT'],
       ['BREAD,TEA,BOURNVITA'],
       ['MAGGI,TEA,CORNFLAKES'],
       ['MAGGI,BREAD,TEA,BISCUIT'],
       ['JAM,MAGGI,BREAD,TEA'],
       ['BREAD,MILK'],
       ['COFFEE,COCK,BISCUIT,CORNFLAKES'],
       ['COFFEE,COCK,BISCUIT,CORNFLAKES'],
       ['COFFEE,SUGER,BOURNVITA'],
       ['BREAD,COFFEE,COCK'],
       ['BREAD,SUGER,BISCUIT'],
       ['COFFEE,SUGER,CORNFLAKES'],
       ['BREAD,SUGER,BOURNVITA'],
       ['BREAD,COFFEE,SUGER'],
       ['BREAD,COFFEE,SUGER'],
       ['TEA,MILK,COFFEE,CORNFLAKES']], dtype=object)

In [5]:
# Her satırda tek bir gözlem birimi varmış gibiydi bunu virgül ile tek tek ayırma işlemi yaptık.
data = list(df["products"].apply(lambda x:x.split(',')))
data 

[['MILK', 'BREAD', 'BISCUIT'],
 ['BREAD', 'MILK', 'BISCUIT', 'CORNFLAKES'],
 ['BREAD', 'TEA', 'BOURNVITA'],
 ['JAM', 'MAGGI', 'BREAD', 'MILK'],
 ['MAGGI', 'TEA', 'BISCUIT'],
 ['BREAD', 'TEA', 'BOURNVITA'],
 ['MAGGI', 'TEA', 'CORNFLAKES'],
 ['MAGGI', 'BREAD', 'TEA', 'BISCUIT'],
 ['JAM', 'MAGGI', 'BREAD', 'TEA'],
 ['BREAD', 'MILK'],
 ['COFFEE', 'COCK', 'BISCUIT', 'CORNFLAKES'],
 ['COFFEE', 'COCK', 'BISCUIT', 'CORNFLAKES'],
 ['COFFEE', 'SUGER', 'BOURNVITA'],
 ['BREAD', 'COFFEE', 'COCK'],
 ['BREAD', 'SUGER', 'BISCUIT'],
 ['COFFEE', 'SUGER', 'CORNFLAKES'],
 ['BREAD', 'SUGER', 'BOURNVITA'],
 ['BREAD', 'COFFEE', 'SUGER'],
 ['BREAD', 'COFFEE', 'SUGER'],
 ['TEA', 'MILK', 'COFFEE', 'CORNFLAKES']]

# Data Preprocessing

In [6]:
!pip install mlxtend



In [7]:
from mlxtend.preprocessing import TransactionEncoder

In [8]:
#Veri setini istenilen True-False array'ine çevirdik.

te = TransactionEncoder()
te_data = te.fit(data).transform(data)
df = pd.DataFrame(te_data,columns=te.columns_)
df

Unnamed: 0,BISCUIT,BOURNVITA,BREAD,COCK,COFFEE,CORNFLAKES,JAM,MAGGI,MILK,SUGER,TEA
0,True,False,True,False,False,False,False,False,True,False,False
1,True,False,True,False,False,True,False,False,True,False,False
2,False,True,True,False,False,False,False,False,False,False,True
3,False,False,True,False,False,False,True,True,True,False,False
4,True,False,False,False,False,False,False,True,False,False,True
5,False,True,True,False,False,False,False,False,False,False,True
6,False,False,False,False,False,True,False,True,False,False,True
7,True,False,True,False,False,False,False,True,False,False,True
8,False,False,True,False,False,False,True,True,False,False,True
9,False,False,True,False,False,False,False,False,True,False,False


# Data Association Rules

In [10]:
from mlxtend.frequent_patterns import apriori

In [11]:
# Apriori Fonksiyonunu deneyelim.
# df = True-False array ya da One Hot Encoding ile dönüştürülmüş dataframe
# min_support = Tüm kombinasyonların support değerini istemiyorum bu yüzden belirli bir eşik değerini getir.
# use_colnames = True, sutün isimlerini göster.
# verbose = 1, Toplam kombinasyon sayısını verir.

df1 = apriori(df, min_support=0.02, use_colnames=True, verbose = 1)
df1

Processing 30 combinations | Sampling itemset size 54


Unnamed: 0,support,itemsets
0,0.35,(BISCUIT)
1,0.20,(BOURNVITA)
2,0.65,(BREAD)
3,0.15,(COCK)
4,0.40,(COFFEE)
...,...,...
78,0.05,"(BISCUIT, MAGGI, TEA, BREAD)"
79,0.10,"(BISCUIT, COFFEE, COCK, CORNFLAKES)"
80,0.05,"(JAM, BREAD, MAGGI, MILK)"
81,0.05,"(JAM, MAGGI, TEA, BREAD)"


In [12]:
''' BISCUIT tüm alışverişlerin % 35'inde, 
    BREAD tüm alışverişlerin %65'inde veya 
    TEA, MAGGI, BREAD, BISCUIT tüm satışların % 5'inde beraber yorumları yapılır.''' 

" BISCUIT tüm alışverişlerin % 35'inde, \n    BREAD tüm alışverişlerin %65'inde veya \n    TEA, MAGGI, BREAD, BISCUIT tüm satışların % 5'inde beraber yorumları yapılır."

In [13]:
#Alışverişlerde en çok alınan ürünleri yorumlayabilmek için veriyi büyükten küçüğe sıralayabiliriz.

df1.sort_values(by="support", ascending=False)

Unnamed: 0,support,itemsets
2,0.65,(BREAD)
4,0.40,(COFFEE)
0,0.35,(BISCUIT)
10,0.35,(TEA)
5,0.30,(CORNFLAKES)
...,...,...
55,0.05,"(BISCUIT, CORNFLAKES, MILK)"
57,0.05,"(BOURNVITA, SUGER, BREAD)"
17,0.05,"(BISCUIT, SUGER)"
37,0.05,"(CORNFLAKES, MAGGI)"


In [14]:
from mlxtend.frequent_patterns import association_rules

In [15]:
# Aprioride "support" hesabı yapabiliriz, "confidence ve diğerleri" için association rules kullanıyoruz.

association_rules(df1, metric = "confidence", min_threshold = 0.6)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(COCK),(BISCUIT),0.15,0.35,0.10,0.666667,1.904762,0.0475,1.950
1,(BOURNVITA),(BREAD),0.20,0.65,0.15,0.750000,1.153846,0.0200,1.400
2,(JAM),(BREAD),0.10,0.65,0.10,1.000000,1.538462,0.0350,inf
3,(MAGGI),(BREAD),0.25,0.65,0.15,0.600000,0.923077,-0.0125,0.875
4,(MILK),(BREAD),0.25,0.65,0.20,0.800000,1.230769,0.0375,1.750
...,...,...,...,...,...,...,...,...,...
81,"(COFFEE, CORNFLAKES, MILK)",(TEA),0.05,0.35,0.05,1.000000,2.857143,0.0325,inf
82,"(CORNFLAKES, TEA, MILK)",(COFFEE),0.05,0.40,0.05,1.000000,2.500000,0.0300,inf
83,"(COFFEE, TEA)","(CORNFLAKES, MILK)",0.05,0.10,0.05,1.000000,10.000000,0.0450,inf
84,"(COFFEE, MILK)","(CORNFLAKES, TEA)",0.05,0.10,0.05,1.000000,10.000000,0.0450,inf


In [16]:
''' antecedent support ; Birincinin tek başına görülme olasılığı,
    consequent support ; İkincinin tek başına görülme olasılığı,
    support ; İkisinin birlikte görülme olasılığı,
    confidence ; İlki satıldığında ikinci ürünün satılma olasılığı,
    lift ;  İlki satıldığında ikinci ürünün satılma olasılığı şu kadar kat arttı yorumu

'''

' antecedent support ; Birincinin tek başına görülme olasılığı,\n    consequent support ; İkincinin tek başına görülme olasılığı,\n    support ; İkisinin birlikte görülme olasılığı,\n    confidence ; İlki satıldığında ikinci ürünün satılma olasılığı,\n    lift ;  İlki satıldığında ikinci ürünün satılma olasılığı şu kadar kat arttı yorumu\n\n'

## Selecting and Filtering Results 

In [17]:
''' "confidence" göz önünde bulundurulması gereken tek metrik değil. 
Bir kaç metriğin kombinasyonuda alınabilir.
'''

' "confidence" göz önünde bulundurulması gereken tek metrik değil. \nBir kaç metriğin kombinasyonuda alınabilir.\n'

In [36]:
rules = association_rules(df1, metric = "confidence", min_threshold = 0.6)
rules[ (rules['confidence'] >= 0.6) & (rules['support'] >= 0.2) ]

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
4,(MILK),(BREAD),0.25,0.65,0.2,0.8,1.230769,0.0375,1.75
5,(SUGER),(BREAD),0.3,0.65,0.2,0.666667,1.025641,0.005,1.05
8,(CORNFLAKES),(COFFEE),0.3,0.4,0.2,0.666667,1.666667,0.08,1.8
9,(SUGER),(COFFEE),0.3,0.4,0.2,0.666667,1.666667,0.08,1.8
11,(MAGGI),(TEA),0.25,0.35,0.2,0.8,2.285714,0.1125,3.25


# Reporting

İndirgediğim veriseti üzerinden analiz yapıyor olacağım.
- Alışverişlerde MAGGI'ın tek başına görülme olasığı %25, TEA'in tek başına görülme olasılığı %35.
- 100 alışverişin 20'sinde mutlaka MAGGI ve TEA beraber satın alınıyor.
- MAGGI satıldığında TEA satılma olasılığı 0.800.. yani %80.
- MAGGI satılan satışlarda TEA satılma olasılığı 2.28 kat artmaktadır.


Aksiyon Fikri: 
- MAGGI alan biri %80 gibi yüksek bir ihtimalle TEA almaktadır ve TEA satışını 2.28 artırmaktadır. Bu iki ürün birbirinden uzak yerlerde konumlandırılarak müşterinin market içi dolaşması sağlanabilir, bu süreçte müşteri diğer ürünlere göz atabilir ve yahut satın alabilir. 
