## Apriori İlişkilendirme Algoritması Nedir?

Apriori algoritması, veri madenciliğinde kullanılan, sık öğe kümelerini ve bu öğe kümeleri arasındaki ilişkileri (ilişkilendirmeleri) belirlemek amacıyla geliştirilmiş bir algoritmadır. Özellikle perakende satış verilerinde, müşterilerin birlikte satın aldığı ürünlerin belirlenmesinde sıkça kullanılır. Apriori algoritması, market sepeti analizi (market basket analysis) olarak bilinen bu alanda yaygın bir şekilde uygulanır.

#### Apriori Algoritmasının Temel İlkeleri
- Destek (Support): Belirli bir öğe kümesinin veri setinde görülme sıklığıdır. Örneğin, {Ekmek, Süt} öğe kümesinin destek değeri, bu iki ürünün birlikte satın alındığı işlemlerin tüm işlemlere oranıdır.

- Güven (Confidence): Bir öğe kümesinin başka bir öğe kümesiyle birlikte bulunma olasılığıdır. Örneğin, {Ekmek} → {Süt} ilişkisinin güven değeri, ekmek satın alan müşterilerin aynı zamanda süt de satın alma olasılığını belirtir.

- Lift: İki öğenin birlikte meydana gelmesinin, bu öğelerin bağımsız olarak meydana gelme olasılığına oranıdır. Lift değeri, öğeler arasındaki bağımsızlıktan sapmayı ölçer. Lift değeri 1'den büyükse, iki öğe arasında pozitif bir ilişki vardır; 1'den küçükse negatif bir ilişki vardır.

#### Algoritmanın Çalışma Prensibi
Apriori algoritması, sık öğe kümelerini belirlemek için iteratif bir yaklaşım kullanır.

- Aday Öğelerin Belirlenmesi: Öncelikle, her bir öğe için destek değeri hesaplanır ve belirli bir destek eşik değerini (minimum destek) karşılayan öğeler aday öğe kümesi olarak seçilir.

- Aday Öğelerin Destek Değerlerinin Hesaplanması: İlk adımda belirlenen aday öğe kümeleri kullanılarak, iki öğeli, üç öğeli vb. daha büyük öğe kümeleri oluşturulur ve bu kümelerin destek değerleri hesaplanır.

- Sık Öğelerin Bulunması: Hesaplanan destek değerlerine göre minimum destek eşik değerini karşılayan öğe kümeleri sık öğe kümeleri olarak seçilir.

- İlişkilendirme Kurallarının Çıkarılması: Sık öğe kümeleri kullanılarak, belirli bir güven eşiğini karşılayan ilişkilendirme kuralları çıkarılır. Bu kurallar, genellikle "Eğer A öğesi varsa, B öğesi de vardır" şeklindedir.

#### Avantajları ve Dezavantajları

##### Avantajları:

- Basit ve anlaşılır bir algoritmadır.

- Küçük ve orta ölçekli veri setlerinde etkilidir.

- Sık öğe kümeleri ve ilişkilendirme kurallarını bulmada başarılıdır.

##### Dezavantajları:

- Büyük veri setlerinde hesaplama maliyeti yüksektir.

- Çok sayıda öğe içeren veri setlerinde bellek ve zaman gereksinimi artar.

- Nadir öğeleri bulmada etkinliği düşüktür.



## Apriori Örnek Uygulama 
Market ürünleri arasındaki ilişkiyi bulma uygulaması.


In [1]:
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/azsaritas/makine_ogrenmesi/main/dosyalar/apriori/GroceryStoreDataSet.csv", names=['products'], header = None)
df.head()


Unnamed: 0,products
0,"MILK,BREAD,BISCUIT"
1,"BREAD,MILK,BISCUIT,CORNFLAKES"
2,"BREAD,TEA,BOURNVITA"
3,"JAM,MAGGI,BREAD,MILK"
4,"MAGGI,TEA,BISCUIT"


#### Gerekli kütüphaneleri ve veri setini import ediyoruz.

In [2]:
data = list(df["products"].apply(lambda x:x.split(',')))
data

[['MILK', 'BREAD', 'BISCUIT'],
 ['BREAD', 'MILK', 'BISCUIT', 'CORNFLAKES'],
 ['BREAD', 'TEA', 'BOURNVITA'],
 ['JAM', 'MAGGI', 'BREAD', 'MILK'],
 ['MAGGI', 'TEA', 'BISCUIT'],
 ['BREAD', 'TEA', 'BOURNVITA'],
 ['MAGGI', 'TEA', 'CORNFLAKES'],
 ['MAGGI', 'BREAD', 'TEA', 'BISCUIT'],
 ['JAM', 'MAGGI', 'BREAD', 'TEA'],
 ['BREAD', 'MILK'],
 ['COFFEE', 'COCK', 'BISCUIT', 'CORNFLAKES'],
 ['COFFEE', 'COCK', 'BISCUIT', 'CORNFLAKES'],
 ['COFFEE', 'SUGER', 'BOURNVITA'],
 ['BREAD', 'COFFEE', 'COCK'],
 ['BREAD', 'SUGER', 'BISCUIT'],
 ['COFFEE', 'SUGER', 'CORNFLAKES'],
 ['BREAD', 'SUGER', 'BOURNVITA'],
 ['BREAD', 'COFFEE', 'SUGER'],
 ['BREAD', 'COFFEE', 'SUGER'],
 ['TEA', 'MILK', 'COFFEE', 'CORNFLAKES']]

#### Her satırdaki birimi virgül ile tek tek ayırıyoruz. Bu sayede ürünleri eşsiz olarak değerlendirebiliriz.

In [3]:
from mlxtend.preprocessing import TransactionEncoder
te = TransactionEncoder()
te_data = te.fit(data).transform(data)
df = pd.DataFrame(te_data, columns = te.columns_)
df.head(10)

Unnamed: 0,BISCUIT,BOURNVITA,BREAD,COCK,COFFEE,CORNFLAKES,JAM,MAGGI,MILK,SUGER,TEA
0,True,False,True,False,False,False,False,False,True,False,False
1,True,False,True,False,False,True,False,False,True,False,False
2,False,True,True,False,False,False,False,False,False,False,True
3,False,False,True,False,False,False,True,True,True,False,False
4,True,False,False,False,False,False,False,True,False,False,True
5,False,True,True,False,False,False,False,False,False,False,True
6,False,False,False,False,False,True,False,True,False,False,True
7,True,False,True,False,False,False,False,True,False,False,True
8,False,False,True,False,False,False,True,True,False,False,True
9,False,False,True,False,False,False,False,False,True,False,False


#### TransactionEncoder bize istediğimiz True-False arrayını dönüştürmemizi sağlıyor.

In [4]:
from mlxtend.frequent_patterns import apriori
df1 = apriori(df, min_support=0.02, use_colnames = True, verbose=1)
df1

Processing 110 combinations | Sampling itemset size 2Processing 321 combinations | Sampling itemset size 3Processing 228 combinations | Sampling itemset size 4Processing 30 combinations | Sampling itemset size 5


Unnamed: 0,support,itemsets
0,0.35,(BISCUIT)
1,0.20,(BOURNVITA)
2,0.65,(BREAD)
3,0.15,(COCK)
4,0.40,(COFFEE)
...,...,...
78,0.05,"(TEA, MAGGI, BISCUIT, BREAD)"
79,0.10,"(CORNFLAKES, COFFEE, COCK, BISCUIT)"
80,0.05,"(JAM, MAGGI, MILK, BREAD)"
81,0.05,"(TEA, MAGGI, JAM, BREAD)"


#### df = True-False array ya da One Hot Encoding ile dönüştürülmüş dataframe.
#### min_support = Tüm kombinasyonların support değerini istemiyoruz bu yüzden belirli bir eşik değerini supporta göre getiriyoruz.
#### use_colnames = True, sutün isimlerini gösterir.
#### verbose = 1, Toplam kombinasyon sayısını verir. 

In [5]:
from mlxtend.frequent_patterns import association_rules

association_rules(df1, metric = "confidence", min_threshold = 0.6)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
0,(COCK),(BISCUIT),0.15,0.35,0.10,0.666667,1.904762,0.0475,1.950,0.558824
1,(BOURNVITA),(BREAD),0.20,0.65,0.15,0.750000,1.153846,0.0200,1.400,0.166667
2,(JAM),(BREAD),0.10,0.65,0.10,1.000000,1.538462,0.0350,inf,0.388889
3,(MAGGI),(BREAD),0.25,0.65,0.15,0.600000,0.923077,-0.0125,0.875,-0.100000
4,(MILK),(BREAD),0.25,0.65,0.20,0.800000,1.230769,0.0375,1.750,0.250000
...,...,...,...,...,...,...,...,...,...,...
81,"(CORNFLAKES, MILK, COFFEE)",(TEA),0.05,0.35,0.05,1.000000,2.857143,0.0325,inf,0.684211
82,"(TEA, MILK, COFFEE)",(CORNFLAKES),0.05,0.30,0.05,1.000000,3.333333,0.0350,inf,0.736842
83,"(TEA, COFFEE)","(CORNFLAKES, MILK)",0.05,0.10,0.05,1.000000,10.000000,0.0450,inf,0.947368
84,"(TEA, MILK)","(CORNFLAKES, COFFEE)",0.05,0.20,0.05,1.000000,5.000000,0.0400,inf,0.842105


#### antecedent support ; Birincinin tek başına görülme olasılığı,
#### consequent support ; İkincinin tek başına görülme olasılığı,
#### support ; İkisinin birlikte görülme olasılığı,
#### confidence ; İlki satıldığında ikinci ürünün satılma olasılığı,
#### lift ; İlki satıldığında ikinci ürünün satılma olasılığı x kadar kat arttı yorumu yapılır.

In [6]:
rules = association_rules(df1, metric = "confidence", min_threshold = 0.6)
rules[ (rules['confidence'] >= 0.6) & (rules['support'] >= 0.2) ]

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
4,(MILK),(BREAD),0.25,0.65,0.2,0.8,1.230769,0.0375,1.75,0.25
5,(SUGER),(BREAD),0.3,0.65,0.2,0.666667,1.025641,0.005,1.05,0.035714
8,(CORNFLAKES),(COFFEE),0.3,0.4,0.2,0.666667,1.666667,0.08,1.8,0.571429
9,(SUGER),(COFFEE),0.3,0.4,0.2,0.666667,1.666667,0.08,1.8,0.571429
11,(MAGGI),(TEA),0.25,0.35,0.2,0.8,2.285714,0.1125,3.25,0.75


#### Örnek olarak support değeri %20 ve Confidence değeri %60 diyerek dataframe üzerinden indirgemeleryapıyoruz.

##### Alışverişlerde MAGGI’ın tek başına görülme olasığı %25, TEA’in tek başına görülme olasılığı %35.
##### 100 alışverişin 20'sinde mutlaka MAGGI ve TEA beraber satın alınıyor. (support)
##### MAGGI satıldığında TEA satılma olasılığı 0.800.. yani %80. (confidence)
##### MAGGI satılan satışlarda TEA satılma olasılığı 2.28 kat artmaktadır. (lift)

#### bu durumda:

#### MAGGI (sos) alan biri %80 gibi yüksek bir ihtimalle TEA (çay) almaktadır ve TEA satışını 2.28 artırmaktadır. Bu iki ürün yan yana konularak müşteriye kolaylık sağlanabilir veya bu iki ürün birbirinden uzak yerlerde konumlandırılarak müşterinin market içi dolaşması sağlanabilir, bu süreçte müşteri diğer ürünlere göz atabilir ve yahut satın alabilir.

### Sonuç olarak ürünler arasındaki ilişkileri Apriori algoritması ile bulmuş olduk.