# Apriori

In [1]:
pip install apyori

Note: you may need to restart the kernel to use updated packages.


## Data Preprocessing

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.read_csv('Market_Basket_Optimisation.csv', header = None)
# 행 제목이 없으므로 header = None 설정
transactions = []

for i in range(0, len(df)):
    transactions.append([str(df.values[i, j]) for j in range(0, len(df.iloc[0]))])

Apyori에서 요구하는 데이터 형식은 pandas DataFrame 형식이 아닌 np.array 형식을 요구한다.

그러므로 for 문을 통해 `df`를 순회하며 `transactions` 배열에 추가한다.

## Training the Apriori model on the dataset

In [3]:
from apyori import apriori

rules = apriori(transactions = transactions, min_support = 0.003, min_confidence = 0.2,
               min_lift = 3, min_length = 2, max_length = 2)

`transcations`: apriori에 활용할 데이터 셋(np.array 형식)

`min_support` / `min_confidence` / `min_lift`: 최소 지지도 / 신뢰도 / 향상도 설정

`min/max_length` 규칙 최소/최대 요소 수 설정

1+1 행사를 위해 2라고 설정했다고 함

## 최소 지지도 설정 방법

하루에 최소 세 번 거래된 상품을 고려하자.

csv 데이터는 일주일 거래내역을 바탕으로 하였으므로 3에서 7을 곱해야 한다.

그러므로 일주일 빈도 수는 21이 된다.

그리고 지지도는 거래 내역에 상품이 나타나는 숫자 나누기 거래 내역의 총 숫자이므로

하루에 최소 세 번 거래된 상품을 고려한다고 가정했을 때

최소 지지도는 $\frac{3\times7}{7501}=0.003$이 된다.

## 최소 신뢰도 설정 방법

보통 80%를 최소 신뢰도로 설정하는데, 만약 규칙이 나오지 않는다면 그 수를 반으로 나눈다.

적당한 규칙이 나올 때까지 반으로 나눠준다.

## 최소 향상도 설정 방법

좋은 최소 향상도는 3 ~ 9 사이다.


## Visualising the results

### Displaying the first results coming directly from the output of the apriori func

In [4]:
results = list(rules)
results

[RelationRecord(items=frozenset({'light cream', 'chicken'}), support=0.004532728969470737, ordered_statistics=[OrderedStatistic(items_base=frozenset({'light cream'}), items_add=frozenset({'chicken'}), confidence=0.29059829059829057, lift=4.84395061728395)]),
 RelationRecord(items=frozenset({'mushroom cream sauce', 'escalope'}), support=0.005732568990801226, ordered_statistics=[OrderedStatistic(items_base=frozenset({'mushroom cream sauce'}), items_add=frozenset({'escalope'}), confidence=0.3006993006993007, lift=3.790832696715049)]),
 RelationRecord(items=frozenset({'escalope', 'pasta'}), support=0.005865884548726837, ordered_statistics=[OrderedStatistic(items_base=frozenset({'pasta'}), items_add=frozenset({'escalope'}), confidence=0.3728813559322034, lift=4.700811850163794)]),
 RelationRecord(items=frozenset({'honey', 'fromage blanc'}), support=0.003332888948140248, ordered_statistics=[OrderedStatistic(items_base=frozenset({'fromage blanc'}), items_add=frozenset({'honey'}), confidence=0

최상단에 있는 결과를 분석해보자.

light cream과 chicken이 조건을 만족하는 연관 규칙 중 하나로 리턴되었다.

좌변과 우변이 각각 light cream과 chicken이므로 무조건 고객이 lc를 사면 c를 산다고 생각하겠지만,

`items_base`가 light_cream이고 `items_add`가 chicken이므로 사람들이 lc를 사면 c를 살 확률이 높다는 것이다.

`support` 에서는 두 상품을 포함한 규칙이 거래내역의 몇 퍼센트를 차지하는지를 나타낸다.

그리고 전후관계에 맞게 그 두 상품을 살 확률은 `confidence` 속성에서 확인할 수 있다.

`lift`는 규칙의 강도를 나타낸다.

### Putting the results well organised into a Pandas DataFrame

In [8]:
def inspect(results):
    lhs         = [tuple(result[2][0][0])[0] for result in results]
    rhs         = [tuple(result[2][0][1])[0] for result in results]
    supports    = [result[1] for result in results]
    confidences = [result[2][0][2] for result in results]
    lifts       = [result[2][0][3] for result in results]
    return list(zip(lhs, rhs, supports, confidences, lifts))
    
resultsinDataFrame = pd.DataFrame(inspect(results), columns = ['Left Hand Side', 'Right Hand Side', 'Support', 'Confidence', 'Lift'])

코드 스니핏을 통해 데이터 프레임을 정돈할 수 있다.

코드 스니핏을 처음부터 다시 구현할 필요는 없다.

`lhs` 는 for 문을 통해 results 변수의 행을 돌며 좌변을 가져온다.

`rhs` 는 for 문을 통해 results 변수의 행을 돌며 우변을 가져온다.

위와 같은 형식으로 지지도와 신뢰도, 향상도 또한 추출한다.

### Displaying the results non sorted

In [6]:
resultsinDataFrame

Unnamed: 0,Left Hand Side,Right Hand Side,Support,Confidence,Lift
0,light cream,chicken,0.004533,0.290598,4.843951
1,mushroom cream sauce,escalope,0.005733,0.300699,3.790833
2,pasta,escalope,0.005866,0.372881,4.700812
3,fromage blanc,honey,0.003333,0.245098,5.164271
4,herb & pepper,ground beef,0.015998,0.32345,3.291994
5,tomato sauce,ground beef,0.005333,0.377358,3.840659
6,light cream,olive oil,0.0032,0.205128,3.11471
7,whole wheat pasta,olive oil,0.007999,0.271493,4.12241
8,pasta,shrimp,0.005066,0.322034,4.506672


### Displaying the results sorted by descending lifts

In [13]:
resultsinDataFrame.nlargest(n = len(resultsinDataFrame), columns='Lift')
# 향상도를 기준으로 내림차순

Unnamed: 0,Left Hand Side,Right Hand Side,Support,Confidence,Lift
3,fromage blanc,honey,0.003333,0.245098,5.164271
0,light cream,chicken,0.004533,0.290598,4.843951
2,pasta,escalope,0.005866,0.372881,4.700812
8,pasta,shrimp,0.005066,0.322034,4.506672
7,whole wheat pasta,olive oil,0.007999,0.271493,4.12241
5,tomato sauce,ground beef,0.005333,0.377358,3.840659
1,mushroom cream sauce,escalope,0.005733,0.300699,3.790833
4,herb & pepper,ground beef,0.015998,0.32345,3.291994
6,light cream,olive oil,0.0032,0.205128,3.11471
