- **목적** : 트랜잭션 데이터에서 상품 간의 관계를 찾아낸다
- **알고리즘** : Apriori 알고리즘
- **데이터셋** : Online Retail Dataset은 온라인 소매점에서의 거래 데이터를 가진 데이터 셋으로, 각 거래는 고객이 구매한 상품의 목록을 포함하고 있다.
- **사용 예시** : 주로 장바구니 분(Market Basket Analysis)에 사용되며, 상품 추천 서비스 등

## 라이브러리 가져오기

In [1]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

### Pandas
> 파이썬 데이터 처리를 위한 라이브러리

주로 DataFrame이라는 2차원 테이블 형태의 데이터 구조를 사용하며, 결측값 처리, 시계열 분석, 통계분석 등 다양한 데이터 처리 기능을 제공한다.

### mlxtend
> 머신러닝 및 데이터 분석을 위한 유용한 도구 및 기능을 제공하는 라이브러리

연관 규칙 학습, 분류, 회귀, 클러스터링, 차원 축소, 모델 선택, 전처리,
시각화 등 다양한 기능 제공

### TransactionEncoder
> mlxtend 라이브러리의 전처리 모듈에 속한 클래스

트랜잭션 데이터를 머신러닝 알고리즘에 적합한 형태로 변환한다. 아이템의 존재 여부를 나타내는 boolean 값으로 변환해 One-hot 인코딩이라고 부르기도 한다.

## 데이터 불러오기, 결측값 제거

#### pd.read_excel
엑셀 파일로 된 데이터를 부러온다.

#### dropna
해당하는 열의 결측값을 제거한다.
> inplcae=True로 설정한 경우 데이터셋 자체를 수정한다.

In [2]:
df = pd.read_excel('Online Retail.xlsx')
df.dropna(subset=['Description', 'CustomerID'], inplace=True)

In [3]:
df.head(3)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom


## 데이터 변환
주문 데이터를 거래 형태로 변환

#### groupby
주어진 데이터를 그룹 별로 구분하여 데이터를 보기 위해 사용되는 함수
> InvoiceNo을 통해 그룹화하여 사용자별로 구매 내역을 보여준다.

#### apply(list)
데이터를 리스트 형태로 바꿔준다.

In [4]:
transactions = df.groupby('InvoiceNo')['Description'].apply(list)
transactions.head()

InvoiceNo
536365    [WHITE HANGING HEART T-LIGHT HOLDER, WHITE MET...
536366    [HAND WARMER UNION JACK, HAND WARMER RED POLKA...
536367    [ASSORTED COLOUR BIRD ORNAMENT, POPPY'S PLAYHO...
536368    [JAM MAKING SET WITH JARS, RED COAT RACK PARIS...
536369                           [BATH BUILDING BLOCK WORD]
Name: Description, dtype: object

## 데이터 인코딩

#### TransactionEncoder()
객체를 생성한다.

#### fit()
데이터셋에 적용한다.

#### transform()
데이터를 boolean 배열로 변환한다.

#### pd.DataFrame()
변환된 데이터를 pandas의 DataFrame으로 변환한다.

In [5]:
te = TransactionEncoder()
te_ary = te.fit(transactions).transform(transactions)
df = pd.DataFrame(te_ary, columns=te.columns_)

df.head()

Unnamed: 0,4 PURPLE FLOCK DINNER CANDLES,50'S CHRISTMAS GIFT BAG LARGE,DOLLY GIRL BEAKER,I LOVE LONDON MINI BACKPACK,I LOVE LONDON MINI RUCKSACK,NINE DRAWER OFFICE TIDY,OVAL WALL MIRROR DIAMANTE,RED SPOT GIFT BAG LARGE,SET 2 TEA TOWELS I LOVE LONDON,SPACEBOY BABY GIFT SET,...,ZINC STAR T-LIGHT HOLDER,ZINC SWEETHEART SOAP DISH,ZINC SWEETHEART WIRE LETTER RACK,ZINC T-LIGHT HOLDER STAR LARGE,ZINC T-LIGHT HOLDER STARS LARGE,ZINC T-LIGHT HOLDER STARS SMALL,ZINC TOP 2 DOOR WOODEN SHELF,ZINC WILLIE WINKIE CANDLE STICK,ZINC WIRE KITCHEN ORGANISER,ZINC WIRE SWEETHEART LETTER TRAY
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


## Apriori 알고리즘 적용

- **min_support**: 지지도는 특정 항목 집합이 전체 트랜재션에서 발생한 비율을 말한다.
- **apriori()**: 데이터셋과 최소 지지도를 사용해 빈발 항목 집합을 찾는다.

<br>

- **지지도**(Support): 각 항목이 같이 발생할 경우
- **신뢰도**(Confidence): 항목 x가 주어진 경우, 항목 y도 발생할 확률
- **향상도**(Lift): 항목 x와 y가 독립적일 때 예상되는 지지도에 비해 실제로 함께 발생한 비율

In [6]:
min_support = 0.01
frequent_itemsets = apriori(df, min_support=min_support, use_colnames=True)

## 관련 지표 계산

- **association_rules()**: 지지도, 신뢰 및 향상도 지표를 포함하는 규칙 계산 선행 항목과 후행 항목 간의 관계와 함께 지표 값을 확인할 수 있다.

In [17]:
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)
print(rules[['antecedents', 'consequents', 'support', 'confidence', 'lift']])

                                           antecedents   
0                        (60 TEATIME FAIRY CAKE CASES)  \
1                     (72 SWEETHEART FAIRY CAKE CASES)   
2                        (60 TEATIME FAIRY CAKE CASES)   
3                     (PACK OF 60 DINOSAUR CAKE CASES)   
4                 (PACK OF 60 PINK PAISLEY CAKE CASES)   
..                                                 ...   
563  (REGENCY CAKESTAND 3 TIER, GREEN REGENCY TEACU...   
564                   (PINK REGENCY TEACUP AND SAUCER)   
565                 (ROSES REGENCY TEACUP AND SAUCER )   
566                         (REGENCY CAKESTAND 3 TIER)   
567                  (GREEN REGENCY TEACUP AND SAUCER)   

                                           consequents   support  confidence   
0                     (72 SWEETHEART FAIRY CAKE CASES)  0.010050    0.335843  \
1                        (60 TEATIME FAIRY CAKE CASES)  0.010050    0.441584   
2                     (PACK OF 60 DINOSAUR CAKE CASES)  0.01005

## 상품 추천 시스템

- **lambda**: 간단한 기능을 수행하는 일회성 함수 생성
- **apply()**: 데이터프레임의 특정 열의 모든 행에 사용 지정 함수 적용
- **issubset()**: 부분집합 여부 확인
- **iterrows()**: 데이터프레임의 인덱스와 행 데이터를 튜플로 반환
- **update()**: 새로운 요소 추가

In [18]:
# 추천 함수 정의
def recomend_products(rules, product_bought, top_n=10):
    """
    :param rules: 연관 규칙 데이터 프레임
    :param product_bought: 사용자가 구매한 상품 목록
    :param top_n: 추천할 상품 개수
    :return:
    """
    # 구매한 상품을 antecedents에 포함하는 규칙을 찾는다.
    recommendations = rules[rules['antecedents'].apply(lambda x: set(product_bought).issubset(x))]

    """
    recommendations = set()

    for index, rule in rules.iterrows():
        antecedents = rule['antecedents']
        if set(products_bought).issubset(antecedents):
            recommendations.update(rule['consequents'])
    """

    # lift 값이 높은 순서로 상품 정렬
    recommendations = recommendations.sort_values(by='lift', ascending=False)

    # 상위 top_n개의 상품 추천
    recomend_products = set()
    for _, row in recommendations.iterrows():
        recomend_products.update(row['consequents'])

        if len(recomend_products) >= top_n:
            break

    return list(recomend_products)[:top_n]


products_bought = ['72 SWEETHEART FAIRY CAKE CASES']
recomended = recomend_products(rules, products_bought)
print("추천 상품 : ", recomended)

추천 상품 :  ['60 TEATIME FAIRY CAKE CASES', 'PACK OF 72 RETROSPOT CAKE CASES']
