### apyori.apriori
#### 연관규칙(장바구니 분석) 알고리즘으로, 대용량 트랜잭션 데이터(거래데이터)로부터 X이면 Y이다라는 형식의 연관관계를 발견하는 기법, 즉 어떤 두 아이템 집합이 빈번히 발생하는가를 알려주는 일련의 규칙을 생성하는 알고리즘
- 소비자의 구매이력을 토대로 X 아이템을 구매하는 고객들은 Y 아이템 역시 구매할 가능성이 높다는 행동을 예측하거나 추천
- Raw Data를 Transaction Data(0과 1로 이루어진 데이터)로의 변환 필요

#### 연관규칙의 지표
- 지지도(Support) : (X와 Y를 모두 포함하는 거래건수) / (전체 거래건수)
- 신뢰도(Confidence) : (X와 Y를 모두 포함하는 거래건수) / (X가 포함된 거래건수)
- 향상도(Lift) : (신뢰도) / P(Y)
- 향상도의 절대값이 1보다 크면 우수, 1이면 X와 Y는 독립

#### 주요 Hyperparameter
- min_support : 최소 지지도로, 기준값 이상만 제시
- min_confidence : 최소 신뢰도로, 기준값 이상만 제시
- min_lift : 최소 향상도로, 기준값 이상만 제시

##### apriori(transaction_data, min_support, min_confidence, min_lift, min_length)

# 분석 코드

In [1]:
# 라이브러리 및 데이터 로드
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('seaborn-deep')
import matplotlib.cm
cmap=matplotlib.cm.get_cmap('plasma')
from apyori import apriori
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.preprocessing import MinMaxScaler, StandardScaler

df = pd.read_csv('../input/market-basket-analysis-store-data/store_data.csv', encoding='utf-8', header=None)
df.head()

ModuleNotFoundError: No module named 'apyori'

In [None]:
# 품목 분리
ts=[]
for i in range(df.shape[0]):
    ts.append([str(df.iloc[i,j]) for j in range(df.shape[1]-df.isnull().sum(axis=1)[i])])

In [None]:
# 지지도 0.015, 신뢰도 0.2, 향상도 1 이상으로 기준 설정
rule=apriori(ts, min_support=0.015,
             min_confidence=0.2,
             min_lift=1,min_length=1)
result=list(rule)

In [None]:
len(result) # 규칙을 만족하는 항목 개수

In [None]:
dfr=pd.DataFrame(result)
dfr.head()

In [None]:
dfr.iloc[6:19][['items','support']]

In [None]:
ar=dfr.iloc[1:75]['items']
ar
# 두 개로 이루어진 튜플만 시각화 가능하므로
# 0, 75 이후 인덱스 로우 제외

In [None]:
# 시각화 : networkx
import networkx as nx
plt.style.use('ggplot')
plt.figure(figsize=(9,6))
G=nx.Graph()
G.add_edges_from(ar)
pos=nx.spring_layout(G)
nx.draw(G, pos, font_size=16, with_labels=False,
        edge_color='green',node_size=800)
for p in pos:
    pos[p][1] += 0.07
nx.draw_networkx_labels(G,pos)
plt.show();