In [1]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:99% !important;}
div.cell.code_cell.rendered{width:100%;}
div.input_prompt{padding:0px;}
div.CodeMirror {font-family:Consolas; font-size:24pt;}
div.text_cell_render.rendered_html{font-size:20pt;}
div.text_cell_render ul li, div.text_cell_render ol li p, code{font-size:22pt; line-height:30px;}
div.output {font-size:24pt; font-weight:bold;}
div.input {font-family:Consolas; font-size:24pt;}
div.prompt {min-width:70px;}
div#toc-wrapper{padding-top:120px;}
div.text_cell_render ul li{font-size:24pt;padding:5px;}
table.dataframe{font-size:24px;}
</style>
"""))

# <span style="color:red">ch3. 연관분석</span>
- pip install apyori
# 1. 연관분석 개요
- 데이트들 사이의 자주 발생하는 속성을 찾고, 그 속성들 사이의 연관성이 어느 정도 있는 분석
- 활용분야 : 상품진열, 사기보험적발, 신상품 카테고리 구성...
```
조건(left-hand side, item_base) : 오렌지주스(x) => 결과(right-hand side, item_add) : 와인(y)

연관분석의 지표
1. 지지도(support) : 전체 데이터 중에서 조건,결과 항목들이 포함된 거래 비율(얼마나 자주 함께 나타나는지)
    (x->y)의 항목수 / 전체 데이터 수 = 0.2
    
2. 신뢰도(confidence) : 조건이 발생했을 때, 결과가 동시에 일어날 확률(조건이 오면 결과가 얼마나 자주 나오는지)
    (x->y)의 항목수 / x가 나오는 항목수 = 0.5
    
3. 향상도(lift) : 우연히 발생할 규칙은 아니였는지 확인
    <1 : 함께 나타날 가능성이 기대보다 낮다
    >1 : 양의 상관관계
    
    x->y의 지지도 / (x의 지지도*y의 지지도) = 0.2 / (0.4*0.6) = 0.833
```
# 2. 연관분석 구현

In [4]:
import csv
with open('data/cf_basket.csv', 'r', encoding='utf-8') as f:
    csvdata = csv.reader(f)
    transaction = list(csvdata)
transaction

[['소주', '콜라', '와인'],
 ['소주', '오렌지주스', '콜라'],
 ['맥주', '콜라', '와인'],
 ['소주', '콜라', '맥주'],
 ['오렌지주스', '와인']]

In [39]:
from apyori import apriori
rules = apriori(transaction, min_support=0.15, min_confidence=0.1, min_lift=1.001)
rules = list(rules)
len(rules)

6

In [41]:
row = rules[5] # {'와인', '맥주', '콜라'} 지지도 0.2
support = row[1]
ordered_st = row[2]
# print('지지도 :',support)
#print('순서들 :', ordered_st)
for item in ordered_st:
    #print(item)
    lhs = item[0]
    lhs = ','.join([x for x in lhs])
    rhs = item[1]
    rhs = ','.join([x for x in rhs])
    confidence = item[2]
    lift = item[3]
    print("{:10}=>{:12}\t{}\t{}\t{}".format(lhs, rhs, support, confidence, lift))

지지도 : 0.2
콜라        =>와인,소주       	0.2	0.25	1.25
와인,소주     =>콜라          	0.2	1.0	1.25


In [46]:
print('조건 => 결과 \t\t 지지도\t신뢰도\t향상도')
for row in rules:
    support = row[1]
    ordered_st = row[2]
    for item in ordered_st:
        #print(item)
        lhs = item[0]
        lhs = ','.join([x for x in lhs])
        rhs = item[1]
        rhs = ','.join([x for x in rhs])
        confidence = item[2]
        lift = item[3]
        print("{:10}=>{:16}\t{}\t{}\t{:.2f}".format(lhs, rhs, support, 
                                                round(confidence, 2), 
                                                lift))

조건 => 결과 		 지지도	신뢰도	향상도
맥주        =>콜라              	0.4	1.0	1.25
콜라        =>맥주              	0.4	0.5	1.25
소주        =>콜라              	0.6	1.0	1.25
콜라        =>소주              	0.6	0.75	1.25
콜라        =>맥주,소주           	0.2	0.25	1.25
소주,맥주     =>콜라              	0.2	1.0	1.25
맥주        =>와인,콜라           	0.2	0.5	1.25
콜라        =>와인,맥주           	0.2	0.25	1.25
와인,맥주     =>콜라              	0.2	1.0	1.25
와인,콜라     =>맥주              	0.2	0.5	1.25
소주        =>오렌지주스,콜라        	0.2	0.33	1.67
콜라        =>오렌지주스,소주        	0.2	0.25	1.25
오렌지주스,소주  =>콜라              	0.2	1.0	1.25
오렌지주스,콜라  =>소주              	0.2	1.0	1.67
콜라        =>와인,소주           	0.2	0.25	1.25
와인,소주     =>콜라              	0.2	1.0	1.25


In [47]:
import pandas as pd
rules_df = pd.DataFrame(None, columns=['lhs', 'rhs', '지지도','신뢰도', '향상도'])
rules_df

Unnamed: 0,lhs,rhs,지지도,신뢰도,향상도


In [48]:
# 데이터 한행씩 추가
rules_df.loc[0] = ['조건','결과', 0.2, 0.9, 1.2]
rules_df

Unnamed: 0,lhs,rhs,지지도,신뢰도,향상도
0,조건,결과,0.2,0.9,1.2
