In [1]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:99% !important;}
div.cell.code_cell.rendered{width:100%;}
div.input_prompt{padding:0px;}
div.CodeMirror {font-family:Consolas; font-size:24pt;}
div.text_cell_render.rendered_html{font-size:20pt;}
div.text_cell_render ul li, div.text_cell_render ol li p, code{font-size:22pt; line-height:30px;}
div.output {font-size:24pt; font-weight:bold;}
div.input {font-family:Consolas; font-size:24pt;}
div.prompt {min-width:70px;}
div#toc-wrapper{padding-top:120px;}
div.text_cell_render ul li{font-size:24pt;padding:5px;}
table.dataframe{font-size:24px;}
</style>
"""))

# <span style="color:red">ch3. 연관분석</span>
- pip install apyori
# 1. 연관분석 개요
- 데이트들 사이의 자주 발생하는 속성을 찾고, 그 속성들 사이의 연관성이 어느 정도 있는 분석
- 활용분야 : 상품진열, 사기보험적발, 신상품 카테고리 구성...
```
조건(left-hand side, item_base) : 오렌지주스(x) => 결과(right-hand side, item_add) : 와인(y)

연관분석의 지표
1. 지지도(support) : 전체 데이터 중에서 조건,결과 항목들이 포함된 거래 비율(얼마나 자주 함께 나타나는지)
    (x->y)의 항목수 / 전체 데이터 수 = 0.2
    
2. 신뢰도(confidence) : 조건이 발생했을 때, 결과가 동시에 일어날 확률(조건이 오면 결과가 얼마나 자주 나오는지)
    (x->y)의 항목수 / x가 나오는 항목수 = 0.5
    
3. 향상도(lift) : 우연히 발생할 규칙은 아니였는지 확인
    <1 : 함께 나타날 가능성이 기대보다 낮다
    >1 : 양의 상관관계
    
    x->y의 지지도 / (x의 지지도*y의 지지도) = 0.2 / (0.4*0.6) = 0.833
```
# 2. 연관분석 구현

In [4]:
import csv
with open('data/cf_basket.csv', 'r', encoding='utf-8') as f:
    csvdata = csv.reader(f)
    transaction = list(csvdata)
transaction

[['소주', '콜라', '와인'],
 ['소주', '오렌지주스', '콜라'],
 ['맥주', '콜라', '와인'],
 ['소주', '콜라', '맥주'],
 ['오렌지주스', '와인']]

In [39]:
from apyori import apriori
rules = apriori(transaction, min_support=0.15, min_confidence=0.1, min_lift=1.001)
rules = list(rules)
len(rules)

6

In [41]:
row = rules[5] # {'와인', '맥주', '콜라'} 지지도 0.2
support = row[1]
ordered_st = row[2]
# print('지지도 :',support)
#print('순서들 :', ordered_st)
for item in ordered_st:
    #print(item)
    lhs = item[0]
    lhs = ','.join([x for x in lhs])
    rhs = item[1]
    rhs = ','.join([x for x in rhs])
    confidence = item[2]
    lift = item[3]
    print("{:10}=>{:12}\t{}\t{}\t{}".format(lhs, rhs, support, confidence, lift))

지지도 : 0.2
콜라        =>와인,소주       	0.2	0.25	1.25
와인,소주     =>콜라          	0.2	1.0	1.25


In [46]:
print('조건 => 결과 \t\t 지지도\t신뢰도\t향상도')
for row in rules:
    support = row[1]
    ordered_st = row[2]
    for item in ordered_st:
        #print(item)
        lhs = item[0]
        lhs = ','.join([x for x in lhs])
        rhs = item[1]
        rhs = ','.join([x for x in rhs])
        confidence = item[2]
        lift = item[3]
        print("{:10}=>{:16}\t{}\t{}\t{:.2f}".format(lhs, rhs, support, 
                                                round(confidence, 2), 
                                                lift))

조건 => 결과 		 지지도	신뢰도	향상도
맥주        =>콜라              	0.4	1.0	1.25
콜라        =>맥주              	0.4	0.5	1.25
소주        =>콜라              	0.6	1.0	1.25
콜라        =>소주              	0.6	0.75	1.25
콜라        =>맥주,소주           	0.2	0.25	1.25
소주,맥주     =>콜라              	0.2	1.0	1.25
맥주        =>와인,콜라           	0.2	0.5	1.25
콜라        =>와인,맥주           	0.2	0.25	1.25
와인,맥주     =>콜라              	0.2	1.0	1.25
와인,콜라     =>맥주              	0.2	0.5	1.25
소주        =>오렌지주스,콜라        	0.2	0.33	1.67
콜라        =>오렌지주스,소주        	0.2	0.25	1.25
오렌지주스,소주  =>콜라              	0.2	1.0	1.25
오렌지주스,콜라  =>소주              	0.2	1.0	1.67
콜라        =>와인,소주           	0.2	0.25	1.25
와인,소주     =>콜라              	0.2	1.0	1.25


In [50]:
import pandas as pd
rules_df = pd.DataFrame(None, columns=['lhs', 'rhs', '지지도','신뢰도', '향상도'])
rules_df

Unnamed: 0,lhs,rhs,지지도,신뢰도,향상도


In [49]:
# 데이터 한행씩 추가
# rules_df.loc[0] = ['조건','결과', 0.2, 0.9, 1.2]
# rules_df

In [55]:
idx = 0
for row in rules:
    support = row[1]
    ordered_st = row[2]
    for item in ordered_st:
        #print(item)
        lhs = item[0]
        lhs = ','.join([x for x in lhs])
        rhs = item[1]
        rhs = ','.join([x for x in rhs])
        confidence = item[2]
        lift = item[3]
        rules_df.loc[idx] = [lhs, rhs, support, confidence, lift]
        idx += 1
#         print("{:10}=>{:16}\t{}\t{}\t{:.2f}".format(lhs, rhs, support, 
#                                                 round(confidence, 2), 
#                                                 lift))
rules_df.sort_values(by=['신뢰도', '향상도'], ascending=False)

Unnamed: 0,lhs,rhs,지지도,신뢰도,향상도
13,"오렌지주스,콜라",소주,0.2,1.0,1.666667
0,맥주,콜라,0.4,1.0,1.25
2,소주,콜라,0.6,1.0,1.25
5,"소주,맥주",콜라,0.2,1.0,1.25
8,"와인,맥주",콜라,0.2,1.0,1.25
12,"오렌지주스,소주",콜라,0.2,1.0,1.25
15,"와인,소주",콜라,0.2,1.0,1.25
3,콜라,소주,0.6,0.75,1.25
1,콜라,맥주,0.4,0.5,1.25
6,맥주,"와인,콜라",0.2,0.5,1.25


# 3. 뉴스 연관 분석

In [57]:
import requests
from bs4 import BeautifulSoup
from mecab import MeCab
rss_url = 'https://fs.jtbc.co.kr/RSS/economy.xml'
jtbc_response = requests.get(rss_url)
soup = BeautifulSoup(jtbc_response.content, "xml")
item_elems = soup.find_all('item') # item_elems = soup.select('item')
news = []
mecab = MeCab()
for item_elem in item_elems:
    title = item_elem.find('title').text
    description = item_elem.find('description').text
    total_text = title + ' ' + description
    # noun_list = mecab.nouns(total_text)
    # NNG, NNP(보통명사 고유명사)
    noun_list = [word for word, tag in mecab.pos(total_text) if tag in ('NNG', 'NNP')]
    news.append(noun_list)
print(news[:10])

[['둔촌', '주공', '전세', '홍수', '예상', '눈치', '게임', '시작', '앵커', '단군', '최대', '규모', '재건축', '둔촌', '주공', '아파트', '입주', '다음', '달', '시작', '규모', '입주', '전세', '매물', '현장', '분위기'], ['실제', '캠', '핑장', '관리', '소홀', '앵커', '캠', '핑장', '예약', '때', '예약', '플랫폼', '사진', '실제', '불만', '경우', '앞', '예약', '플랫', '폼', '책임', '강화', '아람', '기자', '기자', '인터넷', '카페'], ['요즘', '편의점', '정도', '앵커', '육박', '점심', '값', '편의점', '도시락', '때', '편의점', '도시락', '식비', '부담', '아람', '기자', '기자', '서울'], ['오늘', '말', '이유', '편의점', '도시락', '시대', '앵커', '주머니', '직장인', '자취생', '편의점', '도시락', '편의점', '도시락', '눈앞', '아람', '기자', '기자', '서울', '편의점', '도시락'], ['경영', '분쟁', '주총', '표', '대결', '롤러코스터', '고려', '아연', '주가', '앵커', '오늘', '고려', '아연', '주가', '장중', '포인트', '말', '롤러코스터', '공개매수', '절차', '마무리', '뚜껑', '양측', '과반', '확보', '실패', '결'], ['결혼', '돈', '걱정', '예비', '부부', '앵커', '저출산', '문제', '결혼', '현실', '예비', '부부', '결혼식', '비용', '문제', '말', '소식', '아람', '기자', '기자', '내년', '결혼', '앞'], ['예비', '부부', '웨딩', '물가', '올해', '예식장', '비용', '올라', '앵커', '한편', '결혼식', '비용', '예비', '부부', '말', '소식', '아람', '기자', '기자', '