# ch3.연관분석

## 1. 연관분석 개요

- 데이터들 사이에서 자주 발생하는 속성을 찾고, 그 속성들 사이에 연관성이 어느 정도 있는지를 분석하는 방법.
- 활용분야 : 상품진열, 사기보험적발, 카탈로그 디자인, 신상품 카테고리 구성.
```
- {조건} => {결과}
- {소주, 콜라} => {와인} : 소주와 콜라를 사면 와인을 산다.
- {와인} => {소주, 콜라} : 와인을 사면 소주와 콜라를 산다.
이렇게 도출된 연관성 규칙들은 지지도, 신뢰도, 향상도를 통해 얼마나 의미 있는 규칙인지 평가
- 연관분석 관련 지표
    지지도(support) s(X→Y) 
        = X와 Y를 모두 포함하는 거래 수 / 전체 거래 수 = n(X∪Y) / N 
    신뢰도(Confidence) c(X→Y) 
        = X와 Y를 모두 포함하는 거래 수 / X가 포함된 거래 수 = n(X∪Y) / n(X) 
    향상도(lift) = 조건결과지지도/(조건지지도*결과지지도) # 조건지지도:조건이나온횟수, 결과지지도:결과가나온횟수
        우연히 발생한 규칙인지 아닌지 여부
        1 : 조건과 결과는 우연한 관계일 뿐 연관성 전혀 없음
        >1 : 양의 상관관계 (의미있는 연관성을 가진 규칙으로 해석)
        <1 : 음의 상관관계

```
https://rfriend.tistory.com/191

In [3]:
0.2/(0.6*0.4)

0.8333333333333334

In [4]:
import os
os.getcwd()

'D:\\Bigdata\\src\\NLP'

In [5]:
%ls cf_basket.csv

 D 드라이브의 볼륨: 학생방
 볼륨 일련 번호: C23A-A0CB

 D:\Bigdata\src\NLP 디렉터리

2021-03-26  오전 09:14               122 cf_basket.csv
               1개 파일                 122 바이트
               0개 디렉터리  197,970,546,688 바이트 남음


In [6]:
import csv
transaction = []
with open('cf_basket.csv','r', encoding='utf-8') as f:
    csvdata = csv.reader(f)
    transaction = list(csvdata)

transaction    

[['소주', '콜라', '와인'],
 ['소주', '오렌지주스', '콜라'],
 ['콜라', '맥주', '와인'],
 ['소주', '콜라', '맥주'],
 ['오렌지주스', '와인', '콜라']]

## 2. 연관분석
- pip install apyori

### 2.1 연관성 규칙 생성

In [7]:
from apyori import apriori
rules = apriori(transaction, min_support=0.2, min_confidence=0.1)
rules = list(rules)
rules[0]

RelationRecord(items=frozenset({'맥주'}), support=0.4, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'맥주'}), confidence=0.4, lift=1.0)])

In [8]:
print('조건 -> 결과   \t 지지도 \t 신뢰도 \t 향상도')
for row in rules:
    support = row[1]
    ordered_st =row[2]
    for item in ordered_st:
        lhs = [x for x in item[0]]
        lhs = ','.join([x for x in item[0]])
        rhs = [x for x in item[1]]
        rhs = ','.join([x for x in item[1]])
        confidence = item[2]
        lift = item[3]
        print("{} => {} \t {} \t {} \t {}".format(lhs,rhs,support, confidence, lift))

조건 -> 결과   	 지지도 	 신뢰도 	 향상도
 => 맥주 	 0.4 	 0.4 	 1.0
 => 소주 	 0.6 	 0.6 	 1.0
 => 오렌지주스 	 0.4 	 0.4 	 1.0
 => 와인 	 0.6 	 0.6 	 1.0
 => 콜라 	 1.0 	 1.0 	 1.0
 => 맥주,소주 	 0.2 	 0.2 	 1.0
맥주 => 소주 	 0.2 	 0.5 	 0.8333333333333334
소주 => 맥주 	 0.2 	 0.33333333333333337 	 0.8333333333333334
 => 와인,맥주 	 0.2 	 0.2 	 1.0
맥주 => 와인 	 0.2 	 0.5 	 0.8333333333333334
와인 => 맥주 	 0.2 	 0.33333333333333337 	 0.8333333333333334
 => 콜라,맥주 	 0.4 	 0.4 	 1.0
맥주 => 콜라 	 0.4 	 1.0 	 1.0
콜라 => 맥주 	 0.4 	 0.4 	 1.0
 => 소주,오렌지주스 	 0.2 	 0.2 	 1.0
소주 => 오렌지주스 	 0.2 	 0.33333333333333337 	 0.8333333333333334
오렌지주스 => 소주 	 0.2 	 0.5 	 0.8333333333333334
 => 와인,소주 	 0.2 	 0.2 	 1.0
소주 => 와인 	 0.2 	 0.33333333333333337 	 0.5555555555555557
와인 => 소주 	 0.2 	 0.33333333333333337 	 0.5555555555555557
 => 콜라,소주 	 0.6 	 0.6 	 1.0
소주 => 콜라 	 0.6 	 1.0 	 1.0
콜라 => 소주 	 0.6 	 0.6 	 1.0
 => 와인,오렌지주스 	 0.2 	 0.2 	 1.0
오렌지주스 => 와인 	 0.2 	 0.5 	 0.8333333333333334
와인 => 오렌지주스 	 0.2 	 0.33333333333333337 	 0.8333333333333334
 => 콜

In [9]:
import pandas as pd
result_df = pd.DataFrame(None, columns=['lhs','rhs','support','confidence','lift'])
index=0
for row in rules:
    support = row[1]
    ordered_st = row[2]
    for item in ordered_st:
        lhs = ','.join([x for x in item[0]])
        rhs = ','.join([x for x in item[1]])
        confidence = item[2]
        lift = item[3]
        if lift>0.9:
            result_df.loc[index]=[lhs,rhs,support,confidence,lift]
            index+=1
result_df.sort_values(by='confidence')

Unnamed: 0,lhs,rhs,support,confidence,lift
34,,"와인,오렌지주스,콜라",0.2,0.2,1.0
32,콜라,"와인,소주",0.2,0.2,1.0
31,,"와인,소주,콜라",0.2,0.2,1.0
29,콜라,"소주,오렌지주스",0.2,0.2,1.0
5,,"맥주,소주",0.2,0.2,1.0
6,,"와인,맥주",0.2,0.2,1.0
28,,"콜라,소주,오렌지주스",0.2,0.2,1.0
26,콜라,"와인,맥주",0.2,0.2,1.0
25,,"와인,맥주,콜라",0.2,0.2,1.0
10,,"소주,오렌지주스",0.2,0.2,1.0


## 3. 뉴스기사 연관 분석

### 3.1 뉴스 RSS 이용해서 기사 검색 후 연관분석

In [10]:
#joins 경제 RSS
import requests
from urllib.request import urlopen
from bs4 import BeautifulSoup
rss_url = 'https://rss.joins.com/joins_money_list.xml'
money_response = urlopen(rss_url)
money_soup = BeautifulSoup(money_response, "xml")
link_list = money_soup.select('item > link')
len(link_list)

30

In [11]:
# link로 기사검색 후 명사만 추출해서 list에 append
from konlpy.tag import Kkma
kkma = Kkma()
news=[]
idx=1
for link in link_list:
    news_response = requests.get(link.text)
    news_soup = BeautifulSoup(news_response.content, "html.parser")
    element_title = news_soup.select_one('h1.headline.mg')
    if element_title :
        title = element_title.text
    else :
        title = ""
    article = news_soup.select_one("div#article_body").text
    content = title + article
    nouns_list = list(filter(lambda word : (len(word)>1)&(word!="기자"), kkma.nouns(content)))
    news.append(nouns_list)
    print(idx, '/',len(link_list), end=',\t')
    idx+=1

AttributeError: 'NoneType' object has no attribute 'text'

In [18]:
from apyori import apriori
rules = apriori(news, min_support=0.2, min_confidenct=0.2)
rules = list(rules) # 리스트로 안 바꾸면 generator 객체


In [19]:
rules[100]

RelationRecord(items=frozenset({'시작', '10'}), support=0.23333333333333334, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'시작', '10'}), confidence=0.23333333333333334, lift=1.0), OrderedStatistic(items_base=frozenset({'10'}), items_add=frozenset({'시작'}), confidence=0.4666666666666667, lift=1.5555555555555556), OrderedStatistic(items_base=frozenset({'시작'}), items_add=frozenset({'10'}), confidence=0.7777777777777778, lift=1.5555555555555556)])

In [21]:
rules[100][0]

frozenset({'10', '시작'})

In [22]:
rules[100][1]

0.23333333333333334

In [23]:
rules[100][2]

[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'시작', '10'}), confidence=0.23333333333333334, lift=1.0),
 OrderedStatistic(items_base=frozenset({'10'}), items_add=frozenset({'시작'}), confidence=0.4666666666666667, lift=1.5555555555555556),
 OrderedStatistic(items_base=frozenset({'시작'}), items_add=frozenset({'10'}), confidence=0.7777777777777778, lift=1.5555555555555556)]

In [30]:
rules[100][2][0]

OrderedStatistic(items_base=frozenset(), items_add=frozenset({'시작', '10'}), confidence=0.23333333333333334, lift=1.0)

In [31]:
rules[100][2][1]

OrderedStatistic(items_base=frozenset({'10'}), items_add=frozenset({'시작'}), confidence=0.4666666666666667, lift=1.5555555555555556)

In [27]:
rules[100][2][2]

OrderedStatistic(items_base=frozenset({'시작'}), items_add=frozenset({'10'}), confidence=0.7777777777777778, lift=1.5555555555555556)

In [28]:
import pandas as pd
result_df = pd.DataFrame(None,
                        columns=['lhs','rhs','support','confidence','lift'])
index = 0
for row in rules:
    support = row[1]
    ordered_st = row[2]
    for item in ordered_st:
        lhs = ','.join([x for x in item[0]])
        rhs = ','.join([x for x in item[1]])
        confidence = item[2]
        lift = item[3]
        if lift>1:
            result_df.loc[index]=[lhs,rhs,support,confidence,lift]
            index+=1
result_df.sort_values(by='confidence')

Unnamed: 0,lhs,rhs,support,confidence,lift
576,19,"19일,만큼",0.2,0.25,1.25
514,19,"19일,1년",0.2,0.25,1.25
1408,19,"19일,지난해,서울",0.2,0.25,1.25
1394,19,"19일,평균,기준",0.2,0.25,1.25
648,19,"19일,이번",0.2,0.25,1.25
...,...,...,...,...,...
1139,"19,10,수준",19일,0.2,1.00,1.50
1140,"19일,10,수준",19,0.2,1.00,1.25
1154,"19일,10,올해",19,0.2,1.00,1.25
71,경영,19,0.2,1.00,1.25


In [36]:
result_df.loc[result_df.lhs.str.contains('올해|지난해')].sort_values(by=['lift','confidence'], ascending=False).head(100)

Unnamed: 0,lhs,rhs,support,confidence,lift
1054,"올해,2분기",분기,0.2,1.0,4.285714
1640,"지난해,관계자","19일,업계",0.2,1.0,4.285714
1678,"수준,올해","지난해,평균",0.2,1.0,4.285714
1731,"지난해,관계자","19,업계,19일",0.2,1.0,4.285714
1737,"19,지난해,관계자","업계,19일",0.2,1.0,4.285714
1769,"19일,올해,기준","19,평균",0.2,1.0,4.285714
1055,"분기,올해",2분기,0.2,0.857143,4.285714
1683,"지난해,평균","수준,올해",0.2,0.857143,4.285714
1060,"지난해,관계자",업계,0.2,1.0,3.75
1095,"수준,올해",평균,0.2,1.0,3.75


In [34]:
pd.options.display.max_rows

60

In [35]:
pd.options.display.max_rows=100