### 지지도 : A와 B를 동시에 포함하는 거래수/ 전체 거래수
### 신뢰도 : A와 B를 동시에 포함하는 거래수/ A를 포함하는 거래수
### 향상도 : A와 B를 동시에 포함하는 거래수/ (A를 포함하는 거래수 * B를 포함하는 거래수)

#### 지지도가 어느 정도 수준에 도달해야만 한다.
#### 신뢰도가 높을 경우에는 두 항목 A --> B에서 항목 B의 확률이 커야지 연관규칙이 의미가 있다.
#### 향상도가 1보다 큰 값을 주어야 유용한 정보를 준다고 볼 수 있다.

### 향상도 : A가 거래된 경우, 그 거래가 B를 포함하는 경우와 B가 임의로 거래되는 경우의 비율

In [1]:
install.packages("arules")

package 'arules' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\15U560\AppData\Local\Temp\RtmpAVzLFS\downloaded_packages


In [36]:
library(Matrix)
library(arules)

In [7]:
dvd1 <- read.csv('dvdtrans.csv')
head(dvd1,10)

ID,Item
1,Sixth Sense
1,LOTR1
1,Harry Potter1
1,Green Mile
1,LOTR2
2,Gladiator
2,Patriot
2,Braveheart
3,LOTR1
3,LOTR2


### split을 통해 id별로 item들을 as 함수를 통해 transaction 데이터로 변환

In [16]:
dvd.list <- split(dvd1$Item, dvd1$ID)
head(dvd.list)

In [14]:
dvd1$Item; dvd1$ID

### as()함수를 이용하면 해당 데이터 구조를 정해진 클래스 데이터로 변환 가능하다.

In [5]:
dvd.trans <- as(dvd.list, 'transactions')
dvd.trans

transactions in sparse format with
 10 transactions (rows) and
 10 items (columns)

In [6]:
inspect(dvd.trans)

     items                                              transactionID
[1]  {Green Mile,Harry Potter1,LOTR1,LOTR2,Sixth Sense} 1            
[2]  {Braveheart,Gladiator,Patriot}                     2            
[3]  {LOTR1,LOTR2}                                      3            
[4]  {Gladiator,Patriot,Sixth Sense}                    4            
[5]  {Gladiator,Patriot,Sixth Sense}                    5            
[6]  {Gladiator,Patriot,Sixth Sense}                    6            
[7]  {Harry Potter1,Harry Potter2}                      7            
[8]  {Gladiator,Patriot}                                8            
[9]  {Gladiator,Patriot,Sixth Sense}                    9            
[10] {Gladiator,Green Mile,LOTR,Sixth Sense}            10           


### id별로 item이 묶인것을 확인할 수 있다.

In [8]:
summary(dvd.trans)

transactions as itemMatrix in sparse format with
 10 rows (elements/itemsets/transactions) and
 10 columns (items) and a density of 0.3 

most frequent items:
    Gladiator       Patriot   Sixth Sense    Green Mile Harry Potter1 
            7             6             6             2             2 
      (Other) 
            7 

element (itemset/transaction) length distribution:
sizes
2 3 4 5 
3 5 1 1 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   2.00    2.25    3.00    3.00    3.00    5.00 

includes extended item information - examples:
      labels
1 Braveheart
2  Gladiator
3 Green Mile

includes extended transaction information - examples:
  transactionID
1             1
2             2
3             3

### 밀도가 0.3라고 되어 있는데, 10*10 cell중에서 30%의 cell에 거래가 발생해 데이터가 있다는 뜻

In [19]:
str(dvd1)

'data.frame':	30 obs. of  2 variables:
 $ ID  : int  1 1 1 1 1 2 2 2 3 3 ...
 $ Item: Factor w/ 10 levels "Braveheart","Gladiator",..: 10 7 4 3 8 2 9 1 7 8 ...


### 연관규칙 함수 : apriori(transaction, parameter= list(support=0.0#, confidence=0.##))

In [23]:
dvd_rule <- apriori(dvd.trans, parameter = list(support=0.2, confidence= 0.20, minlen= 2))

Apriori

Parameter specification:
 confidence minval smax arem  aval originalSupport maxtime support minlen
        0.2    0.1    1 none FALSE            TRUE       5     0.2      2
 maxlen target   ext
     10  rules FALSE

Algorithmic control:
 filter tree heap memopt load sort verbose
    0.1 TRUE TRUE  FALSE TRUE    2    TRUE

Absolute minimum support count: 2 

set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[10 item(s), 10 transaction(s)] done [0.00s].
sorting and recoding items ... [7 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 3 done [0.00s].
writing ... [13 rule(s)] done [0.00s].
creating S4 object  ... done [0.00s].


### minlen=2란 두개의 물건을 동시에 구매한것을 고려한것

In [38]:
dvd_rule 

set of 13 rules 

### support= 0.2, confidence= 0.2 이상인 13개의 연관규칙 생성됨

In [24]:
inspect(dvd_rule)

     lhs                        rhs           support confidence lift    
[1]  {LOTR1}                 => {LOTR2}       0.2     1.0000000  5.000000
[2]  {LOTR2}                 => {LOTR1}       0.2     1.0000000  5.000000
[3]  {Green Mile}            => {Sixth Sense} 0.2     1.0000000  1.666667
[4]  {Sixth Sense}           => {Green Mile}  0.2     0.3333333  1.666667
[5]  {Patriot}               => {Sixth Sense} 0.4     0.6666667  1.111111
[6]  {Sixth Sense}           => {Patriot}     0.4     0.6666667  1.111111
[7]  {Patriot}               => {Gladiator}   0.6     1.0000000  1.428571
[8]  {Gladiator}             => {Patriot}     0.6     0.8571429  1.428571
[9]  {Sixth Sense}           => {Gladiator}   0.5     0.8333333  1.190476
[10] {Gladiator}             => {Sixth Sense} 0.5     0.7142857  1.190476
[11] {Patriot,Sixth Sense}   => {Gladiator}   0.4     1.0000000  1.428571
[12] {Gladiator,Patriot}     => {Sixth Sense} 0.4     0.6666667  1.111111
[13] {Gladiator,Sixth Sense} => {Patri

#### 3번의 경우
#### 지지도: Green Mile과 Six Sense를 동시에 구매할 확률: 20%
#### 신뢰도: Green Mile을 구매한 경우는 모두 Sixth Sense를 구매: 100%
#### 향상도: Green Mile을 구매하면 Six Sense의 구매비율이 1.667배 향상됨을 의미