## Theory of Association analysis

### 1. 연관 관계 지표 구해보기
- 연관분석 주요 지표 구해보기
    - 청년 마트 장바구니 데이터를 구성하고, 
    - 거래 건수, 항목 종수 등 기본 정보와 
    - '우유' ==> '계란'에 대한 지지도, 신뢰도, 리프트, 레버리지, 확신 지표를 구한다.

#### 청년마트 T

In [1]:
# 청년마트 거래데이터를 리스트(T)로 구성한다.
T = [['우유','계란','커피'],
      ['빵','우유','버터','휴지','라면'],
      ['맥주', '땅콩'],
      ['계란','빵','우유','생수'],
      ['햇반','커피','간장','계란'] ]

In [2]:
# 거래 데이터 건수(N), 항목의 개수(k), 개별 항목별 등장 횟수 (i_cnt_dict)를 구한다
# 거래건수 N

N = len(T)
N

5

### N, k 및 항목별 횟수

In [7]:
[item for tr in T for item in tr]

['우유',
 '계란',
 '커피',
 '빵',
 '우유',
 '버터',
 '휴지',
 '라면',
 '맥주',
 '땅콩',
 '계란',
 '빵',
 '우유',
 '생수',
 '햇반',
 '커피',
 '간장',
 '계란']

In [4]:
# set으로 고유값 
set([item for tr in T for item in tr])

{'간장', '계란', '땅콩', '라면', '맥주', '버터', '빵', '생수', '우유', '커피', '햇반', '휴지'}

In [5]:
# 항목의 개수 출력 k
k =  len(set([item for tr in T for item in tr])) # set으로 취하면서 고유값들만 남는다.
k

12

1. list comprehension
```python
list1 = []
for tr in T:
    for item in tr:
        list1.append(item)
```  
  
2. 중복 제거
- `set(list1)`


In [8]:
# N과 k 출력
print (f'데이터 건수 N = {N}, 항목의 개수 k = {k}')

데이터 건수 N = 5, 항목의 개수 k = 12


In [7]:
# 항목별 등장 횟수 출력

# 전체 항목을 단일 목록 구성
full_item_lst = [item for tr in T for item in tr]

# 집합 set 으로 형 변환하여 중복 제거하여 상품목록
unique_item_set = set(full_item_lst)

#  상품목록 별로 등장 회수 세기
i_cnt_dict = { key_item: full_item_lst.count(key_item)
                  for key_item in unique_item_set }

# 항목별 등장 회수 출력
print ('항목별 등장 횟수')
for item in i_cnt_dict.items() :
  print(item)

항목별 등장 횟수
('라면', 1)
('땅콩', 1)
('계란', 3)
('햇반', 1)
('커피', 2)
('맥주', 1)
('우유', 3)
('간장', 1)
('빵', 2)
('휴지', 1)
('버터', 1)
('생수', 1)


### support(우유 -> 계란)

In [8]:
# 지지도 support (우유=> 계란)
# 거래 데이터 수(N), 우유 등장횟수(f_x), 계란 등장횟수(f_x)

N= len(T)
f_x = sum(['우유' in tr for tr in T])
f_y = sum(['계란' in tr for tr in T])

print ( f' N = {N}\n Freq(X) = {f_x}  \n Freq(Y) = {f_y} ')


 N = 5
 Freq(X) = 3  
 Freq(Y) = 3 


In [11]:
# 우유와 계란 함께 있는(동시에 있는) 트랜젝션 개수 (f_x_y)
# all([T, T, F, T, F],
#     [T, F, F, T, F]) -> 에서 둘다 T면 T / sum([T, F, F, T, F])

f_x_y = sum([all(item in tr for item in ['우유','계란']) for tr in T ])
print(f' Freq(X,Y)= {f_x_y} ')


 Freq(X,Y)= 2 


- `all()`: 모든 조건이 참일 경우에만 참을 반환하는 함수
    - 우유와 계란이 둘 다 포함 되어있어야 참을 반환

In [12]:
# support (우유 => 계란)
support= f_x_y / N
print (f' Support(우유=>계란) = {support:.2f}')

 Support(우유=>계란) = 0.40


### confidence(우유 -> 계란)

In [13]:
# 신뢰도 confidence (우유 => 계란)
confidence = support / (f_x / N)
print (f'confidence(우유=>계란) = {confidence:.2f}')

confidence(우유=>계란) = 0.67


### lift(우유 -> 계란)

In [14]:
# 리프트 lift(우유 => 계란)
lift = confidence / (f_y / N)
print (f'lift(우유 => 계란) = {lift:.2f}')

lift(우유 => 계란) = 1.11


### leverage(우유 -> 계란)

In [15]:
# 레버리지 leverage(우유 => 계란)
leverage = support - (f_x /N) * (f_y /N)
print (f'leverage(우유 => 계란) = {leverage:.2f}')

leverage(우유 => 계란) = 0.04


### conviction(우유 -> 계란)

In [16]:
# 확신 conviction(우유 => 계란)
conviction = (1-(f_y/N)) / (1-confidence)
print (f'conviction(우유 => 계란) = {conviction:.2f}')

conviction(우유 => 계란) = 1.20
