<a href="https://colab.research.google.com/github/juhumkwon/Defense_Cloud/blob/main/6_1_apriori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from IPython import get_ipython
from IPython.display import display
# %%
# 필요한 라이브러리 설치 및 임포트
# pip install mlxtend 를 통해 설치 필요
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules
from mlxtend.preprocessing import TransactionEncoder
import pandas as pd

# 1. 데이터셋 준비
transactions = [
    ['빵', '버터', '우유'],
    ['빵', '우유'],
    ['빵', '버터'],
    ['버터', '우유'],
    ['빵', '우유', '버터'],
    ['빵', '우유']
]

# 2. 데이터 One-Hot Encoding
# 거래 데이터(트랜잭션 데이터)를 원-핫 인코딩(One-Hot Encoding) 형식으로 변환하는 데 사용됩니다.
te = TransactionEncoder()

"""
te_array = te.fit(transactions).transform(transactions)는 TransactionEncoder 객체를 사용해
거래 데이터를 원-핫 인코딩(One-Hot Encoding) 형식으로 변환하는 코드입니다. 이 코드는 두 가지 작업을 수행합니다:

1. te.fit(transactions)
거래 데이터(transactions)를 보고, 등장한 모든 고유한 아이템을 학습
예를 들어 transactions = [['milk', 'bread'], ['bread', 'butter']] 라면, → 아이템 목록: ['milk', 'bread', 'butter']

2. .transform(transactions)
학습한 아이템 목록을 기준으로, 각 거래가 어떤 아이템을 포함하는지 1(True)/0(False)로 변환.
즉, one-hot 인코딩된 배열(2D array)을 만듬

--> 메서드 체이닝(method chaining). 즉:
te.fit(transactions) → 먼저 호출됨 → 아이템 목록 학습
.transform(transactions) → 그 다음 실행됨 → 학습한 기준으로 one-hot 변환
"""
te_ary = te.fit(transactions).transform(transactions)
df = pd.DataFrame(te_ary, columns=te.columns_)

# 3. Apriori 알고리즘 적용
# apriori 함수로 빈발 항목 집합(frequent itemsets)을 계산하는 코드입니다.
# min_support=0.5: 최소 지지도 (Support)입니다. 전체 거래 중 해당 항목이 차지하는 비율이 0.5 (즉 50%) 이상인 항목 집합만 추출합니다.
frequent_itemsets = apriori(df, min_support=0.5, use_colnames=True)

# 4. 연관 규칙 생성
# 연관 규칙을 평가할 기준으로 신뢰도(confidence)를 사용한다는 뜻.
# 신뢰도가 0.7 이상인 규칙만 출력하겠다는 뜻 (70% 이상의 신뢰도 필터링).
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7, num_itemsets=len(transactions))

# 결과 출력
print("One-Hot Encoded 거래 데이터:")
print(df)
print("\n빈발 항목 집합:")
print(frequent_itemsets)
print("\n연관 규칙:")
print(rules[['antecedents', 'consequents', 'support', 'confidence', 'lift']])

One-Hot Encoded 거래 데이터:
      버터      빵     우유
0   True   True   True
1  False   True   True
2   True   True  False
3   True  False   True
4   True   True   True
5  False   True   True

빈발 항목 집합:
    support  itemsets
0  0.666667      (버터)
1  0.833333       (빵)
2  0.833333      (우유)
3  0.500000   (빵, 버터)
4  0.500000  (우유, 버터)
5  0.666667   (빵, 우유)

연관 규칙:
  antecedents consequents   support  confidence  lift
0        (버터)         (빵)  0.500000        0.75  0.90
1        (버터)        (우유)  0.500000        0.75  0.90
2         (빵)        (우유)  0.666667        0.80  0.96
3        (우유)         (빵)  0.666667        0.80  0.96


In [None]:
import pandas as pd

# 데이터프레임 생성
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [24, 27, 22],
    'City': ['New York', 'Los Angeles', 'Chicago']
}

df = pd.DataFrame(data)

# 데이터프레임 출력
print(df)


      Name  Age         City
0    Alice   24     New York
1      Bob   27  Los Angeles
2  Charlie   22      Chicago
