# 🔍 ADSP 정리 06 - 데이터 마이닝 기초 (Data Mining Basics)

## 1. 데이터 마이닝이란?

- 대규모 데이터에서 의미 있는 패턴이나 규칙을 발견하는 과정
- 목적: 의사결정 지원, 예측 모델 생성, 분류 및 군집화 등
- 주요 기법:
  - 분류 (Classification)
  - 군집화 (Clustering)
  - 연관 분석 (Association Rule Mining)


In [5]:
import numpy as np

def euclidean_distance(x1, x2):
    return np.sqrt(np.sum((x1 - x2) ** 2))

# 테스트
point1 = np.array([1, 2])
point2 = np.array([4, 6])
dist = euclidean_distance(point1, point2)
print(f"Distance between {point1} and {point2} is {dist:.2f}")

Distance between [1 2] and [4 6] is 5.00


## 2. KNN (K-Nearest Neighbors)

- 새로운 데이터가 주어졌을 때, 가장 가까운 K개의 이웃을 찾아 분류 또는 회귀를 수행
- 거리 계산 방법: 유클리드 거리, 맨해튼 거리 등
- 장점: 이해하기 쉽고 구현 간단
- 단점: 계산량 많음, 차원의 저주에 취약

In [8]:
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 데이터 준비
iris = load_iris()
X = iris.data
y = iris.target

# 학습용/테스트용 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# KNN 모델 생성 및 학습
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# 예측 및 정확도 평가
y_pred = knn.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f"KNN Test Accuracy: {acc:.2f}")


KNN Test Accuracy: 1.00


## 3. 연관 분석 (Association Rule Mining)

- 대량의 거래 데이터에서 아이템 간의 연관 규칙을 발견
- 대표적인 알고리즘: Apriori, FP-Growth
- 용어:
  - 지지도 (Support)
  - 신뢰도 (Confidence)
  - 향상도 (Lift)

## 4. 클러스터링 (Clustering)

- 비슷한 특성을 가진 데이터끼리 그룹화하는 작업
- 대표적 기법:
  - K-평균 (K-Means)
  - 계층적 군집화 (Hierarchical Clustering)