# 붓꽃(Iris) 품종 분류: 다양한 머신러닝 모델 비교

이 노트북은 머신러닝에서 가장 널리 사용되는 예제 데이터셋 중 하나인 **붓꽃(Iris) 데이터셋**을 사용하여 붓꽃의 품종을 분류하는 과정을 다룹니다. 다양한 분류 알고리즘(K-최근접 이웃, 로지스틱 회귀, 의사결정나무, 랜덤 포레스트)을 적용하고, 각 모델의 성능을 비교 분석합니다.

### 1. 라이브러리 임포트

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

### 2. 데이터 준비 및 탐색

`scikit-learn`에 내장된 붓꽃 데이터셋을 불러와 데이터의 구조를 확인합니다.

**붓꽃 데이터셋**: 붓꽃의 꽃받침 길이(sepal length), 꽃받침 너비(sepal width), 꽃잎 길이(petal length), 꽃잎 너비(petal width) 4가지 특성을 사용하여 3가지 품종(setosa, versicolor, virginica) 중 하나로 분류하는 문제입니다.

In [None]:
iris = load_iris()

# 데이터셋의 키 확인
print("데이터셋 키:", iris.keys())

# 타겟(품종) 이름 확인
print("타겟 이름:", iris['target_names'])

# 데이터셋 설명 (필요시 주석 해제)
# print("데이터셋 설명:")
# print(iris["DESCR"])

In [None]:
# 특성(X)과 타겟(y) 데이터 분리
X = iris.data 
y = iris.target 

print(f"특성 데이터 형태: {X.shape}")
print(f"타겟 데이터 형태: {y.shape}")

print("
특성 데이터 샘플 (상위 10개):
", X[:10])
print("
타겟 데이터 샘플:", y)

### 3. 데이터셋 분할

모델의 일반화 성능을 평가하기 위해, 전체 데이터를 훈련(train) 세트와 테스트(test) 세트로 분할합니다. `random_state`를 설정하여 재현 가능하도록 합니다.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1234, test_size=0.3)

print(f"훈련 데이터 형태: {X_train.shape}")
print(f"테스트 데이터 형태: {X_test.shape}")

### 4. 다양한 분류 모델 학습 및 평가

이제 준비된 데이터로 여러 분류 모델을 학습시키고, 각 모델의 성능을 비교해 보겠습니다. 모델의 성능은 `score()` 함수가 반환하는 **정확도(Accuracy)**를 기준으로 평가합니다.

#### 4.1. K-최근접 이웃 (K-Nearest Neighbors, KNN)

KNN은 새로운 데이터 포인트가 주어졌을 때, 가장 가까운 k개의 훈련 데이터 포인트를 찾아 그들의 클래스를 기반으로 예측하는 알고리즘입니다. `n_neighbors`는 고려할 이웃의 수를 의미합니다.

In [None]:
model_knn = KNeighborsClassifier(n_neighbors=2) # 이웃의 수를 2로 설정
model_knn.fit(X_train, y_train)

y_pred_knn = model_knn.predict(X_test)

print("--- KNN 모델 ---")
print(f"훈련 세트 정확도: {model_knn.score(X_train, y_train):.4f}")
print(f"테스트 세트 정확도: {model_knn.score(X_test, y_test):.4f}")
print("
테스트 데이터 예측 (일부):", y_pred_knn[:10])
print("실제 테스트 데이터 (일부):", y_test[:10])

#### 4.2. 로지스틱 회귀 (Logistic Regression)

로지스틱 회귀는 선형 모델이지만 분류 문제에 사용됩니다. 각 클래스에 속할 확률을 예측하며, 이진 분류뿐만 아니라 다중 분류에도 확장하여 사용될 수 있습니다.

In [None]:
model_lr = LogisticRegression(max_iter=1000) # 수렴을 위해 max_iter 증가
model_lr.fit(X_train, y_train)

print("--- 로지스틱 회귀 모델 ---")
print(f"훈련 세트 정확도: {model_lr.score(X_train, y_train):.4f}")
print(f"테스트 세트 정확도: {model_lr.score(X_test, y_test):.4f}")
print("계수 (Coefficients):
", model_lr.coef_)
print("절편 (Intercept):", model_lr.intercept_)

#### 4.3. 의사결정나무 (Decision Tree)

의사결정나무는 데이터를 특정 기준에 따라 분할하여 예측을 수행하는 트리 구조의 모델입니다. 직관적이고 해석하기 쉽지만, 과대적합(overfitting)되기 쉽습니다. `feature_importances_` 속성을 통해 각 특성의 중요도를 파악할 수 있습니다.

In [None]:
model_dt = DecisionTreeClassifier(random_state=1) # 재현성을 위해 random_state 설정
model_dt.fit(X_train, y_train)

print("--- 의사결정나무 모델 ---")
print(f"훈련 세트 정확도: {model_dt.score(X_train, y_train):.4f}")
print(f"테스트 세트 정확도: {model_dt.score(X_test, y_test):.4f}")
print("특성 중요도:", model_dt.feature_importances_)

##### 특성 중요도 시각화

의사결정나무가 어떤 특성을 중요하게 판단했는지 막대 그래프로 시각화합니다.

In [None]:
def plot_feature_importances(model, feature_names):
    n_features = len(feature_names)
    plt.figure(figsize=(10, 6))
    plt.barh(np.arange(n_features), model.feature_importances_, align='center')
    plt.yticks(np.arange(n_features), feature_names)
    plt.xlabel("특성 중요도")
    plt.ylabel("특성")
    plt.ylim(-1, n_features)
    plt.title("의사결정나무 특성 중요도")
    plt.show()

plot_feature_importances(model_dt, iris.feature_names)

#### 4.4. 랜덤 포레스트 (Random Forest)

랜덤 포레스트는 여러 개의 의사결정나무를 만들어 그 예측을 종합하여 최종 예측을 수행하는 **앙상블(Ensemble)** 모델입니다. 의사결정나무의 과대적합 문제를 완화하고 더 안정적인 성능을 제공합니다.

- `n_estimators`: 생성할 트리의 개수
- `max_depth`: 각 트리의 최대 깊이 (과대적합 방지)

In [None]:
model_rf = RandomForestClassifier(random_state=0, max_depth=3, n_estimators=1000) # n_estimators를 1000으로 설정
model_rf.fit(X_train, y_train)

print("--- 랜덤 포레스트 모델 ---")
print(f"훈련 세트 정확도: {model_rf.score(X_train, y_train):.4f}")
print(f"테스트 세트 정확도: {model_rf.score(X_test, y_test):.4f}")

### 5. 결론

붓꽃 데이터셋은 비교적 간단한 분류 문제이므로 대부분의 모델이 높은 정확도를 보입니다. 하지만 실제 복잡한 데이터에서는 각 모델의 특성과 하이퍼파라미터 튜닝이 모델 성능에 큰 영향을 미칩니다. 이 노트북을 통해 다양한 분류 모델의 기본 작동 방식과 성능 평가 방법을 이해하는 데 도움이 되었기를 바랍니다.