In [1]:
# --------------------
# 라이브러리 및 데이터 준비
# --------------------
import numpy as np
from sklearn.model_selection import KFold, cross_val_score # KFold와 성능 평가 함수
from sklearn.linear_model import LogisticRegression # 예시 모델 (로지스틱 회귀)
from sklearn.datasets import load_iris

# Iris 데이터셋 로드
iris = load_iris()
X, y = iris.data, iris.target

print("--- 데이터 준비 완료 ---")
X

--- 데이터 준비 완료 ---


array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [2]:
# --------------------
# 2단계: KFold 객체 정의 및 교차 검증 실행
# --------------------
# KFold(n_splits=5): 데이터를 5개의 Fold로 나눔 (K=5)
# shuffle=True: 데이터를 먼저 무작위로 섞어 데이터 편향 방지
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# 사용할 모델 정의
model = LogisticRegression(solver='liblinear', random_state=42)

# cross_val_score 실행: 
# - 모델(estimator)과 데이터(X, y)를 받음
# - KFold 객체(cv=kf)에 따라 5번 학습 및 평가 진행
# - 평가 지표(scoring='accuracy')를 사용
cv_scores = cross_val_score(model, X, y, cv=kf, scoring='accuracy')

print("\n--- 2단계: 5-Fold 교차 검증 점수 ---")
# 5번의 반복에서 얻은 각각의 정확도 점수
print(cv_scores)


--- 2단계: 5-Fold 교차 검증 점수 ---
[1.         0.93333333 0.93333333 0.96666667 0.96666667]


In [3]:
# --------------------
# 3단계: 최종 성능 확인 (평균 점수)
# --------------------
mean_score = np.mean(cv_scores)
std_score = np.std(cv_scores)

print(f"\n--- 3단계: 최종 일반화 성능 ---")
print(f"평균 정확도 (Mean Accuracy): {mean_score:.4f}")
print(f"점수의 표준 편차 (Std Dev): {std_score:.4f}")

# 해석: 표준 편차가 낮을수록 모델의 성능이 데이터 분할에 따라 크게 변동하지 않고 안정적임을 의미합니다.


--- 3단계: 최종 일반화 성능 ---
평균 정확도 (Mean Accuracy): 0.9600
점수의 표준 편차 (Std Dev): 0.0249
