📘 XGBoost 이론 요약


---


**XGBoost (eXtreme Gradient Boosting)**는 부스팅 알고리즘 중 가장 널리 사용되는 모델 중 하나입니다. 

기존 Gradient Boosting의 성능과 속도를 획기적으로 개선했습니다.

---


- 주요 특징:
    
    1. 병렬 처리: 데이터 분할 및 학습 과정에서 병렬 처리를 지원하여 학습 속도가 빠릅니다.
    
    2. 규제(L1, L2): 모델의 복잡도를 제어하는 규제 기능이 있어 과적합(Overfitting)을 방지하는 데 효과적입니다.
    
    3. 안정적인 성능: 다양한 데이터셋에서 뛰어난 예측 정확도를 보여주며, 안정적으로 작동하는 것이 큰 장점입니다.

---


In [2]:
# XGBoost 모델 실습 코드

# 1. 필요한 라이브러리 불러오기
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score
from xgboost import XGBClassifier

# 경고 메시지 무시
import warnings
warnings.filterwarnings('ignore')

print("XGBoost 모델 실습 시작...")

# 2. 데이터셋 로드
# scikit-learn에서 제공하는 붓꽃(Iris) 데이터셋 사용
iris = load_iris()
X, y = iris.data, iris.target

print(f"데이터셋 로드 완료. 특성(X)의 shape: {X.shape}, 레이블(y)의 shape: {y.shape}")

# 3. 학습 및 테스트 데이터 분리
# 전체 데이터의 80%를 학습용, 20%를 테스트용으로 사용
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"학습 데이터 크기: {X_train.shape}")
print(f"테스트 데이터 크기: {X_test.shape}")

# 4. XGBoost 모델 정의 및 파이프라인 생성
# XGBoost Classifier 모델 정의
# eval_metric: 학습 중에 사용할 평가 지표 ('logloss'는 다중 클래스 분류에 적합)
# use_label_encoder=False: XGBoost의 내부 레이블 인코딩 기능 비활성화 (권장)
# random_state: 재현성을 위한 시드값
xgb_model = XGBClassifier(eval_metric='logloss', use_label_encoder=False, random_state=42)

# 전처리와 모델 학습을 한 번에 처리하는 파이프라인 구축
# StandardScaler: 특성을 표준화하여 모델 학습 효율을 높임
# classifier: XGBoost 모델
pipeline = Pipeline(steps=[('scaler', StandardScaler()),
                           ('classifier', xgb_model)])

print("\n--- XGBoost 모델 학습 시작 ---")

# 5. 파이프라인을 사용하여 모델 학습
pipeline.fit(X_train, y_train)

print("--- 학습 완료 ---")

# 6. 테스트 데이터로 예측 및 정확도 평가
y_pred = pipeline.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print(f"\nXGBoost 테스트 정확도: {accuracy:.4f}")

# 7. 교차 검증을 통한 모델 성능 평가
# cv=5: 5개의 폴드로 나누어 교차 검증 진행
cv_scores = cross_val_score(pipeline, X, y, cv=5)

print("\n--- 교차 검증 결과 ---")
print(f"각 폴드별 정확도: {cv_scores}")
print(f"교차 검증 평균 정확도: {cv_scores.mean():.4f} (표준편차: {cv_scores.std():.4f})")

print("\nXGBoost 모델 실습 완료.")


XGBoost 모델 실습 시작...
데이터셋 로드 완료. 특성(X)의 shape: (150, 4), 레이블(y)의 shape: (150,)
학습 데이터 크기: (120, 4)
테스트 데이터 크기: (30, 4)

--- XGBoost 모델 학습 시작 ---
--- 학습 완료 ---

XGBoost 테스트 정확도: 0.9333

--- 교차 검증 결과 ---
각 폴드별 정확도: [0.96666667 0.96666667 0.93333333 0.93333333 0.96666667]
교차 검증 평균 정확도: 0.9533 (표준편차: 0.0163)

XGBoost 모델 실습 완료.


---

### 📊 XGBoost 모델 실습 결과 분석

---

1.  **데이터셋 로드 및 분리**
    * **특성(X)**의 크기는 `(150, 4)`로, 150개의 샘플에 4개의 특성(꽃받침 길이, 너비 등)이 있다는 것을 보여줍니다.
    * **학습 데이터**는 120개, **테스트 데이터**는 30개로, 80:20의 비율로 잘 분리되었습니다.

---

2.  **테스트 정확도**
    * **XGBoost 테스트 정확도: `0.9333`**
    * 이는 모델이 `30개`의 테스트 데이터 중 약 `28개`(0.9333 * 30 = 27.999)를 정확하게 예측했다는 의미입니다. 
      
      단일 모델의 성능으로는 매우 훌륭한 결과입니다.

---

3.  **교차 검증 결과**
    * **각 폴드별 정확도**: `[0.9666, 0.9666, 0.9333, 0.9333, 0.9666]`
    * **평균 정확도**: `0.9533`
    * **표준편차**: `0.0163`
    * 교차 검증은 데이터셋을 5개의 폴드로 나누어 각각 학습과 검증을 진행한 결과입니다. 
      
      각 폴드별로 `93%~96%`의 높은 정확도를 보였습니다.
    * **평균 정확도(0.9533)**가 테스트 정확도(0.9333)와 큰 차이가 없고, 
    
      **표준편차(0.0163)**가 매우 낮다는 점은 모델의 성능이 특정 데이터셋에 치우치지 않고 
      
            **안정적**이라는 것을 의미합니다.

---

전반적으로 XGBoost 모델이 붓꽃 데이터셋에 대해 매우 안정적이고 뛰어난 예측 성능을 보인 것을 확인할 수 있습니다.

---