📌 앙상블학습_랜덤포레스트_GBM

📖 주요 내용
이 노트북에서는 앙상블 학습(Ensemble Learning) 기법을 활용하여 분류 문제를 해결해.
주요 모델:

- 랜덤 포레스트(Random Forest)

- GBM(Gradient Boosting Machine)

랜덤 포레스트는 여러 개의 결정 트리를 평균화하여 과적합을 방지하고,
GBM은 결정 트리를 순차적으로 학습하면서 오차를 줄이는 방식을 사용해.

📌 코드 흐름

1️⃣ 데이터 로드 및 전처리
- 데이터셋 불러오기

- 결측치 처리 및 특성 엔지니어링

2️⃣ 랜덤 포레스트 학습
- RandomForestClassifier를 사용하여 모델 훈련

- 변수 중요도(feature importance) 분석

3️⃣ GBM 학습
- GradientBoostingClassifier를 사용하여 모델 학습

- 랜덤 포레스트와 성능 비교

4️⃣ 결과 분석 및 평가
- 정확도(Accuracy), F1-score 비교

- 시각화를 통한 중요 변수 확인

🖥️ 랜덤 포레스트 vs GBM 코드 예제

In [None]:
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 이진 분류 데이터 생성
X, y = make_classification(n_samples=1000, n_features=10, random_state=42)

# 학습/테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 랜덤 포레스트 모델
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
rf_pred = rf.predict(X_test)

# GBM 모델
gbm = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, random_state=42)
gbm.fit(X_train, y_train)
gbm_pred = gbm.predict(X_test)

# 성능 비교
print(f"랜덤 포레스트 정확도: {accuracy_score(y_test, rf_pred):.4f}")
print(f"GBM 정확도: {accuracy_score(y_test, gbm_pred):.4f}")
