# AI 머신러닝 4일차 학습 노트

## 학습 목표
- 1일차: Python & NumPy 기초 및 벡터화 연산
- 2일차: Pandas 데이터 분석 및 시각화
- 3일차: Scikit-Learn 기초 (회귀 모델)
- 4일차: Scikit-Learn 심화 (앙상블 및 하이퍼파라미터 튜닝)


# 1일차: Python & NumPy

## 학습 내용
- AI 전용 파이썬 문법 (List Comprehension, Decorator)
- NumPy 메모리 구조 이해
- 벡터화 연산(Vectorization)을 통한 성능 최적화
- 행렬 연산 실습
- for문 vs NumPy 속도 비교


## 1-1. List Comprehension (리스트 컴프리헨션)


In [None]:
# 일반적인 for문
squares = []
for i in range(10):
    squares.append(i**2)
print("일반 for문:", squares)

# List Comprehension 사용
squares_lc = [i**2 for i in range(10)]
print("List Comprehension:", squares_lc)

# 조건문 포함
even_squares = [i**2 for i in range(10) if i % 2 == 0]
print("짝수 제곱:", even_squares)

# 중첩 List Comprehension
matrix = [[i*j for j in range(3)] for i in range(3)]
print("행렬:", matrix)


## 1-2. Decorator (데코레이터)


In [None]:
import time

# 데코레이터 예제: 함수 실행 시간 측정
def timer_decorator(func):
    def wrapper(*args, **kwargs):
        start = time.time()
        result = func(*args, **kwargs)
        end = time.time()
        print(f"{func.__name__} 실행 시간: {end - start:.4f}초")
        return result
    return wrapper

@timer_decorator
def slow_function(n):
    total = 0
    for i in range(n):
        total += i
    return total

result = slow_function(1000000)
print(f"결과: {result}")


## 1-3. NumPy 기초 및 메모리 구조


In [None]:
import numpy as np

# NumPy 배열 생성
arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([[1, 2, 3], [4, 5, 6]])

print("1차원 배열:", arr1)
print("2차원 배열:\n", arr2)
print("배열 형태:", arr2.shape)
print("배열 차원:", arr2.ndim)
print("데이터 타입:", arr2.dtype)
print("메모리 크기:", arr2.nbytes, "bytes")

# 메모리 구조 확인
print("\n메모리 주소:", arr2.data)
print("연속 메모리:", arr2.flags['C_CONTIGUOUS'])


## 1-4. 벡터화 연산 (Vectorization)


In [None]:
# 벡터화 연산 예제
a = np.array([1, 2, 3, 4, 5])
b = np.array([6, 7, 8, 9, 10])

# 벡터화된 연산 (매우 빠름)
result = a + b
print("벡터 덧셈:", result)

result = a * b
print("벡터 곱셈:", result)

result = np.sin(a)
print("sin 함수:", result)

# 브로드캐스팅
matrix = np.array([[1, 2, 3], [4, 5, 6]])
scalar = 10
result = matrix * scalar
print("\n브로드캐스팅:\n", result)


## 1-5. 행렬 연산 실습


In [None]:
# 행렬 생성
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

print("행렬 A:\n", A)
print("행렬 B:\n", B)

# 행렬 곱셈
C = np.dot(A, B)
print("\n행렬 곱셈 (A @ B):\n", C)

# 전치 행렬
A_T = A.T
print("\nA의 전치:\n", A_T)

# 역행렬
A_inv = np.linalg.inv(A)
print("\nA의 역행렬:\n", A_inv)

# 행렬식
det = np.linalg.det(A)
print("\nA의 행렬식:", det)


## 1-6. for문 vs NumPy 속도 비교 (산출물)


In [None]:
import time
import numpy as np

# 비교할 배열 크기
size = 1000000

# Python 리스트로 연산
python_list1 = list(range(size))
python_list2 = list(range(size))

start = time.time()
python_result = [python_list1[i] + python_list2[i] for i in range(size)]
python_time = time.time() - start

# NumPy 배열로 연산
numpy_arr1 = np.array(range(size))
numpy_arr2 = np.array(range(size))

start = time.time()
numpy_result = numpy_arr1 + numpy_arr2
numpy_time = time.time() - start

# 결과 출력
print(f"배열 크기: {size:,}")
print(f"Python 리스트 시간: {python_time:.4f}초")
print(f"NumPy 배열 시간: {numpy_time:.4f}초")
print(f"속도 향상: {python_time / numpy_time:.2f}배 빠름")

# 결과 비교
print(f"\n결과 일치 여부: {sum(python_result[:10]) == numpy_result[:10].sum()}")


# 2일차: Pandas 데이터 분석

## 학습 내용
- DataFrame 조작
- 결측치(Null) 처리
- 복잡한 데이터 병합(Merge)
- 시각화(Matplotlib)를 통한 데이터 분포 분석
- 특성 추출(Feature Engineering)


## 2-1. DataFrame 조작


In [None]:
import pandas as pd
import numpy as np

# DataFrame 생성
data = {
    '이름': ['김철수', '이영희', '박민수', '최지영'],
    '나이': [25, 30, 35, 28],
    '직업': ['개발자', '디자이너', '개발자', '마케터'],
    '급여': [5000, 4500, 6000, 4800]
}
df = pd.DataFrame(data)

print("원본 DataFrame:")
print(df)
print("\n기본 정보:")
print(df.info())
print("\n기본 통계:")
print(df.describe())

# 데이터 선택
print("\n특정 열 선택:")
print(df[['이름', '급여']])
print("\n조건 필터링 (급여 > 5000):")
print(df[df['급여'] > 5000])


## 2-2. 결측치(Null) 처리


In [None]:
# 결측치가 있는 데이터 생성
data_with_null = {
    '이름': ['김철수', '이영희', '박민수', '최지영', '정수진'],
    '나이': [25, None, 35, 28, None],
    '직업': ['개발자', '디자이너', None, '마케터', '개발자'],
    '급여': [5000, 4500, None, 4800, 5200]
}
df_null = pd.DataFrame(data_with_null)

print("결측치가 있는 DataFrame:")
print(df_null)
print("\n결측치 확인:")
print(df_null.isnull())
print("\n결측치 개수:")
print(df_null.isnull().sum())

# 결측치 처리 방법들
print("\n=== 결측치 처리 방법 ===")

# 1. 결측치 제거
df_drop = df_null.dropna()
print("\n1. 결측치 제거:")
print(df_drop)

# 2. 결측치를 평균으로 대체
df_fill_mean = df_null.copy()
df_fill_mean['나이'].fillna(df_fill_mean['나이'].mean(), inplace=True)
print("\n2. 나이 결측치를 평균으로 대체:")
print(df_fill_mean)

# 3. 결측치를 특정 값으로 대체
df_fill_value = df_null.copy()
df_fill_value['직업'].fillna('미정', inplace=True)
print("\n3. 직업 결측치를 '미정'으로 대체:")
print(df_fill_value)


## 2-3. 데이터 병합(Merge)


In [None]:
# 병합할 데이터프레임 생성
df1 = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    '이름': ['김철수', '이영희', '박민수', '최지영'],
    '부서': ['개발팀', '디자인팀', '개발팀', '마케팅팀']
})

df2 = pd.DataFrame({
    'ID': [1, 2, 3, 5],
    '급여': [5000, 4500, 6000, 5500],
    '입사일': ['2020-01-01', '2019-05-15', '2021-03-20', '2020-07-10']
})

print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)

# Inner Join
print("\n=== Inner Join ===")
df_inner = pd.merge(df1, df2, on='ID', how='inner')
print(df_inner)

# Left Join
print("\n=== Left Join ===")
df_left = pd.merge(df1, df2, on='ID', how='left')
print(df_left)

# Outer Join
print("\n=== Outer Join ===")
df_outer = pd.merge(df1, df2, on='ID', how='outer')
print(df_outer)


## 2-4. 시각화(Matplotlib)를 통한 데이터 분포 분석


In [None]:
import matplotlib.pyplot as plt
import numpy as np

# 한글 폰트 설정 (필요시)
plt.rcParams['font.family'] = 'Malgun Gothic'  # Windows
plt.rcParams['axes.unicode_minus'] = False

# 샘플 데이터 생성
np.random.seed(42)
data = {
    '나이': np.random.normal(30, 5, 100),
    '급여': np.random.normal(5000, 1000, 100),
    '부서': np.random.choice(['개발팀', '디자인팀', '마케팅팀'], 100)
}
df_viz = pd.DataFrame(data)

# 1. 히스토그램
plt.figure(figsize=(12, 4))

plt.subplot(1, 3, 1)
plt.hist(df_viz['나이'], bins=20, edgecolor='black')
plt.title('나이 분포')
plt.xlabel('나이')
plt.ylabel('빈도')

# 2. 박스플롯
plt.subplot(1, 3, 2)
df_viz.boxplot(column='급여', by='부서', ax=plt.gca())
plt.title('부서별 급여 분포')
plt.suptitle('')  # 기본 제목 제거

# 3. 산점도
plt.subplot(1, 3, 3)
plt.scatter(df_viz['나이'], df_viz['급여'], alpha=0.6)
plt.title('나이 vs 급여')
plt.xlabel('나이')
plt.ylabel('급여')

plt.tight_layout()
plt.show()


## 2-5. 특성 추출(Feature Engineering)


In [None]:
# 특성 추출 예제 데이터
df_feature = pd.DataFrame({
    '날짜': pd.date_range('2023-01-01', periods=100, freq='D'),
    '매출': np.random.normal(1000, 200, 100),
    '카테고리': np.random.choice(['A', 'B', 'C'], 100)
})

print("원본 데이터:")
print(df_feature.head())

# 1. 날짜 특성 추출
df_feature['년'] = df_feature['날짜'].dt.year
df_feature['월'] = df_feature['날짜'].dt.month
df_feature['요일'] = df_feature['날짜'].dt.dayofweek
df_feature['주말여부'] = df_feature['요일'].isin([5, 6]).astype(int)

# 2. 범주형 변수 인코딩 (One-Hot Encoding)
df_encoded = pd.get_dummies(df_feature, columns=['카테고리'], prefix='카테고리')

# 3. 수치형 특성 변환
df_feature['매출_로그'] = np.log1p(df_feature['매출'])
df_feature['매출_정규화'] = (df_feature['매출'] - df_feature['매출'].mean()) / df_feature['매출'].std()

print("\n특성 추출 후:")
print(df_feature[['날짜', '매출', '년', '월', '요일', '주말여부', '매출_로그', '매출_정규화']].head())


## 2-6. 데이터 정제 자동화 스크립트 (산출물)


In [None]:
def clean_data(df):
    """
    데이터 정제 자동화 함수
    - 결측치 처리
    - 이상치 제거
    - 데이터 타입 변환
    """
    df_cleaned = df.copy()
    
    # 1. 결측치 처리 (수치형: 평균, 범주형: 최빈값)
    for col in df_cleaned.columns:
        if df_cleaned[col].dtype in ['int64', 'float64']:
            df_cleaned[col].fillna(df_cleaned[col].mean(), inplace=True)
        else:
            df_cleaned[col].fillna(df_cleaned[col].mode()[0] if len(df_cleaned[col].mode()) > 0 else 'Unknown', inplace=True)
    
    # 2. 이상치 제거 (IQR 방법)
    numeric_cols = df_cleaned.select_dtypes(include=[np.number]).columns
    for col in numeric_cols:
        Q1 = df_cleaned[col].quantile(0.25)
        Q3 = df_cleaned[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        df_cleaned = df_cleaned[(df_cleaned[col] >= lower_bound) & (df_cleaned[col] <= upper_bound)]
    
    return df_cleaned

# 테스트 데이터
test_data = pd.DataFrame({
    '나이': [25, 30, None, 35, 150, 28],  # 이상치: 150
    '급여': [5000, None, 6000, 7000, 5000, 100000],  # 이상치: 100000
    '부서': ['개발팀', '디자인팀', None, '개발팀', '마케팅팀', '개발팀']
})

print("정제 전:")
print(test_data)
print("\n결측치 개수:")
print(test_data.isnull().sum())

df_cleaned = clean_data(test_data)

print("\n정제 후:")
print(df_cleaned)
print("\n정제 후 결측치 개수:")
print(df_cleaned.isnull().sum())


# 3일차: Scikit-Learn 기초

## 학습 내용
- 선형 회귀의 수학적 원리 및 코드 구현
- 로지스틱 회귀의 수학적 원리 및 코드 구현
- Scikit-Learn을 이용한 모델 학습
- 과적합 방지
- 교차 검증(Cross-Validation)


## 3-1. 선형 회귀 (Linear Regression)


In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import matplotlib.pyplot as plt

# 샘플 데이터 생성
np.random.seed(42)
X = np.random.rand(100, 1) * 10
y = 2.5 * X.flatten() + 1.5 + np.random.randn(100) * 2

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 선형 회귀 모델 학습
lr = LinearRegression()
lr.fit(X_train, y_train)

# 예측
y_pred = lr.predict(X_test)

# 평가
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"회귀 계수: {lr.coef_[0]:.2f}")
print(f"절편: {lr.intercept_:.2f}")
print(f"평균 제곱 오차 (MSE): {mse:.2f}")
print(f"결정 계수 (R²): {r2:.4f}")

# 시각화
plt.figure(figsize=(10, 5))
plt.scatter(X_test, y_test, alpha=0.6, label='실제값')
plt.plot(X_test, y_pred, 'r-', label='예측값')
plt.xlabel('X')
plt.ylabel('y')
plt.title('선형 회귀 결과')
plt.legend()
plt.show()


## 3-2. 로지스틱 회귀 (Logistic Regression)


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.datasets import make_classification

# 샘플 데이터 생성
X, y = make_classification(n_samples=200, n_features=2, n_redundant=0, 
                          n_informative=2, random_state=42, n_clusters_per_class=1)

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 로지스틱 회귀 모델 학습
log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)

# 예측
y_pred = log_reg.predict(X_test)
y_pred_proba = log_reg.predict_proba(X_test)[:, 1]

# 평가
accuracy = accuracy_score(y_test, y_pred)
print(f"정확도: {accuracy:.4f}")
print("\n혼동 행렬:")
print(confusion_matrix(y_test, y_pred))
print("\n분류 보고서:")
print(classification_report(y_test, y_pred))

# 시각화
plt.figure(figsize=(10, 5))
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap='coolwarm', alpha=0.6, label='실제값')
plt.xlabel('특성 1')
plt.ylabel('특성 2')
plt.title('로지스틱 회귀 분류 결과')
plt.colorbar()
plt.legend()
plt.show()


## 3-3. 과적합 방지 (Regularization)


In [None]:
from sklearn.linear_model import Ridge, Lasso
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline

# 과적합을 보여주기 위한 데이터 생성
np.random.seed(42)
X = np.linspace(0, 10, 20).reshape(-1, 1)
y = np.sin(X.flatten()) + np.random.randn(20) * 0.3

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 1. 일반 선형 회귀 (과적합 가능)
lr = LinearRegression()
lr.fit(X_train, y_train)
lr_train_score = lr.score(X_train, y_train)
lr_test_score = lr.score(X_test, y_test)

# 2. Ridge 회귀 (L2 정규화)
ridge = Ridge(alpha=1.0)
ridge.fit(X_train, y_train)
ridge_train_score = ridge.score(X_train, y_train)
ridge_test_score = ridge.score(X_test, y_test)

# 3. Lasso 회귀 (L1 정규화)
lasso = Lasso(alpha=0.1)
lasso.fit(X_train, y_train)
lasso_train_score = lasso.score(X_train, y_train)
lasso_test_score = lasso.score(X_test, y_test)

print("=== 모델 성능 비교 ===")
print(f"일반 선형 회귀 - Train: {lr_train_score:.4f}, Test: {lr_test_score:.4f}")
print(f"Ridge 회귀 - Train: {ridge_train_score:.4f}, Test: {ridge_test_score:.4f}")
print(f"Lasso 회귀 - Train: {lasso_train_score:.4f}, Test: {lasso_test_score:.4f}")

# 시각화
X_plot = np.linspace(0, 10, 100).reshape(-1, 1)
plt.figure(figsize=(12, 5))
plt.scatter(X_train, y_train, label='Train', alpha=0.6)
plt.scatter(X_test, y_test, label='Test', alpha=0.6)
plt.plot(X_plot, lr.predict(X_plot), label='Linear', linestyle='--')
plt.plot(X_plot, ridge.predict(X_plot), label='Ridge', linestyle='-.')
plt.plot(X_plot, lasso.predict(X_plot), label='Lasso', linestyle=':')
plt.xlabel('X')
plt.ylabel('y')
plt.title('과적합 방지 비교')
plt.legend()
plt.show()


## 3-4. 교차 검증 (Cross-Validation)


In [None]:
from sklearn.model_selection import cross_val_score, KFold, StratifiedKFold
from sklearn.datasets import load_iris

# 데이터 로드
iris = load_iris()
X, y = iris.data, iris.target

# 1. K-Fold 교차 검증
kfold = KFold(n_splits=5, shuffle=True, random_state=42)
lr = LogisticRegression(max_iter=200)
cv_scores = cross_val_score(lr, X, y, cv=kfold, scoring='accuracy')

print("=== K-Fold 교차 검증 (5-fold) ===")
print(f"각 fold의 정확도: {cv_scores}")
print(f"평균 정확도: {cv_scores.mean():.4f} (+/- {cv_scores.std() * 2:.4f})")

# 2. Stratified K-Fold (분류 문제에 적합)
skfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
cv_scores_stratified = cross_val_score(lr, X, y, cv=skfold, scoring='accuracy')

print("\n=== Stratified K-Fold 교차 검증 (5-fold) ===")
print(f"각 fold의 정확도: {cv_scores_stratified}")
print(f"평균 정확도: {cv_scores_stratified.mean():.4f} (+/- {cv_scores_stratified.std() * 2:.4f})")

# 3. 다양한 평가 지표로 교차 검증
scoring_metrics = ['accuracy', 'precision_macro', 'recall_macro', 'f1_macro']
print("\n=== 다양한 평가 지표 ===")
for metric in scoring_metrics:
    scores = cross_val_score(lr, X, y, cv=5, scoring=metric)
    print(f"{metric}: {scores.mean():.4f} (+/- {scores.std() * 2:.4f})")


## 3-5. 타이타닉 생존자 예측 모델 (산출물)


In [None]:
# 타이타닉 데이터셋 시뮬레이션 (실제 데이터가 없는 경우)
np.random.seed(42)
n_samples = 1000

# 특성 생성
titanic_data = pd.DataFrame({
    '나이': np.random.randint(1, 80, n_samples),
    '성별': np.random.choice([0, 1], n_samples),  # 0: 여성, 1: 남성
    '객실등급': np.random.choice([1, 2, 3], n_samples),
    '형제자매수': np.random.randint(0, 5, n_samples),
    '부모자식수': np.random.randint(0, 5, n_samples),
    '요금': np.random.normal(30, 15, n_samples)
})

# 생존 여부 생성 (여성, 어린이, 1등급 승객이 생존 확률 높음)
survival_prob = (
    0.7 * (titanic_data['성별'] == 0) +  # 여성
    0.3 * (titanic_data['나이'] < 18) +  # 어린이
    0.2 * (titanic_data['객실등급'] == 1) +  # 1등급
    0.1 * np.random.rand(n_samples)
)
titanic_data['생존'] = (survival_prob > 0.5).astype(int)

# 특성 엔지니어링
titanic_data['가족수'] = titanic_data['형제자매수'] + titanic_data['부모자식수']
titanic_data['어린이여부'] = (titanic_data['나이'] < 18).astype(int)

# 특성 선택
features = ['나이', '성별', '객실등급', '요금', '가족수', '어린이여부']
X = titanic_data[features]
y = titanic_data['생존']

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 로지스틱 회귀 모델 학습
titanic_model = LogisticRegression(max_iter=1000)
titanic_model.fit(X_train, y_train)

# 예측 및 평가
y_pred = titanic_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print("=== 타이타닉 생존자 예측 모델 ===")
print(f"정확도: {accuracy:.4f}")
print("\n혼동 행렬:")
print(confusion_matrix(y_test, y_pred))
print("\n분류 보고서:")
print(classification_report(y_test, y_pred))

# 교차 검증
cv_scores = cross_val_score(titanic_model, X, y, cv=5, scoring='accuracy')
print(f"\n교차 검증 평균 정확도: {cv_scores.mean():.4f} (+/- {cv_scores.std() * 2:.4f})")

# 특성 중요도
print("\n=== 특성 중요도 (계수) ===")
feature_importance = pd.DataFrame({
    '특성': features,
    '계수': titanic_model.coef_[0]
})
feature_importance = feature_importance.sort_values('계수', key=abs, ascending=False)
print(feature_importance)


# 4일차: Scikit-Learn 심화

## 학습 내용
- 결정 트리(Decision Tree)
- 랜덤 포레스트 등 앙상블 기법
- 하이퍼파라미터 튜닝(GridSearch)
- 성능 평가 지표(F1, AUC) 마스터


## 4-1. 결정 트리 (Decision Tree)


In [None]:
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.datasets import make_classification

# 샘플 데이터 생성
X, y = make_classification(n_samples=200, n_features=2, n_redundant=0, 
                          n_informative=2, random_state=42, n_clusters_per_class=1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 결정 트리 모델 학습
dt = DecisionTreeClassifier(max_depth=3, random_state=42)
dt.fit(X_train, y_train)

# 예측 및 평가
y_pred = dt.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print("=== 결정 트리 모델 ===")
print(f"정확도: {accuracy:.4f}")
print(f"트리 깊이: {dt.get_depth()}")
print(f"리프 노드 수: {dt.get_n_leaves()}")

# 특성 중요도
print("\n특성 중요도:")
for i, importance in enumerate(dt.feature_importances_):
    print(f"특성 {i}: {importance:.4f}")

# 시각화
plt.figure(figsize=(15, 10))
plot_tree(dt, filled=True, feature_names=['특성1', '특성2'], class_names=['클래스0', '클래스1'])
plt.title('결정 트리 구조')
plt.show()


## 4-2. 랜덤 포레스트 (Random Forest)


In [None]:
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier

# 랜덤 포레스트 모델 학습
rf = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42)
rf.fit(X_train, y_train)

# 예측 및 평가
y_pred_rf = rf.predict(X_test)
accuracy_rf = accuracy_score(y_test, y_pred_rf)

print("=== 랜덤 포레스트 모델 ===")
print(f"정확도: {accuracy_rf:.4f}")
print(f"트리 개수: {rf.n_estimators}")

# 특성 중요도
print("\n특성 중요도:")
for i, importance in enumerate(rf.feature_importances_):
    print(f"특성 {i}: {importance:.4f}")

# 결정 트리 vs 랜덤 포레스트 비교
print("\n=== 모델 비교 ===")
print(f"결정 트리 정확도: {accuracy:.4f}")
print(f"랜덤 포레스트 정확도: {accuracy_rf:.4f}")

# 시각화
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# 결정 트리 결정 경계
ax = axes[0]
h = 0.02
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                     np.arange(y_min, y_max, h))
Z = dt.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
ax.contourf(xx, yy, Z, alpha=0.4, cmap='coolwarm')
ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap='coolwarm', edgecolors='k')
ax.set_title('결정 트리')
ax.set_xlabel('특성 1')
ax.set_ylabel('특성 2')

# 랜덤 포레스트 결정 경계
ax = axes[1]
Z = rf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
ax.contourf(xx, yy, Z, alpha=0.4, cmap='coolwarm')
ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap='coolwarm', edgecolors='k')
ax.set_title('랜덤 포레스트')
ax.set_xlabel('특성 1')
ax.set_ylabel('특성 2')

plt.tight_layout()
plt.show()


## 4-3. 그라디언트 부스팅 (Gradient Boosting)


In [None]:
# 그라디언트 부스팅 모델 학습
gb = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
gb.fit(X_train, y_train)

# 예측 및 평가
y_pred_gb = gb.predict(X_test)
accuracy_gb = accuracy_score(y_test, y_pred_gb)

print("=== 그라디언트 부스팅 모델 ===")
print(f"정확도: {accuracy_gb:.4f}")
print(f"부스팅 단계 수: {gb.n_estimators}")

# 학습 곡선 시각화
train_scores = []
test_scores = []

for i, y_pred_train in enumerate(gb.staged_predict(X_train)):
    train_scores.append(accuracy_score(y_train, y_pred_train))

for i, y_pred_test in enumerate(gb.staged_predict(X_test)):
    test_scores.append(accuracy_score(y_test, y_pred_test))

plt.figure(figsize=(10, 5))
plt.plot(range(1, len(train_scores) + 1), train_scores, label='Train', alpha=0.7)
plt.plot(range(1, len(test_scores) + 1), test_scores, label='Test', alpha=0.7)
plt.xlabel('부스팅 단계')
plt.ylabel('정확도')
plt.title('그라디언트 부스팅 학습 곡선')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("\n=== 앙상블 모델 비교 ===")
print(f"결정 트리: {accuracy:.4f}")
print(f"랜덤 포레스트: {accuracy_rf:.4f}")
print(f"그라디언트 부스팅: {accuracy_gb:.4f}")


## 4-4. 하이퍼파라미터 튜닝 (GridSearch)


In [None]:
from sklearn.model_selection import GridSearchCV

# 그리드 서치를 위한 파라미터 그리드 정의
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [3, 5, 7],
    'min_samples_split': [2, 5, 10]
}

# 랜덤 포레스트 그리드 서치
rf_grid = RandomForestClassifier(random_state=42)
grid_search = GridSearchCV(rf_grid, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid_search.fit(X_train, y_train)

print("=== 그리드 서치 결과 ===")
print(f"최적 파라미터: {grid_search.best_params_}")
print(f"최적 교차 검증 점수: {grid_search.best_score_:.4f}")

# 최적 모델로 예측
best_rf = grid_search.best_estimator_
y_pred_best = best_rf.predict(X_test)
accuracy_best = accuracy_score(y_test, y_pred_best)

print(f"테스트 세트 정확도: {accuracy_best:.4f}")

# 결과 비교
print("\n=== 튜닝 전후 비교 ===")
print(f"튜닝 전 랜덤 포레스트: {accuracy_rf:.4f}")
print(f"튜닝 후 랜덤 포레스트: {accuracy_best:.4f}")

# 결과 시각화
results_df = pd.DataFrame(grid_search.cv_results_)
print("\n상위 5개 파라미터 조합:")
top_results = results_df.nlargest(5, 'mean_test_score')[['params', 'mean_test_score', 'std_test_score']]
for idx, row in top_results.iterrows():
    print(f"파라미터: {row['params']}, 점수: {row['mean_test_score']:.4f} (+/- {row['std_test_score']*2:.4f})")


## 4-5. 성능 평가 지표 (F1, AUC 등)


In [None]:
from sklearn.metrics import (f1_score, roc_auc_score, roc_curve, 
                            precision_score, recall_score, precision_recall_curve)

# 여러 모델의 예측 확률 계산
dt_proba = dt.predict_proba(X_test)[:, 1]
rf_proba = rf.predict_proba(X_test)[:, 1]
gb_proba = gb.predict_proba(X_test)[:, 1]

# 평가 지표 계산
models = {
    '결정 트리': (y_pred, dt_proba),
    '랜덤 포레스트': (y_pred_rf, rf_proba),
    '그라디언트 부스팅': (y_pred_gb, gb_proba)
}

print("=== 성능 평가 지표 비교 ===")
print(f"{'모델':<20} {'정확도':<10} {'정밀도':<10} {'재현율':<10} {'F1':<10} {'AUC':<10}")
print("-" * 70)

for name, (y_pred_model, y_proba) in models.items():
    accuracy = accuracy_score(y_test, y_pred_model)
    precision = precision_score(y_test, y_pred_model)
    recall = recall_score(y_test, y_pred_model)
    f1 = f1_score(y_test, y_pred_model)
    auc = roc_auc_score(y_test, y_proba)
    
    print(f"{name:<20} {accuracy:<10.4f} {precision:<10.4f} {recall:<10.4f} {f1:<10.4f} {auc:<10.4f}")

# ROC 곡선 시각화
plt.figure(figsize=(12, 5))

# ROC 곡선
plt.subplot(1, 2, 1)
for name, (_, y_proba) in models.items():
    fpr, tpr, _ = roc_curve(y_test, y_proba)
    auc_score = roc_auc_score(y_test, y_proba)
    plt.plot(fpr, tpr, label=f'{name} (AUC={auc_score:.3f})')

plt.plot([0, 1], [0, 1], 'k--', label='랜덤 분류기')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC 곡선')
plt.legend()
plt.grid(True, alpha=0.3)

# Precision-Recall 곡선
plt.subplot(1, 2, 2)
for name, (_, y_proba) in models.items():
    precision_curve, recall_curve, _ = precision_recall_curve(y_test, y_proba)
    plt.plot(recall_curve, precision_curve, label=name)

plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall 곡선')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


## 4-6. 고성능 분류 예측기 (산출물)


In [None]:
from sklearn.ensemble import VotingClassifier
from sklearn.model_selection import cross_validate

# 앙상블 모델 생성 (Voting Classifier)
voting_clf = VotingClassifier(
    estimators=[
        ('dt', DecisionTreeClassifier(max_depth=5, random_state=42)),
        ('rf', RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42)),
        ('gb', GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42))
    ],
    voting='soft'
)

# 모델 학습
voting_clf.fit(X_train, y_train)

# 예측
y_pred_voting = voting_clf.predict(X_test)
y_proba_voting = voting_clf.predict_proba(X_test)[:, 1]

# 평가
accuracy_voting = accuracy_score(y_test, y_pred_voting)
f1_voting = f1_score(y_test, y_pred_voting)
auc_voting = roc_auc_score(y_test, y_proba_voting)

print("=== 고성능 앙상블 분류 예측기 ===")
print(f"정확도: {accuracy_voting:.4f}")
print(f"F1 점수: {f1_voting:.4f}")
print(f"AUC 점수: {auc_voting:.4f}")

# 교차 검증으로 성능 평가
scoring = ['accuracy', 'precision_macro', 'recall_macro', 'f1_macro', 'roc_auc']
cv_results = cross_validate(voting_clf, X, y, cv=5, scoring=scoring, return_train_score=True)

print("\n=== 5-Fold 교차 검증 결과 ===")
for metric in scoring:
    test_scores = cv_results[f'test_{metric}']
    print(f"{metric}: {test_scores.mean():.4f} (+/- {test_scores.std() * 2:.4f})")

# 개별 모델과 비교
print("\n=== 개별 모델 vs 앙상블 비교 ===")
print(f"결정 트리: {accuracy:.4f}")
print(f"랜덤 포레스트: {accuracy_rf:.4f}")
print(f"그라디언트 부스팅: {accuracy_gb:.4f}")
print(f"Voting 앙상블: {accuracy_voting:.4f}")

# 최종 모델 저장 (pickle 사용 예시)
import pickle
print("\n모델이 학습되었습니다. 필요시 pickle로 저장할 수 있습니다:")
print("with open('best_classifier.pkl', 'wb') as f:")
print("    pickle.dump(voting_clf, f)")
