# 2.1 사이킷런으로 시작하는 머신러닝


*   파이썬 머신러닝 라이브러리(NumPy/SciPy/Matplotlib 기반), 쉬운 일관된 API
*   주요 기능: 분류, 회귀(지도학습); 클러스터링,차원축소(비지도); 전처리, 모델 선택/평가



# 2.2 실습: 붓꽃 품종 예측하기

붓꽃 데이터 세트로 품종을 **분류(classification)** --> 대표적 **지도학습(supervised learning)** 방법


*   feature (data) : 꽃잎(Sepal)의 길이(lenghth), 너비(width), 꽃받침(Petal) 길이, 너비
*   label (target) : Setosa, Vesicolor, Virginica




In [None]:
#사이킷런에 내장된 아이리스(iris) 데이터셋을 불러오는 함수 load_iris를 가져온다
from sklearn.datasets import load_iris

#데이터를 학습용/검증용으로 나누는 함수 train_test_split을 가져온다
from sklearn.tree import DecisionTreeClassifier

#의사결정나무 분류 모델 클래스 DecisionTreeClassifier를 가져온다
from sklearn.model_selection import train_test_split

iris 객체에는
*   iris.data (붓꽃 데이터 세트)
*   iris.target (레이블 0,1,2)
*   iris.target_names(Setosa, Vesicolor, Virginica)
*   iris.feature_names (sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm))

등이 기본으로 포함되어 있다

In [None]:
import pandas as pd

# 붓꽃 데이터 세트를 로딩합니다.
iris = load_iris()

iris_data = iris.data
iris_label = iris.target

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환합니다.
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


학습용 데이터와 테스트용 데어터 분리하기


*   test_size: 전체 데이터 중 테스트 데이터 세트의 비율. 지정 안 하면 기본값은 0.25 (25%)
*   random_state: train_test_split() 호출할 때마다 같은 데이터/옵션에서 항상 동일한 분할이 되도록 재현성 보장


In [None]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label,
                                                    test_size=0.2, random_state=11)
#반환 값:
#X-train: 학습용 피처 데이터 세트 (80%)
#X-test: 테스트용 피처 데이터 세트 (20%)
#y-train: 학습용 레잉블
#y-test: 테스트용 레이블

In [None]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

# fit(학습용 피처 데이터 속성, 결정값) --> fit() 메소드 통해 학습 수행
dt_clf.fit(X_train, y_train) #학습 완료!!!

In [None]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행.
pred = dt_clf.predict(X_test)

In [None]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9333


***정리:***



1.   Step 1: 학습용, 테스트용 데이터 분리: train_test_split()
2.   Step 2: ML 알고리즘을 적용 --> 모델 학습시킴 (예: fit() 메소드)
3.   Step 3: 학습된 모델로 테스트 데이터 예측 (예: predict() 메소드)
4.   Step 4: 평가 (from sklearn.metrics import accuracy_score)







# 2.3 사이킷런의 기반 프레임워크 익히기

## Estimator 이해 및 fit(), predict() 메소드



*   Estimator: 학습/변환을 수행하는 모델 객체의 통칭. Estimator의 유형:
    - 분류: Classifier
    - 회귀: Regressor

*   fit(): 데이터로 모델 내부 파라미터를 학습하거나, 전처리기의 통계값을 계산
*   predict(): 학습된 모델로 새 데이터의 결과를 예측


--> 정리: estimator 고르고 → fit()으로 학습 → predict()로 예측 → (필요시) 전처리 transform()



# 2.4 Model Selection 모듈 소개

## train_test_split()
하나의 데이터셋을 학습(train) 과 평가(test) 용으로 깔끔하게 나눔


**주요 파라미터**
- `test_size`: 테스트 비율(또는 개수). 보통 `0.2` 또는 `0.3`
- `train_size`: 학습 비율(또는 개수). 일반적으로 `test_size`만 주면 자동 계산
- `shuffle`: 분할 전 섞기(기본 `True`). 시계열이면 `False` 권장
- `stratify`: 라벨 y를 넣으면 클래스 비율을 유지해서 나눔
- `random_state`: 난수 시드. 같은 값이면 항상 같은 분할(재현성)

**반환값**
- 순서대로 `X_train, X_test, y_train, y_test`


In [None]:
#예시
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier( )
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                    test_size=0.3, random_state=121)

## 교차 검증

1. K-fold
2. Stratified K-fold
3. cross_val_score()



### K-fold

K번 반복하면서 매번 다른 폴드를 검증용으로 쓰고, 나머지는 훈련용으로 사용

T = test, V = validation

<style>
.kfold td,.kfold th{padding:10px 16px;border:1px solid #ccc;font-size:18px;text-align:center}
.kfold{border-collapse:collapse}
</style>

<table class="kfold">
  <tr><th>Fold</th><th>F1</th><th>F2</th><th>F3</th><th>F4</th><th>F5</th></tr>
  <tr><td>1</td><td>V</td><td>T</td><td>T</td><td>T</td><td>T</td></tr>
  <tr><td>2</td><td>T</td><td>V</td><td>T</td><td>T</td><td>T</td></tr>
  <tr><td>3</td><td>T</td><td>T</td><td>V</td><td>T</td><td>T</td></tr>
  <tr><td>4</td><td>T</td><td>T</td><td>T</td><td>V</td><td>T</td></tr>
  <tr><td>5</td><td>T</td><td>T</td><td>T</td><td>T</td><td>V</td></tr>
</table>

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성.
kfold = KFold(n_splits=5)
cv_accuracy = []
print('붓꽃 데이터 세트 크기:',features.shape[0])

붓꽃 데이터 세트 크기: 150


In [None]:
n_iter = 0

# KFold객체의 split( ) 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환
for train_index, test_index  in kfold.split(features):
    # kfold.split( )으로 반환된 인덱스를 이용하여 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    #학습 및 예측
    dt_clf.fit(X_train , y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    # 반복 시 마다 정확도 측정
    accuracy = np.round(accuracy_score(y_test,pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스:{1}'.format(n_iter,test_index))
    cv_accuracy.append(accuracy)

# 개별 iteration별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도 :1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 세트 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 :0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 세트 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 :0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 세트 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 :0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 세트 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도 :0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 세트 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.9


### Stratified K-fold
불균형(imbalanced) 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K-fold 방식

- 예를 들어, 사기:정상 = 1:100인 신용카드 거래 데이터가 있다고 하자. 이처럼 소수 클래스(사기)가 매우 적으면 일반 K-Fold에서는 어떤 폴드에 사기 표본이 거의 없을 수 있으므로 Stratified K-Fold로 각 폴드에 사기 비율(약 1%)을 동일하게 유지해 주는 것이 좋다.

In [None]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter=0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train= iris_df['label'].iloc[train_index]
    label_test= iris_df['label'].iloc[test_index]
    print('## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())

dt_clf = DecisionTreeClassifier(random_state=156)

skfold = StratifiedKFold(n_splits=3)
n_iter=0
cv_accuracy=[]

# StratifiedKFold의 split( ) 호출시 반드시 레이블 데이터 셋도 추가 입력 필요
for train_index, test_index  in skfold.split(features, label):
    # split( )으로 반환된 인덱스를 이용하여 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    #학습 및 예측
    dt_clf.fit(X_train , y_train)
    pred = dt_clf.predict(X_test)

    # 반복 시 마다 정확도 측정
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test,pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스:{1}'.format(n_iter,test_index))
    cv_accuracy.append(accuracy)

# 교차 검증별 정확도 및 평균 정확도 계산
print('\n## 교차 검증별 정확도:', np.round(cv_accuracy, 4))
print('## 평균 검증 정확도:', np.round(np.mean(cv_accuracy), 4))

## 교차 검증: 1
학습 레이블 데이터 분포:
 label
2    34
0    33
1    33
Name: count, dtype: int64
검증 레이블 데이터 분포:
 label
0    17
1    17
2    16
Name: count, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 label
1    34
0    33
2    33
Name: count, dtype: int64
검증 레이블 데이터 분포:
 label
0    17
2    17
1    16
Name: count, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 label
0    34
1    33
2    33
Name: count, dtype: int64
검증 레이블 데이터 분포:
 label
1    17
2    17
0    16
Name: count, dtype: int64

#1 교차 검증 정확도 :0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#1 검증 세트 인덱스:[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

#2 교차 검증 정확도 :0.94, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#2 검증 세트 인덱스:[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 1

### cross_val_score()

`cross_val_score()`: 교차 검증을 더 편리하게 수행할 수 있게 해주는 API. `cross_value_score()` 실행할 때:
1.   폴드 세트를 설정한다
2.   for 루프로 반복학습 -> 테스트 데이터의 인덱스 추출
3.   예측수행, 예측 성능 반환



## GridSearchCV
하이퍼파라미터 후보들을 Grid로 모두 조합해 교차검증으로 성능을 평가하고 가장 좋은 조합을 자동으로 찾아 다시 학습(refit)까지 해주는 도구.

**자주 쓰는 옵션**  
- `param_grid`: `{"max_depth":[1,2,3], "min_samples_split":[2,3]}`  
- `cv`: 분류는*StratifiedKFold 권장(예: `n_splits=5`)  
- `scoring`: `"accuracy"`, `"f1_macro"`, `"roc_auc"`, `"r2"` 등  
- `n_jobs=-1`: 병렬 실행

# 2.5 데이터 전처리
ML은 데이터 의존: Garbage in → Garbage out

입력 전 필수 전처리: 결측값(NaN/Null) 처리, 데이터 타입 정리, 범주/텍스트 인코딩

## 데이터 인코딩
머신러닝 모델은 숫자만 다룬다. 따라서 범주형 피처는 인코딩이 필요하다. 대표 방식은 (1)레이블 인코딩과 (2)원-핫 인코딩이다.




*    레이블 인코딩(Label encoding)
문자 범주 → **정수 코드**로 변환

| 원본 범주 | 정수 코드 |
|:--|:--:|
| Setosa | 1 |
| Versicolor | 2 |
| Virginica | 3 |



→ 트리 계열처럼 순서 영향이 적은 모델에서 간단히 적용





*   원-핫 인코딩(One-Hot encoding)
각 범주 → 열 하나씩(0/1)으로 표기(순서 의미 제거)

|  샘플 | Species    | is\_Setosa | is\_Versicolor | is\_Virginica |
| :-: | :--------- | :--------: | :------------: | :-----------: |
|  1  | Setosa     |      1     |        0       |       0       |
|  2  | Versicolor |      0     |        1       |       0       |
|  3  | Virginica  |      0     |        0       |       1       |




→ 장점: 순서 가짜 의미 제거, 대부분의 모델에 안전

→ 주의: 범주 수가 많으면 차원 폭증(희소행렬 사용 권장)






## 피처 스케일링과 정규화

- 피처 스케일링 : 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업

- 대표적인 방법: Standardization && Normalization



- **StandardScaler**
  - 목적: 각 피처를 평균 0, 표준편차 1로 표준화 (`z = (x-μ)/σ`)
  - 특징: 분포의 형태 유지, 이상치(Outlier)에 덜 민감하지 않음(영향 받지만 스케일 고정 아님)

- **MinMaxScaler**
  - 목적: 값을 [0, 1](또는 지정 구간)로 정규화 (`(x - min)/(max - min)`)
  - 특징: 범위가 고정되어 신경망 등에서 안정적, 이상치에 매우 민감

공통 주의: 스케일러는 훈련 데이터로만 `fit` → 검증/테스트엔 `transform`만(데이터 누수 방지)