## What is Scikit-Learn?
* 사이킷런은 머신러닝을 위한 파이썬 패키지이다.
* https://scikit-learn.org/stable/ 공식 홈페이지에 접속해 다양한 예제와 코드를 확인할 수 있다.

* 사이킷런은 일반적인 파이썬이 아닌 C와 C++그리고 파이썬용 C엔진인 Cython으로 개발되어 있다.
* 그래서, 동일한 알고리즘을 파이썬으로 작성하게 되면 사이킷런보다 느리게 실행된다.

## Install scikit-learn

In [None]:
!pip install scikit-learn

## Toy Dataset
* sklearn(사이킷런)은 다양한 토이 데이터셋을 제공한다.
* 자세한 내용은 https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets 을 참고하면 된다.

In [1]:
# Example 꽃봉우리 데이터셋 로드하기
from sklearn.datasets import load_iris
iris = load_iris()

data = iris["data"] # 실제 데이터 (모델 인풋, X)
target = iris["target"] # 예측 값 (실제 아웃풋, Y)
feature_name = iris["feature_names"] # 각 열이 무슨 데이터인지

## Model Selection

### Train-Test Split
* 데이터를 훈련용과 테스트용으로 분리해주는 함수이다.
* sklearn에 model_selection 패키지 안에 존재한다.

* 주요파라미터
- test_size = 테스트셋의 크기를 어떻게 할 것인지 비율을 설정해주는 파라미터이다. (0~1)
- random_state = [파라미터 미사용시]: 랜덤하게 자름 / [int 값]: 숫자가 같다면 동일하게 데이터를 분할함.

In [2]:
# Load dataset
from sklearn.datasets import load_iris
iris = load_iris()

data = iris["data"] # 실제 데이터 (모델 인풋, X)
target = iris["target"] # 예측 값 (실제 아웃풋, Y)

In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.33, random_state=3)

In [4]:
print(X_train.shape, X_test.shape)
print(y_train.shape, y_test.shape)

(100, 4) (50, 4)
(100,) (50,)


### 5Fold Cross Validation (cross_val_score)
* cross_val_score 함수를 통해 5폴드 검증을 수행할 수 있다.
* 함수안에 classifier과 훈련용 데이터를 넣고, 몇 폴드를 나눌 것인지 설정해주면 자동으로 분할하여 계산한다.


In [5]:
from sklearn.model_selection import cross_val_score
from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()
scores = cross_val_score(clf, data, target, cv=5)

In [6]:
# 결과 리포팅
for idx, score in enumerate(scores):
    print(f"{idx+1}Fold Accuracy: {score:.2f}")

1Fold Accuracy: 0.93
2Fold Accuracy: 0.97
3Fold Accuracy: 0.93
4Fold Accuracy: 0.93
5Fold Accuracy: 1.00
