# 1. Machine Learning Package

### 사이킷런(scikit-learn)

![scikit-learn_logo](./data/scikit-learn_logo.png)

### 1.1 scikit-learn Documentation

[Documentation](https://scikit-learn.org/stable/index.html)

[User Guide](https://scikit-learn.org/stable/user_guide.html)

[API Reference](https://scikit-learn.org/stable/modules/classes.html)

[Tutorial](https://scikit-learn.org/stable/tutorial/index.html)

[Examples](https://scikit-learn.org/stable/auto_examples/index.html)


### 1.2 scikit-learn 특징
- 다양한 머신러닝 알고리즘을 구현한 파이썬 라이브러리
- 심플하고 일관성 있는 API, 유용한 온라인 문서, 풍부한 예제
- 머신러닝을 위한 쉽고 효율적인 개발 라이브러리 제공
- 다양한 머신러닝 관련 알고리즘과 개발을 위한 프레임워크와 API 제공
- 많은 사람들이 사용하며 다양한 환경에서 검증된 라이브러리

### 1.3 scikit-learn 주요 모듈
모듈 | 설명
:--- |:---
sklearn.datasets | 내장된 예제 데이터 세트
sklearn.preprocessing | 다양한 데이터 전처리 기능 제공 (변환, 정규화, 스케일링 등)
sklearn.feature_selection | 특징(feature)를 선택할 수 있는 기능 제공
sklearn.feature_extraction | 특징(feature) 추출에 사용
sklearn.decomposition | 차원 축소 관련 알고리즘 지원 (PCA, NMF, Truncated SVD 등)
sklearn.model_selection | 교차 검증을 위해 데이터를 학습/테스트용으로 분리, 최적 파라미터를 추출하는 API 제공 (GridSearch
sklearn.metrics | 분류, 회귀, 클러스터링, Pairwise에 대한 다양한 성능 측정 방법 제공 (Accuracy, Precision, Recall, ROC
sklearn.pipeline | 특징 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 묶어서 실행할 수 있는 유틸리티 제공
sklearn.linear_model | 선형 회귀, 릿지(Ridge), 라쏘(Lasso), 로지스틱 회귀 등 회귀 관련 알고리즘과 SGD(Stochastic Gradien
sklearn.svm | 서포트 벡터 머신 알고리즘 제공
sklearn.neighbors | 최근접 이웃 알고리즘 제공 (k-NN 등)
sklearn.naive_bayes | 나이브 베이즈 알고리즘 제공 (가우시안 NB, 다항 분포 NB 등)
sklearn.tree | 의사 결정 트리 알고리즘 제공
sklearn.ensemble | 앙상블 알고리즘 제공 (Random Forest, AdaBoost, GradientBoost 등)
sklearn.cluster | 비지도 클러스터링 알고리즘 제공 (k-Means, 계층형 클러스터링, DBSCAN 등)

### 1.4 scikit-learn API 특징
- 일관성: 모든 객체는 일관된 문서를 갖춘 제한된 메서드 집합에서 비롯된 공통 인터페이스 공유
- 검사(inspection): 모든 지정된 파라미터 값은 공개 속성으로 노출
- 제한된 객체 계층 구조
  - 알고리즘만 파이썬 클래스에 의해 표현
  - 데이터 세트는 표준 포맷(NumPy 배열, Pandas DataFrame, Scipy 희소 행렬)으로 표현
  - 매개변수명은 표준 파이썬 문자열 사용
- 구성: 많은 머신러닝 작업은 기본 알고리즘의 시퀀스로 나타낼 수 있으며, Scikit-Learn은 가능한 곳이라면 어디서든 이 방식을 사용
- 합리적인 기본값: 모델이 사용자 지정 파라미터를 필요로 할 때 라이브러리가 적절한 기본값을 정의

### 1.5 scikit-learn API 사용방법
1. scikit-learn으로부터 적절한 estimator 클래스를 임포트해서 모델의 클래스 선택
2. 클래스를 원하는 값으로 인스턴스화해서 모델의 하이퍼파라미터 선택
3. 데이터를 특징 배열과 대상 벡터로 배치
4. 모델 인스턴스의 fit() 메서드를 호출해 모델을 데이터에 적합
5. 모델을 새 데이터에 대해서 적용
  - 지도 학습: 대체로 predict() 메서드를 사용해 알려지지 않은 데이터에 대한 레이블 예측
  - 비지도 학습: 대체로 transform() 이나 predict() 메서드를 사용해 데이터의 속성을 변환하거나 추론

### 1.6 내장된 예제 데이터 세트

- 회귀나 분류 연습용 예제 데이터
API 명 | 설명
:--- |:---
datasets.load_boston() | 회귀 용도이며, 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트
datasets.load_breast_cancer() | 분류 용도이며, 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트
datasets.load_diabetes() | 회귀 용도이며, 당뇨 데이터 세트
datasets.load_digits() | 분류 용도이며, 0에서 9까지 숫자의 이미지 픽셀 데이터 세트
datasets.load_iris() | 분류 용도이며, 붓꽃에 대한 피처를 가진 데이터 세트

- 분류와 클러스터링을 위한 표본 데이터 생성기
API 명 | 설명
:--- |:---
datasets.make_classifications() | 분류를 위한 데이터 세트를 생성
 | 특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성
datasets.make_blobs() | 클러스터링을 위한 데이터 세트를 무작위로 생성
  | 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 생성
datasets.make_circles() | 원 모양의 클러스터 데이터를 생성
  | 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 생성
datasets.moons() | 초승달 모양 클러스터 두 개 형상의 데이터를 생성
  | 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 생성

### 1.7 예제 데이터 세트 구조
- 파이썬 딕셔너리와 비슷한 bunch 형태로 구성
- data: 특징 데이터 세트
- target: 분류용은 레이블 값, 회귀용은 숫자 결과값 데이터
- target_names: 개별 레이블의 이름 (분류용)
- feature_names: 특징 이름
- DESCR: 데이터 세트에 대한 설명과 각 특징 설명

### 1.8 예제 데이터 세트 불러오기

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import mglearn

plt.rc('figure', figsize=(10, 6))

from matplotlib import rcParams
rcParams['font.family'] = 'New Gulim'
rcParams['font.size'] = 10
rcParams['axes.unicode_minus'] = False

#### 1.8.1 회귀 예제 데이터 - diabetes

In [None]:
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()

In [None]:
print(diabetes.keys())

In [None]:
# Creaate DataFrame
df_diabetes = pd.DataFrame(data=diabetes.data, columns=diabetes.feature_names)
df_diabetes['target'] = diabetes.target
df_diabetes

#### 1.8.2 분류 예제 데이터 - breast_cancer

In [None]:
from sklearn.datasets import load_breast_cancer
bc = load_breast_cancer()

In [None]:
print(bc.keys())

In [None]:
print(bc.target_names)

In [None]:
# Creaate DataFrame
df_bc = pd.DataFrame(data=bc.data, columns=bc.feature_names)
df_bc['target'] = bc.target
df_bc

#### 1.8.3 분류 예제 데이터 생성 - make_classification()

In [None]:
from sklearn.datasets import make_classification
X, y = make_classification(n_features=2, n_informative=1, n_redundant=0, n_clusters_per_class=1, random_state=123)

In [None]:
# Creaate DataFrame
df_class = pd.DataFrame(data=X, columns=['X1','X2'])
df_class['target'] = y
df_class

In [None]:
plt.scatter(x=df_class['X1'], y=df_class['X2'], c= df_class['target'])
plt.show()

#### 1.8.4 군집 예제 데이터 생성 - make_blobs()

In [None]:
from sklearn.datasets import make_blobs
X, y = make_blobs(n_samples=200, n_features=2, centers=3, cluster_std=0.8, random_state=123)

In [None]:
# Creaate DataFrame
df_blobs = pd.DataFrame(data=X, columns=['X1','X2'])
df_blobs['target'] = y
df_blobs

In [None]:
plt.scatter(x=df_blobs['X1'], y=df_blobs['X2'], c= df_blobs['target'])
plt.show()

# 2. Machine Learning Application

### 2.1 머신러닝 프로세스
1. **데이터 세트 분리:** 데이터를 학습 데이터와 테스트 데이터로 분리
2. **모델 학습:** 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습
3. **결과 예측:** 학습된 ML 모델을 이용해 테스트 데이터의 분류(붓꽃 종류)를 예측
4. **평가:** 예측된 결과값과 테스트 데이터의 실제 결과값을 비교해 ML 모델 성능 평가

### 2.2 붓꽃 분류
- 지도학습
- 꽃잎(petal)과 꽃받침(sepal)의 폭과 길이 값만 보고 붓꽃의 종류를 분류하는 문제
- 붓 꽃의 종류(품종): setosa, versicolor, virginica

#### 2.2.1 데이터 로딩

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()

In [None]:
print(iris.keys())

In [None]:
print(iris.target_names)

In [None]:
col_list = iris.feature_names

In [None]:
# Creaate DataFrame
df_iris = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df_iris['target'] = iris.target
df_iris

#### 2.2.2 데이터 탐색

In [None]:
print(iris['DESCR'])

In [None]:
pd.plotting.scatter_matrix(df_iris[col_list], c=df_iris['target'],
                           figsize=(15, 15), marker='o', hist_kwds={'bins': 20}, s=60, alpha=0.8 )
plt.show()

#### 2.2.3 데이터 분할: 학습 데이터 + 테스트 데이터

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df_iris[col_list], df_iris['target'], random_state=123)

In [None]:
print("X_train 크기:", X_train.shape)
print("y_train 크기:", y_train.shape)

In [None]:
print("X_test 크기:", X_test.shape)
print("y_test 크기:", y_test.shape)

#### 2.2.4 모델 생성

In [None]:
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier()

#### 2.2.5 모델 학습

In [None]:
model.fit(X_train, y_train)

#### 2.2.6 결과 예측

In [None]:
pred = model.predict(X_test)
pred

#### 2.2.7 모델  평가

In [None]:
from sklearn import metrics
print('Accuracy:', metrics.accuracy_score(pred, y_test))

#### 2.2.8 새로운 데이터 예측

In [None]:
# 데이터 생성
X_new = pd.DataFrame(np.array([[5, 2.9, 1, 0.2], [4,2,3,4], [3,5,4,1]]), columns=iris.feature_names)
X_new

In [None]:
# 품종 예측(0, 1, 2)
pred_new = model.predict(X_new)
pred_new

In [None]:
# 품종 이름 출력
print(iris['target_names'][pred_new])

# 3. Cross Validation(교차 검증)

In [None]:
mglearn.plots.plot_cross_validation()

### 3.1 cross_val_score

In [None]:
from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, df_iris[col_list], df_iris['target'], cv=5)

print('교차 검증 점수:', scores)
print('교차 검증 평균 점수: {:.2f}'.format(scores.mean()))

### 3.2 cross_validate

In [None]:
from sklearn.model_selection import cross_validate
res = cross_validate(model, df_iris[col_list], df_iris['target'], return_train_score=True)

In [None]:
df_res = pd.DataFrame(res)
df_res

In [None]:
# 평균
df_res.mean()

### 3.3 다양한 데이터 분할 방법

#### 3.3.1 k-fold

In [None]:
from sklearn.model_selection import KFold
kfold = KFold(n_splits=5)

In [None]:
scores = cross_val_score(model, df_iris[col_list], df_iris['target'], cv=kfold)

print('교차 검증 점수:', scores)
print('교차 검증 평균 점수: {:.2f}'.format(scores.mean()))

#### 3.3.2  k-fold - shuffle

In [None]:
from sklearn.model_selection import KFold
kfold = KFold(n_splits=5, shuffle=True, random_state=123)

In [None]:
scores = cross_val_score(model, df_iris[col_list], df_iris['target'], cv=kfold)

print('교차 검증 점수:', scores)
print('교차 검증 평균 점수: {:.2f}'.format(scores.mean()))

#### 3.3.3 Stratified k-fold

In [None]:
df_iris['target'].values

In [None]:
mglearn.plots.plot_stratified_cross_validation()

In [None]:
from sklearn.model_selection import StratifiedKFold
s_kfold = StratifiedKFold(n_splits=5)

In [None]:
scores = cross_val_score(model, df_iris[col_list], df_iris['target'], cv=s_kfold)

print('교차 검증 점수:', scores)
print('교차 검증 평균 점수: {:.2f}'.format(scores.mean()))

#### 3.3.4 LOOCV(Leave-One-Out cross-validation)

In [None]:
from sklearn.model_selection import LeaveOneOut
loo = LeaveOneOut()

In [None]:
scores = cross_val_score(model, df_iris[col_list], df_iris['target'], cv=loo)

print('교차 검증 분할 횟수: ', len(scores))
print('교차 검증 평균 점수: {:.2f}'.format(scores.mean()))

#### 3.3.5 Shuffle-split cross-validation (임의 분할 교차 검증)

In [None]:
mglearn.plots.plot_shuffle_split()

In [None]:
from sklearn.model_selection import ShuffleSplit
sh_split = ShuffleSplit(test_size=.5, train_size=.5, n_splits=10)

In [None]:
scores = cross_val_score(model, df_iris[col_list], df_iris['target'], cv=sh_split)

print('교차 검증 점수: ', scores)

#### 3.3.6 Group k-fold (그룹별 교차 검증)

In [None]:
mglearn.plots.plot_group_kfold()

In [None]:
from sklearn.model_selection import GroupKFold
group_kfold = GroupKFold(n_splits=3)

In [None]:
# 데이터 생성, 그룹 설정
X, y = make_blobs(n_samples=12, random_state=0)
groups = [0, 0, 0, 1, 1, 1, 1, 2, 2, 3, 3, 3]

In [None]:
scores = cross_val_score(model, X, y, groups=groups, cv=group_kfold)

print('교차 검증 점수: ', scores)

# 4. Grid Search
- Hyperparameter 튜닝

링크 연결 - 설명을 위해

In [None]:
mglearn.plots.plot_threefold_split()

### 4.1 Grid Search 실행

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

#### 4.1.1 파라미터 설정

In [None]:
param_grid = {'C': [0.001, 0.01, 0.1, 1, 10, 100],
              'gamma': [0.001, 0.01, 0.1, 1, 10, 100]}

#### 4.1.2 모델 생성

In [None]:
gs = GridSearchCV(SVC(), param_grid=param_grid, cv=5, return_train_score=True)

#### 4.1.3 모델 학습

In [None]:
%%time
gs.fit(X_train, y_train)

#### 4.1.4 모델 평가

In [None]:
# 테스트 데이터 점수
gs.score(X_test, y_test)

In [None]:
# 최적 매개 변수
gs.best_params_

In [None]:
# 최고 점수
gs.best_score_

In [None]:
# 최소 성능 모델
gs.best_estimator_

#### 4.1.5 Grid Search 결과 분석

In [None]:
df = pd.DataFrame(gs.cv_results_)
df.T

#### 4.1.6 Grid Search 평균 점수 히트맵 그래프

In [None]:
scores = np.array(df.mean_test_score).reshape(6, 6)

mglearn.tools.heatmap(scores, xlabel='gamma', xticklabels=param_grid['gamma'],
                      ylabel='C', yticklabels=param_grid['C'], cmap="viridis")
plt.show()

#### 4.1.7 적절하지 않은 매개 변수 선택

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(13, 5))

param_grid_linear  = {'C': np.linspace(1, 2, 6),  'gamma': np.linspace( 1, 2, 6)}
param_grid_one_log = {'C': np.linspace(1, 2, 6),  'gamma': np.logspace(-3, 2, 6)}
param_grid_range   = {'C': np.logspace(-3, 2, 6), 'gamma': np.logspace(-7,-2, 6)}

for param_grid, ax in zip([param_grid_linear, param_grid_one_log, param_grid_range], axes):
    grid_search = GridSearchCV(SVC(), param_grid, cv=5)
    grid_search.fit(X_train, y_train)
    scores = grid_search.cv_results_['mean_test_score'].reshape(6, 6)

    # 교차 검증 평균 점수의 히트맵 그래프
    scores_image = mglearn.tools.heatmap(
        scores, xlabel='gamma', ylabel='C', xticklabels=param_grid['gamma'],
        yticklabels=param_grid['C'], cmap="viridis", ax=ax, vmin=0.3, vmax=0.9)
    
plt.show()

### 4.2 Grid Search 실행 - 비대칭 매개 변수

#### 4.2.1 파라미터 설정

In [None]:
param_grid = [{'kernel': ['rbf'],
               'C': [0.001, 0.01, 0.1, 1, 10, 100],
               'gamma': [0.001, 0.01, 0.1, 1, 10, 100]},
              {'kernel': ['linear'],
               'C': [0.001, 0.01, 0.1, 1, 10, 100]}]

#### 4.2.2 모델 생성

In [None]:
gs = GridSearchCV(SVC(), param_grid=param_grid, cv=5, return_train_score=True)

#### 4.2.3 모델 학습

In [None]:
%%time
gs.fit(X_train, y_train)

#### 4.2.4 모델 평가

In [None]:
# 최적 매개 변수
gs.best_params_

In [None]:
# 최고 점수
gs.best_score_

#### 4.2.5 Grid Search 결과 분석

In [None]:
df = pd.DataFrame(gs.cv_results_)
df.T

### 4.3 중첩 교차 검증 - Grid Search에 Cross Validation 적용

#### 4.3.1 파라미터 설정

In [None]:
param_grid = {'C': [0.001, 0.01, 0.1, 1, 10, 100],
              'gamma': [0.001, 0.01, 0.1, 1, 10, 100]}

#### 4.3.2 cross-validation

In [None]:
%%time
scores = cross_val_score(GridSearchCV(SVC(), param_grid=param_grid, cv=5), df_iris[col_list], df_iris['target'], cv=5)

print('교차 검증 점수: ', scores)
print('교차 검증 평균 점수: {:.2f}'.format(scores.mean()))

---

In [None]:
# End of file