<a href="https://colab.research.google.com/github/DavidJeonKr/lab_python/blob/master/ml03_train_test_scaling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

* 머신 러닝의 과정
    * 문제 정의 --> 데이터 준비 --> 데이터 탐색 --> 훈련 셋, 검증 셋, 데스트 셋 분리 --> 모델 선택, 훈련 --> 모델 평가 --> 모델 튜닝
* 훈련 셋, 검증 셋, 테스트 셋으로 나누는 방법
    * 순차 추출(sequential samplijng) 
    * 임의 추출(random sampling)
    * 층화 추출(stratified sampling)
* 분류 모델 평가 지표
    * 정호가도(accuracy)
    * 정밀도(precision)
    * 재현율(recall)
    * F1-score
    * 민감도(sensitivity)
    * 특이도
* 특성 스케일링
    * 표준화(standardization)
    * 정규환(normalization)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 머신 러닝 모델(알고리즘) - KNN 분류기
from sklearn.neighbors import KNeighborsClassifier
# 훈련/ 테스트 셋 분리 함수
from sklearn.model_selection import train_test_split
# 모델 평가 지표 함수
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score, precision_score, recall_score, f1_score
# 특성 스케일링 - preprocessing(전처리) - StandardScaler(표준화), MinMaxScaler(정규화)
from sklearn.preprocessing import StandardScaler, MinMaxScaler

In [None]:
fish_csv = 'https://github.com/JakeOh/202110_itw_lab_python/raw/main/fish.csv'
fish = pd.read_csv(fish_csv)

In [None]:
fish.head(4)

Unnamed: 0,Species,Weight,Length,Diagonal,Height,Width
0,Bream,242.0,25.4,30.0,11.52,4.02
1,Bream,290.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,26.5,31.1,12.3778,4.6961
3,Bream,363.0,29.0,33.5,12.73,4.4555


In [None]:
fish.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159 entries, 0 to 158
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Species   159 non-null    object 
 1   Weight    159 non-null    float64
 2   Length    159 non-null    float64
 3   Diagonal  159 non-null    float64
 4   Height    159 non-null    float64
 5   Width     159 non-null    float64
dtypes: float64(5), object(1)
memory usage: 7.6+ KB


In [None]:
df = fish.loc[fish['Species'].isin(['Bream','Smelt']),['Species', 'Weight', 'Length']]

In [None]:
df.head(4)


Unnamed: 0,Species,Weight,Length
0,Bream,242.0,25.4
1,Bream,290.0,26.3
2,Bream,340.0,26.5
3,Bream,363.0,29.0


In [None]:
# DataFrame을 특성과 타겟으로 분리하고 ndarray(배열)로 변환
features = df.iloc[:, 1:].values
target = df['Species'].values

In [None]:
features.shape #(n_samples, n_features)

(49, 2)

In [None]:
target.shape #(n_samples,)

(49,)

In [None]:
features[:5, :]

array([[242. ,  25.4],
       [290. ,  26.3],
       [340. ,  26.5],
       [363. ,  29. ],
       [430. ,  29. ]])

In [None]:
target[:5]

array(['Bream', 'Bream', 'Bream', 'Bream', 'Bream'], dtype=object)

In [None]:
np.unique(target, return_counts=True)

(array(['Bream', 'Smelt'], dtype=object), array([35, 14]))

# 훈련 셋, 테스트 셋 분리

훈련 셋:테스트 셋 = 7:3

# 순차 추출(sequential sampling)

In [None]:
49 * 0.7, 49 * 0.3 # (34, 15) or (35, 14)

(34.3, 14.7)

In [None]:
num_test = 35 # 훈련 셋의 샘플 개수 -> 테스트 셋의 샘플 개수: 48 -35 = 14

In [None]:
X_train = features[:num_test, :] # 훈련 셋
y_train = target[:num_test] # 훈련 레이블
print(X_train.shape, y_train.shape)
X_test = features[num_test:, :] # 테스트 셋
y_test = target[num_test:] # 테스트 레이블
print(X_test.shape, y_test.shape)

(35, 2) (35,)
(14, 2) (14,)


In [None]:
np.unique(y_train)
# 훈련 셋에는 물고기의 종류가 모두 도미(Bream)만 있음.

array(['Bream'], dtype=object)

In [None]:
np.unique(y_test)
# 테스트 셋에는 모두 빙어(Smelt)만 있음.

array(['Smelt'], dtype=object)

In [None]:
# train_test_split 함수를 사용한 순차 추출
#  X_train, X_test, y_train, y_test = train_test_split(
# ...     X, y, test_size=0.33, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(features, target, train_size=35, shuffle=False)