# Chapter 01 : 머신러닝과 파이썬
## 1.1 머신러닝 알아보기
### 머신러닝 구분
#### 1. 지도 학습(supervised learning)
- 주어진 문제와 정답으로 공부
- 입력 피처(feature)와 입력 피처에 해당하는 목표 변수의 쌍이 주어졌을 때 관계를 모델링하여 입력으로 들어온 새로운 피처로 목표 변수를 예측
- 목표 변수 = 범주형 변수 $\rightarrow$ 분류(classification)
- 목표 변수 = 수치형 변수 $\rightarrow$ 회귀(regression)

#### 2. 비지도 학습(unsupervised learning)
- 스스로 공간을 탐험
- 피처 공간만 주어진 상태에서 학습하여 피처 공간의 분포를 모델링하고 인사이트를 도출
- 군집화(clustering) : 피처 데이터를 수 개의 군집(cluster)으로 모델링
- 이상값 탐지(outlier detection) : 비정상 패턴인 데이터를 찾음
- 차원 축소(demensionality reduction) : 정보를 크게 손실하지 않으면서 피처를 저차원으로 축소

#### 3. 강화 학습(reinforcement learning)
- 보상으로 최적의 행동 순서를 찾음
- 순차적 보상 문제를 모델링
- 주어진 환경에서 에이전트의 행동 순서를 최적화하는 영역

### 머신러닝 모델의 계층 구조
#### 지도 학습 모델
- 선형 모델 : 최소 제곱법, 로지스틱 회귀, 라쏘, 릿지, 엘라스틱 넷
- 트리 모델 : 결정 트리, 랜덤 포레스트, 그레이디언트 부스팅 트리
- 기타 모델 : K-최근접 이웃, 서포트 벡터 머신, 다층 퍼셉트론

#### 비지도 학습 모델
- K-평균 군집화, 계층적 군집화, 주성분 분석

#### 강화 학습 모델

## 1.2 머신러닝에 쓰는 알고리즘 개념 이해하기
#### 시간 복잡도(time complexity)
- 해를 계산하는 데에 걸리는 시간
- 데이터의 크기와 형태에 따라 달라질 수 있어 비교하는 방법 정형화
- 빅오(big O) 표기법으로 표현

#### 공간 복잡도(space complexity)
- 해를 계산할 때 소요되는 메모리

#### 입력값의 작은 변동에 대한 예측값의 안정성
- 좋은 머신러닝 모델은 오차항(error term)에 민감하지 않은 예측값을 산출해야 함

## 1.3 실습 환경 설정하기
주피터 노트북(jupyter notebook) 사용
#### 필요한 패키지
- numpy == 1.21.4
- pandas == 1.3.5
- scipy == 1.7.3
- scikit-learn == 1.0.2
- statsmodels == 0.13.1
- lime == 0.2.0.1
- seaborn == 0.11.2
- matplotlib == 3.1.0
- jupyter == 1.0.0

numpy, pandas : 데이터를 표현하고 정의하는 뼈대를 구성\
scipy : 각종 통계량을 계산, 알고리즘을 푸는 계산기 역할\
sklearn, statsmodels : numpy, pandas, scipy 위에서 짜인 머신러닝 패키지, 통계학 패키지\
lime : XAI를 위한\
matplotlib, seaborn : 그래프

#### sklearn 클래스에서 공통으로 자주 사용하는 하이퍼파라미터
- random_state 하이퍼파라미터 : 랜덤성 제어
- n_jobs 하이퍼파라미터 : 병렬 처리가 가능한 기법에 사용할 코어 개수 지정

## 1.4 머신러닝 절차 빠르게 처험하기
### 머신러닝 절차
1. 데이터셋 준비하기
2. 데이터셋 분할하기 : 학습 데이터셋, 검증 데이터셋, 테스트 데이터셋
3. 데이터 전처리 : 학습 데이터셋
4. 모델 학습 : 학습 데이터셋
5. 데이터 전처리 : 검증 데이터셋
6. 예측 데이터 생성과 평가 : 검증 데이터셋
7. 하이퍼파라미터 튜닝 : 검증 데이터셋 -> 학습 데이터셋 (최적 성능 달성까지 반복)
8. 데이터 전처리 : 테스트 데이터셋
9. 예측 데이터 생성과 최종 평가 : 테스트 데이터셋

### 1. 데이터셋 준비하기
- 분석을 위한 데이터셋을 준비하고 피터와 목표 변수(target variable)를 정의하는 과정
- 목표 변수 = 수치형 변수 $\rightarrow$ 회귀(regression) 분석
- 목표 변수 = 범주형 변수 $\rightarrow$ 분류(classification) 분석
- 비지도 학습에서는 목표 변수를 정의하지 않음

#### 사용할 데이터셋 (sklearn.datasets 모듈)
- 당뇨병 데이터셋(diabetes dataset) - 회귀 분석 : load_diabetes()
- 붓꽃 데이터셋(iris dataset) - 분류 분석 : load_iris()
- 유방암 데이터셋(breast cancer dataset) - 분류 분석 : load_breast_cancer()
- MNIST 데이터셋(MNIST dataset) - 분류 분석 : load_digits()

In [22]:
# 당뇨병 데이터셋
# 나이, 성별, BMI 지수, 평균 혈압, 여섯 가지의 혈청 측정치 등 총 10개의 피처 존재
# 목푯값으로 1년 후의 당뇨병 진행 정도를 나타내는 값 존재

from sklearn.datasets import load_diabetes

df = load_diabetes(as_frame = True)['frame']
df

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
0,0.038076,0.050680,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019908,-0.017646,151.0
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068330,-0.092204,75.0
2,0.085299,0.050680,0.044451,-0.005671,-0.045599,-0.034194,-0.032356,-0.002592,0.002864,-0.025930,141.0
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022692,-0.009362,206.0
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031991,-0.046641,135.0
...,...,...,...,...,...,...,...,...,...,...,...
437,0.041708,0.050680,0.019662,0.059744,-0.005697,-0.002566,-0.028674,-0.002592,0.031193,0.007207,178.0
438,-0.005515,0.050680,-0.015906,-0.067642,0.049341,0.079165,-0.028674,0.034309,-0.018118,0.044485,104.0
439,0.041708,0.050680,-0.015906,0.017282,-0.037344,-0.013840,-0.024993,-0.011080,-0.046879,0.015491,132.0
440,-0.045472,-0.044642,0.039062,0.001215,0.016318,0.015283,-0.028674,0.026560,0.044528,-0.025930,220.0


In [23]:
# 줏꽃 데이터셋
# 꽃받침 길이, 꽃받침 폭, 꽃잎 길이, 꽃잎 폭 등 네가지 피처 이용
# 해당 붓꽃이 Setosa, Versicolour, Virginica 중 어느 종에 속하는지 분류

from sklearn.datasets import load_iris

df = load_iris(as_frame = True)['frame']
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [24]:
# 유방암 데이터셋
# 유방암 진단 관련 정보를 제공
# 30개의 피터로 구성
# 목푯값 1은 악성 종양, 0은 양성 종양으로 정의

from sklearn.datasets import load_breast_cancer

df = load_breast_cancer(as_frame = True)['frame']
df

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
0,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,0.2419,0.07871,...,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890,0
1,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,0.1812,0.05667,...,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902,0
2,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,0.2069,0.05999,...,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,0.2597,0.09744,...,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300,0
4,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,0.1809,0.05883,...,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,0.1726,0.05623,...,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115,0
565,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,0.1752,0.05533,...,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637,0
566,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,0.1590,0.05648,...,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820,0
567,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,0.2397,0.07016,...,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400,0


In [25]:
# MNIST 데이터셋
# 0에서 9까지 숫자의 손 글씨를 나타내는 64개의 피처값과 해당 샘플의 숫자값을 제공하는 분류용 데이터셋
# 각 피처는 0에서 255까지의 픽셀값으로 구성
# 255에 가까울수록 검은색에서 흰색에 가까워짐

from sklearn.datasets import load_digits

df = load_digits(as_frame = True)['frame']
df

Unnamed: 0,pixel_0_0,pixel_0_1,pixel_0_2,pixel_0_3,pixel_0_4,pixel_0_5,pixel_0_6,pixel_0_7,pixel_1_0,pixel_1_1,...,pixel_6_7,pixel_7_0,pixel_7_1,pixel_7_2,pixel_7_3,pixel_7_4,pixel_7_5,pixel_7_6,pixel_7_7,target
0,0.0,0.0,5.0,13.0,9.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,6.0,13.0,10.0,0.0,0.0,0.0,0
1,0.0,0.0,0.0,12.0,13.0,5.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,11.0,16.0,10.0,0.0,0.0,1
2,0.0,0.0,0.0,4.0,15.0,12.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,3.0,11.0,16.0,9.0,0.0,2
3,0.0,0.0,7.0,15.0,13.0,1.0,0.0,0.0,0.0,8.0,...,0.0,0.0,0.0,7.0,13.0,13.0,9.0,0.0,0.0,3
4,0.0,0.0,0.0,1.0,11.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,2.0,16.0,4.0,0.0,0.0,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1792,0.0,0.0,4.0,10.0,13.0,6.0,0.0,0.0,0.0,1.0,...,0.0,0.0,0.0,2.0,14.0,15.0,9.0,0.0,0.0,9
1793,0.0,0.0,6.0,16.0,13.0,11.0,1.0,0.0,0.0,0.0,...,0.0,0.0,0.0,6.0,16.0,14.0,6.0,0.0,0.0,0
1794,0.0,0.0,1.0,11.0,15.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,2.0,9.0,13.0,6.0,0.0,0.0,8
1795,0.0,0.0,2.0,10.0,7.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,5.0,12.0,16.0,12.0,0.0,0.0,9


### 2. 데이터셋 분할하기
- 데이터를 학습, 검증, 테스트 데이터셋으로 분할
- 검증 데이터 : 하이퍼파라미터를 튜닝하는 데 사용
- 테스트 데이터 : 최종 성능을 확인하고 모델을 평가하는 데 사용
- 검증 데이터는 분석에 따라 별도로 정의하지 않을 때도 있음 $\rightarrow$ 학습 데이터로 학습한 모델을 테스트 데이터에 바로 적용
- sklearn.model_selection.train_test_split() 함수로 수행
- train_test_split() 함수 : 피처 행렬 X와 목표 변수 y를 인수로 받아 랜덤하게 X와 y를 학습 데이터셋과 테스트 데이터셋으로 분할
- 분할 비율 test_size와 랜덤성 제어 하이퍼파라미터 random_state를 지정
- numpy 배열과 pandas의 DataFrame, Series에 모두 적용 가능
- 테스트 데이터셋은 처음에 정의 후 최종 테스트 전까지는 어떠한 정보도 사용하지 않음

In [26]:
import numpy as np
from sklearn.model_selection import train_test_split

X, y = np.arange(120).reshape((30, 4)), list(range(30))

print('X의 첫 5개 샘플\n', X[:5, :], '\n')
print('y의 첫 5개 샘플\n', y[:5])

X의 첫 5개 샘플
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]] 

y의 첫 5개 샘플
 [0, 1, 2, 3, 4]


In [27]:
# X와 y를 각 학습 데이터와 테스트 데이터로 분할
# 데이터셋의 비율은 33%로 지정
# random_state에 값을 설정해 각 실행에 따른 랜덤성이 발생하지 않도록 함

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.33, random_state = 1234)

print('데이터셋 분할 : ', len(X_train), len(y_train), len(X_test), len(y_test), '\n')
print('X_train의 첫 5개 샘플\n', X_train[:5, :], '\n')
print('y_train의 첫 5개 샘플\n', y_train[:5])

데이터셋 분할 :  20 20 10 10 

X_train의 첫 5개 샘플
 [[ 88  89  90  91]
 [ 96  97  98  99]
 [  0   1   2   3]
 [  8   9  10  11]
 [108 109 110 111]] 

y_train의 첫 5개 샘플
 [22, 24, 0, 2, 27]


In [28]:
# 검증 데이터를 정의
# 학습 데이터셋에 다시 한번 train_test_split() 함수를 적용

X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size = 0.33, random_state = 1234)

print('데이터셋 분할 : ', len(X_train), len(y_train), len(X_val), len(y_val), len(X_test), len(y_test), '\n')
print('X_train의 첫 5개 샘플\n', X_train[:5, :], '\n')
print('y_train의 첫 5개 샘플\n', y_train[:5])

데이터셋 분할 :  13 13 7 7 10 10 

X_train의 첫 5개 샘플
 [[88 89 90 91]
 [64 65 66 67]
 [76 77 78 79]
 [24 25 26 27]
 [36 37 38 39]] 

y_train의 첫 5개 샘플
 [22, 16, 19, 6, 9]


### 3. 데이터 전처리
- 결측값 처리, 이상값 처리, 피처 스케일링, 파생 변수 생성 등 수행
- 테스트 데이터셋은 분석 시작과 동시에 분할되어야 함 -> 전처리보다 데이터셋 분할이 선행되어야 함
- 학습 데이터셋 전처리를 수행한 후 전처리에 사용한 수치 관련 규칙을 포함한 모든 규칙은 테스트 데이터에 똑같이 적용되어야 함

- 탐색적 데이터 분석 EDA : 통계량 집계와 시각화와 같은 방법을 통해 메인 데이터 분석 이전에 필요한 인사이트를 도출하는 과정

#### 피처 스케일링
- 표준 스케일링(standard scaling)과 최소-최대 스케일링(min-max scaling) 등을 널리 사용
- 표준 스케일링 : 피처별로 평균과 분산이 0과 1이 되도록 선형 변환하는 데이터 표준화 과정
- sklearn.preprocessing.StandardScaler 클래스로 수행
- fit() 메서드 : 학습 데이터를 기준으로 $(\mu_i, \sigma_i)$쌍을 계산(학습)
- transform() 메서드 : 계산 결과를 다른 데이터셋에 적용해 표준 스케일링을 수행
- fit_transform() 메서드 : $(\mu_i, \sigma_i)$쌍을 계산함과 동시에 해당 데이터셋에 바로 스케일링 결과를 적용

- 최소-최대 스케일링 : 피처별로 최솟값과 최댓값이 각각 0과 1이 되도록 선형 변환하는 데이터 정규화 과정
- sklearn.preprocessing.MinMaxScaler 클래스로 수행
- fit() 메서드, transform() 메서드, fit_transform() 메서드 존재

In [35]:
# 최소-최대 스케일링

import numpy as np
from sklearn.model_selection import train_test_split

X, y = np.arange(120).reshape((30, 4)), list(range(30))
X_trian, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.33, random_state = 1234)

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

scaler.fit(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"X_test_scaled의 첫 5개 샘플\n{np.array2string(X_test_scaled[:5, :], precision = 3, floatmode = 'fixed')}")

X_test_scaled의 첫 5개 샘플
[[ 0.100  0.100  0.100  0.100]
 [ 0.250  0.250  0.250  0.250]
 [-0.050 -0.050 -0.050 -0.050]
 [-0.200 -0.200 -0.200 -0.200]
 [ 1.150  1.150  1.150  1.150]]


In [32]:
# fit() 메서드와 transform() 메서드 말고 fit_transform() 메서드를 적용

scaler = MinMaxScaler()

X_train_scaled = scaler.fit_transform(X_train)

print(f"X_train_scaled의 첫 5개 샘플\n{np.array2string(X_train_scaled[:5, :], precision = 3, floatmode = 'fixed')}")

X_train_scaled의 첫 5개 샘플
[[0.850 0.850 0.850 0.850]
 [0.550 0.550 0.550 0.550]
 [0.700 0.700 0.700 0.700]
 [0.050 0.050 0.050 0.050]
 [0.200 0.200 0.200 0.200]]


### 4. 학습 데이터를 이용한 모델 학습
#### 모델 선택
1. 모수적 모델(parametric model)
2. 비모수적 모델(nonparametric model) : 별도의 모델 파라미터를 가지지 않는 모델

- 각 모델은 가정에 따라 고유의 하이퍼파라미터를 가짐
- 모델 선택에 이어 하이퍼파라미터 값까지 결정한 후 학습 데이터로 모델을 학습

#### 모델 학습 : 예측값과 실제 주어진 목푯값을 비교하여 비용 함수 등의 비교 지표를 산출하고 최적화하는 것
- 회귀 문제 : 평균 절대 오차(MAE), 평균 제곱 오차(MSE), 평균 절대비 오차(MAPE) 등의 지표 고려
- sklearn.metrics 모듈의 mean_absolute_error(), mean_squared_error(), mean_absolute_percentage_error() 함수로 계산

- 분류 모델 : 정확도(accuracy), 정밀도(precision), 재현율(recall), F1 점수(F1-score) 등의 지표 고려
- sklearn.metrics 모듈의 accuracy_score(), precision_score(), recall_score(), f1_score() 함수로 계산

- 군집화 모델 : Rand 지수(Rand index), 실루엣 지수(silhouette coefficient) 등의 지표 고려
- sklearn.metrics 모듈의 rand_score() 함수, silhouette_score() 함수로 계산

### 5. 학습데이터와 검증 데이터 쌍을 이용한 하이퍼파라미터 튜닝
#### 하이퍼파라미터 튜닝(hyperparameter tuning)
- 학습 데이터로 학습된 모델을 검증 데이터에 적용했을 때 최고의 성능을 내는 하이퍼파라미터를 찾는 작업

#### 교차검증법(cross validation)
- 학습 데이터와 검증 데이터를 미리 분할하지 않고 주어진 데이터를 여러 방법으로 학습 데이터와 테스트 데이터로 분할하여 성능을 테스트하는 하이퍼파라미터 튜닝법
- sklearn.model_selection 모듈의 cross_val_score() 함수를 통해 계산

### 6. 테스트 데이터셋에 대한 최종 성능 측정과 평가
- 테스트 데이터셋에 모델을 적용하고 성능을 측정하여 일반화 가능성(generalizability)을 확인
- 테스트 데이터셋에서의 성능이 학습 데이터셋에서의 성능에 비해 크게 낮다면 과적합 의심
- 과적합(overfitting) : 모델이 학습 데이터에만 지나치게 지엽적으로 학습된 상황