In [None]:
import numpy as np
import pandas as pd
from IPython.display import Image

# Part 2. 데이터 전처리

## 2-1 데이터 분할

In [None]:
# Scikit-learn에서 제공하는 Iris 데이터셋을 불러오기
from sklearn.datasets import load_iris
dataset = load_iris()
dataset.keys()

In [None]:
# X는 feature, y는 target


In [None]:
# X와 y의 shape 확인


In [None]:
# target 이름과 class distribution 확인


In [None]:
# 첫 5개의 데이터를 출력


### Train, Test 데이터 분할

In [None]:
Image('./img/data_split.png', width=500)

In [None]:
# train_test_split 함수를 사용하여 데이터를 분리


# test_size=0.2는 전체 데이터의 20%를 test set으로 사용하겠다는 의미
# random_state=0은 random seed를 0으로 설정하겠다는 의미
# random seed를 설정하면 항상 같은 데이터셋이 나오므로, 결과를 재현할 수 있음



In [None]:
# train set과 test set의 shape 확인


In [None]:
# train set과 class distribution 확인

# train set의 기대 class distribution

In [None]:
# 실제 class distribution과 기대 class distribution이 다르다는 것을 확인할 수 있음
# 이는 train set과 test set이 골고루 분리되지 않았기 때문
# 이를 해결하기 위해 stratified split을 사용

# Stratified split

In [None]:
# train set과 class distribution 확인

# train set의 기대 class distribution

In [None]:
# train set과 test set이 골고루 분리되었음을 확인할 수 있음

In [None]:
# Train set과 train set과 validation set으로 분리 (8:1:1)

In [None]:
# train set, validation set, test set의 shape 확인


### Cross Validation

In [None]:
Image('./img/k-fold.png', width=500)

In [None]:
# Cross-validation

# Create a KFold object with 5 splits

# Iterate through splits


In [None]:
# Cross-validation with stratification

# Create a KFold object with 5 splits

# Iterate through splits


## 2-2 스케일링

#### 특성 스케일링
- 대부분의 ML 모델들은 입력 특성의 분포가 normal/balanced 함을 가정함
- 몇몇의 ML 모델들은 입력 특성의 스케일에 민감함
    - Ex) 키: 150~170cm, 소득: 2000만원~10000만원  


<span style='color: red'>- **중요! 스케일링 할 때, 꼭 학습 데이터로만 fit 해야 함**
- 스케일링에 사용되는 통계량에 모델 검증을 위한 validation이나 최종 평가를 위한 test 데이터의 정보가 유출되면 안됨

In [None]:
Image('./img/scaling.png', width=700)

In [None]:
# 첫 5개의 데이터(X)를 출력

In [None]:
# 원본 특성의 분포를 확인
import matplotlib.pyplot as plt

fig, ax = plt.subplots(1, 4, figsize=(12, 3))
for i in range(4):
    # 원본 데이터의 특성
    ax[i].set_title(dataset.feature_names[i])
plt.suptitle('Feature distributions (Original)')
plt.tight_layout()
plt.show()

In [None]:
# 특성의 주요 통계량 확인 (mean, std, min, max)


In [None]:
# Standard scaler with sklearn (StandardScaler)


In [None]:
# 스켕링된 데이터의 분포 확인
fig, ax = plt.subplots(1, 4, figsize=(12, 3))
for i in range(4):
    # 스케일된 데이터의 특성
    ax[i].set_title(dataset.feature_names[i])
plt.suptitle('Feature distributions (Standardized)')
plt.tight_layout()
plt.show()

In [None]:
# MinMax scaler with sklearn (MinMaxScaler)



In [None]:
# 스켕링된 데이터의 분포 확인
fig, ax = plt.subplots(1, 4, figsize=(12, 3))
for i in range(4):
    # 스케일된 데이터의 특성
    ax[i].set_title(dataset.feature_names[i])
plt.suptitle('Feature distributions (Normalized)')
plt.tight_layout()
plt.show()

In [None]:
# Robust scaler with sklearn (RobustScaler)



In [None]:
# 스켕링된 데이터의 분포 확인
fig, ax = plt.subplots(1, 4, figsize=(12, 3))
for i in range(4):
    # 스케일된 데이터의 특성
    ax[i].set_title(dataset.feature_names[i])
plt.suptitle('Feature distributions (Robustly scaled)')
plt.tight_layout()
plt.show()

### Target 스케일링

In [None]:
# 예시 타겟 생성
y = np.exp(np.random.randn(1000)) * 10
plt.hist(y, bins=30)

Zero-centered, Normal distribution에 가깝게 변환

In [None]:
# 로그 변환 (numpy)


In [None]:
# Standard Scaling (scikit-learn)


In [None]:
# 역변환 (numpy, sklearn)


In [None]:
# 역변환된 분포 확인


## 2-3 인코딩

### 특성 인코딩

In [None]:
# 특성 인코딩을 위한 데이터셋 로드 (전복 나이 예측)
df = pd.read_csv('data/abalone.csv')
df.head()

In [None]:
# 성별 특성의 범주 확인


In [None]:
# 범주형 변수를 수치형 변수로 변환 (pandas)


범주형 변수를 수치형 변수로 변환 (scikit-learn)

In [None]:
# 다시 원본 데이터셋 확인


In [None]:
# X는 특성, y는 타겟
# X는 'Rings' 특성을 제외한 모든 특성
# y는 'Rings' 특성


In [None]:
X, y

In [None]:
# 범주형 변수를 수치형 변수로 변환 (scikit-learn) - OneHotEncoder



In [None]:
# 변환된 열과 기존 열을 합침


In [None]:
# 변환된 데이터셋 확인

### Target 인코딩

In [None]:
# 타겟 범주 인코딩을 위한 데이터셋 로드 (전복 연령대 예측)
df = pd.read_csv('data/abalone_age.csv')
df.head()

In [None]:
# 타겟 범주 확인# y에 해당하는 연령대를 범주형 변수로 변환 (pandas)

In [None]:
# 타겟 범주의 형태, 첫 5개 데이터 확인


In [None]:
# LabelEncoder를 이용한 타겟 인코딩


만약 순서가 있는 범주형 변수라면, LabelEncoder를 사용하지 않고, OrdinalEncoder를 사용해야 함

In [None]:
# OrdinalEncoder를 이용한 인코딩


# Part 3. 모델링

In [None]:
# 데이터 로드 (이미 train, validation, test로 나누어져 있음)
X_train_scaled, X_val_scaled, X_test_scaled, y_train, y_val, y_test = np.load('./data/iris_scaled.npy', allow_pickle=True)

In [None]:
# 분할된 데이터셋의 크기 확인


## 3-1 모델 정의

In [None]:
# k-NN 모델 정의


In [None]:
# Logistic regression 모델 정의


In [None]:
# decision tree 모델 정의


In [None]:
# neural network 모델 정의


## 3-2 모델 학습

In [None]:
# 모델 학습 (KNN)


In [None]:
# 모델 학습 (Logistic Regression)

In [None]:
# 모델 학습 (Decision Tree)
# tree 계열 모델은 feature scaling이 필요 없음

In [None]:
# 모델 학습 (Neural Network)

## 3-3 모델 평가

- 모델 평가에는 학습에 사용되지 않고, 최종 예측 데이터가 아닌 검증 데이터 (Validation set) 사용

- 다양한 방법으로 모델 평가를 할 수 있음

In [None]:
# 모델 평가 (score function)


In [None]:
# 모델 평가 (predict function)


In [None]:
# Accuracy 계산


In [None]:
# 모델 평가 (predict_proba function)


In [None]:
# 확률 값이 가장 높은 클래스 선택


In [None]:
# Accuracy 계산


## 3-4 최종 평가

In [None]:
# score function로 test set 평가


In [None]:
# predict function로 test set 평가


In [None]:
# predict_proba function로 test set 평가


In [None]:
# 예측 결과 저장
np.save('./data/iris_pred.npy', y_pred_proba)
np.save('./data/iris_true.npy', y_test)

# Part 4. 평가 지표

## 4-1 분류

### 이진 분류

In [None]:
# 이미 저장된 예측 결과 로드
y_test, y_pred = np.load('./data/binary_classification.npy', allow_pickle=True)

In [None]:
# 예측 결과, 실제 타겟 확인 (첫 10개)


In [None]:
# 예측 결과가 0~1 사이의 값, threshold를 기준으로 0, 1로 변환 (일반적으로 0.5를 기준으로 함) 
# np.where(condition, if True, if False)

In [None]:
Image('./img/pr.png', width=300)

In [None]:
# metrics for binary classification (accuracy, precision, recall, f1 score)


# accuracy

# precision

# recall

# f1 score


In [None]:
# classification report로 한번에 확인

In [None]:
# confusion matrix (binary classification)



In [None]:
# plot confusion matrix (binary classification)


In [None]:
# normalize confusion matrix (binary classification)


In [None]:
# plot normalize confusion matrix

In [None]:
Image('./img/cm.png', width=500)

In [None]:
# ROC curve (binary classification)


# roc curve

# plot roc curve

In [None]:
# AUROC (Area Under the ROC Curve)


In [None]:
# plot predictions distribution 
plt.hist(y_pred[y_test == 0], bins=20, alpha=0.5, label='Negative')
plt.hist(y_pred[y_test == 1], bins=20, alpha=0.5, label='Positive')
plt.xlabel('Predicted probability')
plt.ylabel('Count')
plt.title('Predictions distribution')
plt.legend()
plt.show()

### 다중 분류

In [None]:
# 이미 저장된 예측 결과 로드
y_pred_proba = np.load('./data/iris_pred.npy', allow_pickle=True)
y_test = np.load('./data/iris_true.npy', allow_pickle=True)

In [None]:
# 예측 결과, 실제 타겟 확인 (첫 10개)

예측 결과가 확률값, 최종 예측은 확률이 가장 높은 클래스로 결정

In [None]:
# 가장 높은 확률값의 인덱스를 선택

- micro average: 모든 범주를 합하여 TP, FN 및 FP를 세어 전체적으로 메트릭 계산
   - 다수 범주에 큰 가중치
- macro average: 각 레이블에 대한 메트릭을 계산하고 모두 동일한 가중치로 평균을 계산
   - 소수 범주라도 동일한 가중치

In [None]:
# metrics for multiclass classification (accuracy, precision, recall, f1 score (micro-averaged, macro-averaged))


# accuracy

# precision (micro-averaged, macro-averaged)

# recall (micro-averaged, macro-averaged)

# f1 score (micro-averaged, macro-averaged)


In [None]:
# classification report으로 한번에 확인

In [None]:
# confusion matrix (multiclass classification)

In [None]:
# plot confusion matrix (multiclass classification)

In [None]:
# normalize confusion matrix (multiclass classification)

In [None]:
# plot normalize confusion matrix

## 4-2 회귀

In [None]:
# 이미 저장된 예측 결과 로드
y_test, y_pred = np.load('./data/regression.npy', allow_pickle=True)

In [None]:
# 예측 결과, 실제 타겟 확인 (첫 10개)

In [None]:
Image('./img/reg.jpg', width=400)

In [None]:
# metrics for regression (mean absolute error, mean squared error, root mean squared error, r2 score)

# mean absolute error

# mean squared error

# root mean squared error

# r2 score

In [None]:
# plot prediction vs true value (scatter plot)


In [None]:
# plot residuals (scatter plot)

In [None]:
# plot residuals distribution (histogram)