<a href="https://colab.research.google.com/github/0ejiw/ML_Study/blob/main/%ED%8C%8C%EC%9D%B4%EC%8D%AC_%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D_%EC%99%84%EB%B2%BD_%EA%B0%80%EC%9D%B4%EB%93%9C.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. 파이썬 기반의 머신러닝과 생태계 이해

In [None]:
import numpy as np

In [None]:
seq_array=np.arange(3,10)
print(seq_array)
print(seq_array.dtype, seq_array.shape)

In [None]:
zero_array=np.zeros((3,2))
print(zero_array)
print(zero_array.dtype, zero_array.shape)

# 2. 사이킷런으로 시작하는 머신러닝

## 2.1. 사이킷런 소개와 특징

In [None]:
import sklearn
print(sklearn.__version__)

## 2.2. 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기

In [None]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [None]:
import pandas as pd

# 붓꽃 데이터 세트 로딩
iris = load_iris()

# iris.data는 붓꽃 데이터 세트에서 feature data만을 numpy로 가짐
iris_data = iris.data

# iris.target은 붓꽃 데이터 세트에서 label data만을 numpy로 가짐
iris_label = iris.target
print('iris target값:', iris_label)
print('iris target명:', iris.target_names)

In [None]:
# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df

In [None]:
# 학습용 데이터와 테스트용 데이터 분리
feature_train, feature_test, label_train, label_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)

In [None]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

In [None]:
# 학습 수행
dt_clf.fit(feature_train, label_train)

In [None]:
# 학습이 완료된 DTC 객체에서 테스트 데이터 셋으로 예측 수행
pred = dt_clf.predict(feature_test)

In [None]:
# 예측값 반환
print(pred)

# 테스트 데이터의 label 데이터
print(label_test)

In [None]:
# 정확도 평가
from sklearn.metrics import accuracy_score

print('예측 정확도: {0:.4f}'.format(accuracy_score(label_test, pred)))

**정리**
1. **데이터 세트 분리**: 전체 데이터를 학습 데이터와 테스트 데이터로 분리
2. **모델 학습**: 학습 데이터를 활용하여 ML 알고리즘을 적용해 모델 학습
3. **예측 수행**: 학습된 모델을 이용해 테스트 데이터 분류 예측
4. **평가**: 예측 결과값과 실제 결과값을 비교하여 ML 모델 성능 평가

## 2.3. 사이킷런의 기반 프레임워크 익히기

In [None]:
# 사이킷런 내장 데이터 세트 구조
from sklearn.datasets import load_iris

# dict과 비슷한 Bunch 자료형
iris_data = load_iris()
print(type(iris_data))

In [None]:
# 붓꽃 데이터 세트의 keys
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들:', keys)

In [None]:
# keys 상세

# feature_names
print('feature_names의 type: ', type(iris_data.feature_names))
print('feature_names의 shape: ', len(iris_data.feature_names))
print(iris_data.feature_names)

# target_names
print('\ntarget_names의 type: ', type(iris_data.target_names))
print('target_names의 shape: ', iris_data.target_names.shape)
print(iris_data.target_names)

# data
print('\ndata의 type: ', type(iris_data.data))
print('data의 shape: ', iris_data.data.shape)
print(iris_data['data']) # iris_data.data와 동일

# target
print('\ntarget의 type: ', type(iris_data.target))
print('target의 shape: ', iris_data.target.shape)
print(iris_data.target)

## 2.4. Model Selection 모듈 소개

### 학습/테스트 데이터 세트 분리 - train_test_split()

In [None]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [None]:
# 붓꼿 데이터 세트 로드
iris_data = load_iris()

# 의사결정트리 객체 생성
dt_clf = DecisionTreeClassifier()

# 테스트 데이터와 학습 데이터 분리
feature_train, feature_test, label_train, label_test = train_test_split(iris_data.data, iris_data.target, test_size=0.3, random_state=121)

In [None]:
# 의사결정트리 알고리즘으로 학습 수행
dt_clf.fit(feature_train, label_train)

# 예측 진행
pred = dt_clf.predict(feature_test)

# 정확도 평가
print('예측 정확도: {0:.4f}'.format(accuracy_score(label_test, pred)))

In [None]:
print(pred)
print(label_test)

### 교차 검증

과적합(Overfitting) 문제를 막기 위해서 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행하는 것

기존 학습 데이터 세트 중 일부를 검증 데이터 세트로 하여 이를 활용해 모델 성능 1차 평가

모든 학습/검증 과정이 완료된 후 테스트 데이터 세트를 이용해 모델 성능 최종 평가

#### K Fold cross validation

전체 데이터 세트를 K등분하여 K번 만큼 각 폴드 세트에 학습과 검증 평가 반복 수행

K번의 예측 평가를 평균해서 최종 평가로 반영

In [None]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import KFold # train_test_split 대신 KFold
from sklearn.metrics import accuracy_score
import numpy as np

In [None]:
iris = load_iris()

feature = iris.data
label = iris.target

dt_clf = DecisionTreeClassifier(random_state=156)

In [None]:
# 5개의 폴드 세트로 분리하는 KFold 객체
kfold = KFold(n_splits=5)

# 5번의 폴드 세트별 예측 정확도를 담을 List 객체
cv_accuracy = []

print('붓꽃 데이터 세트 크기:', feature.shape) # data type of feature is ndarray.

In [None]:
n_iter = 0

# KFold 객체에 split()을 호출하면, 각 폴드별 학습용, 검증용 테스트의 row index가 array로 반환
for train_index, test_index in kfold.split(feature):
    feature_train, feature_test = feature[train_index], feature[test_index]
    label_train, label_test = label[train_index], label[test_index]

    # 학습
    dt_clf.fit(feature_train, label_train)

    # 예측
    pred = dt_clf.predict(feature_test)

    n_iter += 1

    # 폴드별 정확도 측정
    accuracy = np.round(accuracy_score(label_test, pred), 4)

    # List 객체에 각 폴드별 정확도 기입
    cv_accuracy.append(accuracy)

    print('\n#{0} 정확도: {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'.format(n_iter, accuracy, feature_train.shape[0], feature_test.shape[0]))
    print('#{0} 검증 데이터 세트 인덱스: {1}'.format(n_iter, test_index))

# 평균 정확도 평가
print('\n평균 검증 정확도: ', np.mean(cv_accuracy))

#### Stratified K Fold cross validation

특정 label data가 매우 많은, 불균형한 분포도를 가진 label dataset을 위한 K Fold 방식

원본 데이터의 label data 분포를 먼저 고려한 뒤, 이 분포와 동일하게 학습과 검증 데이터 세트를 분배

In [None]:
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df['label'].value_counts()

K Fold 방식으로 K=3으로 하면, 첫 번째 검증 데이터는 Label이 모두 0, 두 번째는 1, 세 번째는 2만 존재

In [None]:
kfold = KFold(n_splits=3)
n_iter = 0
for train_index, test_index in kfold.split(iris_df):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]

    print('## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())
    print('\n')

예측 정확도 = 0

In [None]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n_iter += 1

    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]

    print('# 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())
    print('\n')

In [None]:
import numpy as np

dt_clf = DecisionTreeClassifier(random_state=156)

skfold = StratifiedKFold(n_splits=3)
n_iter = 0
cv_accuracy = []

for train_index, test_index in skfold.split(feature, label):
    feature_train, feature_test = feature[train_index], feature[test_index]
    label_train, label_test = label[train_index], label[test_index]

    dt_clf.fit(feature_train, label_train)
    pred = dt_clf.predict(feature_test)

    n_iter += 1
    accuracy = np.round(accuracy_score(label_test, pred), 4)
    cv_accuracy.append(accuracy)

    train_size = feature_train.shape[0]
    test_size = feature_test.shape[0]

    print('\n#{0} 교차 검증 정확도: {1}, 학습 데이터 크기: {2}, 검증 데이터 크기:{3}'.format(n_iter, accuracy, train_size, test_size))

print('\n## 교차 검증별 정확도:', np.round(cv_accuracy, 4))
print('## 평균 검증 정확도: ', np.round(np.mean(cv_accuracy),4))

#### 교차 검증을 보다 간편하게 - cross_val_score()

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

iris = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

feature = iris.data
label = iris.target

# for문 필요 없이 그냥 한 줄로 끝남
scores = cross_val_score(dt_clf, feature, label, scoring='accuracy', cv=3)

print('교차 검증별 정확도: ', np.round(scores, 4))
print('평균 검증 정확도: ', np.round(np.mean(scores),4))

#### GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에

In [None]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV, train_test_split

# 데이터 로딩 및 학습/테스트 데이터 분리
iris = load_iris()
feature_train, feature_test, label_train, label_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=121)

dt_clf = DecisionTreeClassifier()

# 파라미터를 딕셔너리 형태로 설정
parameters = {'max_depth':[1,2,3], 'min_samples_split':[2,3]}

In [None]:
import pandas as pd

grid_dt = GridSearchCV(dt_clf, param_grid=parameters, cv=3, refit=True)

# 학습/평가
grid_dt.fit(feature_train, label_train)

# 결과 분석
scores_df = pd.DataFrame(grid_dt.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score', 'split0_test_score', 'split1_test_score', 'split2_test_score']]

In [None]:
print('GridSearchCV 최적 파라미터: ', grid_dt.best_params_)
print('GridSearchCV 최고 정확도: {0:.4f}'.format(grid_dt.best_score_))

In [None]:
# GridSearchCV의 refit으로 이미 학습된 estimator 반환
estimator = grid_dt.best_estimator_

pred = estimator.predict(feature_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(accuracy_score(label_test, pred)))

## 2.5. 데이터 전처리

### 데이터 인코딩

#### 레이블 인코딩

In [None]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# LabelEncoder 객체 생성 후, fit()과 transform()으로 레이블 인코딩 수행
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값: ', labels)

In [None]:
# 데이터가 많은 경우, 이걸 확인해서 순서대로 0부터 시작하는 것 확인
print('인코딩 클래스: ', encoder.classes_)

In [None]:
# 디코딩
print('디코딩 원본값: ', encoder.inverse_transform([4,5,2,0,1,1,3,3]))

#### 원-핫 인코딩

In [None]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# 2차원 ndarray로 변환
items = np.array(items).reshape(-1,1)

# 원핫 인코딩 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)

# sparse matrix이므로 toarray() 통해 dense matrix로 변환
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

In [None]:
# 더 쉽게 원-핫 인코딩 수행
import pandas as pd

df = pd.DataFrame({'items':['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})
pd.get_dummies(df)

### 피처 스케일링과 정규화

#### StandardScaler

In [None]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())

In [None]:
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()

# StandardScaler 객체로 feature 데이터 세트 변환
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

iris_scaled_df = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print(iris_scaled)

print('feature 들의 평균 값')
print(iris_scaled_df.mean())
print('\nfeature 들의 분산 값')
print(iris_scaled_df.var())

#### MinMaxScaler

In [None]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 객체 생성
scaler = MinMaxScaler()

# MinMaxScaler 객체로 feature 데이터 세트 변환
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

iris_scaled_df = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print(iris_scaled)

print('feature 들의 최솟값')
print(iris_scaled_df.min())
print('\nfeature 들의 최댓값')
print(iris_scaled_df.max())

#### 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점

In [None]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

train_array = np.arange(0,11).reshape(-1,1)
test_array = np.arange(0,6).reshape(-1,1)