# 프로젝트 설명

본 프로젝트는 python의 scikit-learn 라이브러리에서 제공하는 세 가지의 toy dataset을 사용하여, 다섯 가지 분류 모델에 적용하여 어떤 모델이 좋은 성능을 보이는지 확인하고자 한다. 또한, 예측 결과를 어떻게 해석하고, 모델의 성능을 평가하는 지표로는 어떤 것을 선택할지에 대해 생각해보자.

### 패키지 임포트

In [3]:
# Data collection
from sklearn.datasets import load_digits, load_wine, load_breast_cancer

# Data preprocessing
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler

# Model
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier


# Performace index
from sklearn.metrics import precision_score, recall_score

### 데이터 준비(Data collection)

In [19]:
digits = load_digits()
wine = load_wine()
bcan = load_breast_cancer()

### 데이터 살펴보기

In [5]:
def toydata_eda(data):
    
    # EDA
    data_structure = {}
    data_name = data.DESCR.split('\n')[0].split("_")[1]
    
    print(f" Summary of {data_name} dataset", end = '\n\n\n')
    print(f" Keys of {data_name} datasets : {data.keys()}")
    print("-------------------------------------------------------------------------------", end = "\n\n")
    print(f" Shape of {data_name} datasets : {data.data.shape}")
    print("-------------------------------------------------------------------------------", end = "\n\n")
    print(f" Target name of {data_name} datasets : {data.target_names}")
    print("-------------------------------------------------------------------------------", end = "\n\n")
    print(f" Description of {data_name} datasets : \n {data.DESCR}")
    print("-------------------------------------------------------------------------------", end = "\n\n")

In [6]:
toydata_eda(digits)

 Summary of digits dataset


 Keys of digits datasets : dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])
-------------------------------------------------------------------------------

 Shape of digits datasets : (1797, 64)
-------------------------------------------------------------------------------

 Target name of digits datasets : [0 1 2 3 4 5 6 7 8 9]
-------------------------------------------------------------------------------

 Description of digits datasets : 
 .. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
ht

In [7]:
toydata_eda(wine)

 Summary of wine dataset


 Keys of wine datasets : dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])
-------------------------------------------------------------------------------

 Shape of wine datasets : (178, 13)
-------------------------------------------------------------------------------

 Target name of wine datasets : ['class_0' 'class_1' 'class_2']
-------------------------------------------------------------------------------

 Description of wine datasets : 
 .. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- 

In [8]:
toydata_eda(bcan)

 Summary of breast dataset


 Keys of breast datasets : dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])
-------------------------------------------------------------------------------

 Shape of breast datasets : (569, 30)
-------------------------------------------------------------------------------

 Target name of breast datasets : ['malignant' 'benign']
-------------------------------------------------------------------------------

 Description of breast datasets : 
 .. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
      

#### 데이터 별로 다양한 모델로 학습시켜보기

#### 와인데이터

In [15]:
def five_classification_model(data, max_iter = 10000):
    
    # EDA
    #toydata_eda(data)
    
    '''토이 데이터에서 feature와 그에 대한 클래스를 저장하고, 데이터셋의 이름을 저장'''
    feature_data = data.data
    label_data = data.target
    name = wine.DESCR.split('\n')[0][4:-1]
        
    # 훈련 데이터, 테스트 데이터 분리
    '''훈련 데이터와 테스트 데이터로 나눌 때 비율은 초기값을 사용'''
    train_input, test_input, train_target, test_target = train_test_split(feature_data, label_data, random_state = 24)
    
    # 정규화
    '''feature 별로 숫자의 척도가 달라, 스케일링, 정규화'''
    ss = StandardScaler()
    ss.fit(train_input)
    train_scaled = ss.transform(train_input)
    test_scaled = ss.transform(test_input)
    
    # 모델 셋팅
    '''과대적합, 과소적합이 일어나지 않도록 규제에 대한 파라미터를 직접 설정했으며,
    이는 각 데이터셋 별로 다르게 직접 대입해가며 설정함'''
    dt = DecisionTreeClassifier(min_impurity_decrease = 0.05, random_state = 24)
    params = {'min_impurity_decrease' : [0.1]}
    rf = GridSearchCV(RandomForestClassifier(random_state = 24), params)
    svc = SVC(C = 0.1, random_state = 24)
    lg = LogisticRegression(C = 0.01, max_iter = max_iter,random_state = 24)
    sgd = SGDClassifier(alpha = 1, max_iter = max_iter, tol = None, random_state = 24)
    
    models = [dt, rf, svc, lg, sgd]
    
    print(f'{name}\'s performance summary', end = '\n\n\n\n')
    '''훈련 데이터의 정확도와 테스트 데이터의 정확도를 확인할 수 있고,
    precision과 recall을 모델에 대한 성능 지표로 활용'''
    for m in models:
        m.fit(train_scaled, train_target)
        test_pred = m.predict(test_scaled)
        
        train_accuracy = m.score(train_scaled, train_target)
        test_accuracy = m.score(test_scaled, test_target)
        
        precision = precision_score(test_target, test_pred, average = 'weighted')
        recall = recall_score(test_target, test_pred, average = 'weighted')
    
        print(f'{m}')
        print('----------------------------------------------------------------')
        print(f'Precision: {precision:.3f}, Recall: {recall:.3f}, Accuracy_train : {train_accuracy:.3f}, Accuracy_test :  {test_accuracy:.3f}')
        print('----------------------------------------------------------------', end = '\n\n\n')

In [16]:
five_classification_model(wine)

wine_dataset's performance summary



DecisionTreeClassifier(min_impurity_decrease=0.05, random_state=24)
----------------------------------------------------------------
Precision: 0.934, Recall: 0.933, Accuracy_train : 0.970, Accuracy_test :  0.933
----------------------------------------------------------------


              precision    recall  f1-score   support

           0       0.95      0.95      0.95        19
           1       0.93      0.88      0.90        16
           2       0.91      1.00      0.95        10

    accuracy                           0.93        45
   macro avg       0.93      0.94      0.93        45
weighted avg       0.93      0.93      0.93        45

GridSearchCV(estimator=RandomForestClassifier(random_state=24),
             param_grid={'min_impurity_decrease': [0.1]})
----------------------------------------------------------------
Precision: 0.980, Recall: 0.978, Accuracy_train : 0.992, Accuracy_test :  0.978
----------------------------------

#### 유방암 데이터

In [17]:
def five_classification_model(data, max_iter = 10000):
    
    # EDA
    #toydata_eda(data)
    
    '''토이 데이터에서 feature와 그에 대한 클래스를 저장하고, 데이터 이름을 저장'''
    feature_data = data.data
    label_data = data.target
    name = wine.DESCR.split('\n')[0][4:-1]
        
    # 훈련 데이터, 테스트 데이터 분리
    '''훈련 데이터와 테스트 데이터로 나눌 때 비율은 초기값을 사용'''
    train_input, test_input, train_target, test_target = train_test_split(feature_data, label_data, random_state = 24)
    
    # 정규화
    '''feature 별로 숫자의 척도가 달라, 스케일링, 정규화'''
    ss = StandardScaler()
    ss.fit(train_input)
    train_scaled = ss.transform(train_input)
    test_scaled = ss.transform(test_input)
    
    # 모델 셋팅
    '''과대적합, 과소적합이 일어나지 않도록 규제에 대한 파라미터를 직접 설정했으며,
    이는 각 데이터셋 별로 다르게 직접 대입해가며 설정함'''
    dt = DecisionTreeClassifier(min_impurity_decrease = 0.01, random_state = 24)
    params = {'min_impurity_decrease' : [0.01]}
    rf = GridSearchCV(RandomForestClassifier(random_state = 24), params)
    svc = SVC(C = 0.5, random_state = 24)
    lg = LogisticRegression(C = 0.1, max_iter = max_iter,random_state = 24)
    sgd = SGDClassifier(loss = 'log', alpha = 0.05, max_iter = max_iter, tol = None, random_state = 24)
    
    models = [dt, rf, svc, lg, sgd]
    
    print(f'{name}\'s performance summary', end = '\n\n\n\n')
    '''훈련 데이터의 정확도와 테스트 데이터의 정확도를 확인할 수 있고,
    precision과 recall을 모델에 대한 성능 지표로 활용'''
    for m in models:
        m.fit(train_scaled, train_target)
        test_pred = m.predict(test_scaled)
        
        train_accuracy = m.score(train_scaled, train_target)
        test_accuracy = m.score(test_scaled, test_target)
        
        precision = precision_score(test_target, test_pred, average = 'weighted')
        recall = recall_score(test_target, test_pred, average = 'weighted')
    
        print(f'{m}')
        print('----------------------------------------------------------------')
        print(f'Precision: {precision:.3f}, Recall: {recall:.3f}, Accuracy_train : {train_accuracy:.3f}, Accuracy_test :  {test_accuracy:.3f}')
        print('----------------------------------------------------------------', end = '\n\n\n')

In [18]:
five_classification_model(bcan)

wine_dataset's performance summary



DecisionTreeClassifier(min_impurity_decrease=0.01, random_state=24)
----------------------------------------------------------------
Precision: 0.944, Recall: 0.944, Accuracy_train : 0.974, Accuracy_test :  0.944
----------------------------------------------------------------


              precision    recall  f1-score   support

           0       0.94      0.91      0.92        53
           1       0.95      0.97      0.96        90

    accuracy                           0.94       143
   macro avg       0.94      0.94      0.94       143
weighted avg       0.94      0.94      0.94       143

GridSearchCV(estimator=RandomForestClassifier(random_state=24),
             param_grid={'min_impurity_decrease': [0.01]})
----------------------------------------------------------------
Precision: 0.958, Recall: 0.958, Accuracy_train : 0.979, Accuracy_test :  0.958
----------------------------------------------------------------


              precis

#### 손글씨데이터

In [13]:
def five_classification_model(data, max_iter = 10000):
    
    # EDA
    #toydata_eda(data)
    
    '''토이 데이터에서 feature와 그에 대한 클래스를 저장하고, 데이터 이름을 저장'''
    feature_data = data.data
    label_data = data.target
    name = wine.DESCR.split('\n')[0][4:-1]
        
    # 훈련 데이터, 테스트 데이터 분리
    '''훈련 데이터와 테스트 데이터로 나눌 때 비율은 초기값을 사용'''
    train_input, test_input, train_target, test_target = train_test_split(feature_data, label_data, random_state = 24)
    
    # 정규화
    '''feature 별로 숫자의 척도가 달라, 스케일링, 정규화'''
    ss = StandardScaler()
    ss.fit(train_input)
    train_scaled = ss.transform(train_input)
    test_scaled = ss.transform(test_input)
    
    # 모델 셋팅
    '''과대적합, 과소적합이 일어나지 않도록 규제에 대한 파라미터를 직접 설정했으며,
    이는 각 데이터셋 별로 다르게 직접 대입해가며 설정함'''
    dt = DecisionTreeClassifier(min_impurity_decrease = 0.001, random_state = 24)
    params = {'min_impurity_decrease' : [0.01]}
    rf = GridSearchCV(RandomForestClassifier(random_state = 24), params)
    svc = SVC(C = 0.5, random_state = 24)
    lg = LogisticRegression(C = 0.1, max_iter = max_iter,random_state = 24)
    sgd = SGDClassifier(loss = 'log',alpha = 0.05, max_iter = max_iter, tol = None, random_state = 24)
    
    models = [dt, rf, svc, lg, sgd]
    
    print(f'{name}\'s performance summary', end = '\n\n\n\n')
    '''훈련 데이터의 정확도와 테스트 데이터의 정확도를 확인할 수 있고,
    precision과 recall을 모델에 대한 성능 지표로 활용'''
    for m in models:
        m.fit(train_scaled, train_target)
        test_pred = m.predict(test_scaled)
        
        train_accuracy = m.score(train_scaled, train_target)
        test_accuracy = m.score(test_scaled, test_target)
        
        precision = precision_score(test_target, test_pred, average = 'weighted')
        recall = recall_score(test_target, test_pred, average = 'weighted')
    
        print(f'{m}')
        print('----------------------------------------------------------------')
        print(f'Precision: {precision:.3f}, Recall: {recall:.3f}, Accuracy_train : {train_accuracy:.3f}, Accuracy_test :  {test_accuracy:.3f}')
        print('----------------------------------------------------------------', end = '\n\n\n')

In [14]:
five_classification_model(digits)

wine_dataset's performance summary



DecisionTreeClassifier(min_impurity_decrease=0.001, random_state=24)
----------------------------------------------------------------
Precision: 0.875, Recall: 0.862, Accuracy_train : 0.980, Accuracy_test :  0.862
----------------------------------------------------------------


GridSearchCV(estimator=RandomForestClassifier(random_state=24),
             param_grid={'min_impurity_decrease': [0.01]})
----------------------------------------------------------------
Precision: 0.932, Recall: 0.929, Accuracy_train : 0.950, Accuracy_test :  0.929
----------------------------------------------------------------


SVC(C=0.5, random_state=24)
----------------------------------------------------------------
Precision: 0.979, Recall: 0.978, Accuracy_train : 0.991, Accuracy_test :  0.978
----------------------------------------------------------------


LogisticRegression(C=0.1, max_iter=10000, random_state=24)
-----------------------------------------------

# 회고

scikit-learn 라이브러리에서 제공하는 toy dataset을 가지고, 다섯가지 분류 알고리즘을 활용하여, 훈련시킨 모델로부터 테스트 데이터를 얼만큼 잘 예측했는지 확인해보았다.

데이터는 손글씨, 와인, 유방암을 데이터를 사용했으며, toydata_eda 함수를 만들어서 데이터의 구조를 살펴보았다.

Datasets summary
1. 손글씨 데이터는 1797개의 샘플에 대하여 64개의 feature로부터 숫자 0부터 9까지 10개의 다중 클래스로 구성
2. 와인 데이터는 178개의 샘플에 대하여 13개의 feature로부터 와인 종류 3개라는 다중 클래스로 구성
3. 유방암 데이터는 569개의 샘플에 대하여 30개의 feature로부터 악성과 양성의 binary 클래스로 구성

세 가지 데이터셋트의 feature들은 모두 연속형 데이터이다. 그리고, 적게는 13개, 많게는 64개의 feature을 가지고 있으며, 척도가 달라 스케일링이 필요하기 때문에 scikit-learn에서 제공하는 StandardScaler 메소드를 통해서 정규화를 진행하였다.

다섯가지 분류모델은 DecisionTree, RandomForest, SVM, LogisticRegression, SGDClassifier를 사용했다.

세 가지의 다른 데이터에 대하여 다섯가지 분류 모델을 적용해서
1. 모델 성능 평가 전에, 데이터 구조와 분류 모델의 알고리즘을 고려했을 때 어떤 분류 모델이 적합할지 예상해보고
2. 결과적으로 어떤 데이터에 어느 분류 모델을 적용했을때의 성능이 좋은지 또는 안좋은지에 대해 살펴보았다.


먼저 손글씨 데이터는 8x8 픽셀에 담긴 0부터 9까지의 숫자를 진하기 강도에 따라 0부터16이라는 숫자로 나타냈다.
8x8 픽셀의 숫자 모양의 명암에 따라서 숫자를 정답으로 알려주고, 새로운 8x8픽셀의 숫자에 대한 명암의 강도 정보가 주어지면, 해당 숫자가 0~9에서 어떤 숫자인지를 분류하는 문제이다. 이처럼 손글씨에 데이터는 샘플도 많고 차원도 많기 때문에, 다량의 데이터를 점진적으로 학습하는 SGDClassifier가 성능이 좋을 것으로 예상했고,

현재 다중 클래스에 대한 분류 문제에 대해서는 LogisticRegression 알고리즘만 정확히 학습한 상황이므로, 와인 데이터 같은 경우는LogisticRegression가 좋은 성능을 가질 것이라고 예상을 했다. 그리고 악성 또는 양성 종양인지 분류하는 binary classification 모델도 LogisticRegression이 좋은 성능을 발휘할 것으로 예상했다. 다중 클래스가 아니더라도 binary 클래스가 주어지면 이진분류로 최적화해서 진행하기 때문에 좋은 성능을 보여줄 것으로 예상했다.

위의 five_classification_model함수에서는 데이터 별로 규제 파라미터의 값들이 다르다. manually 데이터 별로 모델에 규제 파라미터를 입력해가면서 과소적합과 과대적합을 회피하도록 최적의 규제 파라미터를 선정하였다. 아래와 같은 기준으로 규제 파라미터를 선정하였다.

훈련 데이터 세트로 학습한 모델로 각각의 훈련 데이터 세트와 테스트 데이터 세트를 score메서드로 평가해보면 훈련 세트의 점수와 테스트 세트의 점수를 알 수 있다. 이 때, 훈련 세트의 점수와 테스트 세트의 점수가 둘 다 모두 낮거나, 또는, 테스트 세트의 점수가 훈련 세트의 점수보다 높을 때 '과소적합'이라고 판단하고, 훈련 세트의 점수가 테스트 세트의 점수보다 월등히 높거나, 100% 정확하다고 나온다면 '과대적합'으로 판단했다. 그리하여 훈련 세트 점수와 테스트 세트의 점수가 둘다 90%이상의 예측 점수를 보이면서, 둘의 차이가 크지 않고, 훈련 세트의 점수가 조금 더 크게 나올 때를 이상적인 모델로 판단했으며, 이때가 나올 때까지 규제 파라미터를 manual로 입력해가면서 최적은 파라미터를 찾은 것이, 위의 함수에 내포된 파라미터다.(앞서 말했듯이 각 데이터 별로 모델의 규제 파라미터가 다름). 

그래서 아쉬운 점은 규제 파라미터를 찾는 과정을 어느 정도 범위의 숫자를 automatically하게 for문을 돌려가면서 최적의 파라미터를 찾아서 적용하는 코드를 만들면 어떨까 생각했다. for문을 추가함으로써 프로그램이 더 무거워지겠지만, 이렇게 만들어 놓으면 나중에 데이터만 집어넣고 최적의 파라미터를 프로그래밍으로 찾을 수 있으니까 이번 Ex1과제 끝나고 조금씩 코딩해볼 계획이다.

각 데이터에 대해 five_classification_model함수를 사용해서 최종적으로 precision과 recall값을 출력하도록 만들었다. 각 데이터 별로 둘 중에 어느 지표를 사용할지가 달랐다. 유방암의 악성 또는 양성을 판정해주는 분류 모델의 경우, 악성 종양에 대해 양성으로 판단하게되면 환자의 예후가 좋지 않기 때문에, 이같은 문제에서는 결과로 주어진 값이 얼마나 신뢰할수 있는지, 얼마나 틀리지 않는 것이 중요하므로 precision의 척도를 선택했으며, 나머지는 조금은 부정확하더라도 최대한 많이 맞추는 것이 성능이 좋다고 판단할 수 있기 때문에 recall을 성능 지표로 활용하였다.

Best performance metrics for five classification models with three datasets
1. 와인 데이터 - RandomForestClassifier, Recall : 0.978
2. 유방암 데이터 - SGDClassifier, Precision : 0.980
3. 손글씨 데이터 - SVM, Recall : 0.978

결과적으로 각 데이터별로 가장 우수한 성능을 발휘한 모델이 내가 예상했던 모델은 아니였지만, 과대적합과 과소적합이 발생하지 않도록 스케일링과 적절한 규제 파라미터를 적용해보고, 성능 지표에 대해서 실습해보고 학습해보았다. 그리고 여기서 분류 모델로 사용한 앙상블 알고리즘 중에 하나인 랜덤 포레스트에는 validation하는 방법이 적용되었는데, '혼자 공부하는 머신러닝'책의 코드를 참고했지만 아직 해당 단원까지는 학습하지 못해서 앞으로 공부할 계획이다. 코드를 복붙해서 그대로 따라 할 수는 있지만, 나중에 왜 그런 파라미터를 썻고, 어떤 경우에 쓰이며, 장점과 단점을 모르고 쓰는 건 나중에 크게 돌아오기 때문이다. 꼭 공부할 계획이다.

아쉬운 점은 머신러닝 성능 평가 지표로 대부분 AUC, ROC분석이 활용되는데 추가 학습하여 다음 번에 모델 성능을 보고 할 때는 ROC curve를 그려보고 싶다!