In [1]:
# (1)필요한 모듈 import하기

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score # 모델 평가에 사용

In [2]:
# (2) 데이터 준비
# load_digits 메서드를 사용

digits = load_digits()
print(dir(digits))

['DESCR', 'data', 'feature_names', 'frame', 'images', 'target', 'target_names']


In [3]:
# (3)데이터 이해하기

# (3)-1. Feature Data 지정

digits_data = digits.data
digits_data.shape    ## shape는 배열의 형상정보를 출력(데이터 형태)

(1797, 64)

In [4]:
    ## digits_data에 저장된 데이터 양과 형식 확인
    ## 1797개의 digit 데이터와 각각의 데이터에 64개의 픽셀값이 저장되어 있음.

In [5]:
# (3)-2. Label Data 지정

digits_label = digits.target
print(digits_label.shape)
digits_label

(1797,)


array([0, 1, 2, ..., 8, 9, 8])

In [6]:
# (3)-3. Target Names 출력

digits.target_names

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
    ## Target_Name는 0~9까지의 숫자

In [8]:
# (3)-4. 데이터 Describe 해 보기

print(digits.DESCR)

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each blo

In [9]:
# (4) train, test 데이터 분리

# 모델 학습과 테스트용 문제지와 정답지를 준비
# X_train, X_test, y_train, y_test를 생성하는 방법을 참고


from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(digits_data, 
                                                    digits_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

X_train 개수:  1437 , X_test 개수:  360


In [10]:
    ## digits 데이터 셋을 학습용 데이터와 테스트용 데이터로 분리
    ## test 데이터 셋의 크기는 전체 데이터셋의 20%
    ## 1797개의 데이터셋 - 학습용 데이터: 1437개, 테스트용 데이터: 360개

In [11]:
# (5) 다양한 모델로 학습시켜보기
# 학습데이터 X_train, y_train 을 활용해 분류기 모델을 만들어 보자.


# (5)-1. Decision Tree 사용해 보기

from sklearn.tree import DecisionTreeClassifier # 모델을 import해서 가져오기

decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train) # decision_tree 라는 변수에 모델을 저장
y_pred = decision_tree.predict(X_test) # Decision Tree 모델, 학습 - 결과


digit_acc={}   # 손글씨 데이터의 정확도 dictionary
digit_acc['Decision Tree'] = accuracy_score(y_test, y_pred) # Decision Tree 모델 평가

print(classification_report(y_test, y_pred))
print(digit_acc['Decision Tree'])

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.81      0.81      0.81        42
           2       0.79      0.82      0.80        40
           3       0.79      0.91      0.85        34
           4       0.83      0.95      0.89        37
           5       0.90      0.96      0.93        28
           6       0.84      0.93      0.88        28
           7       0.96      0.82      0.89        33
           8       0.88      0.65      0.75        43
           9       0.78      0.78      0.78        32

    accuracy                           0.86       360
   macro avg       0.86      0.86      0.86       360
weighted avg       0.86      0.86      0.85       360

0.8555555555555555


In [12]:
# Decision Tree, accuracy : 86%    
    
    
    ## Precision
        ## 0, 5, 7, 8 을 제외한 나머지에서 평균 precision(macro avg)보다 낮음.
        ## 0, 5, 7, 8 의 경우, 다른 숫자들에 비해서 정밀한 예측.

    ## Recall
        ## 0, 3, 4, 5, 6 을 제외한 나머지에서 평균 recall(macro avg)보다 낮음.
        ## 0, 3, 4, 5, 6 의 경우, 해당 숫자 내에서 정확한 예측.

        
    ## 각각의 label에 따라서 precision과 recall의 편차가 큰 편이기에, 모델의 성능이 좋다고 말할 수 없음.

In [13]:
# (5)-2. Random Forest 사용해 보기

from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

digit_acc['Random Forest'] = accuracy_score(y_test, y_pred) ## Random Forest 모델 평가

print(classification_report(y_test, y_pred))
print(digit_acc['Random Forest'])

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.93      1.00      0.97        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       0.93      1.00      0.96        37
           5       0.90      0.96      0.93        28
           6       1.00      0.96      0.98        28
           7       0.94      0.97      0.96        33
           8       1.00      0.84      0.91        43
           9       0.94      0.94      0.94        32

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.97      0.96      0.96       360

0.9638888888888889


In [14]:
# Random Forest, accuracy : 96%


    ## Precision
        ## 0, 2, 3, 6, 8 을 제외한 나머지에서 평균 precision(macro avg)보다 낮음.
        ## 0, 2, 3, 6, 8 의 경우, 다른 숫자들에 비해서 정밀한 예측.
        
    ## Recall
        ## 1, 2, 3, 4, 5, 6, 7 을 제외한 나머지에서 평균 recall(macro avg)보다 낮음.
        ## 1, 2, 3, 4, 5, 6, 7 의 경우, 해당 숫자 내에서 정확한 예측.
        ### 특히, 8의 경우, recall값 : 0.84 - 실제 8 데이터 중에서 8이라고 예측한 결과가 굉장히 적음.

        
    ## precision과 recall의 각 label 별 편차가 대체적으로 크지 않고,
    ## 전반적으로 0.9 이상의 값을 갖기때문에, 모델의 성능이 좋다고 말할 수 있음.

In [15]:
# (5)-3. # SVM 사용해 보기

from sklearn import svm
svm_model = svm.SVC()

print(svm_model._estimator_type)

classifier


In [16]:
# SVM 모델 학습 - 결과
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

digit_acc['SVM'] = accuracy_score(y_test, y_pred) ## SVM 모델 평가

print(classification_report(y_test, y_pred))
print(digit_acc['SVM'])

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      1.00      0.98        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        37
           5       0.93      1.00      0.97        28
           6       1.00      1.00      1.00        28
           7       1.00      1.00      1.00        33
           8       1.00      0.93      0.96        43
           9       1.00      0.97      0.98        32

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360

0.9888888888888889


In [17]:
# SVM, accuracy : 99%

    ## 99%라는 너무 높은 accuracy를 갖기 때문에, 믿을 수 있는 수치인지 의문.
    
    
    ## Precision
        ## 1, 5 에서 평균 precision(macro avg)보다 낮음.
        ## 대부분 정밀한 예측.
        
    ## Recall
        ## 8, 9 에서 평균 recall(macro avg)보다 낮음.
        ## 대부분 해당 숫자 내에서 정확한 예측.
        
        
    ## precision과 recall의 각 label 별 편차가 대체적으로 크지 않고,
    ## 전반적으로 0.9 이상의 값을 갖음.
        ## but, 99%의 정확도는 굉장히 높은 수치이며, 해당 모델의 성능에 대한 의심.
        ## if, 해당 모델의 성능이 사실이라면, 해당 프로젝트에서는 SVM 모델을 사용하는 것이 가장 좋음.

In [18]:
# (5)-4. # SGD Classifier 사용해 보기

from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()

print(sgd_model._estimator_type)

classifier


In [19]:
# SGD 모델 학습 - 결과
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

digit_acc['SGD Classifier'] = accuracy_score(y_test, y_pred) ## SGD 모델 평가

print(classification_report(y_test, y_pred))
print(digit_acc['SGD Classifier'])

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.94      0.81      0.87        42
           2       0.98      1.00      0.99        40
           3       0.94      0.91      0.93        34
           4       0.95      1.00      0.97        37
           5       0.93      0.96      0.95        28
           6       1.00      0.93      0.96        28
           7       0.97      0.97      0.97        33
           8       0.74      0.91      0.81        43
           9       0.96      0.84      0.90        32

    accuracy                           0.93       360
   macro avg       0.94      0.93      0.93       360
weighted avg       0.94      0.93      0.93       360

0.9305555555555556


In [20]:
# SGD, accuracy : 95%
 
    
    ## Precision
        ## 3, 5, 8, 9 를 제외한 나머지에서 평균 precision(macro avg)보다 높음.
        ## 3, 5, 8, 9 의 경우, 다른 숫자들에 비해서 정밀도가 떨어짐.
        
    ## Recall
        ## 1, 8, 9 을 제외한 나머지에서 평균 recall(macro avg)보다 높음.
        ## 1, 8, 9 의 경우, 해당 숫자 내에서 정확한 예측을 한 비율이 적음.
        ### 특히, 1의 경우, recall값 : 0.83 - 실제 1 데이터 중에서 1이라고 예측한 결과가 굉장히 적음.
        
        
    ## but, 일부 label에서 precision과 recall 값이 다른 label에 비해서 많이 낮음.
        
        ## 이유? SGD의 특성으로 인한 결과!
        ## SGD는 추출된 데이터 한개에 대해서 그래디언트를 계산하고, 경사 하강 알고리즘을 적용하는 방식.
        ## 전체 데이터를 사용하는 것이 아니라, 랜덤하게 추출한 일부 데이터를 사용.
        ## 속도가 매우 빠르지만, 학습 중간 과정에서 결과의 진폭이 크고 불안정.
        ## 데이터를 하나씩 처리하기 때문에 오차율이 크고, GPU의 성능을 모두 활용하지 못함.

In [21]:
# (5)-5. # Logistic Regression 사용해 보기

from sklearn.linear_model import LogisticRegression
logistic_model = LogisticRegression()

print(logistic_model._estimator_type)

classifier


In [22]:
# Logistic Regression 모델 학습 - 결과
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

digit_acc['Logistic Regression'] = accuracy_score(y_test, y_pred) ## Logistic Regression 모델 평가

print(classification_report(y_test, y_pred))
print(digit_acc['Logistic Regression'])

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      0.95      0.95        42
           2       0.98      1.00      0.99        40
           3       0.94      0.97      0.96        34
           4       0.97      1.00      0.99        37
           5       0.82      0.96      0.89        28
           6       1.00      0.96      0.98        28
           7       0.97      0.97      0.97        33
           8       0.92      0.81      0.86        43
           9       0.97      0.91      0.94        32

    accuracy                           0.95       360
   macro avg       0.95      0.95      0.95       360
weighted avg       0.95      0.95      0.95       360

0.9527777777777777


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [23]:
# Logistic Regression, accuracy : 95%


    ## precision
        ## 5, 8 를 제외한 나머지에서 평균 precision(macro avg)보다 높음.
        ## 5, 8 의 경우, 다른 숫자들에 비해서 정밀도가 떨어짐.
        
    ## Recall
        ## 8, 9을 제외한 나머지에서 평균 recall(macro avg)보다 높음.
        ## 8, 9의 경우, 해당 숫자 내에서 정확한 예측을 한 비율이 적음.
        
        
        ## 오류
            ## 학습에 따른 모델의 convergence가 이루어지지 않았기에 발생함.
            ## 학습에 대한 모델의 최적화가 이루어지지 않음.
        
        ## 해결방법?
            ## 학습 데이터의 양이 증가하면, 해당 오류를 해결할 수 있지 않을까 생각함.

In [24]:
# (6) 모델을 평가해 보기
# 학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요?
# 모델의 성능을 평가하는 지표로는 무엇이 좋을까요?
# sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요.
# 선택하신 이유도 설명해 주세요.

In [25]:
# Decision Tree, accuracy : 86%
# Random Forest, accuracy : 96%
# SVM, accuracy : 99%
# SGD, accuracy : 95%
# Logistic Regression, accuracy : 95%


# Decision Tree, accuracy : 86%
    ## 각각의 label에 따라서 precision과 recall의 편차가 큰 편이기에, 모델의 성능이 좋다고 말할 수 없음.


# Random Forest, accuracy : 96%
    ## precision과 recall의 각 label 별 편차가 대체적으로 크지 않고,
    ## 전반적으로 0.9 이상의 값을 갖기때문에, 모델의 성능이 좋다고 말할 수 있음.


# SVM, accuracy : 99%
    ## precision과 recall의 각 label 별 편차가 대체적으로 크지 않고,
    ## 전반적으로 0.9 이상의 값을 갖음.
        ## but, 99%의 정확도는 굉장히 높은 수치이며, 해당 모델의 성능에 대한 의심.
        ## if, 해당 모델의 성능이 사실이라면, 해당 프로젝트에서는 SVM 모델을 사용하는 것이 가장 좋음.


# SGD, accuracy : 95%
    ## 일부 label에서 precision과 recall 값이 다른 label에 비해서 많이 낮음.
        
        ## 이유? SGD의 특성으로 인한 결과!
        ## SGD는 추출된 데이터 한개에 대해서 그래디언트를 계산하고, 경사 하강 알고리즘을 적용하는 방식.
        ## 전체 데이터를 사용하는 것이 아니라, 랜덤하게 추출한 일부 데이터를 사용.
        ## 속도가 매우 빠르지만, 학습 중간 과정에서 결과의 진폭이 크고 불안정.
        ## 데이터를 하나씩 처리하기 때문에 오차율이 크고, GPU의 성능을 모두 활용하지 못함.


# Logistic Regression, accuracy : 95%
        ## 오류
            ## 학습에 따른 모델의 convergence가 이루어지지 않았기에 발생함.
            ## 학습에 대한 모델의 최적화가 이루어지지 않음.
        
        ## 해결방법?
            ## 학습 데이터의 양이 증가하면, 해당 오류를 해결할 수 있지 않을까 생각함.


In [26]:
# sklearn.metrics 에서 제공하는 평가지표

    ## 사이킷런 패키지에서 지원하는 분류 성능평가 명령
    ## 사이킷런 패키지는 metrics 서브패키지에서 다음처럼 다양한 분류용 성능평가 명령을 제공.

        # confusion_matrix(y_true, y_pred)
        # accuracy_score(y_true, y_pred) *
        # precision_score(y_true, y_pred)
        # recall_score(y_true, y_pred)
        # fbeta_score(y_true, y_pred, beta)
        # f1_score(y_true, y_pred)
        # classfication_report(y_true, y_pred) *
        # roc_curve
        # auc

## digits datasets의 경우 사실 Recall과 Precision등의 영향을 받지 않는 데이터임.
## digit의 경우 정답 또는 오류를 틀리게 예측한 것을 파악하는 것보다 오류를 바르게 예측하는게 더 중요함.
## 단순히 정확도만 확인해도 무방하기 때문에 Accuracy를 평가지료로 사용하면 될 것 같음.
    ## classfication_report(y_true, y_pred)를 사용하여 결과값과 정확성을 알 수 있지만
    ## 한눈에 보기 쉽게 각 모델들의 ccuracy값을 accuracy_score(y_true, y_pred)로 정리.
    
for i in digit_acc.items():
    print("{0:<20} : {1}".format(i[0],i[1]))

Decision Tree        : 0.8555555555555555
Random Forest        : 0.9638888888888889
SVM                  : 0.9888888888888889
SGD Classifier       : 0.9305555555555556
Logistic Regression  : 0.9527777777777777


In [27]:
# 회고

# 정리하자면, 정확도가 가장 높은 수치를 보인 모델은 98%로 SVM이다.
# 해당 프로젝트의 경우, SVM 모델의 성능이 가장 좋다고 생각한다.

# digit의 경우 정답 또는 오류를 틀리게 예측한 것을 파악하는 것보다
# 오류를 바르게 예측하는게 더 중요하다고 생각했다.
# 따라서, 단순히 정확도만 확인해도 무방하기 때문에 Accuracy를 평가지료로 사용했다.

# (마지막에 각 모델들의 성능을 한눈에 보기 위해 dictionary의 .items() 함수를 사용했다.)