# E2.1 - 손글씨 분류

### (1) 필요한 모듈 import하기

In [1]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

### (2) 데이터 준비

In [2]:
digits = load_digits()

### (3) 데이터 이해하기

* Feature Data 지정하기
* Label Data 지정하기
* Target Names 출력해 보기
* 데이터 Describe 해 보기

In [3]:
# 데이터 이해하기 
print(dir(digits))

['DESCR', 'data', 'feature_names', 'frame', 'images', 'target', 'target_names']


In [4]:
# target 이해하기  - label은 숫자 0부터 9까지 총 10개. 
print(digits.target_names)

[0 1 2 3 4 5 6 7 8 9]


In [5]:
# label data 지정하기 
digits_label = digits.target 

In [6]:
# data 지정하기 
digits_data = digits.data 

In [7]:
print(digits_data.shape) # data 는 1797 row에 64 columns. sample 은 총 1797개. feature 가 뭔지 살펴보자. 
print(digits.feature_names) # feature는 8*8 pixel 이미지 (0부터 시작해서 7까지)- each pixel represents a feature 

(1797, 64)
['pixel_0_0', 'pixel_0_1', 'pixel_0_2', 'pixel_0_3', 'pixel_0_4', 'pixel_0_5', 'pixel_0_6', 'pixel_0_7', 'pixel_1_0', 'pixel_1_1', 'pixel_1_2', 'pixel_1_3', 'pixel_1_4', 'pixel_1_5', 'pixel_1_6', 'pixel_1_7', 'pixel_2_0', 'pixel_2_1', 'pixel_2_2', 'pixel_2_3', 'pixel_2_4', 'pixel_2_5', 'pixel_2_6', 'pixel_2_7', 'pixel_3_0', 'pixel_3_1', 'pixel_3_2', 'pixel_3_3', 'pixel_3_4', 'pixel_3_5', 'pixel_3_6', 'pixel_3_7', 'pixel_4_0', 'pixel_4_1', 'pixel_4_2', 'pixel_4_3', 'pixel_4_4', 'pixel_4_5', 'pixel_4_6', 'pixel_4_7', 'pixel_5_0', 'pixel_5_1', 'pixel_5_2', 'pixel_5_3', 'pixel_5_4', 'pixel_5_5', 'pixel_5_6', 'pixel_5_7', 'pixel_6_0', 'pixel_6_1', 'pixel_6_2', 'pixel_6_3', 'pixel_6_4', 'pixel_6_5', 'pixel_6_6', 'pixel_6_7', 'pixel_7_0', 'pixel_7_1', 'pixel_7_2', 'pixel_7_3', 'pixel_7_4', 'pixel_7_5', 'pixel_7_6', 'pixel_7_7']


In [8]:
# digits data description 
digits.DESCR

".. _digits_dataset:\n\nOptical recognition of handwritten digits dataset\n--------------------------------------------------\n\n**Data Set Characteristics:**\n\n    :Number of Instances: 5620\n    :Number of Attributes: 64\n    :Attribute Information: 8x8 image of integer pixels in the range 0..16.\n    :Missing Attribute Values: None\n    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)\n    :Date: July; 1998\n\nThis is a copy of the test set of the UCI ML hand-written digits datasets\nhttps://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits\n\nThe data set contains images of hand-written digits: 10 classes where\neach class refers to a digit.\n\nPreprocessing programs made available by NIST were used to extract\nnormalized bitmaps of handwritten digits from a preprinted form. From a\ntotal of 43 people, 30 contributed to the training set and different 13\nto the test set. 32x32 bitmaps are divided into nonoverlapping blocks of\n4x4 and the number of on pixel

### (4) train, test 데이터 분리

In [9]:
# test size = 20% 
X_train, X_test, y_train, y_test = train_test_split(digits_data, digits_label, test_size=0.2, random_state=15)

### (5) 다양한 모델로 학습시켜보기

아래와 같은 모델 사용해 보기
* Decision Tree 
* Random Forest 
* SVM 
* SGD Classifier 
* Logistic Regression 

### (5)(a) Decision Tree 

In [10]:
from sklearn.tree import DecisionTreeClassifier

# digits_dt 변수 만들어 주기 
digits_dt = DecisionTreeClassifier(random_state=32)

# model fitting
digits_dt.fit(X_train, y_train)

# y predict 만들어주기 
y_pred_dt = digits_dt.predict(X_test)


### (5)(b) Random Forest 

In [11]:
from sklearn.ensemble import RandomForestClassifier

# digits_rf 변수 만들어 주기 
digits_rf = RandomForestClassifier(random_state=32)

# model fitting
digits_rf.fit(X_train, y_train)

# y predict 만들어주기 
y_pred_rf = digits_rf.predict(X_test)


### (5)(c) SVM

In [12]:
from sklearn import svm

# digits_svm 변수 만들어 주기 
digits_svm = svm.SVC()

# model fitting
digits_svm.fit(X_train, y_train)

# y predict 만들어주기 
y_pred_svm = digits_svm.predict(X_test)


### (5)(d) SGD Classifier

In [13]:
from sklearn.linear_model import SGDClassifier

# digits_sgd 변수 만들어 주기 
digits_sgd = SGDClassifier()

# model fitting
digits_sgd.fit(X_train, y_train)

# y predict 만들어주기 
y_pred_sgd = digits_sgd.predict(X_test)



### (5)(e) Logistic Regression

In [14]:
from sklearn.linear_model import LogisticRegression

# digits_lr 변수 만들어 주기. max_iter 을 붙이지 않았을때 에러가 나서 첨부했다. 
digits_lr = LogisticRegression(max_iter=5000) 

# model fitting
digits_lr.fit(X_train, y_train)

# y predict 만들어주기 
y_pred_lr = digits_lr.predict(X_test)


### (6) 모델을 평가해 보기

1. classification report 를 사용하면 accuracy score 뿐만 아니라 0부터 9까지의 각 아웃풋의 precision, recall, f1-score를 볼 수 있다. 이 방식을 사용한 이유는 0부터 9까지의 precision, recall, f1 score를 검토하고 낮은 숫자를 찾아내서 이유를 분석하기 위해서이다. 
2. 모델별 accuracy score 는 다음과 같다. 
    a) decision tree: 84%
    b) random forest: 98%
    c) svm: 98%
    d) sgd: 96%
    e) logistic regression: 97%  
3. accuracy score를 기준으로 random forest 와 svm이 98%로 가장 높은 정확도를 보여준다. 하지만 logistic regression 도 97%, sgd 도 96% 로 크게 차이 나이 않는다. 
4. 그러므로 다른 test data 로 모델을 다시 평가해서 적합한 모델을 결정하는것도 고려해 볼만 하다. 
5. 아래 결과에서 한가지 눈에 띄는 점은 숫자 8의 precision, recall, f1 score가 다른 숫자들에 비해서 낮다. 왜 이런 결과 값이 나왔는지 조금 더 분석해 볼 필요가 있다. 

In [15]:
# (5)(a) Decision Tree 
print("Decision Tree: ")
print(classification_report(y_test, y_pred_dt))

Decision Tree: 
              precision    recall  f1-score   support

           0       1.00      0.94      0.97        31
           1       0.82      0.82      0.82        38
           2       0.72      0.87      0.79        38
           3       0.85      0.81      0.83        27
           4       0.97      0.78      0.86        41
           5       0.82      0.89      0.85        35
           6       0.85      0.89      0.87        38
           7       0.91      0.91      0.91        34
           8       0.74      0.74      0.74        35
           9       0.83      0.79      0.81        43

    accuracy                           0.84       360
   macro avg       0.85      0.84      0.84       360
weighted avg       0.85      0.84      0.84       360



In [16]:
# (5)(b) Random Forest 
print("Random Forest: ")
print(classification_report(y_test, y_pred_rf))

Random Forest: 
              precision    recall  f1-score   support

           0       0.97      0.94      0.95        31
           1       0.95      0.97      0.96        38
           2       1.00      1.00      1.00        38
           3       1.00      0.96      0.98        27
           4       0.95      1.00      0.98        41
           5       0.97      1.00      0.99        35
           6       1.00      0.95      0.97        38
           7       1.00      1.00      1.00        34
           8       0.94      0.97      0.96        35
           9       1.00      0.98      0.99        43

    accuracy                           0.98       360
   macro avg       0.98      0.98      0.98       360
weighted avg       0.98      0.98      0.98       360



In [17]:
# (5)(c) SVM
print("SVM: ")
print(classification_report(y_test, y_pred_svm))

SVM: 
              precision    recall  f1-score   support

           0       1.00      0.97      0.98        31
           1       0.95      1.00      0.97        38
           2       1.00      1.00      1.00        38
           3       0.96      0.96      0.96        27
           4       0.98      0.98      0.98        41
           5       1.00      1.00      1.00        35
           6       1.00      1.00      1.00        38
           7       1.00      1.00      1.00        34
           8       0.97      0.94      0.96        35
           9       0.98      0.98      0.98        43

    accuracy                           0.98       360
   macro avg       0.98      0.98      0.98       360
weighted avg       0.98      0.98      0.98       360



In [18]:
# (5)(d) SGD
print("SGD: ")
print(classification_report(y_test, y_pred_sgd))

SGD: 
              precision    recall  f1-score   support

           0       1.00      0.97      0.98        31
           1       0.90      0.97      0.94        38
           2       0.97      0.97      0.97        38
           3       0.93      0.93      0.93        27
           4       1.00      0.98      0.99        41
           5       0.95      1.00      0.97        35
           6       1.00      0.97      0.99        38
           7       0.94      1.00      0.97        34
           8       0.91      0.91      0.91        35
           9       1.00      0.91      0.95        43

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.96      0.96      0.96       360



In [19]:
# (5)(e) Logistic Regression 
print("Logistic Regression: ")
print(classification_report(y_test, y_pred_lr))

Logistic Regression: 
              precision    recall  f1-score   support

           0       1.00      0.97      0.98        31
           1       0.95      0.97      0.96        38
           2       1.00      0.97      0.99        38
           3       0.96      0.93      0.94        27
           4       0.93      1.00      0.96        41
           5       0.94      0.97      0.96        35
           6       1.00      0.97      0.99        38
           7       1.00      1.00      1.00        34
           8       0.94      0.94      0.94        35
           9       0.98      0.95      0.96        43

    accuracy                           0.97       360
   macro avg       0.97      0.97      0.97       360
weighted avg       0.97      0.97      0.97       360

