# ✏ 손글씨 분류하기

**😊 목차**
1. 데이터 불러오기 / 구성 확인하기
2. 데이터 전처리
3. 모델 학습 및 예측
4. 고찰

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression

#### 1.데이터 불러오기 / 구성 확인하기 

In [2]:
from sklearn.datasets import load_digits
digits = load_digits()

In [3]:
digits.keys() # 7가지 정보

dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])

In [4]:
digits.data.shape # 1797개의 데이터가 64개의 종류로 특징지어진 데이터셋

(1797, 64)

In [5]:
digits.data[0] # 데이터는 8x8 배열 헝태

array([ 0.,  0.,  5., 13.,  9.,  1.,  0.,  0.,  0.,  0., 13., 15., 10.,
       15.,  5.,  0.,  0.,  3., 15.,  2.,  0., 11.,  8.,  0.,  0.,  4.,
       12.,  0.,  0.,  8.,  8.,  0.,  0.,  5.,  8.,  0.,  0.,  9.,  8.,
        0.,  0.,  4., 11.,  0.,  1., 12.,  7.,  0.,  0.,  2., 14.,  5.,
       10., 12.,  0.,  0.,  0.,  0.,  6., 13., 10.,  0.,  0.,  0.])

In [6]:
digits.target_names # 0 ~ 9 까지 총 10개 라벨

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

데이터 Describe

1. 손글씨 데이터 1797개
2. 해당 데이터는 8x8 배열 형태
3. 64개의 특징을 이용하여 라벨(0 ~ 9)에 따라 분류

---

#### 2. 데이터 전처리

In [7]:
# 데이터, 라벨 지정
digits_data = digits.data
digits_label = digits.target

In [8]:
# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(digits_data,
                                                    digits_label,
                                                    test_size=0.2,
                                                    random_state=1)
print("X_train 갯수:", len(X_train))
print("X_test 갯수:", len(X_test))

X_train 갯수: 1437
X_test 갯수: 360


---

#### 3. 모델 학습 및 예측

- **Decision Tree:** 계산복잡성 대비 높은 예측 성능을 갖고 있지만, 결정경계(decision boundary)가 데이터 축에 수직이어서 특정 데이터에만 잘 작동할 가능성이 높음
- **Random Forest:** 의사결정나무를 여러 개 만들어 그 결과를 종합해 예측
- **SVM:** 데이터를 비선형 매핑(Mapping)을 통해 고차원으로 변환하고, 새로운 차원에서 초평면(hyperplane)을 최적으로 분리하는 선형분리를 찾아서 최적의 의사결정 영역(Decision Boundary)를 찾음
- **SGD Classifier:** 확률적으로 무작위로 골라낸 데이터에 대해 수행하는 경사 하강법
- **Logistic Regession:** 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류

In [9]:
# Decision Tree
decision_tree = DecisionTreeClassifier(random_state=2)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.93      0.96        43
           1       0.90      0.80      0.85        35
           2       0.87      0.92      0.89        36
           3       0.90      0.68      0.78        41
           4       0.77      0.95      0.85        38
           5       0.81      0.97      0.88        30
           6       0.97      0.97      0.97        37
           7       0.91      0.81      0.86        37
           8       0.81      0.90      0.85        29
           9       0.71      0.74      0.72        34

    accuracy                           0.86       360
   macro avg       0.87      0.87      0.86       360
weighted avg       0.87      0.86      0.86       360

[[40  0  0  0  1  1  0  0  1  0]
 [ 0 28  1  1  2  0  0  0  2  1]
 [ 0  0 33  0  0  1  1  0  1  0]
 [ 0  0  3 28  0  1  0  2  1  6]
 [ 0  1  0  0 36  0  0  1  0  0]
 [ 0  0  0  0  0 29  0  0  0  1]
 [ 0  0  0  0  1  0 36  0  0  0]
 [ 0  1  1

In [10]:
# Random Forest
random_forest = RandomForestClassifier(random_state=2)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.95      0.98        43
           1       1.00      1.00      1.00        35
           2       1.00      1.00      1.00        36
           3       1.00      0.98      0.99        41
           4       0.95      1.00      0.97        38
           5       0.97      1.00      0.98        30
           6       1.00      1.00      1.00        37
           7       1.00      0.97      0.99        37
           8       0.97      0.97      0.97        29
           9       0.94      0.97      0.96        34

    accuracy                           0.98       360
   macro avg       0.98      0.98      0.98       360
weighted avg       0.98      0.98      0.98       360



In [11]:
# SVM
svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       1.00      1.00      1.00        35
           2       1.00      1.00      1.00        36
           3       1.00      1.00      1.00        41
           4       1.00      1.00      1.00        38
           5       0.97      1.00      0.98        30
           6       1.00      1.00      1.00        37
           7       1.00      0.97      0.99        37
           8       1.00      0.97      0.98        29
           9       0.94      0.97      0.96        34

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360



In [12]:
# SGD Classifier
sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.95      0.98        43
           1       0.92      1.00      0.96        35
           2       1.00      1.00      1.00        36
           3       1.00      0.90      0.95        41
           4       0.93      0.97      0.95        38
           5       0.93      0.93      0.93        30
           6       1.00      1.00      1.00        37
           7       1.00      0.92      0.96        37
           8       0.88      0.97      0.92        29
           9       0.91      0.94      0.93        34

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.96      0.96      0.96       360



In [13]:
# Logistic Regression
logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.97      0.97      0.97        35
           2       1.00      1.00      1.00        36
           3       0.95      0.98      0.96        41
           4       0.93      1.00      0.96        38
           5       0.90      0.93      0.92        30
           6       1.00      1.00      1.00        37
           7       1.00      0.89      0.94        37
           8       0.97      0.97      0.97        29
           9       0.97      0.97      0.97        34

    accuracy                           0.97       360
   macro avg       0.97      0.97      0.97       360
weighted avg       0.97      0.97      0.97       360



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


---

#### 4. 고찰

- 데이터 Descibe
1. 손글씨 데이터 1797개
2. 해당 데이터는 8x8 배열 형태
3. 64개의 특징을 이용하여 라벨(0 ~ 9)에 따라 분류

- Decision Tree를 제외한 나머지 모델의 정확도는 모두 0.95 이상으로, Decision Tree를 제외한 4가지 모델을 사용하면 좋을듯 하다.

- Decision Tree의 경우 4와 9의 정확도가 낮음을 확인할 수 있다. 추가적으로 오차행렬을 확인해보니 4는 7과 9로 혼동하는 경우, 9는 3으로 혼동하는 경우가 많음을 알 수 있다.