# 프로젝트 (1) load_digits : 손글씨를 분류해 봅시다

## 1. 필요한 모듈 import하기

In [1]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## 2. 데이터 준비
* load_digits 메서드를 사용합니다.   
  - sklearn의 datasets 패키지 안에 있는 load_digits 메서드 사용하여 digits에 데이터를 로딩

In [2]:
digits = load_digits()

# digits에는 어떤 정보들이 담겼는지는 keys()라는 메서드로 확인 
digits.keys()

dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])

## 3. 데이터 이해하기
지피지기면 백전불태! 다루어야 할 데이터를 자세히 살펴봅시다.

- Feature Data 지정하기
- Label Data 지정하기
- Target Names 출력해 보기
- 데이터 Describe 해 보기

### 3-1. Feature Data 지정하기

In [3]:
# 손글씨 데이터는 digits_data 변수에 저장
digits_data = digits.data

# 데이터의 크기는 shape 속성에서 확인
print(digits_data.shape)

(1797, 64)


### 3-2. Label Data 지정하기

In [4]:
# 머신러닝 모델이 출력해야 하는 정답은 라벨(label), 또는 타겟(target)
# 손글씨 데이터에서 타겟 정보는 target 속성에서 확인
digits_label = digits.target

print(digits_label.shape)
digits_label

(1797,)


array([0, 1, 2, ..., 8, 9, 8])

### 3-3. Target Names 출력해 보기

In [5]:
# 라벨의 이름은 target_names 속성에서 확인
digits.target_names

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### 3-4. 데이터 Describe 해 보기

In [6]:
# 데이터셋의 설명은 DESCR 속성에서 확인
print(digits.DESCR)

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each blo

## 4. train, test 데이터 분리
모델 학습과 테스트용 문제지와 정답지를 준비해 봅시다.   
X_train, X_test, y_train, y_test를 생성하는 방법을 참고해 보세요.

In [7]:
# sklearn.model_selection 패키지의 train_test_split 메서드를 활용하여, train dataset과 test dataset을 분리
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(digits_data, 
                                                    digits_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

In [8]:
# 분리된 train dataset과 test dataset의 데이터 갯수 확인
print('x_train 개수: ', len(x_train), ', x_test 개수: ', len(x_test))

x_train 개수:  1437 , x_test 개수:  360


In [9]:
# train, test 데이터의 형태 확인
print(x_train.shape, y_train.shape)
print(x_test.shape, y_test.shape)

(1437, 64) (1437,)
(360, 64) (360,)


In [10]:
# y_train, y_test에서 5개만 확인
y_train[:5], y_test[:5]

(array([2, 2, 2, 4, 7]), array([6, 0, 5, 9, 2]))

## 5. 다양한 모델로 학습시켜보기
학습데이터 X_train, y_train 을 활용해 분류기 모델을 만들어 봅시다. 어떤 모델이 가장 좋은 성능을 보일까요?

- Decision Tree 사용해 보기
- Random Forest 사용해 보기
- SVM 사용해 보기
- SGD Classifier 사용해 보기
- Logistic Regression 사용해 보기

### 5-1. Decision Tree 사용해 보기

In [13]:
from sklearn.tree import DecisionTreeClassifier

# 객체 생성
decision_tree = DecisionTreeClassifier(random_state=32)
# 학습
decision_tree.fit(x_train, y_train)
# 예측
y_pred = decision_tree.predict(x_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.81      0.81      0.81        42
           2       0.79      0.82      0.80        40
           3       0.79      0.91      0.85        34
           4       0.83      0.95      0.89        37
           5       0.90      0.96      0.93        28
           6       0.84      0.93      0.88        28
           7       0.96      0.82      0.89        33
           8       0.88      0.65      0.75        43
           9       0.78      0.78      0.78        32

    accuracy                           0.86       360
   macro avg       0.86      0.86      0.86       360
weighted avg       0.86      0.86      0.85       360



In [14]:
from sklearn.metrics import accuracy_score

# 예측값과 실제값을 비교하여 정확도 평가
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.8555555555555555

### 5-2. Random Forest 사용해 보기

In [16]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(x_train, y_train)
y_pred = random_forest.predict(x_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.93      1.00      0.97        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       0.93      1.00      0.96        37
           5       0.90      0.96      0.93        28
           6       1.00      0.96      0.98        28
           7       0.94      0.97      0.96        33
           8       1.00      0.84      0.91        43
           9       0.94      0.94      0.94        32

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.97      0.96      0.96       360



### 5-3. SVM 사용해 보기

In [17]:
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(x_train, y_train)
y_pred = svm_model.predict(x_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      1.00      0.98        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        37
           5       0.93      1.00      0.97        28
           6       1.00      1.00      1.00        28
           7       1.00      1.00      1.00        33
           8       1.00      0.93      0.96        43
           9       1.00      0.97      0.98        32

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360



### 5-4. SGD Classifier 사용해 보기

In [18]:
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(x_train, y_train)
y_pred = sgd_model.predict(x_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.91      0.95      0.93        42
           2       1.00      0.97      0.99        40
           3       0.94      0.91      0.93        34
           4       0.97      0.97      0.97        37
           5       0.96      0.96      0.96        28
           6       0.87      0.96      0.92        28
           7       0.97      0.97      0.97        33
           8       0.92      0.84      0.88        43
           9       0.88      0.91      0.89        32

    accuracy                           0.94       360
   macro avg       0.94      0.95      0.94       360
weighted avg       0.95      0.94      0.94       360



### 5-5 Logistic Regression 사용해 보기

In [19]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()
logistic_model.fit(x_train, y_train)
y_pred = logistic_model.predict(x_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      0.95      0.95        42
           2       0.98      1.00      0.99        40
           3       0.94      0.97      0.96        34
           4       0.97      1.00      0.99        37
           5       0.82      0.96      0.89        28
           6       1.00      0.96      0.98        28
           7       0.97      0.97      0.97        33
           8       0.92      0.81      0.86        43
           9       0.97      0.91      0.94        32

    accuracy                           0.95       360
   macro avg       0.95      0.95      0.95       360
weighted avg       0.95      0.95      0.95       360



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


## 6. 모델을 평가해 보기
학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요? 모델의 성능을 평가하는 지표로는 무엇이 좋을까요?    
sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요. 선택하신 이유도 설명해 주세요.

#### sklearn.metrics의 classification_report 메서드에서 제공하는 평가지표 :
  * (1) 매크로 평균(macro average : 레이블 당 비가중 평균의 평균) 
  * (2) 가중 평균(weighted average : 레이블 당 지지-가중치 평균의 평균)   
  * (3) 정확도(accuracy : 전체 샘플 개수와 정확하게 예측한 샘플 개수의 비율 )
  * (4) 정밀도(precision : 양성으로 예측된 샘플 전체 개수와 실제 양성인 샘플 개수의 비율)
  * (5) 재현율(recall, sensitivity : 실제 양성 샘플 전체 개수와 양성으로 예측된 샘플 개수의 비율)
  * (6) F1 점수(F1 score : 재현율과 정밀도의 가중 평균)


#### 평가지표 중에서 정밀도, 재현율,  F1 점수가 큰 것을 선택하는 것이 좋다.
  * 정밀도를 높이려면 거짓 양성(음성인데 양성으로 판단하는 경우)가 적어야함
  * 재현율을 높이려면 거짓 음성(양성인데 음성으로 판단하는 경우)가 적어야함
  * F1 점수는 정밀도와 재현율 사이의 균형을 추구할 때 선택하면 좋음

#### 평가지표 중에서 정밀도 선택한 이유 :
- 손글씨를 맞추는 경우에는 모호한 숫자를 틀리는 것은 괜찮지만 정확한 숫자를 틀리는 경우에는 문제가 발생한다. 
- 거짓 음성, 즉, 양성을 음성으로 판단하면 않되기 때문에 평가지표 중에서 재현율이 높은 것을 선택하는 것이 좋다.
- SVM 사용한 경우에 정밀도, 재현율,  F1 점수가 0.99로 가장 높게 나왔기 때문에 SVM 모델을 학습모델로 사용하는 것이 좋겠다.