## load_digits : 손글씨를 분류해 봅시다

In [1]:
import sklearn

print(sklearn.__version__)

## 1. 필요한 모듈 import하기

In [2]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## 2. 데이터 준비
load_digits 메서드를 사용합니다.

In [9]:
from sklearn.datasets import load_digits

digits = load_digits() # Dictionary 자료형과 유사한 sklearn.utils.Bunch 자료형 
digits.keys()

## 3. 데이터 이해하기
지피지기면 백전불태! 다루어야 할 데이터를 자세히 살펴봅시다.
- Feature Data 지정하기
- Label Data 지정하기
- Target Names 출력해 보기
- 데이터 Describe 해 보기

In [10]:
digits_data = digits.data
digits_data.shape  # (손글씨 이미지의 개수, 이미지 당 Pixel 수)

In [11]:
digits_label = digits.target # 각 이미지가 나타내는 숫자를 의미합니다.
print(digits_label.shape)
digits_label[:20]

In [13]:
import matplotlib.pyplot as plt
%matplotlib inline 
# 브라우저에서 바로 그림을 볼 수 있게 해주는 역할을 합니다 

plt.imshow(digits.data[0].reshape(8, 8), cmap='gray')
plt.axis('off')
plt.show()

In [14]:
for i in range(10):
    plt.subplot(2, 5, i+1) # 10개의 이미지를 2행 5열로 표시
    plt.imshow(digits.data[i].reshape(8, 8), cmap='gray') 
    # plt.imshow()는 (m,n) 형태의 데이터를 입력으로 받기 때문에
    # 데이터셋 내의 1열로 펼쳐진 64개의 데이터를 원래의 이미지 형태인 (8,8)로 복원
    # cmap은 해당 이미지의 색상을 지정(gray는 흑백으로 출력)
    plt.axis('off') # 축을 보이지 않게 해줍니다. 
plt.show()

In [15]:
digits_label = digits.target # 각 이미지가 나타내는 숫자를 의미합니다.
print(digits_label.shape)
digits_label[:20]

In [22]:
from collections import Counter

In [26]:
cnt_label = Counter(digits_label)
cnt_label

In [25]:
import seaborn as sns
sns.countplot(digits_label)

## 4. train, test 데이터 분리
모델 학습과 테스트용 문제지와 정답지를 준비해 봅시다.
X_train, X_test, y_train, y_test를 생성하는 방법을 참고해 보세요.

In [27]:
# train, test 데이터 분리
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(digits_data, 
                                                    digits_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

In [28]:
X_train.shape, y_train.shape
# train의 형상정보 확인

In [29]:
X_test.shape, y_test.shape
# test의 형상정보 확인

In [30]:
y_train, y_test
# label이 잘 분리되었는지 확인

## 5. 다양한 모델로 학습시켜보기
학습데이터 X_train, y_train 을 활용해 분류기 모델을 만들어 봅시다. 어떤 모델이 가장 좋은 성능을 보일까요?

- Decision Tree 사용해 보기
- Random Forest 사용해 보기
- SVM 사용해 보기
- SGD Classifier 사용해 보기
- Logistic Regression 사용해 보기

In [31]:
# DecisionTree
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train) 
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

In [32]:
# RandomForest 
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32) # RandomForest분류기 객체를 생성
random_forest.fit(X_train, y_train) # 훈련
y_pred = random_forest.predict(X_test) # 예측

print(classification_report(y_test, y_pred)) # 결과 지표를 확인

In [33]:
# SVM
from sklearn import svm
svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred)) 

In [34]:
# SGD
from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()

sgd_model.fit(X_train, y_train) 
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred)) 

In [35]:
# Logistic Regression
from sklearn.linear_model import LogisticRegression 
logistic_model = LogisticRegression() 

logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))

## 6. 모델을 평가해 보기
학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요? 모델의 성능을 평가하는 지표로는 무엇이 좋을까요? sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요. 선택하신 이유도 설명해 주세요.

- 모델의 label이 꽤 균형적이므로 accuracy를 이용한다

In [37]:
from sklearn.metrics import accuracy_score

In [38]:
print('< Accuracy Score >')
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train) 
y_pred = decision_tree.predict(X_test)
print("decision_tree :", accuracy_score(y_test, y_pred))

random_forest = RandomForestClassifier(random_state=32) # RandomForest분류기 객체를 생성
random_forest.fit(X_train, y_train) # 훈련
y_pred = random_forest.predict(X_test)
print("random_forest :", accuracy_score(y_test, y_pred))

svm_model = svm.SVC() # 모델 객체를 만든다.
svm_model.fit(X_train, y_train) # 훈련
y_pred = svm_model.predict(X_test)
print("svm_model :", accuracy_score(y_test, y_pred))

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)
print("sgd_model  :", accuracy_score(y_test, y_pred))

logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train) 
y_pred = logistic_model.predict(X_test)
print("logistic_model :", accuracy_score(y_test, y_pred))