# ✏️ load_digits : 손글씨를 분류해 봅시다.

## (1) 필요한 모듈 import

먼저 데이터 준비, 학습, 예측에 필요한 라이브러리를 불러온다.

In [181]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## (2) 데이터 준비

사이킷런에서 제공하는 Toy datasets에서 digits data를 불러온다.
digits data는 총 1797개이며, 64개의 픽셀로 이루어졌다.
클래스 수는 총 10개이다. (0 ~ 9)

In [182]:
digits = load_digits()
digits.keys()

dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])

## (3) 데이터 이해하기

Bunch 형태로 돼있는 digits의 Data, target을 입력 데이터와, label로 초기화 한다.

In [183]:
digits_data = digits.data
digits_label = digits.target
digits.target_names

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [184]:
digits.DESCR

".. _digits_dataset:\n\nOptical recognition of handwritten digits dataset\n--------------------------------------------------\n\n**Data Set Characteristics:**\n\n    :Number of Instances: 5620\n    :Number of Attributes: 64\n    :Attribute Information: 8x8 image of integer pixels in the range 0..16.\n    :Missing Attribute Values: None\n    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)\n    :Date: July; 1998\n\nThis is a copy of the test set of the UCI ML hand-written digits datasets\nhttps://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits\n\nThe data set contains images of hand-written digits: 10 classes where\neach class refers to a digit.\n\nPreprocessing programs made available by NIST were used to extract\nnormalized bitmaps of handwritten digits from a preprinted form. From a\ntotal of 43 people, 30 contributed to the training set and different 13\nto the test set. 32x32 bitmaps are divided into nonoverlapping blocks of\n4x4 and the number of on pixel

## (4) train, test 데이터 분리

수동으로 데이터를 분리할 수 있지만, 데이터의 공정한 분리를 위해 train_test_split 함수에 random_state 값을 입력해 사용한다.

In [185]:
X_train, X_test, y_train, y_test = train_test_split(digits_data,
                                                    digits_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

## (5) 다양한 모델로 학습 시켜보기

### - Decision Tree

In [186]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier()
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.81      0.81      0.81        42
           2       0.79      0.82      0.80        40
           3       0.94      0.91      0.93        34
           4       0.76      0.95      0.84        37
           5       0.84      0.96      0.90        28
           6       0.87      0.93      0.90        28
           7       0.96      0.79      0.87        33
           8       0.88      0.65      0.75        43
           9       0.74      0.78      0.76        32

    accuracy                           0.85       360
   macro avg       0.86      0.86      0.85       360
weighted avg       0.86      0.85      0.85       360



### - Random Forest

In [187]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier()
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.95      1.00      0.98        42
           2       1.00      1.00      1.00        40
           3       0.92      1.00      0.96        34
           4       0.92      0.97      0.95        37
           5       0.93      1.00      0.97        28
           6       1.00      0.96      0.98        28
           7       0.94      1.00      0.97        33
           8       1.00      0.84      0.91        43
           9       0.97      0.91      0.94        32

    accuracy                           0.96       360
   macro avg       0.96      0.97      0.96       360
weighted avg       0.97      0.96      0.96       360



### - SVM

In [189]:
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
svm_y_pred = svm_model.predict(X_test)

print(classification_report(y_test, svm_y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      1.00      0.98        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        37
           5       0.93      1.00      0.97        28
           6       1.00      1.00      1.00        28
           7       1.00      1.00      1.00        33
           8       1.00      0.93      0.96        43
           9       1.00      0.97      0.98        32

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360



### - SGD Classifier

In [136]:
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.84      0.88      0.86        42
           2       0.97      0.97      0.97        40
           3       0.86      0.94      0.90        34
           4       0.95      1.00      0.97        37
           5       0.80      1.00      0.89        28
           6       1.00      0.93      0.96        28
           7       0.97      0.97      0.97        33
           8       0.95      0.81      0.88        43
           9       0.93      0.78      0.85        32

    accuracy                           0.93       360
   macro avg       0.93      0.93      0.92       360
weighted avg       0.93      0.93      0.92       360



### - Logistic Regression

sklearn의 Logistic Regression 모델을 사용했을때 "extra_warning_msg=_LOGISTIC_SOLVER_CONVERGENCE_MSG)"
warning 문구가 떳다. 팀원의 도움을 받아. 이 경고의 원인과 해결책을 찾을 수 있었다.
이 경고는 max_iteration이 너무 적어 아직 수렴점에 도달하지 못했다는 의미이다.
학습량을 늘려주어 모델을 생성했더니 경고창이 사라졌다.(max_iter = 4000)

In [137]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression(max_iter = 4000)
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      0.95      0.95        42
           2       0.98      1.00      0.99        40
           3       0.94      0.97      0.96        34
           4       1.00      1.00      1.00        37
           5       0.79      0.96      0.87        28
           6       1.00      0.96      0.98        28
           7       0.94      0.97      0.96        33
           8       0.92      0.81      0.86        43
           9       0.97      0.88      0.92        32

    accuracy                           0.95       360
   macro avg       0.95      0.95      0.95       360
weighted avg       0.95      0.95      0.95       360



여러 모델을 사용하여 손글씨 데이터를 돌려본 결과, SVM 모델의 성능이 **99%** 를 기록하며, 가장 좋은 성능을 보였다.

## (6) 모델을 평가해 보기

In [190]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

In [191]:
confusion_matrix(y_test, svm_y_pred)

array([[43,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [ 0, 42,  0,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  0, 40,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0, 34,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0, 37,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0, 28,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0,  0, 28,  0,  0,  0],
       [ 0,  0,  0,  0,  0,  0,  0, 33,  0,  0],
       [ 0,  2,  0,  0,  0,  1,  0,  0, 40,  0],
       [ 0,  0,  0,  0,  0,  1,  0,  0,  0, 31]])

In [192]:
print(classification_report(y_test, svm_y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      1.00      0.98        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        37
           5       0.93      1.00      0.97        28
           6       1.00      1.00      1.00        28
           7       1.00      1.00      1.00        33
           8       1.00      0.93      0.96        43
           9       1.00      0.97      0.98        32

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360



- 인식률이 가장 잘 나온 SVM모델의 예측결과를 토대로 혼동행렬과 여러 지표값을 뽑아보았다.
  혼동행렬을 보면 각 클래스 별로 크게 혼동하지 않는 모습을 볼 수 있었다.

- 이번 필기체 데이터에서 선택한 평가지표는 label이 균등하게 분포되어 있으므로 정확도(acc)로 평가해도 된다.

# 🍷 load_wine : 와인을 분류해 봅시다

두번째로 실습할 데이터는 Toy datasets중에서 wine 데이터 이다.
wine 데이터는 178개가 있으며, 13개의 feature를 가진다. 총 3개의 클래스로 구성된다.

## (1) 필요한 모듈 import

데이터 구축, 성능 지표에 대한 라이브러리를 import한다.

In [141]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## (2) 데이터 준비

wine 데이터를 불러오고, key값들을 출력한다.

In [142]:
wine = load_wine()
wine.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])

## (3) 데이터 이해하기

wine 변수에 저장된  'data' : 입력 데이터, 'target' : 라벨(정답)을 변수에 각각 초기화 한다.

In [143]:
wine_data = wine.data
wine_label = wine.target
wine.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

In [144]:
wine.DESCR



## (4) train, test 데이터 분리

데이터의 공정한 분리를 위해 train_test_split 함수에 random_state 값을 입력해 사용한다.
이번엔 random_state 값을 5으로 할당했다.

In [213]:
X_train, X_test, y_train, y_test = train_test_split(wine_data,
                                                    wine_label, 
                                                    test_size=0.2, 
                                                    random_state=5)

## (5) 다양한 모델로 학습시켜보기

wine data를 여러 모델로 학습시킨다. 다섯가지 모델을 돌려보고 결과를 확인해보자.

### - Decision Tree

In [214]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier()
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.93      0.76      0.84        17
           1       0.67      0.91      0.77        11
           2       1.00      0.88      0.93         8

    accuracy                           0.83        36
   macro avg       0.87      0.85      0.85        36
weighted avg       0.86      0.83      0.84        36



### - Random Forest

In [215]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier()
random_forest.fit(X_train, y_train)
ran_y_pred = random_forest.predict(X_test)

print(classification_report(y_test, ran_y_pred))

              precision    recall  f1-score   support

           0       1.00      0.88      0.94        17
           1       0.85      1.00      0.92        11
           2       1.00      1.00      1.00         8

    accuracy                           0.94        36
   macro avg       0.95      0.96      0.95        36
weighted avg       0.95      0.94      0.95        36



### - SVM 

In [216]:
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.86      0.71      0.77        17
           1       0.69      0.82      0.75        11
           2       0.44      0.50      0.47         8

    accuracy                           0.69        36
   macro avg       0.66      0.67      0.66        36
weighted avg       0.72      0.69      0.70        36



### - SGD Classifier 

In [217]:
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.24      0.38        17
           1       0.42      1.00      0.59        11
           2       0.00      0.00      0.00         8

    accuracy                           0.42        36
   macro avg       0.47      0.41      0.33        36
weighted avg       0.60      0.42      0.36        36



### - Logistic Regression

In [218]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression(max_iter = 4000)
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.94      0.97        17
           1       0.85      1.00      0.92        11
           2       1.00      0.88      0.93         8

    accuracy                           0.94        36
   macro avg       0.95      0.94      0.94        36
weighted avg       0.95      0.94      0.95        36



digits data와 다르게 Random Forest 모델이 **97%** 기록하여, 가장 높은 성능을 보였다.

### (6) 모델을 평가해 보기

In [219]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

In [220]:
confusion_matrix(y_test, ran_y_pred)

array([[15,  2,  0],
       [ 0, 11,  0],
       [ 0,  0,  8]])

In [221]:
print(classification_report(y_test, ran_y_pred))

              precision    recall  f1-score   support

           0       1.00      0.88      0.94        17
           1       0.85      1.00      0.92        11
           2       1.00      1.00      1.00         8

    accuracy                           0.94        36
   macro avg       0.95      0.96      0.95        36
weighted avg       0.95      0.94      0.95        36



- wine data도 digits data와 마찬가지로 균등한 label이 존재하기에 정확도(acc)지표를 사용한다.

# 🚑 load_breast_cancer : 유방암 여부를 진단해 봅시다.

마지막으로 breast cancer 여부를 진단해보자.

## (1) 필요한 모듈 import 하기

데이터 불러오기, 데이터 나누기, 성능지표에 관한 라이브러리를 import 한다.

In [224]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## (2) 데이터 준비

caner data는 총 569개로 이루어져 있으며, 양성, 음성 2가지 클래스로 나눠져있다.

In [225]:
cancer = load_breast_cancer()
cancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

## (3) 데이터 이해하기

cancer data 의 입력 데이터와 라벨을 각각 변수에 초기화한다.

In [226]:
cancer_data = cancer.data
cancer_label = cancer.target
cancer.target_names

array(['malignant', 'benign'], dtype='<U9')

In [227]:
cancer.DESCR



## (4) train,test 데이터 분리

위에서는 설명이 안돼있지만 동일하게 train과 test를 8:2 비율로 랜덤하게 분할했다.

In [228]:
X_train, X_test, y_train, y_test = train_test_split(cancer_data,
                                                    cancer_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

## (5) 다양한 모델로 학습시켜보기

이번에도 cancer data를 다섯가지 모델에 학습을 시켜보았다. 결과를 확인해보자.

### - Decision Tree

In [229]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier()
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.92      0.85      0.88        40
           1       0.92      0.96      0.94        74

    accuracy                           0.92       114
   macro avg       0.92      0.90      0.91       114
weighted avg       0.92      0.92      0.92       114



### -  Random Forest

In [230]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier()
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.95      0.97        40
           1       0.97      1.00      0.99        74

    accuracy                           0.98       114
   macro avg       0.99      0.97      0.98       114
weighted avg       0.98      0.98      0.98       114



### - SVM

In [231]:
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114



### - SGD Classifier

In [232]:
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.57      0.73        40
           1       0.81      1.00      0.90        74

    accuracy                           0.85       114
   macro avg       0.91      0.79      0.81       114
weighted avg       0.88      0.85      0.84       114



### - Logistic Regression

In [233]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression(max_iter = 4000)
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.85      0.92        40
           1       0.93      1.00      0.96        74

    accuracy                           0.95       114
   macro avg       0.96      0.93      0.94       114
weighted avg       0.95      0.95      0.95       114



cancer data도 wine data와 마찬가지로 Random Forest모델 성능의 acc값이 가장 높았다.
**98%** 를 기록했다.

## (6) 모델을 평가해 보기

In [234]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

In [235]:
confusion_matrix(y_test, y_pred)

array([[34,  6],
       [ 0, 74]])

In [236]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.85      0.92        40
           1       0.93      1.00      0.96        74

    accuracy                           0.95       114
   macro avg       0.96      0.93      0.94       114
weighted avg       0.95      0.95      0.95       114



- 암 환자를 진단하는 모델은 실제 환자를 한 명이라도 놓치면 안된다.                   
- 음성을 양성이라고 진단하는건 큰 문제는 아니다.     
- 양성인데 음성으로 판단하는 경우가 매우 적어야 하므로 Recall 평가지표가 적절하다.

# 💡 회고

> #### - 데이터 마다 모델의 성능지표가 다르게 나타난다.
> #### - 데이터를 분리할때 일정 random_state은 zero 값을 반환해서 성능지표값이 Null값이 될때가 있다.  
> #### - Logistic Regression은 default값으로 학습 시킬시, 수렴까지의 학습량이 적어 warning이 발생한다. 이때   는, 학습량을 늘려줘야 한다.
> #### - 혼동 행렬(confusion matrix)를 보면 어떤 클래스끼리 혼동 하는지 직관적으로 볼 수 있다.
> #### - label이 불균형하게 분포 되어있는 데이터를 다룰때는 정확도로만으로 평가하면 안된다.
> #### - Accuracy가 아닌 F1 Score를 쓰는 경우는 데이터가 불균형 할 때 이다.