# 1. load_digits 손글씨를 분류해 보기!

## 1.1 필요한 모듈 import하기!

In [640]:
# 데이터 준비
from sklearn.datasets import load_digits # digits 데이터셋을 불러오는 함수

# 데이터 분리
from sklearn.model_selection import train_test_split # 데이터를 train, test 데이터셋으로 나눠주는 함수

# 데이터 학습
from sklearn.tree import DecisionTreeClassifier # 의사결정나무 - 분류
from sklearn.ensemble import RandomForestClassifier # 랜덤포레스트 - 분류
from sklearn import svm # 서포트 벡터 머신
from sklearn.linear_model import SGDClassifier # 확률적 경사 하강법 - 분류
from sklearn.linear_model import LogisticRegression # 로지스틱 회귀분석

# 데이터 평가
from sklearn.metrics import classification_report # Confusion Matrix, accuracy 등을 출력해주는 함수

## 1.2 데이터 준비하기!

In [641]:
digits = load_digits() # digits 데이터셋 불러오기
digits.keys() # digits 데이터셋의 속성 종류

dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])

## 1.3 데이터 이해하기!

In [642]:
digits_data = digits.data # digits의 feature 데이터 저장
digits_data.shape

(1797, 64)

In [643]:
digits_label = digits.target # digits의 label 데이터 저장
digits_label.shape

(1797,)

In [644]:
digits.target_names # label 데이터의 카테고리 확인

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [645]:
print(digits.DESCR) # digits 데이터 설명

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each blo

## 1.4  train, test 데이터 분리하기!

In [646]:
# feature와 label 데이터를 train, test 데이터셋으로 분리
X_train, X_test, y_train, y_test = train_test_split(digits_data, digits_label, test_size=0.2)
print(len(X_train), len(y_train), len(X_test), len(y_test))

1437 1437 360 360


## 1.5 다양한 모델로 학습시켜보기!

In [647]:
DTC = DecisionTreeClassifier(random_state=9) # 의사결정나무

DTC.fit(X_train, y_train) # train 데이터셋 학습
y_pred_DTC = DTC.predict(X_test) # y 예측

In [648]:
RFC = RandomForestClassifier(random_state=9) # 랜덤포레스트

RFC.fit(X_train, y_train) # train 데이터셋 학습
y_pred_RFC = RFC.predict(X_test) # y 예측

In [649]:
SVMC = svm.SVC(random_state=9) # svm

SVMC.fit(X_train, y_train) # train 데이터셋 학습
y_pred_SVMC = SVMC.predict(X_test) # y 예측

In [650]:
SGDC = SGDClassifier(random_state=9)

SGDC.fit(X_train, y_train) # train 데이터셋 학습
y_pred_SGDC = SGDC.predict(X_test) # y 예측

In [651]:
LR = LogisticRegression(random_state=9, solver='liblinear') # 로지스틱 회귀분석

LR.fit(X_train, y_train) # train 데이터셋 학습
y_pred_LR = LR.predict(X_test) # y 예측

## 1.6 모델을 평가해 보기!

In [652]:
print('decision_tree\n', classification_report(y_test, y_pred_DTC)) # decision_tree 평가

decision_tree
               precision    recall  f1-score   support

           0       1.00      0.98      0.99        46
           1       0.74      0.91      0.82        35
           2       0.94      0.83      0.88        35
           3       0.89      0.89      0.89        36
           4       0.88      0.86      0.87        35
           5       0.95      0.85      0.90        41
           6       0.97      0.93      0.95        30
           7       0.91      0.82      0.86        38
           8       0.79      0.81      0.80        32
           9       0.76      0.91      0.83        32

    accuracy                           0.88       360
   macro avg       0.88      0.88      0.88       360
weighted avg       0.89      0.88      0.88       360



In [653]:
print('random_forest\n', classification_report(y_test, y_pred_RFC)) # random_forest 평가

random_forest
               precision    recall  f1-score   support

           0       0.98      1.00      0.99        46
           1       0.95      1.00      0.97        35
           2       1.00      1.00      1.00        35
           3       1.00      0.94      0.97        36
           4       0.97      1.00      0.99        35
           5       0.97      0.90      0.94        41
           6       0.97      1.00      0.98        30
           7       1.00      0.95      0.97        38
           8       0.97      0.94      0.95        32
           9       0.91      1.00      0.96        32

    accuracy                           0.97       360
   macro avg       0.97      0.97      0.97       360
weighted avg       0.97      0.97      0.97       360



In [654]:
print('support_vector_machine\n', classification_report(y_test, y_pred_SVMC)) # support_vector_machine 평가

support_vector_machine
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        46
           1       0.97      1.00      0.99        35
           2       1.00      1.00      1.00        35
           3       1.00      1.00      1.00        36
           4       1.00      1.00      1.00        35
           5       1.00      0.95      0.97        41
           6       0.97      1.00      0.98        30
           7       1.00      0.97      0.99        38
           8       1.00      0.97      0.98        32
           9       0.94      1.00      0.97        32

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360



In [655]:
print('stochastic_gradient_descent\n', classification_report(y_test, y_pred_SGDC)) # stochastic_gradient_descent 평가

stochastic_gradient_descent
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        46
           1       0.94      0.94      0.94        35
           2       0.97      1.00      0.99        35
           3       0.92      1.00      0.96        36
           4       1.00      1.00      1.00        35
           5       1.00      0.85      0.92        41
           6       0.97      1.00      0.98        30
           7       0.97      0.95      0.96        38
           8       0.94      0.91      0.92        32
           9       0.91      1.00      0.96        32

    accuracy                           0.96       360
   macro avg       0.96      0.97      0.96       360
weighted avg       0.97      0.96      0.96       360



In [656]:
print('logistic_regression\n', classification_report(y_test, y_pred_LR)) # logistic_regression 평가

logistic_regression
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        46
           1       0.91      0.91      0.91        35
           2       0.97      1.00      0.99        35
           3       0.92      1.00      0.96        36
           4       1.00      1.00      1.00        35
           5       1.00      0.88      0.94        41
           6       0.97      1.00      0.98        30
           7       0.97      0.95      0.96        38
           8       0.90      0.88      0.89        32
           9       0.94      1.00      0.97        32

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.96      0.96      0.96       360



label이 균형있게 분포되어있는 데이터이고, 놓치지 말아야 할 label이 딱히 존재하지 않는다.
따라서 평가 지표로 Accuracy가 적당해 보인다.

5개의 모델 중 Accuracy가 0.98로 가장 높은 SVM 모델의 경우,  
360개의 test 데이터 중 98%인 352개 이상을 맞춘 것으로 나왔다.

## 1.7 회고하기!

처음 로지스틱 회귀분석 모델을 만들 때 어떤 parameter도 지정하지 않고 만든 후 train 데이터셋을 fitting 시켰을 때  
ConvergenceWarning: lbfgs failed to converge (status=1)  
라는 경고 메세지가 출력돼서 당황했었다.  
이 경고 메세지는 충분히 학습하기엔 max_iter가 부족하다는 뜻이다.  
max_iter를 지정하지 않아서 기본값인 100으로 돌아갔기 때문이다.    
해결책은 max_iter를 더 높이거나 solver를 바꾸는 것이다.  
max_iter를 1000으로 늘려봐도 경고 메세지가 떠서 5000까지 늘려봤더니 accuracy가 0.96이 나왔다.  
이번엔 solver를 한때 로지스틱 회귀분석의 기본 solver였던 liblinear로 바꿔보았다.  
max_iter를 따로 지정하지 않았지만 max_iter=5000모델과 마찬가지로 accruacy가 0.96이 나와서
최종적으로는 solver만 liblinear로 바꾼 모델을 선택하게 되었다.

# 2. load_wine 와인을 분류해 보기!

## 2.1 필요한 모듈 import하기!

In [657]:
# 데이터 준비
from sklearn.datasets import load_wine # wine 데이터셋을 불러오는 함수

# 데이터 분리
# from sklearn.model_selection import train_test_split # 데이터를 train, test 데이터셋으로 나눠주는 함수

# 데이터 학습
# from sklearn.tree import DecisionTreeClassifier # 의사결정나무 - 분류
# from sklearn.ensemble import RandomForestClassifier # 랜덤포레스트 - 분류
# from sklearn import svm # 서포트 벡터 머신
# from sklearn.linear_model import SGDClassifier # 확률적 경사 하강법 - 분류
# from sklearn.linear_model import LogisticRegression # 로지스틱 회귀분석

# 데이터 평가
# from sklearn.metrics import classification_report # Confusion Matrix, accuracy 등을 출력해주는 함수

## 2.2 데이터 준비하기!

In [658]:
wine = load_wine() # wine 데이터셋 불러오기
wine.keys() # wine 데이터셋의 속성 종류

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])

## 2.3 데이터 이해하기!

In [659]:
wine_data = wine.data # wine의 feature 데이터 저장
wine_data.shape

(178, 13)

In [660]:
wine_label = wine.target # wine의 label 데이터 저장
wine_label.shape

(178,)

In [661]:
wine.target_names # label 데이터의 카테고리 확인

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

In [662]:
print(wine.DESCR) # wine 데이터 설명

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

## 2.4  train, test 데이터 분리하기!

In [663]:
# feature와 label 데이터를 train, test 데이터셋으로 분리
X_train, X_test, y_train, y_test = train_test_split(wine_data, wine_label, test_size=0.2)
print(len(X_train), len(y_train), len(X_test), len(y_test))

142 142 36 36


## 2.5 스케일링하기!

In [664]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler() # 표준화 스케일러

X_train = scaler.fit_transform(X_train) # X_train 데이터를 fit과 동시에 transform
X_test = scaler.transform(X_test) # X_test 데이터를 transform

## 2.6 다양한 모델로 학습시켜보기!

In [665]:
DTC = DecisionTreeClassifier(random_state=9) # 의사결정나무

DTC.fit(X_train, y_train) # train 데이터셋 학습
y_pred_DTC = DTC.predict(X_test) # y 예측

In [666]:
RFC = RandomForestClassifier(random_state=9) # 랜덤포레스트

RFC.fit(X_train, y_train) # train 데이터셋 학습
y_pred_RFC = RFC.predict(X_test) # y 예측

In [667]:
SVMC = svm.SVC(random_state=9) # svm

SVMC.fit(X_train, y_train) # train 데이터셋 학습
y_pred_SVMC = SVMC.predict(X_test) # y 예측

In [668]:
SGDC = SGDClassifier(random_state=9)

SGDC.fit(X_train, y_train) # train 데이터셋 학습
y_pred_SGDC = SGDC.predict(X_test) # y 예측

In [669]:
LR = LogisticRegression(random_state=9) # 로지스틱 회귀분석

LR.fit(X_train, y_train) # train 데이터셋 학습
y_pred_LR = LR.predict(X_test) # y 예측

## 2.7 모델을 평가해 보기!

In [670]:
print('decision_tree\n', classification_report(y_test, y_pred_DTC)) # decision_tree 평가

decision_tree
               precision    recall  f1-score   support

           0       1.00      0.92      0.96        13
           1       0.92      0.85      0.88        13
           2       0.83      1.00      0.91        10

    accuracy                           0.92        36
   macro avg       0.92      0.92      0.92        36
weighted avg       0.92      0.92      0.92        36



In [671]:
print('random_forest\n', classification_report(y_test, y_pred_RFC)) # random_forest 평가

random_forest
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        13
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        10

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



In [672]:
print('support_vector_machine\n', classification_report(y_test, y_pred_SVMC)) # support_vector_machine 평가

support_vector_machine
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        13
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        10

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



In [673]:
print('stochastic_gradient_descent\n', classification_report(y_test, y_pred_SGDC)) # stochastic_gradient_descent 평가

stochastic_gradient_descent
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        13
           1       1.00      0.85      0.92        13
           2       0.83      1.00      0.91        10

    accuracy                           0.94        36
   macro avg       0.94      0.95      0.94        36
weighted avg       0.95      0.94      0.94        36



In [674]:
print('logistic_regression\n', classification_report(y_test, y_pred_LR)) # logistic_regression 평가

logistic_regression
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        13
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        10

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



1장의 digits 데이터와 마찬가지로 label이 균형있게 분포되어있는 데이터이고, 놓치지 말아야 할 label이 존재하지 않기 때문에 평가 지표로 Accuracy가 적당해 보인다.

5개의 모델 중 Accuracy가 1.00으로 가장 높은 random forest 모델의 경우,  
36개의 test 데이터 중 36개 전부를 맞춘 것으로 나왔다.

## 2.8 회고하기!

SVM 모델과 SGD 모델의 classification report를 출력할 때 가끔씩  
UndefinedMetricWarning: Precision and F-score are ill-defined and being set to 0.0 in labels with no predicted samples.  
라는 경고 메세지가 출력됐다.  
이 메세지는 precision나 f1 score의 분수가 0이이서 정의하기 어렵기 때문에 임의로 0.0으로 표기한다는 뜻이다.  
분수가 0이 된 이유는 모델이 잘못돼 어떤 특정 클래스로는 예측을 하나도 안한 나머지 분모에 합연산으로 들어가는 TP와 FP가 둘 다 0이 됐기 때문이다.  
아주 간단한 해결책은 scaling를 하는 것이다. scaler를 사용하면 1장에서 발생한 경고 메세지도 해결된다.  
여기서 중요한 점은 X_test 데이터셋을 fitting시키면 안된다는 점이다.  
참고: https://yeko90.tistory.com/105

# 3. load_breast_cancer 와인을 분류해 보기!

## 3.1 필요한 모듈 import하기!

In [694]:
# 데이터 준비
from sklearn.datasets import load_breast_cancer # breast_cancer 데이터셋을 불러오는 함수

# 데이터 분리
# from sklearn.model_selection import train_test_split # 데이터를 train, test 데이터셋으로 나눠주는 함수

# 데이터 학습
# from sklearn.tree import DecisionTreeClassifier # 의사결정나무 - 분류
# from sklearn.ensemble import RandomForestClassifier # 랜덤포레스트 - 분류
# from sklearn import svm # 서포트 벡터 머신
# from sklearn.linear_model import SGDClassifier # 확률적 경사 하강법 - 분류
# from sklearn.linear_model import LogisticRegression # 로지스틱 회귀분석

# 데이터 평가
# from sklearn.metrics import classification_report # Confusion Matrix, accuracy 등을 출력해주는 함수

## 3.2 데이터 준비하기!

In [695]:
breast_cancer = load_breast_cancer() # breast_cancer 데이터셋 불러오기
breast_cancer.keys() # breast_cancer 데이터셋의 속성 종류

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

## 3.3 데이터 이해하기!

In [696]:
breast_cancer_data = breast_cancer.data # breast_cancer의 feature 데이터 저장
breast_cancer_data.shape

(569, 30)

In [697]:
breast_cancer_label = breast_cancer.target # breast_cancer의 label 데이터 저장
breast_cancer_label.shape

(569,)

In [698]:
breast_cancer.target_names # label 데이터의 카테고리 확인

array(['malignant', 'benign'], dtype='<U9')

In [699]:
print(breast_cancer.DESCR) # breast_cancer 데이터 설명

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

## 3.4  train, test 데이터 분리하기!

In [700]:
# feature와 label 데이터를 train, test 데이터셋으로 분리
X_train, X_test, y_train, y_test = train_test_split(breast_cancer_data, breast_cancer_label, test_size=0.2)
print(len(X_train), len(y_train), len(X_test), len(y_test))

455 455 114 114


## 3.5 스케일링하기!

In [701]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler() # 표준화 스케일러

X_train = scaler.fit_transform(X_train) # X_train 데이터를 fit과 동시에 transform
X_test = scaler.transform(X_test) # X_test 데이터를 transform

## 3.6 다양한 모델로 학습시켜보기!

In [702]:
DTC = DecisionTreeClassifier(random_state=9) # 의사결정나무

DTC.fit(X_train, y_train) # train 데이터셋 학습
y_pred_DTC = DTC.predict(X_test) # y 예측

In [703]:
RFC = RandomForestClassifier(random_state=9) # 랜덤포레스트

RFC.fit(X_train, y_train) # train 데이터셋 학습
y_pred_RFC = RFC.predict(X_test) # y 예측

In [704]:
SVMC = svm.SVC(random_state=9) # svm

SVMC.fit(X_train, y_train) # train 데이터셋 학습
y_pred_SVMC = SVMC.predict(X_test) # y 예측

In [705]:
SGDC = SGDClassifier(random_state=9)

SGDC.fit(X_train, y_train) # train 데이터셋 학습
y_pred_SGDC = SGDC.predict(X_test) # y 예측

In [706]:
LR = LogisticRegression(random_state=9) # 로지스틱 회귀분석

LR.fit(X_train, y_train) # train 데이터셋 학습
y_pred_LR = LR.predict(X_test) # y 예측

## 3.7 모델을 평가해 보기!

In [707]:
print('decision_tree\n', classification_report(y_test, y_pred_DTC)) # decision_tree 평가

decision_tree
               precision    recall  f1-score   support

           0       0.89      0.95      0.92        41
           1       0.97      0.93      0.95        73

    accuracy                           0.94       114
   macro avg       0.93      0.94      0.93       114
weighted avg       0.94      0.94      0.94       114



In [708]:
print('random_forest\n', classification_report(y_test, y_pred_RFC)) # random_forest 평가

random_forest
               precision    recall  f1-score   support

           0       0.93      0.95      0.94        41
           1       0.97      0.96      0.97        73

    accuracy                           0.96       114
   macro avg       0.95      0.96      0.95       114
weighted avg       0.96      0.96      0.96       114



In [709]:
print('support_vector_machine\n', classification_report(y_test, y_pred_SVMC)) # support_vector_machine 평가

support_vector_machine
               precision    recall  f1-score   support

           0       0.98      0.98      0.98        41
           1       0.99      0.99      0.99        73

    accuracy                           0.98       114
   macro avg       0.98      0.98      0.98       114
weighted avg       0.98      0.98      0.98       114



In [710]:
print('stochastic_gradient_descent\n', classification_report(y_test, y_pred_SGDC)) # stochastic_gradient_descent 평가

stochastic_gradient_descent
               precision    recall  f1-score   support

           0       0.95      0.95      0.95        41
           1       0.97      0.97      0.97        73

    accuracy                           0.96       114
   macro avg       0.96      0.96      0.96       114
weighted avg       0.96      0.96      0.96       114



In [711]:
print('logistic_regression\n', classification_report(y_test, y_pred_LR)) # logistic_regression 평가

logistic_regression
               precision    recall  f1-score   support

           0       1.00      0.93      0.96        41
           1       0.96      1.00      0.98        73

    accuracy                           0.97       114
   macro avg       0.98      0.96      0.97       114
weighted avg       0.97      0.97      0.97       114



label이 꽤 균형있게 분포되어있는 데이터이지만, 놓치지 말아야 할 label이 존재한다.  
유방암의 positive(malignant==암)를 놓치면 안되므로 평가 지표로 Recall이 적당해 보인다.

5개의 모델 중 Recall이 0.98로 가장 높은 SVM 모델의 경우,  
114개의 test 데이터 중 98%인 111개 이상을 맞춘 것으로 나왔다.

## 3.8 회고하기!

2장 wine 데이터와 마찬가지로 scaling만 해줘도 오류나 경고 메세지가 뜨지 않았고,  
모든 모델의 성능이 준수하게 나온 것을 알 수 있다.  
scaling은 전처리 과정 중 하나이므로 전처리가 얼마나 중요한지 깨달았다.  
또한 Accuracy 지표와는 다르게 Recall 지표는 어떤 클래스를 양성으로 놓냐에 따라서 값이 달라져서 헷갈리기도 했지만  
target_names를 다시 들여다보고 0이 암이라는 사실을 알아챘다.