In [2]:
# 필요한 모둘 import 하기
from sklearn.datasets import load_digits # 손글씨 분류
from sklearn.datasets import load_wine   # 와인 종류
from sklearn.datasets import load_breast_cancer  # 유방암 진단
from sklearn.model_selection import train_test_split  # data 를 train 과 test 그룹으로 나눔
from sklearn.metrics import classification_report   # percision, recall 등이 포함된 결과값 도출
# accuracy 도출에 사용가능한 각종 classifiers
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression

In [4]:
# 전체 코드가 작성 되어있는 순서
''' 진행 순서
1. 손글씨 분류 : load_digits
2. 와인 분류 : load_wine
3. 유방암 여부 진단: load_breast_cancer
4. 총평
'''

# 1. 손글씨 분류 시작
print('----------------- Classifying Handwritten Digits -----------------\n')

# 손글씨 data 불러오기
digits = load_digits()

# 데이터 이해하기
digits_data = digits.data
digits_label = digits.target
print(f'Target Names: {digits.target_names}') # 숫자 0 부터 9 까지 포함
print(digits.DESCR) # Description 출력
print('------------------------------------------------------------------\n') # DESCR과 결과값 구분

----------------- Classifying Handwritten Digits -----------------

Target Names: [0 1 2 3 4 5 6 7 8 9]
.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 5620
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 b

In [8]:
# train, test 데이터 분리, 전체의 20% 를 test에 사용 (test_size=0.2)
X_train, X_test, y_train, y_test = train_test_split(digits_data, digits_label, test_size=0.2, random_state = 10)

In [10]:
# Decision Tree Classifier 사용
decision_tree = DecisionTreeClassifier()
decision_tree.fit(X_train, y_train)   # Training 진행
y_pred = decision_tree.predict(X_test) # Test 진행 후 예상 결과를 받음
print('\t\t    [[ Model : Decision Tree ]]')
print(classification_report(y_test, y_pred)) # 실제 정답과 예상 결과를 비교

# 최종 accuracy가 0.86으로 엄청 좋지는 않다. 아마도 single tree를 사용했기 때문인듯
# 결과를 봤을 때 3과 8, 4와 9를 많이 혼동하는 듯 보임.

		    [[ Model : Decision Tree ]]
              precision    recall  f1-score   support

           0       1.00      0.92      0.96        37
           1       0.88      0.85      0.87        34
           2       0.88      0.82      0.85        34
           3       0.85      0.85      0.85        40
           4       0.65      0.76      0.70        34
           5       0.88      0.91      0.89        32
           6       0.92      0.89      0.90        37
           7       0.97      0.88      0.92        40
           8       0.68      0.79      0.73        33
           9       0.79      0.77      0.78        39

    accuracy                           0.84       360
   macro avg       0.85      0.84      0.85       360
weighted avg       0.85      0.84      0.85       360



In [12]:
# Random Forest Classifier 사용, 같은 방식의 code 진행이므로 이하 자세한 주석은 생략
random_forest = RandomForestClassifier()
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)
print('\t\t    [[ Model : Random Forest ]]')
print(classification_report(y_test, y_pred))

# Accuracy 0.98로 Decision Tree에 비해 상당히 높아진 것을 볼 수 있다.
# 모든 숫자에 대해 0.9 이상의 높은 결과를 보인다.

		    [[ Model : Random Forest ]]
              precision    recall  f1-score   support

           0       1.00      0.97      0.99        37
           1       0.97      0.97      0.97        34
           2       1.00      1.00      1.00        34
           3       0.95      1.00      0.98        40
           4       0.97      0.97      0.97        34
           5       0.91      1.00      0.96        32
           6       1.00      1.00      1.00        37
           7       0.98      1.00      0.99        40
           8       1.00      0.94      0.97        33
           9       1.00      0.92      0.96        39

    accuracy                           0.98       360
   macro avg       0.98      0.98      0.98       360
weighted avg       0.98      0.98      0.98       360



In [14]:
# SVM : Support vector machine
svm = SVC()
svm.fit(X_train, y_train)
y_pred = svm.predict(X_test)
print('\t\t\t[[ Model : SVM ]]')
print(classification_report(y_test, y_pred))

# Accuracy 0.98로 random forest와 비슷 한 수준의 정확도를 보인다.

			[[ Model : SVM ]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        37
           1       0.97      1.00      0.99        34
           2       0.97      1.00      0.99        34
           3       1.00      0.97      0.99        40
           4       1.00      0.94      0.97        34
           5       0.97      1.00      0.98        32
           6       1.00      1.00      1.00        37
           7       1.00      1.00      1.00        40
           8       0.91      0.97      0.94        33
           9       1.00      0.95      0.97        39

    accuracy                           0.98       360
   macro avg       0.98      0.98      0.98       360
weighted avg       0.98      0.98      0.98       360



In [16]:
# SGD Classifier
sgd = SGDClassifier()
sgd.fit(X_train, y_train)
y_pred = sgd.predict(X_test)
print('\t\t\t[[ Model : SGD ]]')
print(classification_report(y_test, y_pred))

# Accuracy 0.93의 정확도를 가진다
# 숫자 1과 8에서 혼동이 있는것으로 보인다.

			[[ Model : SGD ]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        37
           1       0.89      0.97      0.93        34
           2       0.97      1.00      0.99        34
           3       0.97      0.95      0.96        40
           4       1.00      0.91      0.95        34
           5       0.86      1.00      0.93        32
           6       1.00      1.00      1.00        37
           7       0.97      0.97      0.97        40
           8       0.67      0.94      0.78        33
           9       1.00      0.54      0.70        39

    accuracy                           0.93       360
   macro avg       0.94      0.93      0.92       360
weighted avg       0.94      0.93      0.92       360



In [18]:
# Logistic Regression
logistic = LogisticRegression()
logistic.fit(X_train, y_train)
y_pred = logistic.predict(X_test)
print('\t\t  [[ Model : Logistic Regression ]]')
print(classification_report(y_test, y_pred))

# accuracy 0.95의 정확도를 가진다.
# SGD와 마찬가지로 1과 8에서 혼동이 있는 것 같지만, SGD 보다는 조금 높은 정확도를 보였다.
# iteration 값을 조절하거나 data의 스케일을 조절하라는 에러메세지가 뜨는 것으로 보아
# 현재 data는 이 classifier에 최적화 되어있지 않은 것으로 생각된다.

		  [[ Model : Logistic Regression ]]
              precision    recall  f1-score   support

           0       0.97      1.00      0.99        37
           1       0.91      0.91      0.91        34
           2       0.92      1.00      0.96        34
           3       1.00      0.95      0.97        40
           4       0.94      0.91      0.93        34
           5       0.94      0.94      0.94        32
           6       0.97      0.97      0.97        37
           7       0.97      0.95      0.96        40
           8       0.89      0.94      0.91        33
           9       0.97      0.92      0.95        39

    accuracy                           0.95       360
   macro avg       0.95      0.95      0.95       360
weighted avg       0.95      0.95      0.95       360



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [19]:
# 2. 와인 분류 시작 / 손글씨 dataset과 동일하게 진행 된다.
print('------------------ Classifying The Kind Of Wine ------------------\n')

# 데이터 준비
wine = load_wine()

# 데이터 이해하기
wine_data = wine.data
wine_label = wine.target
print(f'Target Names: {wine.target_names}')
print(wine.DESCR)
print('------------------------------------------------------------------\n') # DESCR과 결과값 구분

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(wine_data, wine_label, test_size=0.2, random_state = 10)

------------------ Classifying The Kind Of Wine ------------------

Target Names: ['class_0' 'class_1' 'class_2']
.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6 

In [21]:
# Decision Tree
decision_tree = DecisionTreeClassifier()
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)
print('\t\t    [[ Model : Decision Tree ]]')
print(classification_report(y_test, y_pred))

# accuracy는 0.94이며 손글씨 dataset(0.84)에 비해 높은 정확도를 보인다.
# class2에서의 percision 값이 가장 낮게 나타났다.

		    [[ Model : Decision Tree ]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      0.89      0.94        18
           2       0.80      1.00      0.89         8

    accuracy                           0.94        36
   macro avg       0.93      0.96      0.94        36
weighted avg       0.96      0.94      0.95        36



In [25]:
# Random Forest
random_forest = RandomForestClassifier()
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)
print('\t\t    [[ Model : Random Forest ]]')
print(classification_report(y_test, y_pred))

# accuracy가 0.94로 Decision Tree의 결과와 동일하게 나타났다.
# 따라서 현재의 wine dataset은 random forest classifier의 장점을 살리기에는 적합한
# dataset이 아닌것 같다.

		    [[ Model : Random Forest ]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      0.89      0.94        18
           2       0.80      1.00      0.89         8

    accuracy                           0.94        36
   macro avg       0.93      0.96      0.94        36
weighted avg       0.96      0.94      0.95        36



In [27]:
# SVM
svm = SVC()
svm.fit(X_train, y_train)
y_pred = svm.predict(X_test)
print('\t\t\t[[ Model : SVM ]]')
print(classification_report(y_test, y_pred))

# accuracy가 0.69로 Decision Tree와 Random Forest에 비해 상당히 낮게 측정되었다.
# 이는 곧 현재 dataset이 SVM으로는 구분하기 적합하지 않은 형태로 존재한다는 뜻이고 따라서 다른 classifier를
# 사용하는 것이 옳다고 생각한다.

			[[ Model : SVM ]]
              precision    recall  f1-score   support

           0       0.88      0.70      0.78        10
           1       0.81      0.72      0.76        18
           2       0.42      0.62      0.50         8

    accuracy                           0.69        36
   macro avg       0.70      0.68      0.68        36
weighted avg       0.74      0.69      0.71        36



In [36]:
# SGD Classifier
sgd = SGDClassifier()
sgd.fit(X_train, y_train)
y_pred = sgd.predict(X_test)
print('\t\t\t[[ Model : SGD ]]')
print(classification_report(y_test, y_pred))

# accuracy가 0.42로 상당히 낮으며 percision과 recall 값들을 보면 절반 이상 구분하지 못하는 것을 알 수 있다.
# 그리고 class2의 경우에는 아예 측정이 되지않는 것으로 보아 SGD는 현재 dataset에 사용할 수 없는 classifier
# 라고 할 수 있다.

			[[ Model : SGD ]]
              precision    recall  f1-score   support

           0       1.00      0.60      0.75        10
           1       1.00      0.06      0.11        18
           2       0.28      1.00      0.43         8

    accuracy                           0.42        36
   macro avg       0.76      0.55      0.43        36
weighted avg       0.84      0.42      0.36        36



In [37]:
# Logistic Regression
logistic = LogisticRegression()
logistic.fit(X_train, y_train)
y_pred = logistic.predict(X_test)
print('\t\t  [[ Model : Logistic Regression ]]')
print(classification_report(y_test, y_pred))

# accuracy는 0.92로 나쁘지 않지만 손글씨 dataset과 마찬가지로 iteration 과 data scale에 대한 error가 출력된다.
# 따라서 Logistic Regression은 현재의 dataset에도 크게 적합하지 않은 방식이라고 할 수 있다.

		  [[ Model : Logistic Regression ]]
              precision    recall  f1-score   support

           0       0.91      1.00      0.95        10
           1       1.00      0.83      0.91        18
           2       0.80      1.00      0.89         8

    accuracy                           0.92        36
   macro avg       0.90      0.94      0.92        36
weighted avg       0.93      0.92      0.92        36



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [38]:
# 3. 유방암 여부 진단 시작 / 앞의 dataset과 동일한 방식으로 진행된다.
print('-------------------- Diagnosing Breast Cancer --------------------\n')

# 데이터 준비
breast_cancer = load_breast_cancer()

# 데이터 이해하기
breast_cancer_data = breast_cancer.data
breast_cancer_label = breast_cancer.target
print(f'Target Names: {breast_cancer.target_names}')
print(breast_cancer.DESCR)
print('------------------------------------------------------------------\n') # DESCR과 결과값 구분

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(breast_cancer_data, breast_cancer_label, test_size=0.2, random_state = 10)

-------------------- Diagnosing Breast Cancer --------------------

Target Names: ['malignant' 'benign']
.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these fea

In [40]:
# Decision Tree
decision_tree = DecisionTreeClassifier()
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)
print('\t\t    [[ Model : Decision Tree ]]')
print(classification_report(y_test, y_pred))

# accuracy는 0.89로 앞선 wine dataset보다 낮은 수치를 보인다.
# 0:malignant 의 percision 값이 가장 낮게 측정되었다.

		    [[ Model : Decision Tree ]]
              precision    recall  f1-score   support

           0       0.80      0.92      0.86        39
           1       0.96      0.88      0.92        75

    accuracy                           0.89       114
   macro avg       0.88      0.90      0.89       114
weighted avg       0.90      0.89      0.90       114



In [41]:
# Random Forest
random_forest = RandomForestClassifier()
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)
print('\t\t    [[ Model : Random Forest ]]')
print(classification_report(y_test, y_pred))

# accuracy 0.98로 앞선 두 dataset보다 더 높은 수치를 보인다. 따라서 현재 dataset에 상당히 적합한
# 방식이라 할 수 있다.

		    [[ Model : Random Forest ]]
              precision    recall  f1-score   support

           0       0.95      1.00      0.97        39
           1       1.00      0.97      0.99        75

    accuracy                           0.98       114
   macro avg       0.98      0.99      0.98       114
weighted avg       0.98      0.98      0.98       114



In [42]:
# SVM
svm = SVC()
svm.fit(X_train, y_train)
y_pred = svm.predict(X_test)
print('\t\t\t[[ Model : SVM ]]')
print(classification_report(y_test, y_pred))

# accuracy 0.92로 측정되며 malignant의 recall 값이 가장 낮게 측정되었다.
# 따라서 이런 암진단과 같은 중요한 사항에 대해서는 사용할 수 없다고 볼 수 있다.

			[[ Model : SVM ]]
              precision    recall  f1-score   support

           0       0.94      0.82      0.88        39
           1       0.91      0.97      0.94        75

    accuracy                           0.92       114
   macro avg       0.93      0.90      0.91       114
weighted avg       0.92      0.92      0.92       114



In [43]:
# SGD Classifier
sgd = SGDClassifier()
sgd.fit(X_train, y_train)
y_pred = sgd.predict(X_test)
print('\t\t\t[[ Model : SGD ]]')
print(classification_report(y_test, y_pred))

# accuracy 0.85로 측정되며, SVM과 같은 이유로 암진단에서는 사용할 수 없다.

			[[ Model : SGD ]]
              precision    recall  f1-score   support

           0       1.00      0.56      0.72        39
           1       0.82      1.00      0.90        75

    accuracy                           0.85       114
   macro avg       0.91      0.78      0.81       114
weighted avg       0.88      0.85      0.84       114



In [44]:
# Logistic Regression
logistic = LogisticRegression()
logistic.fit(X_train, y_train)
y_pred = logistic.predict(X_test)
print('\t\t  [[ Model : Logistic Regression ]]')
print(classification_report(y_test, y_pred))

# accuracy 0.93로 측정되고 malignant에 대한 recall 값도 0.92로 나쁘지않지만 이 보다 좋은
# random forest 방식이 있기 때문에 사용되지 않을 듯 하다.
# 다른 dataset과 마찬가지로 iteration와 data scale에 관한 오류가 발생한다.

		  [[ Model : Logistic Regression ]]
              precision    recall  f1-score   support

           0       0.88      0.92      0.90        39
           1       0.96      0.93      0.95        75

    accuracy                           0.93       114
   macro avg       0.92      0.93      0.92       114
weighted avg       0.93      0.93      0.93       114



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


4. 총평(회고)
### < Classifier(모델) 선별 및 성능을 평가하는 방법 >
 - classification_report()로 각 모델의 결과값을 확인한다.
 - datasets에서 제공하는 target(ex. 숫자 0, 1, 2, 3 ..., 클래스 1, 2, 3 등) 마다
 정상적으로 결과값이 제공 되는지 확인한다. 이번 예제의 경우 Breast_cacer dataset 에서  SGD 모델을 사용한 경우에 한하여 class_2의 값을 0.00으로 인식하는 문제가 있었다. 만약 결과를 단순히 accuracy_score() 만으로 확인 한다면 이런 문제점을 찾아 내기가 힘들것이다. 그리고 precision 이나 recall 값등을 확인하여 현재의 dataset의 성격상 사용할 수 있는 classifier만을 선별할 필요도 있다. 즉, 사용하는 데이터의 종류나 양, 전처리가 진행된 방식 등에 따라 그에 맞는 방식과 맞지 않는 방식이 존재할 수 있다는 것이며 따라서 이런 사항들을 모두 고려하기 위해서는 결과를 classification_report()로 상세히 확인하는 것이 필수이다.
 예를 들면 유방암 진단의 경우 malignant를 negative로 판단하는 일은 절대 없어야 하기 때문에 Random Forest 외의 방식들은 아마 사용되기 힘들 것으로 보인다.