# [E-02] Classification

# 프로젝트 (1) load_digits: 손글씨를 분류해 봅시다

## 1. 데이터 준비

In [1]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

In [2]:
digits = load_digits()
digits_data = digits.data
digits_label = digits.target

* load_digits() 메소드를 이용하여 변수 digits에 데이터를 할당
* digits_data에 Feature data 할당
* digits_label에 Label data 할당 (target)
---
* confusion_matrix: 혼동 행렬, 지도 학습으로 훈련된 분류 알고리즘의 성능을 시각화 할 수 있는 표
* 각 행은 예측된 클래스의 인스턴스를 나타내며, 각 열은 실제 클래스의 인스턴스를 나타냄 (혹은 반대로 구성)
* 이를 이용하여, 각 클래스별 모델의 오답률이 어느 정도인지 확인이 가능

In [3]:
print(digits_data.shape)
digits_data[0]

(1797, 64)


array([ 0.,  0.,  5., 13.,  9.,  1.,  0.,  0.,  0.,  0., 13., 15., 10.,
       15.,  5.,  0.,  0.,  3., 15.,  2.,  0., 11.,  8.,  0.,  0.,  4.,
       12.,  0.,  0.,  8.,  8.,  0.,  0.,  5.,  8.,  0.,  0.,  9.,  8.,
        0.,  0.,  4., 11.,  0.,  1., 12.,  7.,  0.,  0.,  2., 14.,  5.,
       10., 12.,  0.,  0.,  0.,  0.,  6., 13., 10.,  0.,  0.,  0.])

* digits_data에 저장된 데이터 양과 형식을 확인
* 1797개의 digit 데이터가 저장되어 있음을 확인
* 각각의 데이터에 64개의 픽셀값이 저장되어 있음을 확인

In [4]:
print(digits_label.shape)
print(digits_label[:20])
print(digits.target_names)

(1797,)
[0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9]
[0 1 2 3 4 5 6 7 8 9]


* digits_label에 저장된 데이터 양과 형식을 확인
* 1797개의 데이터가 저장되어 있음을 확인
* digits_label의 처음부터 20개의 데이터를 출력하고, 이를 통해서 0~9까지의 값이 저장되어 있음을 확인
* digits 데이터 셋의 Target Name을 출력
* Target_Name은 0~9까지의 숫자

In [5]:
print(digits.DESCR)

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 5620
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each blo

* digits 데이터 셋을 Describe

## 2. Dataset 나누기

In [6]:
X_train, X_test, y_train, y_test = train_test_split(digits_data,
                                                   digits_label,
                                                   test_size=0.2,
                                                   random_state=7)

print('number of X_train:', len(X_train), 'number of X_test:', len(X_test))
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

number of X_train: 1437 number of X_test: 360
(1437, 64) (1437,)
(360, 64) (360,)


* digits 데이터 셋을 학습용 데이터와 테스트용 데이터로 분리
* test 데이터 셋의 크기는 전체 데이터셋의 20%
* 즉, 1797개의 데이터 셋 중에서 학습용 데이터는 1437개, 테스트용 데이터는 360개
* 기존에 정렬된 데이터를 랜덤으로 섞어서 train set과 test set으로 분리

## 3. Model 학습 및 평가

In [7]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression

decision_tree = DecisionTreeClassifier(random_state=32)
random_forest = RandomForestClassifier(random_state=32)
svm_model = svm.SVC()
sgd_model = SGDClassifier()
logistic_model = LogisticRegression()

* 다양한 모델로 학습시키기 위해서, 다음 5개의 모델을 구현
    * Decision Tree       (decision_tree)
    * Random Forest       (random_forest)
    * SVM                 (svm_model)
    * SGD Classifier      (sgd_model)
    * Logistic Regression (logistic_model)

## 3-1. Decision Tree

In [8]:
decision_tree.fit(X_train, y_train)
y_pred_dicision_tree = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred_dicision_tree))
print(confusion_matrix(y_test, y_pred_dicision_tree))

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.81      0.81      0.81        42
           2       0.79      0.82      0.80        40
           3       0.79      0.91      0.85        34
           4       0.83      0.95      0.89        37
           5       0.90      0.96      0.93        28
           6       0.84      0.93      0.88        28
           7       0.96      0.82      0.89        33
           8       0.88      0.65      0.75        43
           9       0.78      0.78      0.78        32

    accuracy                           0.86       360
   macro avg       0.86      0.86      0.86       360
weighted avg       0.86      0.86      0.85       360

[[42  0  0  1  0  0  0  0  0  0]
 [ 0 34  3  1  0  1  1  0  0  2]
 [ 0  0 33  2  0  0  1  1  2  1]
 [ 0  1  0 31  0  0  0  0  1  1]
 [ 0  0  1  0 35  0  0  0  1  0]
 [ 0  1  0  0  0 27  0  0  0  0]
 [ 0  0  0  0  2  0 26  0  0  0]
 [ 0  0  0

* Decission Tree를 이용한 결과, accuracy는 86%
---
* Precision을 확인해보면, 0, 5, 7, 8을 제외한 나머지에서 평균 precision(macro avg)보다 낮은 값을 갖는다.
* 0, 5, 7, 8의 경우, 다른 숫자들에 비해서 정밀한 예측을 했다고 말할 수 있다.
---
* Recall을 확인해보면, 0, 3, 4, 5, 6을 제외한 나머지에서 평균 recall(macro avg)보다 낮은 값을 갖는다.
* 0, 3, 4, 5, 6의 경우, 해당 숫자 내에서 정확한 예측을 했다고 말할 수 있다.
---
* confusion_matrix를 확인해본 결과, 5, 6, 7, 8, 9의 오답이 다른 클래스에 비해서 많은 것으로 확인되었다.
---
* 해당 모델의 정확도는 86%이지만 각각의 label에 따라서 precision과 recall의 편차가 큰 편이기에, 모델의 성능이 좋다고 말할 수 없다.

## 3-2. Random Forest

In [9]:
random_forest.fit(X_train, y_train)
y_pred_random_forest = random_forest.predict(X_test)

print(classification_report(y_test, y_pred_random_forest))
print(confusion_matrix(y_test, y_pred_random_forest))

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.93      1.00      0.97        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       0.93      1.00      0.96        37
           5       0.90      0.96      0.93        28
           6       1.00      0.96      0.98        28
           7       0.94      0.97      0.96        33
           8       1.00      0.84      0.91        43
           9       0.94      0.94      0.94        32

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.97      0.96      0.96       360

[[42  0  0  0  1  0  0  0  0  0]
 [ 0 42  0  0  0  0  0  0  0  0]
 [ 0  0 40  0  0  0  0  0  0  0]
 [ 0  0  0 34  0  0  0  0  0  0]
 [ 0  0  0  0 37  0  0  0  0  0]
 [ 0  0  0  0  0 27  0  0  0  1]
 [ 0  0  0  0  1  0 27  0  0  0]
 [ 0  0  0

* Random Forest를 이용한 결과, accuracy는 96%
---
* Precision을 확인해보면, 0, 2, 3, 6, 8을 제외한 나머지에서 평균 precision(macro avg)보다 낮은 값을 갖는다.
* 0, 2, 3, 6, 8의 경우, 다른 숫자들에 비해서 정밀한 예측을 했다고 말할 수 있다.
---
* Recall을 확인해보면, 1, 2, 3, 4, 5, 6, 7을 제외한 나머지에서 평균 recall(macro avg)보다 낮은 값을 갖는다.
* 1, 2, 3, 4, 5, 6, 7의 경우, 해당 숫자 내에서 정확한 예측을 했다고 말할 수 있다.
* 특히 8의 경우, 0.84의 recall 값을 갖는 것으로 보아, 실제 8 데이터 중에서 8이라고 예측한 결과가 굉장히 적다고 보여진다.
---
* confusion_matrix를 확인해본 결과, 대체적으로 오답이 적지만, 6, 7 클래스의 오답률이 높은 것으로 확인되었다.
---
* 해당 모델의 정확도는 96%로, 굉장히 높은 정확도를 보여준다. 뿐만 아니라, precision과 recall의 각 label 별 편차가 대체적으로 크지 않고, 전반적으로 0.9 이상의 값을 갖기때문에, 모델의 성능이 좋다고 말할 수 있다.

## 3-3. SVM

In [10]:
svm_model.fit(X_train, y_train)
y_pred_svm_model = svm_model.predict(X_test)

print(classification_report(y_test, y_pred_svm_model))
print(confusion_matrix(y_test, y_pred_svm_model))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      1.00      0.98        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        37
           5       0.93      1.00      0.97        28
           6       1.00      1.00      1.00        28
           7       1.00      1.00      1.00        33
           8       1.00      0.93      0.96        43
           9       1.00      0.97      0.98        32

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360

[[43  0  0  0  0  0  0  0  0  0]
 [ 0 42  0  0  0  0  0  0  0  0]
 [ 0  0 40  0  0  0  0  0  0  0]
 [ 0  0  0 34  0  0  0  0  0  0]
 [ 0  0  0  0 37  0  0  0  0  0]
 [ 0  0  0  0  0 28  0  0  0  0]
 [ 0  0  0  0  0  0 28  0  0  0]
 [ 0  0  0

* SVM을 이용한 결과, accuracy는 99%
* 5개의 모델 중, 가장 높은 accuracy를 보여줌
* 그러나, 99%라는 너무 높은 accuracy를 갖기 때문에, 믿을 수 있는 수치인지 의문 
---
* Precision을 확인해보면, 1, 5에서 평균 precision(macro avg)보다 낮은 값을 갖는다.
* 대부분 정밀한 예측을 했다고 말할 수 있다.
---
* Recall을 확인해보면, 8, 9에서 평균 recall(macro avg)보다 낮은 값을 갖는다.
* 대부분 해당 숫자 내에서 정확한 예측을 했다고 말할 수 있다.
---
* confusion_matrix를 확인해본 결과, 전체적인 오답률이 굉장히 낮은 편이다.
* 5, 6 클래스에서 오답률이 다른 클래스에 비해서 높은 편임을 확인했다.
---
* 해당 모델의 정확도는 99%로, 굉장히 높은 정확도를 보여준다. 뿐만 아니라, precision과 recall의 각 label 별 편차가 대체적으로 크지 않고, 전반적으로 0.9 이상의 값을 갖는다.
* 그러나 99%의 정확도는 굉장히 높은 수치이며, 해당 모델의 성능에 대한 의심이 생긴다.
* 만약 해당 모델의 성능이 사실이라면, 해당 프로젝트에서는 SVM 모델을 사용하는 것이 가장 좋다고 말할 수 있다.

## 3-4. SGD Classifier

In [11]:
sgd_model.fit(X_train, y_train)
y_pred_sgd_model = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred_sgd_model))
print(confusion_matrix(y_test, y_pred_sgd_model))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.94      0.71      0.81        42
           2       1.00      1.00      1.00        40
           3       0.91      0.91      0.91        34
           4       0.97      1.00      0.99        37
           5       0.85      1.00      0.92        28
           6       1.00      0.93      0.96        28
           7       0.97      0.97      0.97        33
           8       0.77      0.93      0.84        43
           9       0.97      0.88      0.92        32

    accuracy                           0.93       360
   macro avg       0.94      0.93      0.93       360
weighted avg       0.94      0.93      0.93       360

[[43  0  0  0  0  0  0  0  0  0]
 [ 0 30  0  2  0  1  0  0  8  1]
 [ 0  0 40  0  0  0  0  0  0  0]
 [ 0  0  0 31  0  1  0  1  1  0]
 [ 0  0  0  0 37  0  0  0  0  0]
 [ 0  0  0  0  0 28  0  0  0  0]
 [ 0  0  0  0  0  0 26  0  2  0]
 [ 0  0  0

* SGD Claasifier를 이용한 결과, accuracy는 93%
---
* Precision을 확인해보면, 1, 3, 5를 제외한 나머지에서 평균 precision(macro avg)보다 높은 값을 갖는다.
* 1, 3, 5의 경우, 다른 숫자들에 비해서 정밀도가 떨어진다고 말할 수 있다.
---
* Recall을 확인해보면, 1, 8, 9을 제외한 나머지에서 평균 recall(macro avg)보다 높은 값을 갖는다.
* 1, 8, 9의 경우, 해당 숫자 내에서 정확한 예측을 한 비율이 적다고 말할 수 있다.
---
* confusion_matrix를 확인해본 결과, 3, 5, 6 클래스의 오답률이 다른 클래스에 비해서 높은 것으로 확인되었다.
---
* 해당 모델의 정확도는 93%로, 높은 정확도를 보여준다. 그러나, 일부 label에서 precision과 recall 값이 다른 label에 비해서 많이 낮다.
* 이러한 이유는, SGD의 특성으로 인한 결과라고 생각된다.
    * SGD는 추출된 데이터 한개에 대해서 그래디언트를 계산하고, 경사 하강 알고리즘을 적용하는 방식
    * 전체 데이터를 사용하는 것이 아니라, 랜덤하게 추출한 일부 데이터를 사용
    * 따라서 속도가 매우 빠르지만, 학습 중간 과정에서 결과의 진폭이 크고 불안정
    * 또한, 데이터를 하나씩 처리하기 때문에 오차율이 크고, GPU의 성능을 모두 활용하지 못함

## 3-5. Logistic Regression

In [12]:
logistic_model.fit(X_train, y_train)
y_pred_logistic_model = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred_logistic_model))
print(confusion_matrix(y_test, y_pred_logistic_model))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      0.95      0.95        42
           2       0.98      1.00      0.99        40
           3       0.94      0.97      0.96        34
           4       0.97      1.00      0.99        37
           5       0.82      0.96      0.89        28
           6       1.00      0.96      0.98        28
           7       0.97      0.97      0.97        33
           8       0.92      0.81      0.86        43
           9       0.97      0.91      0.94        32

    accuracy                           0.95       360
   macro avg       0.95      0.95      0.95       360
weighted avg       0.95      0.95      0.95       360

[[43  0  0  0  0  0  0  0  0  0]
 [ 0 40  0  0  0  0  0  0  1  1]
 [ 0  0 40  0  0  0  0  0  0  0]
 [ 0  0  0 33  0  0  0  1  0  0]
 [ 0  0  0  0 37  0  0  0  0  0]
 [ 0  0  0  0  0 27  0  0  1  0]
 [ 0  0  0  0  0  0 27  0  1  0]
 [ 0  0  0

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


* Logistic Regression을 이용한 결과, accuracy는 95%
---
* Precision을 확인해보면, 5, 8를 제외한 나머지에서 평균 precision(macro avg)보다 높은 값을 갖는다.
* 5, 8의 경우, 다른 숫자들에 비해서 정밀도가 떨어진다고 말할 수 있다.
---
* Recall을 확인해보면, 8, 9을 제외한 나머지에서 평균 recall(macro avg)보다 높은 값을 갖는다.
* 8, 9의 경우, 해당 숫자 내에서 정확한 예측을 한 비율이 적다고 말할 수 있다.
---
* confusion_matrix를 확인해본 결과, 5, 6, 9 클래스의 오답률이 다른 클래스에 비해서 높은 것으로 확인되었다.
---
* 해당 모델의 정확도는 95%로, 높은 정확도를 보여준다.
* 아래 출력된 오류는 학습에 따른 모델의 convergence가 이루어지지 않았기에 발생된 것으로 확인. 즉, 학습에 대한 모델의 최적화가 이루어지지 않았다.
* 아마도, 학습 데이터의 양이 증가하면, 해당 오류를 해결할 수 있지 않을까 생각한다.

## 4. 결론

### accuracy
* Decision Tree: 86%
* Random Forest: 96%
* SVM: 99%
* SGD Classifier: 93%
* Logistic Regression: 95%
---
* Decision Tree를 제외한 나머지 4개의 모델은 90% 이상의 정확도를 보여줌
* confusion_matrix를 확인해 본 결과, 다른 모델에 비해서 대체적으로 오답률이 높은 것을 확인
* Decision Tree를 제외한 나머지 4개의 모델을 이용하는 것이 손글씨 분류에는 적합하다고 판단
* 특히, SVM의 경우 99%라는 굉장히 높은 정확도를 보여줌
* 따라서 해당 프로젝트에서는 SVM을 사용하는 것이 가장 적합하다고 판단

# 프로젝트 (2) load_wine: 와인을 분류해 봅시다

## 1. 데이터 준비

In [13]:
from sklearn.datasets import load_wine

wine = load_wine()
wine_data = wine.data
wine_label = wine.target

* load_wine() 메소드를 이용하여 변수 wine에 데이터를 할당
* wine_data에 Feature data 할당
* wine_label에 Label data 할당 (target)

In [14]:
print(wine_data.shape)
wine_data[0]

(178, 13)


array([1.423e+01, 1.710e+00, 2.430e+00, 1.560e+01, 1.270e+02, 2.800e+00,
       3.060e+00, 2.800e-01, 2.290e+00, 5.640e+00, 1.040e+00, 3.920e+00,
       1.065e+03])

In [15]:
wine.feature_names

['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

* wine_data에 저장된 데이터 양과 형식을 확인
* 178개의 wine 데이터가 저장되어 있음을 확인
* feature는 총 13개

In [16]:
print(wine_label.shape)
print(wine_label[:])
print(wine.target_names)

(178,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
['class_0' 'class_1' 'class_2']


* wine_label에 저장된 데이터 양과 형식을 확인
* 178개의 데이터가 저장되어 있음을 확인
* 저장된 label은 class 0, 1, 2의 세 가지 카테고리로 확인

In [17]:
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

* wine 데이터 셋의 Target Name을 출력
* Target_Name은 class_0, class_1, class_2
* wine 데이터 셋을 Describe

## 2. Dataset 나누기

In [18]:
X_train, X_test, y_train, y_test = train_test_split(wine_data,
                                                   wine_label,
                                                   test_size=0.2,
                                                   random_state=7)

print('number of X_train:', len(X_train), 'number of X_test:', len(X_test))
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

number of X_train: 142 number of X_test: 36
(142, 13) (142,)
(36, 13) (36,)


* wine 데이터 셋을 학습용 데이터와 테스트용 데이터로 분리
* test 데이터 셋의 크기는 전체 데이터셋의 20%
* 즉, 178개의 데이터 셋 중에서 학습용 데이터는 142개, 테스트용 데이터는 36개
* 기존에 정렬된 데이터를 랜덤으로 섞어서 train set과 test set으로 분리

## 3. Model 학습 및 평가

## 3-1. Dicision Tree

In [19]:
decision_tree.fit(X_train, y_train)
y_pred_dicision_tree = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred_dicision_tree))
print(confusion_matrix(y_test, y_pred_dicision_tree))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.89      1.00      0.94        17
           2       1.00      0.83      0.91        12

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36

[[ 7  0  0]
 [ 0 17  0]
 [ 0  2 10]]


* Decission Tree를 이용한 결과, accuracy는 94%
---
* Precision을 확인해보면, 'class 1'에서 평균 precision(macro avg)보다 낮은 값을 갖는다.
* 'class 0', 'class 2'의 경우, 다른 class에 비해서 정밀한 예측을 했다고 말할 수 있다.
---
* Recall을 확인해보면, 'class 2'에서 평균 recall(macro avg)보다 낮은 값을 갖는다.
* 'class 0', 'class 1'의 경우, 해당 class 내에서 정확한 예측을 했다고 말할 수 있다.
---
* confusion_matrix를 확인해본 결과, class 2에 대해서만 오답이 발생했다.
---
* 해당 모델은 94%의 높은 정확도를 보인다.

## 3-2. Random Forest

In [20]:
random_forest.fit(X_train, y_train)
y_pred_random_forest = random_forest.predict(X_test)

print(classification_report(y_test, y_pred_random_forest))
print(confusion_matrix(y_test, y_pred_random_forest))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        12

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36

[[ 7  0  0]
 [ 0 17  0]
 [ 0  0 12]]


* Random Forest를 이용한 결과, accuracy는 100%
---
* 해당 모델의 정확도는 100%이다.

## 3-3. SVM

In [21]:
svm_model.fit(X_train, y_train)
y_pred_svm_model = svm_model.predict(X_test)

print(classification_report(y_test, y_pred_svm_model))
print(confusion_matrix(y_test, y_pred_svm_model))

              precision    recall  f1-score   support

           0       0.86      0.86      0.86         7
           1       0.58      0.88      0.70        17
           2       0.33      0.08      0.13        12

    accuracy                           0.61        36
   macro avg       0.59      0.61      0.56        36
weighted avg       0.55      0.61      0.54        36

[[ 6  0  1]
 [ 1 15  1]
 [ 0 11  1]]


* SVM을 이용한 결과, accuracy는 61%
---
* confusion_matrix를 확인해본 결과, 전체적으로 오답률이 높았으며, 특히 'class 2'의 경우 대부분이 오답이었다.
---
* 해당 모델의 정확도는 61%로, 굉장히 낮은 정확도가 측정되었다.
* 따라서 해당 Wine 데이터 분류 모델로서는 적합하지 않다.

## 3-4. SGD Classifier

In [22]:
sgd_model.fit(X_train, y_train)
y_pred_sgd_model = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred_sgd_model))
print(confusion_matrix(y_test, y_pred_sgd_model))

              precision    recall  f1-score   support

           0       0.70      1.00      0.82         7
           1       0.91      0.59      0.71        17
           2       0.60      0.75      0.67        12

    accuracy                           0.72        36
   macro avg       0.74      0.78      0.73        36
weighted avg       0.77      0.72      0.72        36

[[ 7  0  0]
 [ 1 10  6]
 [ 2  1  9]]


* SGD Classifier를 이용한 결과, accuracy는 71%
---
* confusion_matrix를 확인해본 결과, 전체적으로 오답률이 높진 않았지만, 'class 2'의 경우 절반이 오답이었다.
---
* 해당 모델의 정확도는 71%로, 굉장히 낮은 정확도가 측정되었다.
* 따라서 해당 Wine 데이터 분류 모델로서는 적합하지 않다.

## 3-5. Logistic Regression

In [23]:
logistic_model.fit(X_train, y_train)
y_pred_logistic_model = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred_logistic_model))
print(confusion_matrix(y_test, y_pred_logistic_model))

              precision    recall  f1-score   support

           0       1.00      0.86      0.92         7
           1       0.94      1.00      0.97        17
           2       1.00      1.00      1.00        12

    accuracy                           0.97        36
   macro avg       0.98      0.95      0.96        36
weighted avg       0.97      0.97      0.97        36

[[ 6  1  0]
 [ 0 17  0]
 [ 0  0 12]]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


* Logistic Regression을 이용한 결과, accuracy는 97%
---
* confusion_matrix를 확인해본 결과, 단 하나의 오답만 발생했다.
---
* 해당 모델의 정확도는 97%로 굉장히 높은 정확도를 보여준다.

## 4. 결론

### accuracy
* Decision Tree: 94%
* Random Forest: 100%
* SVM: 61%
* SGD Classifier: 71%
* Logistic Regression: 97%
---
* SVM, SGD Classifier를 제외한 나머지 3개의 모델은 90% 이상의 정확도를 보여줌
* confusion_matrix를 확인해 본 결과, SVM, SGD Classifier는 오답률이 높았음
* 따라서, SVM과 SGD Classifier 모델은 해당 wine 데이터를 분류하기에 적합한 모델이 아니라고 판단
---
* Random Forest의 경우, 100%라는 굉장히 높은 정확도를 보여줌
* 따라서 해당 프로젝트에서는 Random Forest를 사용하는 것이 가장 적합하다고 판단

# 프로젝트 (3) load_breast_cancer: 유방암 여부를 진단해 봅시다

## 1. 데이터 준비

In [24]:
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
cancer_data = cancer.data
cancer_label = cancer.target

* load_breast_cancer() 메소드를 이용하여 변수 cancer에 데이터를 할당
* cancer_data에 Feature data 할당
* cancer_label에 Label data 할당 (target)

In [25]:
print(cancer_data.shape)
cancer_data[0]

(569, 30)


array([1.799e+01, 1.038e+01, 1.228e+02, 1.001e+03, 1.184e-01, 2.776e-01,
       3.001e-01, 1.471e-01, 2.419e-01, 7.871e-02, 1.095e+00, 9.053e-01,
       8.589e+00, 1.534e+02, 6.399e-03, 4.904e-02, 5.373e-02, 1.587e-02,
       3.003e-02, 6.193e-03, 2.538e+01, 1.733e+01, 1.846e+02, 2.019e+03,
       1.622e-01, 6.656e-01, 7.119e-01, 2.654e-01, 4.601e-01, 1.189e-01])

In [26]:
cancer.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

* cancer_data에 저장된 데이터 양과 형식을 확인
* 569개의 wine 데이터가 저장되어 있음을 확인
* feature는 총 30개

In [27]:
print(cancer_label.shape)
print(cancer_label[:])
print(cancer.target_names)

(569,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 0
 1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 1 1
 1 0 1 1 1 1 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1
 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 0 0 0 1 1
 1 1 0 1 0 1 0 1 1 1 0 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0
 0 1 0 0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 0 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1
 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 0 1 1 1 1 1 0 1 1
 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1
 1 1 1 1 1 1 0 1 0

* cancer_label에 저장된 데이터 양과 형식을 확인
* 569개의 데이터가 저장되어 있음을 확인
* cancer_label의 0, 1의 값이 저장되어 있음을 확인
* cancer 데이터 셋의 Target Name을 출력
* Target_Name은 'malignant', 'benign'

In [28]:
print(cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

* cancer 데이터 셋을 Describe

## 2. Dataset 나누기

In [29]:
X_train, X_test, y_train, y_test = train_test_split(cancer_data,
                                                   cancer_label,
                                                   test_size=0.2,
                                                   random_state=7)

print('number of X_train:', len(X_train), 'number of X_test:', len(X_test))
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

number of X_train: 455 number of X_test: 114
(455, 30) (455,)
(114, 30) (114,)


* cancer 데이터 셋을 학습용 데이터와 테스트용 데이터로 분리
* test 데이터 셋의 크기는 전체 데이터셋의 20%
* 즉, 569의 데이터 셋 중에서 학습용 데이터는 455개, 테스트용 데이터는 114개
* 기존에 정렬된 데이터를 랜덤으로 섞어서 train set과 test set으로 분리

## 3. Model 학습 및 평가

## 3-1. Dicision Tree

In [30]:
decision_tree.fit(X_train, y_train)
y_pred_dicision_tree = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred_dicision_tree))
print(confusion_matrix(y_test, y_pred_dicision_tree))

              precision    recall  f1-score   support

           0       0.92      0.82      0.87        40
           1       0.91      0.96      0.93        74

    accuracy                           0.91       114
   macro avg       0.91      0.89      0.90       114
weighted avg       0.91      0.91      0.91       114

[[33  7]
 [ 3 71]]


* Decission Tree를 이용한 결과, accuracy는 91%
---
* 해당 데이터는 악성/양성 종양에 대한 데이터이므로, accuracy 자체보다는, Recall의 값이 중요
* Recall은 0.82의 값으로 측정되었으며, test set 중, 7명의 악성 종양 환자에게 양성 종양이라는 잘못된 판단을 함
---
* 해당 모델은 91%의 높은 정확도를 보인다.
* 하지만, Recall이 0.82로, 7명의 악성 종양 환자에게 양성 종양이라는 잘못된 판단을 했다.

## 3-2. Random Forest

In [31]:
random_forest.fit(X_train, y_train)
y_pred_random_forest = random_forest.predict(X_test)

print(classification_report(y_test, y_pred_random_forest))
print(confusion_matrix(y_test, y_pred_random_forest))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        40
           1       1.00      1.00      1.00        74

    accuracy                           1.00       114
   macro avg       1.00      1.00      1.00       114
weighted avg       1.00      1.00      1.00       114

[[40  0]
 [ 0 74]]


* Random Forest를 이용한 결과, accuracy는 100%
---
* 해당 모델의 정확도는 100%이다.
* 해당 모델은 모든 악성 종양 환자에게 정확한 진단을 했다.

## 3-3. SVM

In [32]:
svm_model.fit(X_train, y_train)
y_pred_svm_model = svm_model.predict(X_test)

print(classification_report(y_test, y_pred_svm_model))
print(confusion_matrix(y_test, y_pred_svm_model))

              precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114

[[29 11]
 [ 0 74]]


* SVM를 이용한 결과, accuracy는 90%
---
* 해당 데이터는 악성/양성 종양에 대한 데이터이므로, accuracy 자체보다는, Recall의 값이 중요
* Recall은 0.72의 값으로 측정되었으며, test set 중, 11명의 악성 종양 환자에게 양성 종양이라는 잘못된 판단을 함
---
* 해당 모델은 90%의 높은 정확도를 보인다.
* 하지만, Recall이 0.72로, 11명의 환자에게 양성 종양이라는 잘못된 판단을 했다.
* 따라서 해당 데이터에 적합한 모델이 아니라고 판단

## 3-4. SGD Classifier

In [33]:
sgd_model.fit(X_train, y_train)
y_pred_sgd_model = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred_sgd_model))
print(confusion_matrix(y_test, y_pred_sgd_model))

              precision    recall  f1-score   support

           0       0.85      0.82      0.84        40
           1       0.91      0.92      0.91        74

    accuracy                           0.89       114
   macro avg       0.88      0.87      0.87       114
weighted avg       0.89      0.89      0.89       114

[[33  7]
 [ 6 68]]


* SGD Classifier를 이용한 결과, accuracy는 89%
---
* 해당 데이터는 악성/양성 종양에 대한 데이터이므로, accuracy 자체보다는, Recall의 값이 중요
* Recall은 0.75의 값으로 측정되었으며, test set 중, 10명의 악성 종양 환자에게 양성 종양이라는 잘못된 판단을 함
---
* 해당 모델은 89%의 높은 정확도를 보인다.
* 하지만, Recall이 0.75로, 10명의 환자에게 양성 종양이라는 잘못된 판단을 했다.

## 3-5. Logistic Regression

In [34]:
logistic_model.fit(X_train, y_train)
y_pred_logistic_model = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred_logistic_model))
print(confusion_matrix(y_test, y_pred_logistic_model))

              precision    recall  f1-score   support

           0       1.00      0.82      0.90        40
           1       0.91      1.00      0.95        74

    accuracy                           0.94       114
   macro avg       0.96      0.91      0.93       114
weighted avg       0.94      0.94      0.94       114

[[33  7]
 [ 0 74]]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


* Logistic Regression를 이용한 결과, accuracy는 94%
---
* 해당 데이터는 악성/양성 종양에 대한 데이터이므로, accuracy 자체보다는, Recall의 값이 중요
* Recall은 0.82의 값으로 측정되었으며, test set 중, 7명의 악성 종양 환자에게 양성 종양이라는 잘못된 판단을 함
---
* 해당 모델은 94%의 높은 정확도를 보인다.
* 하지만, Recall이 0.82로, 7명의 환자에게 양성 종양이라는 잘못된 판단을 했다.

## 4. 결론

### accuracy
* Decision Tree: 91% (Recall = 0.82)
* Random Forest: 100% (Recall = 1.00)
* SVM: 90% (Recall = 0.72)
* SGD Classifier: 89% (Recall = 0.75)
* Logistic Regression: 94% (Recall = 0.82)
---
* 모든 모델이 89% 이상의 정확도를 보여줌
---
* 해당 데이터는 정확도보다, Recall 값이 중요한 예제
* 따라서 모든 모델들의 Recall 값을 확인하는 것이 중요
* Random Forest를 제외한 나머지 모델에서는 Recall 값이 0.72~0.82 사이의 값을 갖는 것으로 확인
* 즉, 악성 종양 환자를 양성 종양 환자로 판단한 케이스가 7~10명
* 따라서 Random Forest를 제외한 나머지 4개의 모델은 해당 데이터에 적합한 모델이 아니라고 판단
---
* Random Forest의 경우, 100%라는 굉장히 높은 정확도를 보여줌
* 또한, Recall값이 1.00으로, 잘못된 분류를 한 케이스가 하나도 없음
* 따라서 해당 프로젝트에서는 Random Forest를 사용하는 것이 가장 적합하다고 판단