### 필요한 모듈 import하기

In [41]:
from sklearn.datasets import load_digits
from sklearn.datasets import load_wine
from sklearn.datasets import load_breast_cancer

from sklearn.model_selection import train_test_split

from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression

from sklearn.preprocessing import StandardScaler

### 데이터 준비

In [30]:
digits = load_digits()
wine = load_wine()
breast_cancer = load_breast_cancer()

### 데이터 이해하기

- Feature Data 지정하기
- Label Data 지정하기
- Target Names 출력해 보기
- 데이터 Describe 해 보기

In [31]:
digits_features = digits.data
digits_labels = digits.target
print(digits.target_names)
print()
print(digits.DESCR)
print('---------------------------------------------------------------------')

wine_features = wine.data
wine_labels = wine.target
print(wine.target_names)
print()
print(wine.DESCR)
print('---------------------------------------------------------------------')

breast_cancer_features = breast_cancer.data
breast_cancer_labels = breast_cancer.target
print(breast_cancer.target_names)
print()
print(breast_cancer.DESCR)
print('---------------------------------------------------------------------')

[0 1 2 3 4 5 6 7 8 9]

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 5620
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels 

### train, test 데이터 분리

In [52]:
digits_x_train, digits_x_test, digits_y_train, digits_y_test = train_test_split(digits_features, 
                                                                                digits_labels, 
                                                                                test_size = 0.2, 
                                                                                random_state = 12)

wine_x_train, wine_x_test, wine_y_train, wine_y_test = train_test_split(wine_features, 
                                                                        wine_labels,
                                                                        test_size = 0.2,
                                                                        random_state = 12)

bc_x_train, bc_x_test, bc_y_train, bc_y_test = train_test_split(breast_cancer_features, 
                                                                breast_cancer_labels, 
                                                                test_size = 0.2,
                                                                random_state = 12)

### 다양한 모델로 학습시켜보기

- Decision Tree 사용해 보기
- Random Forest 사용해 보기
- SVM 사용해 보기
- SGD Classifier 사용해 보기
- Logistic Regression 사용해 보기

In [33]:
decision_tree = DecisionTreeClassifier(random_state = 12)
random_forest = RandomForestClassifier(random_state = 12)
_svm = svm.SVC()
sgd = SGDClassifier()
logistic_regression = LogisticRegression(max_iter = 5000)

### 1. load_digits - 학습

In [34]:
decision_tree.fit(digits_x_train, digits_y_train)
random_forest.fit(digits_x_train, digits_y_train)
_svm.fit(digits_x_train, digits_y_train)
sgd.fit(digits_x_train, digits_y_train)
logistic_regression.fit(digits_x_train, digits_y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=5000,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

### 1. load_digits - 모델을 평가해 보기

- __학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요?__

    decision tree보다 random forest 모델이 실제로 더 정확한 모델임을 눈으로 확인할 수 있었고, 가장 정확한 모델은 SVM임을 알 수 있었습니다.
    
    
- __모델의 성능을 평가하는 지표로는 무엇이 좋을까요?__

    정확도(accuracy_score)라고 생각합니다.
    
    
- __선택하신 이유도 설명해 주세요.__

    우선, 값을 정확하게 예측하는 것 외에 특정 수를 다른 수로 예측하는 등의 경우를 따로 고려할 이유가 크게 없습니다.
    단지 올바르게 예측하지 못한 경우와 올바르게 예측한 경우가 중요하다고 생각합니다.
    게다가 아래 코드에서 confusion matrix를 통해 데이터가 0 ~ 9 사이에 고르게 분포한 편입니다.
    따라서 정확도를 평가 지표로 사용하는 것이 좋다고 생각합니다.

In [35]:
y_pred = decision_tree.predict(digits_x_test)
print_result(digits_x_test, digits_y_test, y_pred, 'decision tree')

y_pred = random_forest.predict(digits_x_test)
print_result(digits_x_test, digits_y_test, y_pred, 'random forest')

y_pred = _svm.predict(digits_x_test)
print_result(digits_x_test, digits_y_test, y_pred, 'SVM')

y_pred = sgd.predict(digits_x_test)
print_result(digits_x_test, digits_y_test, y_pred, 'SGD classifier')

y_pred = logistic_regression.predict(digits_x_test)
print_result(digits_x_test, digits_y_test, y_pred, 'logistic regression')

-------------------------------------------------------------------------
confusion matrix : decision tree
-------------------------------------------------------------------------
[[36  0  0  0  0  1  0  0  0  0]
 [ 0 26  2  0  1  0  0  1  2  0]
 [ 0  1 36  0  0  0  0  1  0  0]
 [ 0  0  3 36  0  0  0  0  2  2]
 [ 1  0  0  0 33  1  1  1  1  1]
 [ 0  0  0  1  0 27  0  0  1  5]
 [ 0  0  0  0  1  0 28  0  0  0]
 [ 0  1  2  1  0  0  0 35  2  1]
 [ 0  1  1  1  0  0  0  1 26  2]
 [ 0  0  0  1  1  1  0  3  0 28]]

-------------------------------------------------------------------------
classification report : decision tree
-------------------------------------------------------------------------
              precision    recall  f1-score   support

           0       0.97      0.97      0.97        37
           1       0.90      0.81      0.85        32
           2       0.82      0.95      0.88        38
           3       0.90      0.84      0.87        43
           4       0.92      0

### 2. load_wine - 학습

In [39]:
sc = StandardScaler()
sc.fit(wine_x_train)

wine_x_train = sc.transform(wine_x_train)
wine_x_test = sc.transform(wine_x_test)

decision_tree.fit(wine_x_train, wine_y_train)
random_forest.fit(wine_x_train, wine_y_train)
_svm.fit(wine_x_train, wine_y_train)
sgd.fit(wine_x_train, wine_y_train)
logistic_regression.fit(wine_x_train, wine_y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=5000,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

### 2. load_wine - 모델을 평가해 보기

- __학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요?__

    다른 모델들과 다르게 SVM 모델과 SGD 방식은 데이터 전처리를 하지 않았을 때 정확도가 매우 낮았습니다.
    다른 모델들도 데이터 전처리를 한 후 정확도가 높아졌지만, SVM, SGD는 데이터를 구성하는 여러 feature들의 값의 범위에 더 많은 영향을 받는 것 같습니다.
    
    
- __모델의 성능을 평가하는 지표로는 무엇이 좋을까요?__


    f1 score 또는 정확도입니다.
    
    
- __선택하신 이유도 설명해 주세요.__

    와인의 등급을 구분하는 이유가 차별성을 두는 것이기 때문에, 처음에는 낮은 등급의 와인을 높은 등급으로 잘못 판단하지 않고, 높은 등급의 와인을 낮은 등급으로 잘못 판단하지 않기 위해 precision과 recall을 모두 고려하는 f1 score라고 생각했습니다.
       
    하지만, 데이터 전처리 이후 precision과 recall값이 거의 비슷해졌고, 각 클래스의 값의 분포도 거의 일정합니다.
    
    따라서 정확도를 지표로 사용해도 좋다고 생각했습니다.

In [40]:
y_pred = decision_tree.predict(wine_x_test)
print_result(wine_x_test, wine_y_test, y_pred, 'decision tree')

y_pred = random_forest.predict(wine_x_test)
print_result(wine_x_test, wine_y_test, y_pred, 'random forest')

y_pred = _svm.predict(wine_x_test)
print_result(wine_x_test, wine_y_test, y_pred, 'SVM')

y_pred = sgd.predict(wine_x_test)
print_result(wine_x_test, wine_y_test, y_pred, 'SGD classifier')

y_pred = logistic_regression.predict(wine_x_test)
print_result(wine_x_test, wine_y_test, y_pred, 'Logistic Regression')

-------------------------------------------------------------------------
confusion matrix : decision tree
-------------------------------------------------------------------------
[[14  0  0]
 [ 1 10  0]
 [ 2  0  9]]

-------------------------------------------------------------------------
classification report : decision tree
-------------------------------------------------------------------------
              precision    recall  f1-score   support

           0       0.82      1.00      0.90        14
           1       1.00      0.91      0.95        11
           2       1.00      0.82      0.90        11

    accuracy                           0.92        36
   macro avg       0.94      0.91      0.92        36
weighted avg       0.93      0.92      0.92        36

-------------------------------------------------------------------------
confusion matrix : random forest
-------------------------------------------------------------------------
[[14  0  0]
 [ 0 10  1]
 [ 0  0 1

### 3. load_breast_cancer - 학습

In [53]:
sc.fit(bc_x_train)
bc_x_train = sc.transform(bc_x_train)
bc_x_test = sc.transform(bc_x_test)

decision_tree.fit(bc_x_train, bc_y_train)
random_forest.fit(bc_x_train, bc_y_train)
_svm.fit(bc_x_train, bc_y_train)
sgd.fit(bc_x_train, bc_y_train)
logistic_regression.fit(bc_x_train, bc_y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=5000,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

### 3. load_breast_cancer - 모델을 평가해 보기¶

- __학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요?__

    이번에도 마찬가지로 feature들 중 몇 몇이 값의 범위가 큰 차이로 달랐고, SVM과 SGD는 정확도가 떨어졌습니다.
    
    
- __모델의 성능을 평가하는 지표로는 무엇이 좋을까요?__

    Recall


- __선택하신 이유도 설명해 주세요.__

    질병을 진단하는 것은 환자가 아닌 사람에게 양성이라고 오진하는 것보다, 실제 환자에게 음성이라고 오진하는 것이 더 위험합니다.
    
    따라서 Recall 값으로 성능을 평가할 필요가 있습니다.

In [54]:
y_pred = decision_tree.predict(bc_x_test)
print_result(bc_x_test, bc_y_test, y_pred, 'decision tree')

y_pred = random_forest.predict(bc_x_test)
print_result(bc_x_test, bc_y_test, y_pred, 'random forest')

y_pred = _svm.predict(bc_x_test)
print_result(bc_x_test, bc_y_test, y_pred, 'SVM')

y_pred = sgd.predict(bc_x_test)
print_result(bc_x_test, bc_y_test, y_pred, 'SGD classifier')

y_pred = logistic_regression.predict(bc_x_test)
print_result(bc_x_test, bc_y_test, y_pred, 'Logistic Regression')

-------------------------------------------------------------------------
confusion matrix : decision tree
-------------------------------------------------------------------------
[[44  4]
 [ 2 64]]

-------------------------------------------------------------------------
classification report : decision tree
-------------------------------------------------------------------------
              precision    recall  f1-score   support

           0       0.96      0.92      0.94        48
           1       0.94      0.97      0.96        66

    accuracy                           0.95       114
   macro avg       0.95      0.94      0.95       114
weighted avg       0.95      0.95      0.95       114

-------------------------------------------------------------------------
confusion matrix : random forest
-------------------------------------------------------------------------
[[41  7]
 [ 1 65]]

-------------------------------------------------------------------------
classificat

In [48]:
def print_result(x_test, y_test, y_pred, s):
    print('-------------------------------------------------------------------------')
    print('confusion matrix : {}'.format(s))
    print('-------------------------------------------------------------------------')
    print(confusion_matrix(y_test, y_pred))
    print()
    print('-------------------------------------------------------------------------')
    print('classification report : {}'.format(s))
    print('-------------------------------------------------------------------------')
    print(classification_report(y_test, y_pred))

### 회고 
***
와인과 암 데이터의 경우, 다른 모델들과 다르게 SVM 모델과  SGD 방식은 정확도가 매우 낮게 나왔다. 

때로 와인 등급 중 두 번째, 세 번째 등급은 아예 하나도 못맞추는 경우도 있었다.

Scikit-learn 공식 문서를 읽어보던 중, SVM 모델의 파라미터 중 kernel에 linear, rbf 등 전달할 수 있는 여러 인자가 있으며 rbf가 기본값이라는 것을 알게됐다.

그래서 모델을 생성할때, kernel 파라미터에 linear를 인자로 전달하니, 정확도가 97퍼센트가 나왔다.

SVM모델에 대한 이해가 아직 낮아서, 이에 대한 공부가 필요할 것 같다.

이후 rbf커널로는 와인 데이터에 대한 예측도를 높게 뽑아낼 수 없을까 고민하다가 와인 데이터에 대한 DESCR 정보를 읽어봤다.

Magnesium, Proline등의 feature 값들이 다른 것들에 비해 지나치게 큰 값을 갖는다는 것을 알게 됐다.

이 값들을 스케일링을 통해 전처리를 해주었더니 모델이 더 잘 동작했다.

이번 프로젝트 과정 중에 발생한 궁금하지만 아직 해결하지 못한 점은 다음과 같다.

1. SVM모델의 커널이 linear일 때는 데이터 전처리 없이도 어느정도 잘 동작하는 이유와  rbf일 때는 전처리가 필요한 이유

2. SGD 방식에 데이터 전처리가 필요한 이유 또는 SVM모델과 SGD방식 이외의 모델들에는 전처리를 하지 않아도 잘 동작하는 이유

월요일 풀잎 스쿨 관련 강의에 SVM 모델에 대한 내용이 나오는 것 같던데, 이 동영상을 더 주의깊게 보고 SVM모델을 이해해 의문점이 해결됐으면 좋겠다.