학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요?
모델의 성능을 평가하는 지표로는 무엇이 좋을까요?
sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요.
선택하신 이유도 설명해 주세요.

루브릭
1. 3가지 데이터셋의 구성이 합리적으로 진행되었는가?
- feature와 label 선정을 위한 데이터 분석과정이 체계적으로 전개됨

2. 3가지 데이터셋에 대해 각각 5가지 모델을 성공적으로 적용하였는가?
- 모델학습 및 테스트가 정상적으로 수행되었음

3. 3가지 데이터셋에 대해 모델의 평가지표가 적절히 선택되었는가?
- 평가지표 선택 및 이유 설명이 타당함

##### 시작전 간단한 요약

#### Precision(정밀도) > 음성을 놓치지 말아야한다.

- 정밀도란 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율
- FP가 낮을수록 커집니다, 음성인데 양성으로 판단하는 경우가 적어야한다.


#### Recall(재현율) > 양성을 놓치지 말아야한다.
- 재현율이란 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율
- False Negative, 즉 양성인데 음성으로 판단하는 경우가 적어야 합니다

#### F1 score는 Precision과 Recall의 조화평균입니다.
- 데이터 label이 불균형 구조일 때, 모델의 성능을 정확하게 평가할 수 있으며, 성능을 하나의 숫자로 표현

In [None]:
# 손글씨을 분류해 보자

#필요한 모듈 import 하기
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 데이터 준비
digit_data = load_digits()

# 데이터 이해하기
print(dir(digit_data))
data = digit_data.data
label = digit_data.target

print(digit_data.feature_names)
print(digit_data.target_names)
print(digit_data.data[0])
print(digit_data.target[0])
print(digit_data.DESCR)

['DESCR', 'data', 'feature_names', 'frame', 'images', 'target', 'target_names']
['pixel_0_0', 'pixel_0_1', 'pixel_0_2', 'pixel_0_3', 'pixel_0_4', 'pixel_0_5', 'pixel_0_6', 'pixel_0_7', 'pixel_1_0', 'pixel_1_1', 'pixel_1_2', 'pixel_1_3', 'pixel_1_4', 'pixel_1_5', 'pixel_1_6', 'pixel_1_7', 'pixel_2_0', 'pixel_2_1', 'pixel_2_2', 'pixel_2_3', 'pixel_2_4', 'pixel_2_5', 'pixel_2_6', 'pixel_2_7', 'pixel_3_0', 'pixel_3_1', 'pixel_3_2', 'pixel_3_3', 'pixel_3_4', 'pixel_3_5', 'pixel_3_6', 'pixel_3_7', 'pixel_4_0', 'pixel_4_1', 'pixel_4_2', 'pixel_4_3', 'pixel_4_4', 'pixel_4_5', 'pixel_4_6', 'pixel_4_7', 'pixel_5_0', 'pixel_5_1', 'pixel_5_2', 'pixel_5_3', 'pixel_5_4', 'pixel_5_5', 'pixel_5_6', 'pixel_5_7', 'pixel_6_0', 'pixel_6_1', 'pixel_6_2', 'pixel_6_3', 'pixel_6_4', 'pixel_6_5', 'pixel_6_6', 'pixel_6_7', 'pixel_7_0', 'pixel_7_1', 'pixel_7_2', 'pixel_7_3', 'pixel_7_4', 'pixel_7_5', 'pixel_7_6', 'pixel_7_7']
[0 1 2 3 4 5 6 7 8 9]
[ 0.  0.  5. 13.  9.  1.  0.  0.  0.  0. 13. 15. 10. 15.  5.  0. 

In [None]:
# 손글씨 데이터는 8x8 크기의 이미지데이터로 각 픽셀은 0~15 값의 범위를 갖는다.
# 타겟은 0 ~ 9로 분류할 정수 이다.

In [None]:
# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(data, 
                                                    label, 
                                                    test_size=0.2, 
                                                    random_state=21)
# 의사결정나무
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state = 32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print('[의사결정나무]')
print(classification_report(y_test, y_pred))
# 랜덤 포레스트
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print('[랜덤포레스트]')
print(classification_report(y_test, y_pred))

# SVM
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print('[SVM]')
print(classification_report(y_test, y_pred))

# SGD
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print('[SGD]')
print(classification_report(y_test, y_pred))

# Logistic 회귀
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print('[로지스틱 회귀]')
print(classification_report(y_test, y_pred))

[의사결정나무]
              precision    recall  f1-score   support

           0       0.91      0.94      0.92        32
           1       0.93      0.72      0.81        36
           2       0.96      0.73      0.83        30
           3       0.74      0.83      0.78        41
           4       0.80      0.88      0.84        32
           5       0.90      0.93      0.91        46
           6       0.93      0.88      0.90        32
           7       0.90      0.93      0.91        40
           8       0.77      0.81      0.79        42
           9       0.69      0.76      0.72        29

    accuracy                           0.84       360
   macro avg       0.85      0.84      0.84       360
weighted avg       0.85      0.84      0.84       360

[랜덤포레스트]
              precision    recall  f1-score   support

           0       0.97      0.94      0.95        32
           1       0.97      1.00      0.99        36
           2       1.00      1.00      1.00        30
      

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


#### 해석
- 본 모델은, 숫자 필기체를 분류하는 모델이다. 즉 숫자이 이미지를 인식하는 모델이다.
- 숫자 필기체 인식의 적용 사례를 생각해볼때, 실제 값 자체를 잘 맞추고 틀리지 않느 것이 중요하다.
- 예) 3인것을 3이 아니라고 하는 것이 더 적어야 한다.
- 따라서 accuracy 와 recall 지표를 기준으로 적합한 모델을 선정하는 것이 좋겠다.
- 모델별 acc 를 볼때, 랜덤포레스트, SVM, 로지스틱 회귀 모델이 각각 0.97, 0.99, 0.98 로 좋은 성능을 보여준다. 이 세개에서 recall 을 비교하자.
- 세 모델을 recall 평균은 각각 0.97, 0.99, 0.98 이다. recall 최솟 값은 모두 label '9'에서 0.93 으로 9에대한 recall은 모든 모델에서 낮게 나타났다. 
- 종합해 볼때, acc 와 recall 이 모두 높은 SVM 모델을 선정하는 것이 가장 적절해 보인다.

#### 추가
- 앞선 데이터셋에서는 label을 0 ~ 9 사이 정수로 구성하였다.
- 그러나, 0 ~ 9 는 ㅎ10가지의 분류 클래스의 종류 일뿐 정수로서 수치적 의미를 갖지 않는다.
- 다시말해, 0 에서 2 와 9까지의 차이는 수치적으로 2 와 9의 차이 이지만, 분류 모델에서는 그저 서로 다른 클래스일뿐이다.
- 따라서 label을 원핫인코딩하여 사용하고 위와 같이 분석해보자.
- SVM, SGD, 로지스틱 회귀 모델의 경우 1차원 데이터를 필요로 한다는 에러를 반환하기 때문에 실시 하지 않았다.


In [None]:
from sklearn.preprocessing import OneHotEncoder
onehot_encoder = OneHotEncoder()
label_onehot = label.reshape(-1, 1)
label_onehot = onehot_encoder.fit_transform(label_onehot)
print(label_onehot.toarray()[:10])
print(onehot_encoder.categories_)

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(data, 
                                                    label_onehot.toarray(), 
                                                    test_size=0.2, 
                                                    random_state=21)
# 의사결정나무
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state = 32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print('[의사결정나무]')
print(classification_report(y_test, y_pred))
# 랜덤 포레스트
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print('[랜덤포레스트]')
print(classification_report(y_test, y_pred))

# # SVM
# from sklearn import svm

# svm_model = svm.SVC()
# svm_model.fit(X_train, y_train)
# y_pred = svm_model.predict(X_test)

# print('[SVM]')
# print(classification_report(y_test, y_pred))

# # SGD
# from sklearn.linear_model import SGDClassifier

# sgd_model = SGDClassifier()
# sgd_model.fit(X_train, y_train)
# y_pred = sgd_model.predict(X_test)

# print('[SGD]')
# print(classification_report(y_test, y_pred))

# # Logistic 회귀
# from sklearn.linear_model import LogisticRegression

# logistic_model = LogisticRegression()
# logistic_model.fit(X_train, y_train)
# y_pred = logistic_model.predict(X_test)

# print('[로지스틱 회귀]')
# print(classification_report(y_test, y_pred))

[[1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]
[array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])]
[의사결정나무]
              precision    recall  f1-score   support

           0       0.91      0.94      0.92        32
           1       0.93      0.72      0.81        36
           2       0.96      0.73      0.83        30
           3       0.74      0.83      0.78        41
           4       0.80      0.88      0.84        32
           5       0.90      0.93      0.91        46
           6       0.93      0.88      0.90        32
           7       0.90      0.93      0.91        40
           8       0.77      0.81      0.79        42
           9       0.69      0.76      0.72        29

   micro avg       0.84 

  _warn_prf(average, modifier, msg_start, len(result))


#### 해석
- 의사결정나무의 경우 모든 지표에서 동일한 성능을 보여주었다.
- 랜럼포레스트 모델의 경우 recall 은 내려갔으나, precision 거의 모두 1에 가까이 나왔다.
- precision 증가에 비해, recall 감소폭이 더 컸기 때문에 f1-score는 0.97에서 0.94로 소폭 감소하였다.
- 종합해 볼때, 모델의 precision 성능에 더 중점을 모델을 선택한다면, target 을 원핫 인코딩한후 랜덤포레스트 모델을 사용하는 것도 합리적인 선택일 것이다.
- 하지만, 여전히 원핫인코딩 전 label로 만든 모델의 성능이 전반적으로 우수하기때문에 기존 SVM 모델을 선택하는 것이 가장 합리적이다.

In [6]:
# 와인을 분류해 보자

#필요한 모듈 import 하기
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 데이터 준비
wine_data = load_wine()

# 데이터 이해하기
print(dir(wine_data))
data = wine_data.data
label = wine_data.target

print(wine_data.feature_names)
print(wine_data.target_names)
print(wine_data.data[0])
print(wine_data.target[0])
print(wine_data.DESCR)


['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']
['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
['class_0' 'class_1' 'class_2']
[1.423e+01 1.710e+00 2.430e+00 1.560e+01 1.270e+02 2.800e+00 3.060e+00
 2.800e-01 2.290e+00 5.640e+00 1.040e+00 3.920e+00 1.065e+03]
0
.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class

와인 데이터
- 이탈리아 같은 지역에서 서로 다른 세 재배자에의해 생산된 와인에 대한 13가지 화학적 분석 데이터 이다.
- 13가지 데이터 모두 수치형 데이터로 데이터셋을 스케일링 할 필요가 있다.
- 각 특성간의 영향을 일정하게 해주기 위해 min max scaling 하자

In [7]:
# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(data, 
                                                    label, 
                                                    test_size=0.2, 
                                                    random_state=21)
# minmax스케일링
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
X_train_norm = mms.fit_transform(X_train)
X_test_norm = mms.transform(X_test)
# 의사결정나무
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state = 32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print('[의사결정나무]')
print(classification_report(y_test, y_pred))
# 랜덤 포레스트
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print('[랜덤포레스트]')
print(classification_report(y_test, y_pred))

# SVM
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print('[SVM]')
print(classification_report(y_test, y_pred))

# SGD
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print('[SGD]')
print(classification_report(y_test, y_pred))

# Logistic 회귀
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print('[로지스틱 회귀]')
print(classification_report(y_test, y_pred))

[의사결정나무]
              precision    recall  f1-score   support

           0       0.88      1.00      0.94        15
           1       0.80      0.80      0.80        10
           2       0.89      0.73      0.80        11

    accuracy                           0.86        36
   macro avg       0.86      0.84      0.85        36
weighted avg       0.86      0.86      0.86        36

[랜덤포레스트]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        15
           1       1.00      1.00      1.00        10
           2       1.00      1.00      1.00        11

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36

[SVM]
              precision    recall  f1-score   support

           0       0.86      0.80      0.83        15
           1       0.45      1.00      0.62        10
           2       0.00      0.00      0.00        

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


# 해석
- 분류의 목적에 따른 사용사례를 쉽게 떠올리기가 어렵기 때문에 평가지표의 전반적인 부분을 살펴보고 모델을을 선택하자.
- 고민하기 쉽게도 랜덤포레스트와 로지스틱 회귀 모델이 오든든 점수에서 최고의 성능을 보여주었다.
- 랜덤포레스트나나 로지스틱 회귀 모델중 어느 것을 사용하여도 좋을 것이다.

In [8]:
# 유방암을 분류해 보자

#필요한 모듈 import 하기
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 데이터 준비
data = load_breast_cancer()

# 데이터 이해하기
print(dir(data))
BC_data = data.data
label = data.target
print(data.target_names)
print(data.DESCR)
# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(BC_data, 
                                                    label, 
                                                    test_size=0.2, 
                                                    random_state=21)

['DESCR', 'data', 'data_module', 'feature_names', 'filename', 'frame', 'target', 'target_names']
['malignant' 'benign']
.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest value

- 유방암 데이터의 경우도 모든 특성은 수치데이터 이다.
- 와인데이터와 마찬가지로 minmax스케일해주자.

In [9]:
# minmax스케일링
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
X_train_norm = mms.fit_transform(X_train)
X_test_norm = mms.transform(X_test)

# 의사결정나무
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state = 32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print('[의사결정나무]')
print(classification_report(y_test, y_pred))
# 랜덤 포레스트
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print('[랜덤포레스트]')
print(classification_report(y_test, y_pred))

# SVM
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print('[SVM]')
print(classification_report(y_test, y_pred))

# SGD
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print('[SGD]')
print(classification_report(y_test, y_pred))

# Logistic 회귀
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print('[로지스틱 회귀]')
print(classification_report(y_test, y_pred))

[의사결정나무]
              precision    recall  f1-score   support

           0       0.90      0.92      0.91        39
           1       0.96      0.95      0.95        75

    accuracy                           0.94       114
   macro avg       0.93      0.93      0.93       114
weighted avg       0.94      0.94      0.94       114

[랜덤포레스트]
              precision    recall  f1-score   support

           0       0.97      0.95      0.96        39
           1       0.97      0.99      0.98        75

    accuracy                           0.97       114
   macro avg       0.97      0.97      0.97       114
weighted avg       0.97      0.97      0.97       114

[SVM]
              precision    recall  f1-score   support

           0       0.93      0.72      0.81        39
           1       0.87      0.97      0.92        75

    accuracy                           0.89       114
   macro avg       0.90      0.85      0.86       114
weighted avg       0.89      0.89      0.88       

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


#### 해석
- 유방암의 경우 실제 양성이지, 음성으로 판단하는 경우가 없어야 한다.(암을 놓쳐서 안된다.)
- 따라서 recall 이 무엇보다 중요한 평가기준이된다.
- 성능을 살펴보면 랜덤포레스트모델이 acc, recall 면에서 모두 가장 좋은 성능을 보여주고 있다.

#### 회고
- 어려운 점 : 먼저 데이터의 특성과 분류 목적에 따라 어떤 평가지표를 고려할 것인지 고민하는 부분이 어려웠다다. 특히 와인분류는 분류하는 실제 사례를 떠올리기 어려웠다.
- 아쉬운 점 : 전처리과정에서 minmax 스케일링 이외의 다른방식을을 시도하지 못한 것이 아쉬웠다. 또한, 각각 특성의 분포를 살펴보고 이상치를 제거와 같은 전처리를 시도 않은 점이 아쉽다.
- 시도한 것 : 숫자이미지 분류에서, 데이터 특성성 전처리에 사용하는 원핫인코딩을 라벨에 적용하여 보았지만, 예상과 달리 성능이 향상되지는 않았다. 그리고, 수치 데이터가 주를 이룬 와인과 유방암데이터는 minmax스케일링을 통해 수치크기에 따른 영향을 줄이고자 하였다. 
- 자기다짐 : 항상 마감에 쫓겨 제출하다보니, 생각한 방법을 충분히 적용해보지 못하는 아쉬움이 남는다. 앞으로는 좀더 미리 시작해야겠다. 