In [None]:
'''
- 정량 평가의 경우 (e.g. acc 80% 이상)은 정확히 해당 지표를 맞추어야 합니다.
- 다음의 경우는 **미평가**가 될 수 있습니다.
    - **코드만 있고 결과물이 없는 경우**
        - **코드에 대한 설명이 없는 경우**
        - **회고가 없는 경우**
    - **깃헙 링크가 잘못되어 열람이 안되는 경우**
        - **(중요) 링크를 제출하기 전에 해당 링크에서 프로젝트가 잘 열리는지 꼭 확인해주세요.**
        - 만약 프로젝트의 용량이 커서 프로젝트 로딩이 안된다면 **nbviewer 링크**를 제출해주세요.
'''

In [6]:
# sklearn라이브러리를 임포트하고 버전 확인하기
import sklearn

print(sklearn.__version__)

1.0


In [7]:
# 1. import 하기
from sklearn.datasets import load_breast_cancer         # sklearn datasets으로 breast_cancer 데이터셋 로드
from sklearn.model_selection import train_test_split    # 데이터셋을 train, test로 분할

from sklearn.metrics import classification_report       # Text summary of the precision, recall, F1 score for each class
from sklearn.metrics import accuracy_score              # sklearn.metrincs는 평가에 대한 함수 모음집, 정확도
from sklearn.metrics import confusion_matrix            # sklearn.metrincs는 평가에 대한 함수 모음집, 오차행렬

from sklearn.tree import DecisionTreeClassifier         # DecisionTree 분류기
from sklearn.ensemble import RandomForestClassifier     # Random forest 분류기
from sklearn import svm                                 # SVM 분류기
from sklearn.linear_model import SGDClassifier          # SGD 분류기
from sklearn.linear_model import LogisticRegression     # Logistic Regression 분류기

In [39]:
# 2. 데이터 준비하기
breast_cancers = load_breast_cancer()               # breast_cancer 데이터셋의 객체 생성(자료 가져오기)
type(breast_cancers)                                # type은 Bunch으로 Dictionary 자료형과 유사한 자료형


# 3. 데이터 이해하기

# 데이터와 타켓 데이터셋 변수에 할당 
breast_cancers_data = breast_cancers.data           # breast_cancer 데이터셋의 feature 값들을 data 변수에 할당
breast_cancers_label = breast_cancers.target        # breast_cancer 데이터셋의 target 값들을 label 변수에 할당

# breast_cancers 메서드 확인하기
dir(breast_cancers)                                 # breast_cancers 메서드 보기
breast_cancers.keys()                               # breast_cancers 메서드 보기 (딕셔너리 형태)

# 데이터
breast_cancers_data                                 # breast_cancers 데이터셋의 각 데이터(행)을 보기
                                                    # type은 ndarray(1차원)
                                                    # data는 머신러닝에 학습시킬 "문제지" 
breast_cancers_data.shape                           # nd.ndarray 타입이고, 569개 데이터(세로)가 있으며 30개의 속성값(가로)이 있음
breast_cancers_data[0]                              # breast_cancers.data의 첫번째 데이터(원소) 확인
breast_cancers_data[0].shape                        # 첫번째 데이터는 30개 속성이 있음

# 속성 
breast_cancers.feature_names                        # 속성(Attribute)의 이름
 
# Label, Class, Target
breast_cancers.target                               # breast_cancers 데이터셋의 속성값(열) 보기.
                                                    # type은 ndarray(1차원)
                                                    # target은 머신러닝 학습에 필요한 "정답지"
breast_cancers.target.shape                         # target 속성은 569개 데이터가 존재
breast_cancers.target_names                         # label 또는 Class 또는 Target 이름
target_names = breast_cancers.target_names          # target_names 변수에 할당

# 요약 문서 
print(breast_cancers.DESCR)                         # breast_cancers 데이터셋 설명

breast_cancers.frame                                # ???? NoneType이며


# 4. Train, Test로 데이터 분할하기
''' 전체 데이터를 모두 학습시키는데 사용하면 테스트용 데이터가 없으므로 데이터의 일부는 테스트용으로 떼어놓는다
    breast_cancers_data 데이터셋을 X_train, X_test(20%) 떼어두고, breast_cancers_label 데이터셋을 y_train, y_test(20%) 떼어 놓는다
    
    테스트 사이즈 0.2라는 의미는 20%를 떼어 놓겠다는 의미
    
    random_state는 데이터 분할하기 전에 임의로 돌려서 분할한다는 의미이며 숫자는 램덤 시드값.
    train_test_split 인자중 shuffle=True이므로 랜덤 씨드값만 부여하면 됨
    사용 이유는 wines.target의 값은 0으로 채우다가 1채우고 2채우는 형식이기 때문에
    먄약 랜덤으로 썩지 않고 데이터를 분할하면 앞에서부터 대부분 0과 1의 라벨값만 얻어지고 테스트는 전부 2로 할당받을 것이므로 
    데이터 결과의 정확성을 위해 임의로 썩는다
    '''
X_train, X_test, y_train, y_test = train_test_split(breast_cancers_data, breast_cancers_label, test_size=0.2, random_state=7)  

X_train.shape, y_train.shape                     # train 데이터는 전체 데이터의 80% 차지
X_test.shape, y_test.shape                       # test 데이터는 전체 데이터의 20% 차지

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

((114, 30), (114,))

In [31]:
target_names                                       # 타켓 네임 출력해보기. 악성과 양성

array(['malignant', 'benign'], dtype='<U9')

In [None]:
# 5. 모델 학습

In [40]:
# 5-1. DecisionTree 모델 학습
decision_tree = DecisionTreeClassifier(random_state=32)     # DecisionTreeClassifier 객체 생성, 랜덤 씨드는 32
print(decision_tree._estimator_type)                        # decision_tree 객체 타입은 classifier인 분류기

decision_tree.fit(X_train, y_train)                         # train 데이터셋으로 의사결정나무 모델 지도학습(fitting)

y_pred_decision_tree = decision_tree.predict(X_test)        # 학습된 모델에 테스트 feature데이터 넣어서 예측값 생성
y_pred_decision_tree

classifier


array([1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0,
       0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0,
       1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0,
       1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1,
       1, 1, 1, 1])

In [41]:
# 5-2. Random Forest 모델 학습
random_forest = RandomForestClassifier(random_state=32)  # Random Forest Classifier 객체 생성
print(random_forest._estimator_type)                     # random_forest 객체 타입은 classifier인 분류기

random_forest.fit(X_train, y_train)                      # train 데이터셋으로 랜덤 포레스트 모델 지도학습(fitting)

y_pred_random_forest = random_forest.predict(X_test)     # 학습된 모델에 테스트 feature데이터 넣어서 예측값 생성
y_pred_random_forest

classifier


array([1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0,
       1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0,
       1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1,
       1, 1, 0, 1])

In [42]:
# 5-3. SVM 모델 학습
svm_model = svm.SVC()                                    # SVM Classifier 객체 생성
print(svm_model._estimator_type)                         # svm_model 객체 타입은 classifier인 분류기


svm_model.fit(X_train, y_train)                          # train 데이터셋으로 svm 모델 지도학습(fitting)

y_pred_svm_model = svm_model.predict(X_test)             # 학습된 모델에 테스트 feature데이터 넣어서 예측값 생성
y_pred_svm_model 

classifier


array([1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0,
       0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1,
       1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0,
       1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1])

In [43]:
# 5-4. SGD Classifier 모델 학습
sgd_model = SGDClassifier()                              # SGD Classifier 객체 생성
print(sgd_model._estimator_type)                         # sgd_model 객체 타입은 classifier인 분류기

sgd_model.fit(X_train, y_train)                          # train 데이터셋으로 sgd 모델 지도학습(fitting)

y_pred_sgd_model = sgd_model.predict(X_test)             # 학습된 모델에 테스트 feature데이터 넣어서 예측값 생성
y_pred_sgd_model

classifier


array([1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0,
       0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1,
       0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0,
       1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0,
       1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1,
       1, 1, 0, 1])

In [44]:
# 5-5. Logistic Regression 모델 학습
logistic_model = LogisticRegression(max_iter=10000)      # Logistic Regression 객체 생성
print(logistic_model._estimator_type)                    # logistic_model 객체 타입은 classifier인 분류기

logistic_model.fit(X_train, y_train)                     # train 데이터셋으로 logistic regression 모델 지도학습(fitting)

y_pred_logistic_model = logistic_model.predict(X_test)   # 학습된 모델에 테스트 feature데이터 넣어서 예측값 생성
y_pred_logistic_model

classifier


array([1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0,
       0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0,
       1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0,
       1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1,
       1, 1, 0, 1])

In [None]:
# 6. 분류에 사용되는 척도 종류 및 성능 평가
# 척도 종류
#    1) accuracy_score
#    2) confusion matrix
#    3) classification_report

In [None]:
# 6-1 DecisionTree 평가

In [45]:
# 6-1-1 Accuracy 평가
# 실제 정답 y_test과 예측값 y_pred 비교하여 정확도 측정하기
accuracy = accuracy_score(y_test, y_pred_decision_tree)
accuracy

# 결과 해석 : 
# Accuracy가 91%이므로 높은 값이다. 테스트 데이터가 약 114개이므로 총 104개 맞았다는 의미
# 단, 정확도는 데이터가 imbalanced이면 결과값의 신뢰도는 떨어진다. 따라서 오차 행렬도 같이 알아보겠다

0.9122807017543859

In [61]:
# 6-1-2 confusion matrix 평가
confusion_matrix(y_test, y_pred_decision_tree)

# 오차 행렬 해석
# Accuracy
# 전체 예측한 데이터 중에서 실제로 예측이 맞은 것(TP + TN)의 비율
# 위의 결과에 따라 91%
# 그러나 실제 클래스 별 표본의 개수가 서로 차이가 많이 나서 imbalanced한 데이터셋이므로 Accuracy의 결과값은 신뢰성이 없을 수 있으므로 F1-score 값을 확인해야 한다
# F1-Score을 알려면 정확도와 재현율을 알아야 함

# Recall
# 실제 클래스 0: 총 40개중 실제 malignant을 보여주고 올바르게 malignant이라고 예측한 경우(TP)가 33개,
#             실제 malignant을 보여줬는데 예측 benign으로 예측한 경우(FN) 7개 -> 82%
# 실제 클래스 1: 총 74개중 실제 benign을 보여주고 올바르게 benign이라고 예측한 경우(TP)가 71개,
#             실제 benign을 보여줬는데 malignant으로 예측한 경우(FN) 3개 -> 96%
# 즉, 실제 각 양성클래스 중에서 제대로 양성이라고 예측한 것의 비율이 높다(재현율이 높다)

# Precision
# 예측 클래스 0: 총 36개중 양성 클래스 0에 속한다고 예측한 것 중에서 실제 0인 경우(TP)가 33 -> 92%
# 예측 클래스 1: 총 78개중 양성 클래스 1에 속한다고 예측한 것 중에서 실제 1인 경우(TP)가 71 -> 91%
# 즉, 예측한 것 중에서 실제 양성으로 예측한 수의 비율이 높다(정확도가 높다)

# 결론
# Decisiion Tree 모델의 f1-score의 단순평균(Macro)과 가중평균(Weighted)는 0.90와 0.91로 정확도와 차이가 거의 없다.
# Accuracy도 괜찮고 F1-score도 괜찮다

array([[33,  7],
       [ 3, 71]])

In [62]:
# 6-1-3 classification_report 평가
print(classification_report(y_test, y_pred_decision_tree, target_names=target_names))

# 오차 행렬의 요약 버전
# 이미 위에서 설명했음

              precision    recall  f1-score   support

   malignant       0.92      0.82      0.87        40
      benign       0.91      0.96      0.93        74

    accuracy                           0.91       114
   macro avg       0.91      0.89      0.90       114
weighted avg       0.91      0.91      0.91       114



In [None]:
# 6-2. Random Forest 평가

In [59]:
# 6-2-1 Accuracy 평가
# 실제 정답 y_test과 예측값 y_pred 비교하여 정확도 측정하기
accuracy = accuracy_score(y_test, y_pred_random_forest)
accuracy

# 결과 해석 : 
# Accuracy가 100%이므로 높은 값이다. 테스트 데이터가 약 114개이므로 총 114개 맞았다는 의미
# 단, 정확도는 데이터가 imbalanced이면 결과값의 신뢰도는 떨어진다. 따라서 오차 행렬도 같이 알아보겠다

1.0

In [63]:
# 6-2-2 confusion matrix 평가
confusion_matrix(y_test, y_pred_random_forest)

# 오차 행렬 해석

# Accuracy
# 전체 예측한 데이터 중에서 실제로 예측이 맞은 것(TP + TN)의 비율
# 위의 결과에 따라 100%
# 그러나 실제 클래스 별 표본의 개수가 서로 차이가 많이 나서 imbalanced한 데이터셋이라 Accuracy의 결과값은 신뢰성이 없을 수 있으므로 F1-score 값을 확인해야 한다
# F1-Score을 알려면 정확도와 재현율을 알아야 함

# Recall
# 실제 클래스 0: 총 40개중 실제 malignant을 보여주고 올바르게 malignant이라고 예측한 경우(TP)가 40개 -> 100%
# 실제 클래스 1: 총 74개중 실제 benign을 보여주고 올바르게 benign이라고 예측한 경우(TP)가 74개 -> 100%
# 즉, 실제 각 양성클래스 중에서 제대로 양성이라고 예측한 것의 비율이 높다(재현율이 높다)

# Precision
# 예측 클래스 0: 총 40개중 양성 클래스 0에 속한다고 예측한 것 중에서 실제 0인 경우(TP)가 40 -> 100%
# 예측 클래스 1: 총 74개중 양성 클래스 1에 속한다고 예측한 것 중에서 실제 1인 경우(TP)가 74 -> 100%
# 즉, 예측한 것 중에서 실제 양성으로 예측한 수의 비율이 높다(정확도가 높다)

# 결론
# Decisiion Tree 모델의 f1-score의 단순평균(Macro)과 가중평균(Weighted)는 1.00와 1.00로 정확도와 차이가 거의 없다.
# Accuracy도 괜찮고 F1-score도 괜찮다

array([[40,  0],
       [ 0, 74]])

In [64]:
# 6-2-3 classification_report 평가
print(classification_report(y_test, y_pred_random_forest, target_names=target_names))

# 오차 행렬의 요약 버전
# 이미 위에서 설명했음

              precision    recall  f1-score   support

   malignant       1.00      1.00      1.00        40
      benign       1.00      1.00      1.00        74

    accuracy                           1.00       114
   macro avg       1.00      1.00      1.00       114
weighted avg       1.00      1.00      1.00       114



In [None]:
# 6-3. SVM 평가

In [65]:
# 6-3-1 Accuracy 평가
# 실제 정답 y_test과 예측값 y_pred 비교하여 정확도 측정하기
accuracy = accuracy_score(y_test, y_pred_svm_model)
accuracy

# 결과 해석 : 
# Accuracy가 90%이므로 높은 값이다. 테스트 데이터가 약 114개이므로 총 103개 맞았다는 의미
# 단, 정확도는 데이터가 imbalanced이면 결과값의 신뢰도는 떨어진다. 따라서 오차 행렬도 같이 알아보겠다

0.9035087719298246

In [66]:
# 6-3-2 confusion matrix 평가
confusion_matrix(y_test, y_pred_svm_model)

# 오차 행렬 해석
# Accuracy
# 전체 예측한 데이터 중에서 실제로 예측이 맞은 것(TP + TN)의 비율
# 위의 결과에 따라 90%
# 그러나 실제 클래스 별 표본의 개수가 서로 차이가 많이 나서 imbalanced한 데이터셋이므로 Accuracy의 결과값은 신뢰성이 없을 수 있으므로 F1-score 값을 확인해야 한다
# F1-Score을 알려면 정확도와 재현율을 알아야 함

# Recall
# 실제 클래스 0: 총 40개중 실제 malignant을 보여주고 올바르게 malignant이라고 예측한 경우(TP)가 29개,
#             실제 malignant을 보여줬는데 예측 benign으로 예측한 경우(FN) 11개 -> 72%
# 실제 클래스 1: 총 74개중 실제 benign을 보여주고 올바르게 benign이라고 예측한 경우(TP)가 74개, -> 100%
# 즉, 실제 각 양성클래스 중에서 제대로 양성이라고 예측한 것의 비율이 높다(재현율이 높다)

# Precision
# 예측 클래스 0: 총 29개중 양성 클래스 0에 속한다고 예측한 것 중에서 실제 0인 경우(TP)가 29 -> 100%
# 예측 클래스 1: 총 85개중 양성 클래스 1에 속한다고 예측한 것 중에서 실제 1인 경우(TP)가 74 -> 87%
# 즉, 예측한 것 중에서 실제 양성으로 예측한 수의 비율이 높다(정확도가 높다)

# 결론
# Decisiion Tree 모델의 f1-score의 단순평균(Macro)과 가중평균(Weighted)는 0.89와 0.90로 정확도와 차이가 거의 없다.
# Accuracy도 괜찮고 F1-score도 괜찮다

array([[29, 11],
       [ 0, 74]])

In [67]:
# 6-3-3 classification_report 평가
print(classification_report(y_test, y_pred_svm_model, target_names=target_names))

# 오차 행렬의 요약 버전
# 이미 위에서 설명했음

              precision    recall  f1-score   support

   malignant       1.00      0.72      0.84        40
      benign       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114



In [None]:
# 6-4. SGD Classifier 평가

In [70]:
# 6-4-1 Accuracy 평가
# 실제 정답 y_test과 예측값 y_pred 비교하여 정확도 측정하기
accuracy = accuracy_score(y_test, y_pred_sgd_model)
accuracy

# 결과 해석 : 
# Accuracy가 88%이므로 나쁘지 않다. 테스트 데이터가 약 114개이므로 총 61.6개 맞았다는 의미
# 단, 정확도는 데이터가 imbalanced이면 결과값의 신뢰도는 떨어진다. 따라서 오차 행렬도 같이 알아보겠다

0.8771929824561403

In [71]:
# 6-4-2 confusion matrix 평가
confusion_matrix(y_test, y_pred_sgd_model)

# 오차 행렬 해석
# Accuracy
# 전체 예측한 데이터 중에서 실제로 예측이 맞은 것(TP + TN)의 비율
# 위의 결과에 따라 87.7%
# 그러나 실제 클래스 별 표본의 개수가 서로 차이가 많이 나서 imbalanced한 데이터셋이므로 Accuracy의 결과값은 신뢰성이 없을 수 있으므로 F1-score 값을 확인해야 한다
# F1-Score을 알려면 정확도와 재현율을 알아야 함

# Recall
# 실제 클래스 0: 총 40개중 실제 malignant을 보여주고 올바르게 malignant이라고 예측한 경우(TP)가 35개,
#             실제 malignant을 보여줬는데 예측 benign으로 예측한 경우(FN) 5개 -> 88%
# 실제 클래스 1: 총 74개중 실제 benign을 보여주고 올바르게 benign이라고 예측한 경우(TP)가 65개,
#             실제 malignant을 보여줬는데 예측 benign으로 예측한 경우(FN) 9개 -> 88%
# 즉, 실제 각 양성클래스 중에서 제대로 양성이라고 예측한 것의 비율이 높다(재현율이 높다)

# Precision
# 예측 클래스 0: 총 44개중 양성 클래스 0에 속한다고 예측한 것 중에서 실제 0인 경우(TP)가 35 -> 80%
# 예측 클래스 1: 총 70개중 양성 클래스 1에 속한다고 예측한 것 중에서 실제 1인 경우(TP)가 65 -> 93%
# 즉, 예측한 것 중에서 실제 양성으로 예측한 수의 비율이 높다(정확도가 높다)

# 결론
# Decisiion Tree 모델의 f1-score의 단순평균(Macro)과 가중평균(Weighted)는 0.87와 0.88로 정확도와 차이가 거의 없다.
# Accuracy도 괜찮고 F1-score도 괜찮다

array([[35,  5],
       [ 9, 65]])

In [72]:
# 6-4-3 classification_reprot 평가
print(classification_report(y_test, y_pred_sgd_model, target_names=target_names, zero_division=0))

# 오차 행렬의 요약 버전
# 이미 위에서 설명했음

              precision    recall  f1-score   support

   malignant       0.80      0.88      0.83        40
      benign       0.93      0.88      0.90        74

    accuracy                           0.88       114
   macro avg       0.86      0.88      0.87       114
weighted avg       0.88      0.88      0.88       114



In [None]:
# 6-5. Logistic Regression 평가

In [73]:
# 6-5-1 Accuracy 평가
# 실제 정답 y_test과 예측값 y_pred 비교하여 정확도 측정하기
accuracy = accuracy_score(y_test, y_pred_logistic_model)
accuracy

# 결과 해석 : 
# Accuracy가 94.7%이므로 나쁘지 않다. 테스트 데이터가 약 114개이므로 총 108개 맞았다는 의미
# 단, 정확도는 데이터가 imbalanced이면 결과값의 신뢰도는 떨어진다. 따라서 오차 행렬도 같이 알아보겠다

0.9473684210526315

In [74]:
# 6-5-2 confusion matrix 평가
confusion_matrix(y_test, y_pred_logistic_model)

# 오차 행렬 해석

# Accuracy
# 전체 예측한 데이터 중에서 실제로 예측이 맞은 것(TP + TN)의 비율
# 위의 결과에 따라 94.7%
# 그러나 실제 클래스 별 표본의 개수가 서로 차이가 많이 나서 imbalanced한 데이터셋이므로 Accuracy의 결과값은 신뢰성이 없을 수 있으므로 F1-score 값을 확인해야 한다
# F1-Score을 알려면 정확도와 재현율을 알아야 함

# Recall
# 실제 클래스 0: 총 40개중 실제 malignant을 보여주고 올바르게 malignant이라고 예측한 경우(TP)가 34개,
#             실제 malignant을 보여줬는데 예측 benign으로 예측한 경우(FN) 6개 -> 85%
# 실제 클래스 1: 총 74개중 실제 benign을 보여주고 올바르게 benign이라고 예측한 경우(TP)가 74개,
#             실제 malignant을 보여줬는데 예측 benign으로 예측한 경우(FN) 6개 -> 100%
# 즉, 실제 각 양성클래스 중에서 제대로 양성이라고 예측한 것의 비율이 높다(재현율이 높다)

# Precision
# 예측 클래스 0: 총 34개중 양성 클래스 0에 속한다고 예측한 것 중에서 실제 0인 경우(TP)가 34 -> 100%
# 예측 클래스 1: 총 80개중 양성 클래스 1에 속한다고 예측한 것 중에서 실제 1인 경우(TP)가 74 -> 93%
# 즉, 예측한 것 중에서 실제 양성으로 예측한 수의 비율이 높다(정확도가 높다)

# 결론
# Decisiion Tree 모델의 f1-score의 단순평균(Macro)과 가중평균(Weighted)는 0.94와 0.95로 정확도와 차이가 거의 없다.
# Accuracy도 괜찮고 F1-score도 괜찮다

array([[34,  6],
       [ 0, 74]])

In [75]:
# 6-5-3 classification_report 평가
print(classification_report(y_test, y_pred_logistic_model, target_names=target_names))

# 오차 행렬의 요약 버전
# 이미 위에서 설명했음

              precision    recall  f1-score   support

   malignant       1.00      0.85      0.92        40
      benign       0.93      1.00      0.96        74

    accuracy                           0.95       114
   macro avg       0.96      0.93      0.94       114
weighted avg       0.95      0.95      0.95       114



In [None]:
최종 결과 해석
# 어떤 모델이 가장 좋은 성능을 보이는가? 
# -> Random Forest 모델
# 모델 성능 평가 지표로 무엇으로 설정하겠는가?
# -> Random Forest 모델의 평가가 정확도가 높고 데이터셋의 각 클래스마다 데이터들이 balanced하다. 따라서 정확도만으로도 평가해도 좋지만 추가적으로 오차행렬을
#    진행했는데 그중에서 F1-Score 점수가 1.00으로 다른 모델에 비해 가장 높았으므로 최종 모델을 Random Forest으로 선정함
# -> 블로그나 유튜브에서는 이진 분류인 경우 로지스틱 회귀를 많이 사용한다고 했습니다. 여기서 모델 성능 평가를 해보니 Random Forest의 점수가 더 높에 나와서
#    Random Forest로 선정하였습니다
# sklearn.metrics에서 제공하는 평가지표 선정하고 선택한 이유?
# -> classification_report와 confusion_matrix을 선택했고, 그 이유는 오차행렬을 알면 정확도, 재현율, 정밀도, 가중조화평균, 단순평균, 가중평균을 구할 수 있기 때문

In [None]:
# 회고

'''
1. 이번 프로젝트에서 어려웠던 점
   이번 프로젝트도 앞의 버전과 거의 비슷했다. 다만, 해석하는 방법과 해석 이해도가 낮아서 제대로 해석했는지에 대한 확신이 없다
    
2. 프로젝트를 진행하면서 알아낸 점 혹은 아직 모호한 점
    해석에 대한 확신이 없음
    
3. 루브릭 평가 지표를 맞추기 위해 시도한 것들
   1) breast_cancer 데이터셋의 관련 메서드를 모두 출력해보고 속성과 타켓/클래스 이름 등 각각이 무엇을 의미하는지 확인해보았습니다.
      feature은 총 30개며 클래스는 malignant와 benign 총 2가지가 있었습니다
   2) 5가지 모델에 전부 학습 시키고 그 결과를 비교하여 최종 모델을 선정하였습니다
   3) 평가 지표 선택 이유와 그 근거를 위에 기술함
    
4. 만약에 루브릭 평가 관련 지표를 달성 하지 못했을 때, 이유에 관한 추정
    이번 평가에는 루브릭 평가가 없었음
    
5. 자기 다짐
    같은 내용이지만 해석을 하는 방법을 더 정확히 알아야겠다는 생각이 든다
    
'''