<a href="https://colab.research.google.com/github/EUNSOLLEE-aiffel/first-repository/blob/master/24_12_18_6_3_%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8_(3)_load_breast_cancer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [102]:
# (1) 필요한 모듈 import하기
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

In [103]:
# (2) 데이터 준비
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
print(cancer.keys())

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [104]:
# (3) 데이터 이해하기

# Feature Data 지정하기
cancer_data = cancer.data
print("Feature Data Shape:", cancer_data.shape)

# Label Data 지정하기
cancer_labels = cancer.target
print("Label Data Shape:", cancer_labels.shape)

# Target Names 출력해 보기
target_names = cancer.target_names
print("Target Names:", target_names)

# 데이터 Describe 해 보기
print(cancer.DESCR)

Feature Data Shape: (569, 30)
Label Data Shape: (569,)
Target Names: ['malignant' 'benign']
.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

:Number of Instances: 569

:Number of Attributes: 30 numeric, predictive attributes and the class

:Attribute Information:
    - radius (mean of distances from center to points on the perimeter)
    - texture (standard deviation of gray-scale values)
    - perimeter
    - area
    - smoothness (local variation in radius lengths)
    - compactness (perimeter^2 / area - 1.0)
    - concavity (severity of concave portions of the contour)
    - concave points (number of concave portions of the contour)
    - symmetry
    - fractal dimension ("coastline approximation" - 1)

    The mean, standard error, and "worst" or largest (mean of the three
    worst/largest values) of these features were computed for each image,
    resulting in 30 features.  For in

In [105]:
# (4) train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(cancer_data,
                                                    cancer_labels,
                                                    test_size=0.2,
                                                    random_state=7)

In [106]:
# (5) 다양한 모델로 학습시켜보기

# Decision Tree 사용해 보기
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=32) # 객체 생성
decision_tree.fit(X_train, y_train) # 훈련
y_pred = decision_tree.predict(X_test) # 예측


# (6) 모델을 평가해 보기

print('[ Decision Tree 결과 지표 ]')
print()

# 혼동 행렬 (confusion_matrix)
from sklearn.metrics import confusion_matrix
matrix=confusion_matrix(y_test, y_pred)
print("** confusion_matrix:\n",matrix)
# 33개 : 실제 0인 데이터를 모델이 0으로 예측
# 7개 : 실제 0인 데이터를 모델이 1로 예측
# 3개 : 실제 1인 데이터를 모델이 1로 예측
# 71개 : 실제 1인 데이터를 모델이 0으로 예측
# 즉, 이 모델은 10개의 데이터를 잘못 예측함
print()

# 정확도 (Accuracy)
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)
print("** Accuracy:\n", accuracy)
# 정확도 : 91%
print()

# 정밀도 (Precision), 재현율 (Recall), F1-Score
print("** Precision, Recall, F1-Score:\n",classification_report(y_test, y_pred))
# "0"의 정밀도, 재현율, F1-Score : 92%, 82%, 87%

[ Decision Tree 결과 지표 ]

** confusion_matrix:
 [[33  7]
 [ 3 71]]

** Accuracy:
 0.9122807017543859

** Precision, Recall, F1-Score:
               precision    recall  f1-score   support

           0       0.92      0.82      0.87        40
           1       0.91      0.96      0.93        74

    accuracy                           0.91       114
   macro avg       0.91      0.89      0.90       114
weighted avg       0.91      0.91      0.91       114



In [107]:
# Random Forest 사용해 보기
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32) # 객체 생성
random_forest.fit(X_train, y_train) # 훈련
y_pred = random_forest.predict(X_test) # 예측


# (6) 모델을 평가해 보기

print('[ Random Forest 결과 지표 ]')
print()

# 혼동 행렬 (confusion_matrix)
from sklearn.metrics import confusion_matrix
matrix=confusion_matrix(y_test, y_pred)
print("** confusion_matrix:\n",matrix)
# 이 모델은 잘못 예측한 데이터가 없음
print()

# 정확도 (Accuracy)
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)
print("** Accuracy:\n", accuracy)
# 정확도 : 100%
print()

# 정밀도 (Precision), 재현율 (Recall), F1-Score
print("** Precision, Recall, F1-Score:\n",classification_report(y_test, y_pred))
# "0"의 정밀도, 재현율, F1-Score : 100%, 100%, 100%

[ Random Forest 결과 지표 ]

** confusion_matrix:
 [[40  0]
 [ 0 74]]

** Accuracy:
 1.0

** Precision, Recall, F1-Score:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        40
           1       1.00      1.00      1.00        74

    accuracy                           1.00       114
   macro avg       1.00      1.00      1.00       114
weighted avg       1.00      1.00      1.00       114



In [108]:
# SVM 사용해 보기
from sklearn import svm

svm_model = svm.SVC() # 객체 생성
svm_model.fit(X_train, y_train) # 훈련
y_pred = svm_model.predict(X_test) # 예측


# (6) 모델을 평가해 보기

print('[ SVM 결과 지표 ]')
print()

# 혼동 행렬 (confusion_matrix)
from sklearn.metrics import confusion_matrix
matrix=confusion_matrix(y_test, y_pred)
print("** confusion_matrix:\n",matrix)
# 이 모델은 11개의 데이터를 잘못 예측함
print()

# 정확도 (Accuracy)
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)
print("** Accuracy:\n", accuracy)
# 정확도 : 90%
print()

# 정밀도 (Precision), 재현율 (Recall), F1-Score
print("** Precision, Recall, F1-Score:\n",classification_report(y_test, y_pred))
# "0"의 정밀도, 재현율, F1-Score : 100%, 72%, 84%

[ SVM 결과 지표 ]

** confusion_matrix:
 [[29 11]
 [ 0 74]]

** Accuracy:
 0.9035087719298246

** Precision, Recall, F1-Score:
               precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114



In [109]:
# SGD Classifier 사용해 보기
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier() # 객체 생성
sgd_model.fit(X_train, y_train) # 훈련
y_pred = sgd_model.predict(X_test) # 예측


# (6) 모델을 평가해 보기

print('[ SGD Classifier 결과 지표 ]')
print()

# 혼동 행렬 (confusion_matrix)
from sklearn.metrics import confusion_matrix
matrix=confusion_matrix(y_test, y_pred)
print("** confusion_matrix:\n",matrix)
# 이 모델은 13개의 데이터를 잘못 예측함
print()

# 정확도 (Accuracy)
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)
print("** Accuracy:\n", accuracy)
# 정확도 : 89%
print()

# 정밀도 (Precision), 재현율 (Recall), F1-Score
print("** Precision, Recall, F1-Score:\n",classification_report(y_test, y_pred))
# "0"의 정밀도, 재현율, F1-Score : 85%, 82%, 84%

#???

[ SGD Classifier 결과 지표 ]

** confusion_matrix:
 [[33  7]
 [ 6 68]]

** Accuracy:
 0.8859649122807017

** Precision, Recall, F1-Score:
               precision    recall  f1-score   support

           0       0.85      0.82      0.84        40
           1       0.91      0.92      0.91        74

    accuracy                           0.89       114
   macro avg       0.88      0.87      0.87       114
weighted avg       0.89      0.89      0.89       114



In [110]:
# Logistic Regression 사용해 보기
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression(solver='liblinear',max_iter=500) # 객체 생성
logistic_model.fit(X_train, y_train) # 훈련
y_pred = logistic_model.predict(X_test) # 예측


# (6) 모델을 평가해 보기

print('[ Logistic Regression 결과 지표 ]')
print()

# 혼동 행렬 (confusion_matrix)
from sklearn.metrics import confusion_matrix
matrix=confusion_matrix(y_test, y_pred)
print("** confusion_matrix:\n",matrix)
# 이 모델은 6개의 데이터를 잘못 예측함
print()

# 정확도 (Accuracy)
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)
print("** Accuracy:\n", accuracy)
# 정확도 : 95%
print()

# 정밀도 (Precision), 재현율 (Recall), F1-Score
print("** Precision, Recall, F1-Score:\n",classification_report(y_test, y_pred))
# "0"의 정밀도, 재현율, F1-Score : 100%, 85%, 92%

[ Logistic Regression 결과 지표 ]

** confusion_matrix:
 [[34  6]
 [ 0 74]]

** Accuracy:
 0.9473684210526315

** Precision, Recall, F1-Score:
               precision    recall  f1-score   support

           0       1.00      0.85      0.92        40
           1       0.93      1.00      0.96        74

    accuracy                           0.95       114
   macro avg       0.96      0.93      0.94       114
weighted avg       0.95      0.95      0.95       114



# (6) 모델을 평가해 보기
1. 학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요?
```
상기 코드란에 주석으로 작성하였습니다.
```
2. 모델의 성능을 평가하는 지표로는 무엇이 좋을까요? sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요.
선택하신 이유도 설명해 주세요.
```
모델의 성능을 평가하는 가장 적절한 평가지표는 **재현율(Recall)** 입니다.
유방암 진단에서는 **양성(1)**, 즉 "유방암이 있다는 결과"를 놓치는 것이 매우 위험합니다.
환자의 생명에 심각한 영향을 미칠 수 있기 때문에, **암이 있는 환자(양성)**를 놓치지 않는 것, 즉 재현율(Recall)을 우선적으로 고려하여야 합니다.
```