# 2-13. 프로젝트 (3) load_breast_cancer : 유방암 여부를 진단해 봅시다

유방암 여부를 진단하는 문제다. 유방암 여부를 True와 False 클래스로 구분할 것이다. 사이킷런 데이터셋에 내장된 이미지를 불러오고 sklearn.model_selection으로 데이터를 분류하여 다양한 모델을 만들어 성능을 확인한다.

## 1. 모듈 import

In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## 2. 데이터 준비

In [2]:
breast_cancer = load_breast_cancer()
breast_cancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

## 3. 데이터 이해하기

digits이라는 변수에 손글씨 데이터를 저장하고 몇 가지 정보가 있음을 확인하였다. 'data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename' 총 7개의 정보가 담겨있다.

In [3]:
breast_cancer_data = breast_cancer.data
breast_cancer_data.shape

(569, 30)

데이터의 크기를 확인해보니 총 569개의 데이터와 30개의 특성값을 갖고 있다.

In [4]:
breast_cancer_label = breast_cancer.target
print(breast_cancer_label.shape)

(569,)


digits 데이터의 target을 digits_label의 변수에 저장하였다. 형태를 확인하니 총 569개의 데이터가 들어있다.

In [5]:
breast_cancer.target_names

array(['malignant', 'benign'], dtype='<U9')

라벨의 이름을 확인해보니 'malignant', 'benign'로 이루어졌음을 알 수 있다.

In [6]:
print(breast_cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

유방암 진단 문제는 1995년에 Dr. William H. Wolberg으로부터 시작되었다. 특성의 수가 30개로 radius, texture, perimeter 등으로 이루어졌다.

## train, test 데이터 분리하기

In [7]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(breast_cancer_data, 
                                                    breast_cancer_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

print('X_train 개수: ', len(X_train), ', X_test 개수: ', len(X_test))

X_train 개수:  455 , X_test 개수:  114


sklearn.model_selection에 내장된 train_test_split을 이용하여 train, test 데이터를 분리하였다. test_size를 0.2로 두어 전체 데이터셋의 20%를 시험용 데이터, 나머지는 훈련 데이터로 사용하였다.

## 모델 학습

유방암 진단 문제는 예측값이 얼마나 정확한지 중요하다. 이미지 인식을 다루는 문제에서 검출율을 말하는 Recall과 정확도를 말하는 Precision으로 나뉠 수 있다. Recall은 물체들을 빠뜨리지 않고 얼마나 잘 잡아내는지를 나타내고, Precision은 검출된 결과가 얼마나 정확한지 즉 검출된 결과 중 실제 물체가 얼마나 포함되어 있는지를 나타낸다. 이 문제에서는 Recall 값을 확인하여 성능을 비교할 것이다.

In [8]:
from sklearn.tree import DecisionTreeClassifier
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
decision_tree_y_pred = decision_tree.predict(X_test)
print(classification_report(y_test, decision_tree_y_pred))

              precision    recall  f1-score   support

           0       0.92      0.82      0.87        40
           1       0.91      0.96      0.93        74

    accuracy                           0.91       114
   macro avg       0.91      0.89      0.90       114
weighted avg       0.91      0.91      0.91       114



Decision Tree model의 정확도는 0.91이다. Decision Tree는 결정경계가 데이터 축에 수직이어서 특정 데이터에만 작동하는 문제가 있다. 이를 극복하기 위해 제안된 모델이 Random Forest이므로 다음과 같이 학습하였다.

In [9]:
from sklearn.ensemble import RandomForestClassifier
random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
random_forest_y_pred = random_forest.predict(X_test)
print(classification_report(y_test, random_forest_y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        40
           1       1.00      1.00      1.00        74

    accuracy                           1.00       114
   macro avg       1.00      1.00      1.00       114
weighted avg       1.00      1.00      1.00       114



앞서 말한 Decision Tree의 단점을 극복한 모델인 Random forest model의 정확도는 1.00이다. Random Forest는 여러 개의 Decision Tree를 모아 놓아 예측 성능을 높일 수 있었다.

In [10]:
from sklearn import svm
svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
svm_y_pred = svm_model.predict(X_test)
print(classification_report(y_test, svm_y_pred))

              precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114



SVM model의 정확도는 0.92이다.

In [11]:
from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
sgd_y_pred = sgd_model.predict(X_test)
print(classification_report(y_test, sgd_y_pred))

              precision    recall  f1-score   support

           0       0.62      0.97      0.76        40
           1       0.98      0.68      0.80        74

    accuracy                           0.78       114
   macro avg       0.80      0.83      0.78       114
weighted avg       0.85      0.78      0.79       114



SGD model의 정확도는 0.87이다.

In [12]:
from sklearn.linear_model import LogisticRegression
logistic_model = LogisticRegression(max_iter = 3000)
logistic_model.fit(X_train, y_train)
logistic_y_pred = logistic_model.predict(X_test)
print(classification_report(y_test, logistic_y_pred))

              precision    recall  f1-score   support

           0       1.00      0.85      0.92        40
           1       0.93      1.00      0.96        74

    accuracy                           0.95       114
   macro avg       0.96      0.93      0.94       114
weighted avg       0.95      0.95      0.95       114



Logistic model의 정확도는 0.95이다. 다섯 개의 모델 중 두 번째로 높은 정확도를 보인다. 로지스틱 회귀는 회귀를 사용하여 데이터가 어떤 클래스에 속할 것인지 확률을 예측하여 그 확률에 따라 데이터를 분류한다.

## 모델 평가하기

In [13]:
from sklearn.metrics import recall_score
print('Decision Tree: {}'.format(recall_score(y_test, decision_tree_y_pred, average='weighted')))
print('Random Forest: {}'.format(recall_score(y_test, random_forest_y_pred, average='weighted')))
print('SVM: {}'.format(recall_score(y_test, svm_y_pred, average='weighted')))
print('SGD: {}'.format(recall_score(y_test, sgd_y_pred, average='weighted')))
print('Logistic Regression: {}'.format(recall_score(y_test, logistic_y_pred, average='weighted')))

Decision Tree: 0.9122807017543859
Random Forest: 1.0
SVM: 0.9035087719298246
SGD: 0.7807017543859649
Logistic Regression: 0.9473684210526315


유방암 여부를 진단하는 작업을 하였다. 이 문제는 손글씨 문제, 와인 분류 문제와는 유방암을 빠뜨리지 않고 찾는 것이 중요하기 때문에 Recall 값을 확인하였다. 분류 모델 중 Random Forest가 1.00로 가장 높은 값을 나타냈는데, 이는 Random Forest가 데이터의 특정한 feature를 분류하는데 우수한 성능을 가진다.

## 총평

scikit-learn을 통하여 내장된 다양한 분류 모델을 사용하여 데이터를 분류하였다. 유방암 여부 진단은 실제 환자를 대상으로 하였을때 양성을 음성으로 판단하면 큰 문제가 발생하므로 Recall이 중요한 값이다. Recall과 Precision 중 목적에 따라 성능지표로 모델을 평가할 수 있음을 배웠다. 다양한 모델을 적용하면 성능이 달라지고 유방암 진단 문제에서는 Random Forest가 뛰어난 성능을 보인다.