# 프로젝트 (3) load_breast_cancer : 유방암 여부를 진단해 봅시다

## 1. 필요한 모듈 import하기

In [3]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## 2. 데이터 준비
* load_breast_cancer 메서드를 사용합니다.   
  - sklearn의 datasets 패키지 안에 있는 load_breast_cancer 메서드 사용하여 breast_cancer에 데이터를 로딩

In [4]:
breast_cancer = load_breast_cancer()

# breast_cancer에는 어떤 정보들이 담겼는지, keys()라는 메서드로 확인 
breast_cancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

## 3. 데이터 이해하기
지피지기면 백전불태! 다루어야 할 데이터를 자세히 살펴봅시다.

- Feature Data 지정하기
- Label Data 지정하기
- Target Names 출력해 보기
- 데이터 Describe 해 보기

### 3-1. Feature Data 지정하기

In [5]:
# 유방암 데이터는 breast_cancer_data 변수에 저장
breast_cancer_data = breast_cancer.data

# 데이터의 크기는 shape 속성에서 확인
print(breast_cancer_data.shape)

(569, 30)


### 3-2. Label Data 지정하기

In [6]:
# 머신러닝 모델이 출력해야 하는 정답은 라벨(label), 또는 타겟(target)
# 유방암 데이터에서 타겟 정보는 target 속성에서 확인
breast_cancer_label = breast_cancer.target

print(breast_cancer_label.shape)
breast_cancer_label

(569,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0,

### 3-3. Target Names 출력해 보기

In [7]:
# 라벨의 이름은 target_names 속성에서 확인
breast_cancer.target_names

array(['malignant', 'benign'], dtype='<U9')

### 3-4. 데이터 Describe 해 보기

In [8]:
# 데이터셋의 설명은 DESCR 속성에서 확인
print(breast_cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

## 4. train, test 데이터 분리
모델 학습과 테스트용 문제지와 정답지를 준비해 봅시다.   
X_train, X_test, y_train, y_test를 생성하는 방법을 참고해 보세요.

In [9]:
# sklearn.model_selection 패키지의 train_test_split 메서드를 활용하여, train dataset과 test dataset을 분리
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(breast_cancer_data, 
                                                    breast_cancer_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

In [10]:
# 분리된 train dataset과 test dataset의 데이터 갯수 확인
print('x_train 개수: ', len(x_train), ', x_test 개수: ', len(x_test))

x_train 개수:  455 , x_test 개수:  114


In [11]:
# train, test 데이터의 형태 확인
print(x_train.shape, y_train.shape)
print(x_test.shape, y_test.shape)

(455, 30) (455,)
(114, 30) (114,)


In [12]:
# y_train, y_test에서 5개만 확인
y_train[:5], y_test[:5]

(array([0, 1, 1, 1, 1]), array([1, 0, 1, 1, 1]))

## 5. 다양한 모델로 학습시켜보기
학습데이터 X_train, y_train 을 활용해 분류기 모델을 만들어 봅시다. 어떤 모델이 가장 좋은 성능을 보일까요?

- Decision Tree 사용해 보기
- Random Forest 사용해 보기
- SVM 사용해 보기
- SGD Classifier 사용해 보기
- Logistic Regression 사용해 보기

### 5-1. Decision Tree 사용해 보기

In [13]:
from sklearn.tree import DecisionTreeClassifier

# 객체 생성
decision_tree = DecisionTreeClassifier(random_state=32)
# 학습
decision_tree.fit(x_train, y_train)
# 예측
y_pred = decision_tree.predict(x_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.92      0.82      0.87        40
           1       0.91      0.96      0.93        74

    accuracy                           0.91       114
   macro avg       0.91      0.89      0.90       114
weighted avg       0.91      0.91      0.91       114



In [14]:
from sklearn.metrics import accuracy_score

# 정확도
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9122807017543859

### 5-2. Random Forest 사용해 보기

In [15]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(x_train, y_train)
y_pred = random_forest.predict(x_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        40
           1       1.00      1.00      1.00        74

    accuracy                           1.00       114
   macro avg       1.00      1.00      1.00       114
weighted avg       1.00      1.00      1.00       114



### 5-3. SVM 사용해 보기

In [16]:
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(x_train, y_train)
y_pred = svm_model.predict(x_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114



### 5-4. SGD Classifier 사용해 보기

In [17]:
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(x_train, y_train)
y_pred = sgd_model.predict(x_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.56      1.00      0.72        40
           1       1.00      0.58      0.74        74

    accuracy                           0.73       114
   macro avg       0.78      0.79      0.73       114
weighted avg       0.85      0.73      0.73       114



### 5-5. Logistic Regression 사용해 보기

In [18]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()
logistic_model.fit(x_train, y_train)
y_pred = logistic_model.predict(x_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.85      0.92        40
           1       0.93      1.00      0.96        74

    accuracy                           0.95       114
   macro avg       0.96      0.93      0.94       114
weighted avg       0.95      0.95      0.95       114



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


## 6. 모델을 평가해 보기
학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요? 모델의 성능을 평가하는 지표로는 무엇이 좋을까요?    
sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요. 선택하신 이유도 설명해 주세요.

#### sklearn.metrics의 classification_report 메서드에서 제공하는 평가지표 :
  * (1) 매크로 평균(macro average : 레이블 당 비가중 평균의 평균) 
  * (2) 가중 평균(weighted average : 레이블 당 지지-가중치 평균의 평균)   
  * (3) 정확도(accuracy : 전체 샘플 개수와 정확하게 예측한 샘플 개수의 비율 )
  * (4) 정밀도(precision : 양성으로 예측된 샘플 전체 개수와 실제 양성인 샘플 개수의 비율)
  * (5) 재현율(recall, sensitivity : 실제 양성 샘플 전체 개수와 양성으로 예측된 샘플 개수의 비율)
  * (6) F1 점수(F1 score : 재현율과 정밀도의 가중 평균)


#### 평가지표 중에서 정밀도, 재현율,  F1 점수가 큰 것을 선택하는 것이 좋다.
  * 정밀도를 높이려면 거짓 양성(음성인데 양성으로 판단하는 경우)가 적어야함
  * 재현율을 높이려면 거짓 음성(양성인데 음성으로 판단하는 경우)가 적어야함
  * F1 점수는 정밀도와 재현율 사이의 균형을 추구할 때 선택하면 좋음

#### 평가지표 중에서 정밀도 선택한 이유 :
- 유방암을 맞추는 경우에는 유방암 환자를 정상이라고 판단하는 것은 문제지만 정상인 사람을 유방암 환자라고 오진하는 것은 큰 문제가 아니다. 
- 거짓 음성, 즉, 양성(유방암 환자)을 음성(정상)으로 판단하면 않되기 때문에 평가지표 중에서 재현율이 높은 것을 선택하는 것이 좋다.
- RandomForestClassifier 사용한 경우에 정밀도, 재현율,  F1 점수가 1.0로 가장 높게 나왔기 때문에 이 모델을 학습모델로 사용한다.
- RandomForestClassifier와 svm, DecisionTreeClassifier, LogisticRegression 등을 앙상블로 사용하는 것도 좋을 것이다. 
