# 2-13. 프로젝트 (3) load_breast_cancer : 유방암 여부를 진단해 봅시다

### (1) 필요한 모듈 import하기

In [52]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score, recall_score

### (2) 데이터 준비

In [53]:
# digits 에 데이터를 할당
breast_cancer = load_breast_cancer()
breast_cancer_data = breast_cancer.data

# breast_cancer.data.shape 와 breast_cancer.keys()를 통해 digits의 데이터를 확인
print(breast_cancer_data.shape)
print(breast_cancer.keys())

(569, 30)
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


### (3) 데이터 이해하기

In [54]:
# Feature Data 지정하기
breast_cancer.feature_names

# Label Data 지정하기
breast_cancer_label = breast_cancer.target
print(breast_cancer_label.shape)

# Target Names 출력해 보기
print(breast_cancer.target_names)

# 데이터 Describe 해 보기
print(breast_cancer.DESCR)

(569,)
['malignant' 'benign']
.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For 

### (4) train, test 데이터 분리

In [55]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(breast_cancer_data,
                                                    breast_cancer_label,
                                                    test_size=0.2,
                                                    random_state=31)

print('X_train 개수: ', len(X_train), ', X_test 개수: ', len(X_test))

X_train 개수:  455 , X_test 개수:  114


### (5) 다양한 모델로 학습시켜보기

###    - 각 모델들의 accuracy,  recall 비교를 위해 딕셔너리를 생성

In [56]:
accuracy = {}
recall = {}

#### Case 1. Decision Tree 사용해 보기 

In [57]:
# 모듈 import
from sklearn.tree import DecisionTreeClassifier

# 데이터 준비
breast_cancer = load_breast_cancer()
breast_cancer_data = breast_cancer.data
breast_cancer_label = breast_cancer.target

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(breast_cancer_data, 
                                                    breast_cancer_label, 
                                                    test_size=0.2, 
                                                    random_state=31)

# Decision Tree 모델 학습 및 예측
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

# 학습 결과 체크
accuracy['Decision Tree'] = accuracy_score(y_test, y_pred)
recall['Decision Tree'] = recall_score(y_test, y_pred)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.93      0.89      0.91        47
           1       0.93      0.96      0.94        67

    accuracy                           0.93       114
   macro avg       0.93      0.92      0.93       114
weighted avg       0.93      0.93      0.93       114



#### Case 2. Random Forest 사용해 보기

In [58]:
# 모듈 import
from sklearn.ensemble import RandomForestClassifier

# 데이터 준비
breast_cancer = load_breast_cancer()
breast_cancer_data = breast_cancer.data
breast_cancer_label = breast_cancer.target

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(breast_cancer_data, 
                                                    breast_cancer_label, 
                                                    test_size=0.2, 
                                                    random_state=12)

# Random Forest 모델 학습 및 예측
random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

# 학습 결과 체크
accuracy['Random Forest'] = accuracy_score(y_test, y_pred)
recall['Random Forest'] = recall_score(y_test, y_pred)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.98      0.85      0.91        48
           1       0.90      0.98      0.94        66

    accuracy                           0.93       114
   macro avg       0.94      0.92      0.93       114
weighted avg       0.93      0.93      0.93       114



#### Case 3. SVM 사용해 보기

In [59]:
# 모듈 import
from sklearn import svm
svm_model = svm.SVC()

# 데이터 준비
breast_cancer = load_breast_cancer()
breast_cancer_data = breast_cancer.data
breast_cancer_label = breast_cancer.target

# SVM 모델 학습 및 예측
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

# 학습 결과 체크
accuracy['SVM'] = accuracy_score(y_test, y_pred)
recall['SVM'] = recall_score(y_test, y_pred)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.73      0.84        48
           1       0.84      1.00      0.91        66

    accuracy                           0.89       114
   macro avg       0.92      0.86      0.88       114
weighted avg       0.90      0.89      0.88       114



#### Case 4. SGD Classifier 사용해 보기

In [60]:
# 모듈 import
from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()

# 데이터 준비
breast_cancer = load_breast_cancer()
breast_cancer_data = breast_cancer.data
breast_cancer_label = breast_cancer.target

# SGD Classifier 모델 학습 및 예측
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

# 학습 결과 체크
accuracy['SGD Classifier'] = accuracy_score(y_test, y_pred)
recall['SGD Classifier'] = recall_score(y_test, y_pred)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.93      0.77      0.84        48
           1       0.85      0.95      0.90        66

    accuracy                           0.88       114
   macro avg       0.89      0.86      0.87       114
weighted avg       0.88      0.88      0.88       114



#### Case 5. Logistic Regression 사용해 보기

In [61]:
# 모듈 import
from sklearn.linear_model import LogisticRegression
logistic_model = LogisticRegression()

# 데이터 준비
breast_cancer = load_breast_cancer()
breast_cancer_data = breast_cancer.data
breast_cancer_label = breast_cancer.target

# Logistic Regression 모델 학습 및 예측
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

# 학습 결과 체크
accuracy['Logistic Regression'] = accuracy_score(y_test, y_pred)
recall['Logistic Regression'] = recall_score(y_test, y_pred)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.85      0.92        48
           1       0.90      1.00      0.95        66

    accuracy                           0.94       114
   macro avg       0.95      0.93      0.94       114
weighted avg       0.94      0.94      0.94       114



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


### (6) 모델을 평가해 보기

#### accuracy(정확도) 체크

In [62]:
for keys, values in accuracy.items():
    print(keys,":", values)

Decision Tree : 0.9298245614035088
Random Forest : 0.9298245614035088
SVM : 0.8859649122807017
SGD Classifier : 0.8771929824561403
Logistic Regression : 0.9385964912280702


#### recall (재현율) 체크

In [63]:
for keys, values in recall.items():
    print(keys,":", values)

Decision Tree : 0.9552238805970149
Random Forest : 0.9848484848484849
SVM : 1.0
SGD Classifier : 0.9545454545454546
Logistic Regression : 1.0


위에서 총 5가지의 다양한 모델로 학습 시키고 그 결과를 종합 시켜 본 결과

Logistic Regression 로 하였을 때, accuracy가 약 0.938596 으로 가장 높게 나왔다는 것을 확인할 수 있었습니다.

하지만, 모델의 성능을 평가함에 있어서 accuracy, 양성 / 음성 데이터에 대한 오답 여부와

문제에 따라 고려해야하는 사항 및 경우에 따른 오차 행렬 성능 지표를 확인 해야합니다.

또한, 해당 데이터가 유방암에 대한 데이터를 다루고 있으므로 accuracy와 더불어 recall값을 고려해야합니다.

왜냐하면, 암을 진단하는 경우 실제 환자를 한 명이라도 놓치면 안되기 때문에

양성을 음성으로 판단하는 경우 큰 문제가 발생할 수 있습니다.

그러므로 해당 데이터의 경우 recall 값을 반드시 고려하여 모델을 선택해야합니다.

그렇기 때문에, 유방암 데이터를 데이터를 활용하여 모델을 선정할 때에는

가장 높은 accuracy (93.86%)와 가장 높은 recall (100%) 값을 보여준 Logistic Regression 모델을

사용하는 것이 해당 케이스에는 조금 더 적합할 것이라고 생각합니다..