#  유방암 분류기 만들기
## (Breast Cancer Classifier)

In [10]:
# 필요한 모듈 import하기
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 데이터준비
BrCancer = load_breast_cancer()

In [11]:
# 불러온 dataset 정보 확인
BrCancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

In [12]:
# 데이터 이해하기

# Feature Data 지정하기
BrCancer_data = BrCancer.data
# Label Data 지정하기
BrCancer_label = BrCancer.target

# Data의 크기 확인
print(BrCancer_data.shape)
BrCancer_data[0]

(569, 30)


array([1.799e+01, 1.038e+01, 1.228e+02, 1.001e+03, 1.184e-01, 2.776e-01,
       3.001e-01, 1.471e-01, 2.419e-01, 7.871e-02, 1.095e+00, 9.053e-01,
       8.589e+00, 1.534e+02, 6.399e-03, 4.904e-02, 5.373e-02, 1.587e-02,
       3.003e-02, 6.193e-03, 2.538e+01, 1.733e+01, 1.846e+02, 2.019e+03,
       1.622e-01, 6.656e-01, 7.119e-01, 2.654e-01, 4.601e-01, 1.189e-01])

In [13]:
# Target Names 출력해보기
BrCancer.target_names

array(['malignant', 'benign'], dtype='<U9')

In [14]:
# 데이터 Describe 해 보기
print(BrCancer.DESCR)
# **Data Set Characteristics:**

#     :Number of Instances: 569
#     =>(데이터의 총 갯수)
#     :Number of Attributes: 30 numeric, predictive attributes and the class
#     =>(feature의 갯수 : 30)
#     :Attribute Information:
#         - radius (mean of distances from center to points on the perimeter)
#         - texture (standard deviation of gray-scale values)
#         - perimeter
#         - area
#         - smoothness (local variation in radius lengths)
#         - compactness (perimeter^2 / area - 1.0)
#         - concavity (severity of concave portions of the contour)
#         - concave points (number of concave portions of the contour)
#         - symmetry
#         - fractal dimension ("coastline approximation" - 1)

#         The mean, standard error, and "worst" or largest (mean of the three
#         worst/largest values) of these features were computed for each image,
#         resulting in 30 features.  For instance, field 0 is Mean Radius, field
#         10 is Radius SE, field 20 is Worst Radius.

#         - class:
#                 - WDBC-Malignant
#                 - WDBC-Benign
#         => 악성 혹은 양성(2개의 label)

#         Features are computed from a digitized image of a fine needle aspirate (FNA) of a breast mass.
#         They describe characteristics of the cell nuclei present in the image.
#         => 형상은 유방 질량의 미세한 Needle Aspirate(FNA)의 디지털 영상에서 계산된다.
#         => 그것들은 이미지에 존재하는 세포핵의 특성을 설명한다.


.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

In [15]:
# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(BrCancer_data, 
                                                    BrCancer_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

In [16]:
# DecisionTree
from sklearn.tree import DecisionTreeClassifier
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))
# accuracy : 91% 정흭도
# 최저 정밀도(precision) : 0.91
# 최저 검출율(recall) : 0.82

              precision    recall  f1-score   support

           0       0.92      0.82      0.87        40
           1       0.91      0.96      0.93        74

    accuracy                           0.91       114
   macro avg       0.91      0.89      0.90       114
weighted avg       0.91      0.91      0.91       114



In [17]:
# RandomTreeClassifier
from sklearn.ensemble import RandomForestClassifier
random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
random_y_pred = random_forest.predict(X_test)

print(classification_report(y_test, random_y_pred))
# accuracy : 100% 정흭도
# 최저 정밀도(precision) : 1.00
# 최저 검출율(recall) : 1.00

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        40
           1       1.00      1.00      1.00        74

    accuracy                           1.00       114
   macro avg       1.00      1.00      1.00       114
weighted avg       1.00      1.00      1.00       114



In [18]:
# SVM
from sklearn import svm
SVM_model =svm.SVC()
SVM_model.fit(X_train, y_train)
SVM_y_pred = SVM_model.predict(X_test)

print(classification_report(y_test, SVM_y_pred))
# accuracy : 90% 정흭도
# 최저 정밀도(precision) : 0.87
# 최저 검출율(recall) : 0.72

              precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114



In [19]:
# SGD Classifier
from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
sgd_y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, sgd_y_pred))
# accuracy : 90% 정확도
# 최저 정밀도(precision) : 0.86
# 최저 검출율(recall) : 0.70

              precision    recall  f1-score   support

           0       0.70      0.95      0.81        40
           1       0.97      0.78      0.87        74

    accuracy                           0.84       114
   macro avg       0.84      0.87      0.84       114
weighted avg       0.87      0.84      0.85       114



In [20]:
# Logistic Regression
from sklearn.linear_model import LogisticRegression
# 오류발생으로 인한 오류해결 필요
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
# 데이터를 스케일링함.=> 추가공부 필요
logistic_model = make_pipeline(StandardScaler(),LogisticRegression())
logistic_model.fit(X_train, y_train)
logistic_y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, logistic_y_pred))
# accuracy : 98% 정확도
# 최저 정밀도(precision) : 0.97
# 최저 검출율(recall) : 0.95

              precision    recall  f1-score   support

           0       1.00      0.95      0.97        40
           1       0.97      1.00      0.99        74

    accuracy                           0.98       114
   macro avg       0.99      0.97      0.98       114
weighted avg       0.98      0.98      0.98       114



'''
### 모델비교 결과
***
> ***DecisionTree***  
> **accuracy : 0.91 // min_precision : 0.91 // min_recall : 0.82**  
>
> ***RandomTreeClassifier***  
> **accuracy : 1.00 // min_precision : 1.00 // min_recall : 1.00**  
> 
> ***SVM***  
> **accuracy : 0.90 // min_precision : 0.87 // min_recall : 0.72** 
>
> ***SGD Classifier***  
> **accuracy : 0.90 // min_precision : 0.86 // min_recall : 0.70**  
>
> ***Logistic Regression***  
> **accuracy : 0.98 // min_precision : 0.97 // min_recall : 0.95**  
***

***유방암을 분류하는 것은 정밀도가 다소 떨어지더라도 case를 전부 잡아내는 것이 중요하다.  
그러므로 중요하게 여겨지는 `평가지표는 Recall(검출율)`이다.  
총 5가지의 모델을 적용하여 확인한 결과, `RandomTreeClassifier`가 가장 높은 검출율을 가진 모델로 확인되었다.  
그러나 1.00이라는 값을 온전히 신뢰하기에는 석연찮다.
따라서 추가적인 검증을 하거나 다음으로 제일 높은 검출율을 가진 `Logistic Regression`을 선택하는 것이 적절하다고 판단된다.***

***

### 회고록(21.01.11)

**이번에 했던 분류기는 생각보다 어렵게 느껴지지 않았다.  
가위바위보 분류기보다 손을 봐야하는 변수들이 적어서 그렇지 않았나 생각해본다.  
그래도 덕분에 가위바위보 분류기를 만들면서 맞은 명치가 조금 덜 아픈것 같다.  
Digit, Wine, Breast_cancer 각각의 분류기를 만들기위해 위와같이 
여러가지 모델들을 사용하였다.  
분류하려는 데이터에 따라서 중요하게 생각해야하는 평가지표를 결정하는 것은 생각보다 무겁게 다가왔다.  
내가 중요하게 생각한 평가지표에 따라 내가 만든 모델이 좋은 모델이 될 수도,  
의미없는 모델이 될 수도 있다고 생각하니 데이터에 관해 고민을 좀 더 많이 해봐야겠다는 생각이 들었다.  
재밌는 점은 wine분류기 모델을 만들때 SVM, SGD 와 같이 선형분류하는 모델친구들은 정확도, 정밀도, 검출율이 모두 낮게 나왔다는 것이다.  
명확하게 왜 차이가 나고 하는것은 아직은 잘 모르겠지만, 개인적으로는 데이터의 분포가 비선형에 가깝게 분포되지 않았을까 생각해본다.**  

