# E2.3 - 유방암 진단

### (1) 필요한 모듈 import하기

In [3]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import numpy as np 

### (2) 데이터 준비

In [4]:
breast_cancer = load_breast_cancer()

### (3) 데이터 이해하기

* Feature Data 지정하기
* Label Data 지정하기
* Target Names 출력해 보기
* 데이터 Describe 해 보기

In [5]:
# 데이터 이해하기 
print(dir(breast_cancer))

['DESCR', 'data', 'feature_names', 'filename', 'frame', 'target', 'target_names']


In [24]:
# target 이해하기  - target 이름은 malignant(악성) 와 benign(양성)이 있다. 
# target은 0 과 1로 되어있는데 아래 descr 에 따르면 악성이 212, 양성이 357개이다. 
# numpy로 0과 1의 갯수를 찾아본 결과, 0은 212개로 악성, 1은 357개로 양성인것으로 확인할 수 있다.  
print(breast_cancer.target_names)
np.unique(breast_cancer.target, return_counts=True)

['malignant' 'benign']


(array([0, 1]), array([212, 357]))

In [7]:
# breast cancer data description
# 데이터는 총 569개. attribute 은 30개. 
breast_cancer.DESCR



In [8]:
# data 지정 
breast_cancer_data = breast_cancer.data

In [9]:
# label 지정
breast_cancer_label = breast_cancer.target

In [10]:
print(breast_cancer.feature_names) # feature 종류

['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']


### (4) train, test 데이터 분리

In [11]:
# test size = 20% 
X_train, X_test, y_train, y_test = train_test_split(breast_cancer_data, breast_cancer_label, test_size=0.2, random_state=7)

### (5) 다양한 모델로 학습시켜보기

아래와 같은 모델 사용해 보기

* Decision Tree
* Random Forest
* SVM
* SGD Classifier
* Logistic Regression

### (5)(a) Decision Tree 

In [12]:
from sklearn.tree import DecisionTreeClassifier

# breast_cancer_dt 변수 만들어 주기 
breast_cancer_dt = DecisionTreeClassifier(random_state=32)

# model fitting
breast_cancer_dt.fit(X_train, y_train)

# y predict 만들어주기 
y_pred_dt = breast_cancer_dt.predict(X_test)


### (5)(b) Random Forest 

In [13]:
from sklearn.ensemble import RandomForestClassifier

# breast_cancer_rf 변수 만들어 주기 
breast_cancer_rf = RandomForestClassifier(random_state=32)

# model fitting
breast_cancer_rf.fit(X_train, y_train)

# y predict 만들어주기 
y_pred_rf = breast_cancer_rf.predict(X_test)


### (5)(c) SVM

In [14]:
from sklearn import svm

# breast_cancer_svm 변수 만들어 주기 
breast_cancer_svm = svm.SVC()

# model fitting
breast_cancer_svm.fit(X_train, y_train)

# y predict 만들어주기 
y_pred_svm = breast_cancer_svm.predict(X_test)

### (5)(d) SGD Classifier 

In [15]:
from sklearn.linear_model import SGDClassifier

# wine_sgd 변수 만들어 주기 
breast_cancer_sgd = SGDClassifier()

# model fitting
breast_cancer_sgd.fit(X_train, y_train)

# y predict 만들어주기 
y_pred_sgd = breast_cancer_sgd.predict(X_test)

### (5)(e) Logistic Regression

In [16]:
from sklearn.linear_model import LogisticRegression

# wine lr 변수 만들어 주기 
breast_cancer_lr = LogisticRegression(max_iter=5000) 

# model fitting
breast_cancer_lr.fit(X_train, y_train)

# y predict 만들어주기 
y_pred_lr = breast_cancer_lr.predict(X_test)

### (6) 모델 평가해 보기 

1. 유방암진단은 앞의 두개의 예재와는(손글씨 분류와 와인분류) 조금 다른 특성이 있다.    
환자의 유방암이 악성종양(label=0) 일때 양성종양(label=1)이라고 진단하면 환자에게는 큰 타격이 될 수 있다.    
그러므로, 모델을 평가할 때 이 점을 유념하고 종합적인 accuracy score 뿐만 아니라 악성종양(label=0)의 recall 값이 큰 모델을 선택해야 한다.
2. recall 은 TP/(TP + FN)로 계산된다. 여기서 TP는 target의 결과가 0 (악성종양)일때 모델이 결과를 0으로 맞게 추측할 경우이며 FN은 실제 결과가 0(악성종양)임에도 모델은 1(양성종양)로 추측할 경우이다. 그러므로, 0(악성종양)의 recall 값이 높다는 것은 FN이 작고 TP이 크다는 의미이다. 곧, 모델이 악성종양을 실제로 정확히 예측하고 양성종양으로 판단하는 오진률이 낮다는 의미이다. 따라서, 우리는 모델을 평가할때 0의 recall 값이 높은 모델을 찾아야 한다. 
3. accuracy_score과 recall_score를 사용했고 결과는 아래와 같다.   

Model|recall_score|accuracy_score
----|:----:|:----:
Decision Tree|0.83| 0.91
Random Forest|1.0| 1.0
SVM|0.73|0.9
SGD|0.95|0.81
Logistic Regression|0.85|0.95

4. **결론: Random Forest가 정확도, recall 점수가 앞도적으로 높으므로, 유방암 진단에 가장 적합한 모델인것 같다.** 

In [29]:
# 필요한 모듈 설치
from sklearn.metrics import recall_score 
from sklearn.metrics import accuracy_score 

In [30]:
# (5)(a) Decision Tree 
print("Decision Tree: ")
print(recall_score(y_test, y_pred_dt, pos_label=0))
print(accuracy_score(y_test, y_pred_dt))

Decision Tree: 
0.825
0.9122807017543859


In [31]:
# (5)(b) Random Forest 
print("Random Forest: ")
print(recall_score(y_test, y_pred_rf, pos_label=0))
print(accuracy_score(y_test, y_pred_rf))

Random Forest: 
1.0
1.0


In [32]:
# (5)(c) SVM
print("SVM: ")
print(recall_score(y_test, y_pred_svm, pos_label=0))
print(accuracy_score(y_test, y_pred_svm))

SVM: 
0.725
0.9035087719298246


In [33]:
# (5)(d) SGD 
print("SGD: ")
print(recall_score(y_test, y_pred_sgd, pos_label=0))
print(accuracy_score(y_test, y_pred_sgd))

SGD: 
0.95
0.8070175438596491


In [34]:
# (5)(e) Logistic Regression 
print("Logistic Regression: ")
print(recall_score(y_test, y_pred_lr, pos_label=0))
print(accuracy_score(y_test, y_pred_lr))

Logistic Regression: 
0.85
0.9473684210526315
