# 데이터 준비

# 유방암 분류
## 환자에게 있어 가장 중요한 것은 Recall 값이다.
### 환자인데 환자가 아니라고 인식되는 것이 가장 위험하기 때문

    - 정확도(Accuracy) : 전체 예측 중 정답을 맞춘 비율
    - 재현율(Recall) : 실제 정답 중 정답으로 예측된 비율
    - 정밀도(Precision) : 예측 중에서 실제 정답인 비율
    - F1 score : 재현율과 정밀도의 조화평균 (재현율*정밀도 / 재현율+정밀도)
     0 - positive (병이 있다고 진단)
     1 - negative (병이 없다고 진단)

In [14]:
# 모듈설치 
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

In [15]:
# 데이터 준비
cancer = load_breast_cancer()
print(type(dir(cancer))) # 유형 확인

<class 'list'>


In [16]:
cancer.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

- cancer_data에 저장된 데이터 양과 형식을 확인
- 569개의 wine 데이터가 저장되어 있음을 확인
- feature는 총 30개

In [17]:
# 데이터 이해하기 

# Feature Data 지정하기
# Label Data 지정하기
# Target Names 출력해 보기
# 데이터 Describe 해 보기

cancer_data = cancer.data
print(cancer_data.shape) # 1797개 데이터, 8x8=64의 픽셀값

cancer_label = cancer.target # 1797개 데이터에 대한 정답
print(cancer_label.shape) # 정답이니까 당연히 하나

print(cancer.target_names) # 정답값으로 어떤 것들이 있는지에 대한 탐색
print(cancer_label[:])

print()
print("요기서부터는 데이터 요약 정리 내용입니다.")

print(cancer.DESCR) # 데이터 간단요약정리!

## 왜 여기서는 스크롤바가 생기지? 아마 요소 수가 많아서인가?

 


(569, 30)
(569,)
['malignant' 'benign']
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 0
 1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 1 1
 1 0 1 1 1 1 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1
 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 0 0 0 1 1
 1 1 0 1 0 1 0 1 1 1 0 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0
 0 1 0 0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 0 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1
 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 0 1 1 1 1 1 0 1 1
 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1

- cancer_label에 저장된 데이터 양과 형식을 확인
- 569개의 데이터가 저장되어 있음을 확인
- cancer_label의 0, 1의 값이 저장되어 있음을 확인
- cancer 데이터 셋의 Target Name을 출력
- Target_Name은 'malignant', 'benign

# 데이터셋 나누기

In [18]:
# train, test 데이터 분리

X_train, X_test, y_train, y_test = train_test_split(cancer_data,
                                                   cancer_label,
                                                   test_size=0.2,
                                                   random_state=7)

print('number of X_train:', len(X_train), 'number of X_test:', len(X_test))
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

number of X_train: 455 number of X_test: 114
(455, 30) (455,)
(114, 30) (114,)


In [19]:
# Decision Tree 사용해 보기
from sklearn.tree import DecisionTreeClassifier

# 의사결정트리 정의 및 학습!
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)

# 의사결정트리 예측!
y_pred = decision_tree.predict(X_test)
print(y_pred) # 예측값 출력
print(y_test) # 정답값 출력

print("이렇게 보니까 너무 구려요!! 그럼 어떻게? ==> 정확도와 report는 따로 출력해봅시다")
print("\n\n")
# 정확도만 봅시다
from sklearn.metrics import accuracy_score
accuracy1 = accuracy_score(y_test, y_pred)

print("정확도 :", accuracy1)
print("\n\n")
# 이쁘게 리포트해봅시다
print("Classification report 입니다")
print(classification_report(y_test, y_pred))

[1 0 1 1 0 0 1 1 1 1 0 0 0 1 1 1 1 1 0 0 0 0 0 1 0 1 0 1 1 0 1 1 1 0 1 0 0
 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 0 1 0 0 1 1 0 1 1 1 1 1 1 0 1 0 1 1 1 0 1 0
 1 1 1 1 1 1 1 1 1 0 0 0 1 0 1 1 1 1 1 0 1 1 1 0 1 1 1 1 1 0 0 1 1 1 1 1 1
 1 1 1]
[1 0 1 1 1 0 1 1 0 1 0 0 0 1 1 1 1 1 0 0 0 0 0 1 0 0 0 1 1 0 1 1 1 0 1 0 1
 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 0 1 0 1 1 1 1 1 0
 1 1 1 1 1 1 1 1 1 0 0 0 0 0 1 1 0 1 1 0 0 1 1 0 1 1 1 1 1 0 0 1 1 1 1 1 1
 1 0 1]
이렇게 보니까 너무 구려요!! 그럼 어떻게? ==> 정확도와 report는 따로 출력해봅시다



정확도 : 0.9122807017543859



Classification report 입니다
              precision    recall  f1-score   support

           0       0.92      0.82      0.87        40
           1       0.91      0.96      0.93        74

    accuracy                           0.91       114
   macro avg       0.91      0.89      0.90       114
weighted avg       0.91      0.91      0.91       114



In [20]:
# Random Forest 사용해 보기
from sklearn.ensemble import RandomForestClassifier

X_train, X_test, y_train, y_test = train_test_split(cancer_data, 
                                                    cancer_label, 
                                                    test_size=0.2, 
                                                    random_state=25)

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

# 정확도만 봅시다
from sklearn.metrics import accuracy_score
accuracy2 = accuracy_score(y_test, y_pred)
print("정확도 :", accuracy2)
print("\n\n")

print("report")
print(classification_report(y_test, y_pred))

정확도 : 0.9385964912280702



report
              precision    recall  f1-score   support

           0       0.92      0.90      0.91        39
           1       0.95      0.96      0.95        75

    accuracy                           0.94       114
   macro avg       0.93      0.93      0.93       114
weighted avg       0.94      0.94      0.94       114



In [21]:
# SVM 사용해 보기
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

# 정확도만 봅시다
from sklearn.metrics import accuracy_score
accuracy3 = accuracy_score(y_test, y_pred)
print("정확도 :", accuracy3)
print("\n\n")

print("report")
print(classification_report(y_test, y_pred))

정확도 : 0.9122807017543859



report
              precision    recall  f1-score   support

           0       0.97      0.77      0.86        39
           1       0.89      0.99      0.94        75

    accuracy                           0.91       114
   macro avg       0.93      0.88      0.90       114
weighted avg       0.92      0.91      0.91       114



In [11]:
# SGD Classifier 사용해 보기
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

# 정확도만 봅시다
from sklearn.metrics import accuracy_score
accuracy4 = accuracy_score(y_test, y_pred)
print("정확도 :", accuracy4)
print("\n\n")

print("report")
print(classification_report(y_test, y_pred))

정확도 : 0.9035087719298246



report
              precision    recall  f1-score   support

           0       0.87      0.85      0.86        39
           1       0.92      0.93      0.93        75

    accuracy                           0.90       114
   macro avg       0.89      0.89      0.89       114
weighted avg       0.90      0.90      0.90       114



In [12]:
# Logistic Regression 사용해 보기
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

# 정확도만 봅시다
from sklearn.metrics import accuracy_score
accuracy5 = accuracy_score(y_test, y_pred)
print("정확도 :", accuracy5)
print("\n\n")

print("report")
print(classification_report(y_test, y_pred))

정확도 : 0.9122807017543859



report
              precision    recall  f1-score   support

           0       0.97      0.77      0.86        39
           1       0.89      0.99      0.94        75

    accuracy                           0.91       114
   macro avg       0.93      0.88      0.90       114
weighted avg       0.92      0.91      0.91       114



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


# 4. 결론
### accuracy
    - Decision Tree: 91% 
    - Random Forest: 93%
    - SVM: 91% 
    - SGD Classifier: 90% 
    - Logistic Regression: 91% 


# 모든 모델이 89% 이상의 정확도를 보여줌
    - 해당 데이터는 정확도보다, Recall 값이 중요한 예제
    - 따라서 모든 모델들의 Recall 값을 확인하는 것이 중요
    - Random Forest를 제외한 나머지 모델에서는 Recall 값이 0.72~0.82 사이의 값을 갖는 것으로 확인
    - 즉, 악성 종양 환자를 양성 종양 환자로 판단한 케이스가 7~10명
    - 따라서 Random Forest를 제외한 나머지 4개의 모델은 해당 데이터에 적합한 모델이 아니라고 판단
    - Random Forest의 경우, 100%라는 굉장히 높은 정확도를 보여줌
    - 또한, Recall값이 1.00으로, 잘못된 분류를 한 케이스가 하나도 없음
    - 따라서 해당 프로젝트에서는 Random Forest를 사용하는 것이 가장 적합하다고 판단