# 🏥 유방암 진단하기

**😊 목차**
1. 데이터 불러오기 / 구성 확인하기
2. 데이터 전처리
3. 모델 학습 및 예측
4. 고찰

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression

#### 1.데이터 불러오기 / 구성 확인하기 

In [2]:
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

In [3]:
cancer.keys() # 7가지 정보

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

In [4]:
cancer.data.shape # 569개의 데이터가 30개의 종류로 특징지어진 데이터셋

(569, 30)

In [5]:
cancer.target_names # 악성, 양성

array(['malignant', 'benign'], dtype='<U9')

데이터 Describe

1. 유방암 데이터 569개
2. 해당 데이터의 30개 특징을 이용하여 악성, 양성 분류

---

#### 2. 데이터 전처리

In [6]:
# 데이터, 라벨 지정
cancer_data = cancer.data
cancer_label = cancer.target

In [7]:
# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(cancer_data,
                                                    cancer_label,
                                                    test_size=0.2,
                                                    random_state=1)
print("X_train 갯수:", len(X_train))
print("X_test 갯수:", len(X_test))

X_train 갯수: 455
X_test 갯수: 114


---

#### 3. 모델 학습 및 예측

- **Decision Tree:** 계산복잡성 대비 높은 예측 성능을 갖고 있지만, 결정경계(decision boundary)가 데이터 축에 수직이어서 특정 데이터에만 잘 작동할 가능성이 높음
- **Random Forest:** 의사결정나무를 여러 개 만들어 그 결과를 종합해 예측
- **SVM:** 데이터를 비선형 매핑(Mapping)을 통해 고차원으로 변환하고, 새로운 차원에서 초평면(hyperplane)을 최적으로 분리하는 선형분리를 찾아서 최적의 의사결정 영역(Decision Boundary)를 찾음
- **SGD Classifier:** 확률적으로 무작위로 골라낸 데이터에 대해 수행하는 경사 하강법
- **Logistic Regession:** 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류

In [8]:
# Decision Tree
decision_tree = DecisionTreeClassifier(random_state=2)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.97      0.83      0.90        42
           1       0.91      0.99      0.95        72

    accuracy                           0.93       114
   macro avg       0.94      0.91      0.92       114
weighted avg       0.93      0.93      0.93       114

[[35  7]
 [ 1 71]]


In [9]:
# Random Forest
random_forest = RandomForestClassifier(random_state=2)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.97      0.88      0.93        42
           1       0.93      0.99      0.96        72

    accuracy                           0.95       114
   macro avg       0.95      0.93      0.94       114
weighted avg       0.95      0.95      0.95       114

[[37  5]
 [ 1 71]]


In [10]:
# SVM
svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.74      0.85        42
           1       0.87      1.00      0.93        72

    accuracy                           0.90       114
   macro avg       0.93      0.87      0.89       114
weighted avg       0.92      0.90      0.90       114

[[31 11]
 [ 0 72]]


In [11]:
# SGD Classifier
sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.76      0.93      0.84        42
           1       0.95      0.83      0.89        72

    accuracy                           0.87       114
   macro avg       0.86      0.88      0.86       114
weighted avg       0.88      0.87      0.87       114

[[39  3]
 [12 60]]


In [12]:
# Logistic Regression
logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.95      0.90      0.93        42
           1       0.95      0.97      0.96        72

    accuracy                           0.95       114
   macro avg       0.95      0.94      0.94       114
weighted avg       0.95      0.95      0.95       114

[[38  4]
 [ 2 70]]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


---

#### 4. 고찰

- 데이터 Descibe

1. 유방암 데이터 569개
2. 해당 데이터의 30개 특징을 이용하여 악성, 양성 분류

- 모든 모델의 정확도가 준수한 편이다. 다만, 질병진단 분류인 만큼 오차가 큰 문제를 야기할 수 있어 모든 모델에 오차행렬을 구하고 각 성능지표를 확인해보았다.

- 각 행렬은 TP(1행 1열), FN(1행 2열), FP(2행 1열), TN(2행 2열)로 볼 수 있으며 각 내용은 아래와 같다.

1. TP(True Positive) : 실제 환자에게 양성판정 (참 양성)
2. FN(False Negative) : 실제 환자에게 음성판정 (거짓 음성) - 치료시기를 놓칠 수 있어 큰일남
3. FP(False Positive) : 건강한 사람에게 양성판정 (거짓 양성) - 재검사하면 됨
4. TN(True Negative) : 건강한 사람에게 음성판정 (참 음성)

- 실제 진단에 모델을 적용할 경우 FN(False Negative) 값이 0이 나올 수 있도록 하기위해 최선을 다해야 하며, 현재 모든 모델에서 FN 값이 있어 실제 사용하기에 무리가 있다.