# 프로젝트 (3) load_breast_cancer

# 1. 필요한 모듈 Import 하기


In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 2. 데이터 준비

In [2]:
breast_cancers = load_breast_cancer()

# 3. 데이터 이해하기

In [3]:
### Feature Data 지정하기
breast_cancers_data = breast_cancers.data

### Label Data 지정하기
breast_cancers_label = breast_cancers.target

### Target Names 출력해 보기
print(breast_cancers.target_names)

### 데이터 Describe 해보기
breast_cancers.DESCR

['malignant' 'benign']




# 4. train, test 데이터 분리

In [4]:
X_train, X_test, y_train, y_test = train_test_split(breast_cancers_data, 
                                                    breast_cancers_label, 
                                                    test_size = 0.2, 
                                                    random_state = 77)

# 5. 다양한 모델로 학습시켜보기, 6. 모델을 평가해 보기

  

> (1) Decision Tree 사용 및 모델 평가



In [5]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state = 7)
decision_tree.fit(X_train, y_train)
y_pred_dtree = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred_dtree))

              precision    recall  f1-score   support

           0       0.90      0.92      0.91        39
           1       0.96      0.95      0.95        75

    accuracy                           0.94       114
   macro avg       0.93      0.93      0.93       114
weighted avg       0.94      0.94      0.94       114



> (2) Random Forest 사용 및 모델 평가


In [6]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=7)
random_forest.fit(X_train, y_train)
y_pred_rforest = random_forest.predict(X_test)

print(classification_report(y_test, y_pred_rforest))

              precision    recall  f1-score   support

           0       0.94      0.87      0.91        39
           1       0.94      0.97      0.95        75

    accuracy                           0.94       114
   macro avg       0.94      0.92      0.93       114
weighted avg       0.94      0.94      0.94       114




> (3) SVM 사용 및 모델 평가




In [7]:
from sklearn import svm

svm_model = svm.SVC(random_state=7)
svm_model.fit(X_train, y_train)
y_pred_svm = svm_model.predict(X_test)

print(classification_report(y_test, y_pred_svm))

              precision    recall  f1-score   support

           0       0.97      0.77      0.86        39
           1       0.89      0.99      0.94        75

    accuracy                           0.91       114
   macro avg       0.93      0.88      0.90       114
weighted avg       0.92      0.91      0.91       114



> (4) SGD Classifier 사용 및 모델 평가


In [8]:
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier(random_state=7)
sgd_model.fit(X_train, y_train)
y_pred_sgd = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred_sgd))

              precision    recall  f1-score   support

           0       0.78      0.92      0.85        39
           1       0.96      0.87      0.91        75

    accuracy                           0.89       114
   macro avg       0.87      0.89      0.88       114
weighted avg       0.90      0.89      0.89       114



> (5) Logisitic Regression 사용 및 모델 평가


In [9]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression(max_iter = 10000, random_state=7)
logistic_model.fit(X_train, y_train)
y_pred_logisitic = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred_logisitic))

              precision    recall  f1-score   support

           0       0.95      0.90      0.92        39
           1       0.95      0.97      0.96        75

    accuracy                           0.95       114
   macro avg       0.95      0.94      0.94       114
weighted avg       0.95      0.95      0.95       114



# 6. 모델을 평가해 보기

In [11]:
from sklearn.metrics import recall_score

scoring = {'Decision Tree accuracy':recall_score(y_test, y_pred_dtree), 
           'Random Forest accuracy':recall_score(y_test, y_pred_rforest),
           'SVM accuracy':recall_score(y_test, y_pred_svm),
           'SGD Classifier accuracy':recall_score(y_test, y_pred_sgd),
           'Logistic accuracy':recall_score(y_test, y_pred_logisitic)}

print(scoring)

{'Decision Tree accuracy': 0.9466666666666667, 'Random Forest accuracy': 0.9733333333333334, 'SVM accuracy': 0.9866666666666667, 'SGD Classifier accuracy': 0.8666666666666667, 'Logistic accuracy': 0.9733333333333334}


# 결론 

-> SVM Model 을 사용했을 때 정확도가 1로 가장 높게 나왔습니다.

-> 유방암을 진단하는 경우는 실제 암환자를 놓치면 안되기 때문에 recall로 판단하는 것이 적절한 것 같습니다. 

# 회고

*   모델을 학습하고 평가하는 것 자체가 처음이라 생소했지만 기초부터 차근차근 설명되어 있어서 따라하는데에는 큰 문제는 없었습니다. 
*   다만, 총 5가지의 모델을 실습했는데, 각 모델들이 어떤 문제를 푸는데 적합한지 개념적으로 이해는 아직 하지 못했습니다. 
*   모델의 성능 평가를 위한 지표를 선택하는 부분이 직관적으로 이해가 되지 않아서 검색을 통해 다시 각 지표들을 공부했습니다.
*   처음이라 100% 이해를 하지는 못했지만 과정을 진행하면서 이해할 수 있도록 공부해보겠습니다.  




