# (1) 필요한 모듈 import하기

In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# (2) 데이터 준비

load_breast_cancer 메서드를 사용합니다.

In [3]:
data = load_breast_cancer()

data.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

# (3) 데이터 이해하기

지피지기면 백전불태! 다루어야 할 데이터를 자세히 살펴봅시다.

- Feature Data 지정하기
- Label Data 지정하기
- Target Names 출력해 보기
- 데이터 Describe 해 보기

In [4]:
feature_data = data.data
target_data = data.target

In [5]:
data.target_names

array(['malignant', 'benign'], dtype='<U9')

In [6]:
data.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

# (4) train, test 데이터 분리

모델 학습과 테스트용 문제지와 정답지를 준비해 봅시다.
X_train, X_test, y_train, y_test를 생성하는 방법을 참고해 보세요.

In [9]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    feature_data, 
    target_data, 
    test_size=0.4, 
    random_state=7
)

# (5) 다양한 모델로 학습시켜보기

학습데이터 X_train, y_train 을 활용해 분류기 모델을 만들어 봅시다. 어떤 모델이 가장 좋은 성능을 보일까요?

- Decision Tree 사용해 보기
- Random Forest 사용해 보기
- SVM 사용해 보기
- SGD Classifier 사용해 보기
- Logistic Regression 사용해 보기

In [10]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import SGDClassifier, LogisticRegression

decision_tree = DecisionTreeClassifier()
random_forest = RandomForestClassifier()
svm_model = SVC()
sgd_model = SGDClassifier()
logistic_model = LogisticRegression()
models = [
    ('decision', decision_tree),
    ('random_forest', random_forest),
    ('svm', svm_model),
    ('sgd', sgd_model),
    ('logistic', logistic_model)
]

for model_name, model in models:
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    report = classification_report(y_test, y_pred)

    print(model_name + ' REPORT')
    print(report)
    print('---------------')


decision REPORT
              precision    recall  f1-score   support

           0       0.87      0.85      0.86        73
           1       0.93      0.94      0.94       155

    accuracy                           0.91       228
   macro avg       0.90      0.90      0.90       228
weighted avg       0.91      0.91      0.91       228

---------------
random_forest REPORT
              precision    recall  f1-score   support

           0       0.99      0.92      0.95        73
           1       0.96      0.99      0.98       155

    accuracy                           0.97       228
   macro avg       0.97      0.96      0.96       228
weighted avg       0.97      0.97      0.97       228

---------------
svm REPORT
              precision    recall  f1-score   support

           0       0.98      0.78      0.87        73
           1       0.91      0.99      0.95       155

    accuracy                           0.93       228
   macro avg       0.94      0.89      0.91     

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


# (6) 모델을 평가해 보기

학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요? 모델의 성능을 평가하는 지표로는 무엇이 좋을까요? sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요. 선택하신 이유도 설명해 주세요.

- A: random forest가 적절한 모델이라 생각합니다. precision과 recall 모두 가장 높기 때문입니다.