# (1) 필요한 모듈 import하기

In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# (2) 데이터 준비

In [11]:
#데이터 준비
breast_cancer=load_breast_cancer()

# (3)데이터 이해하기

In [12]:
#Feature Data 지정하기
breast_cancer_data=breast_cancer.data

#Label Data 지정하기
breast_cancer_label=breast_cancer.target

#Target Names 출력해 보기
print(breast_cancer.target_names)

#데이터 Describe 해 보기
print(breast_cancer.DESCR)

['malignant' 'benign']
.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instanc

# (4) train, test 데이터 분리

In [13]:
#train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(breast_cancer_data, 
                                                    breast_cancer_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

# (5) 다양한 모델로 학습시켜보기

In [14]:
#Decision Tree 사용
decision_tree = DecisionTreeClassifier(random_state=42)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.92      0.90      0.91        40
           1       0.95      0.96      0.95        74

    accuracy                           0.94       114
   macro avg       0.93      0.93      0.93       114
weighted avg       0.94      0.94      0.94       114



In [15]:
#Random Forest 사용
random_forest = RandomForestClassifier(random_state=42)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.90      0.95        40
           1       0.95      1.00      0.97        74

    accuracy                           0.96       114
   macro avg       0.97      0.95      0.96       114
weighted avg       0.97      0.96      0.96       114



In [16]:
#SVM 사용
svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114



In [17]:
#SGD Classifier 사용
sgd_model=SGDClassifier()

sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114



In [20]:
#Logistic Regression 사용
logistic_model = LogisticRegression(max_iter=4000)
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.85      0.92        40
           1       0.93      1.00      0.96        74

    accuracy                           0.95       114
   macro avg       0.96      0.93      0.94       114
weighted avg       0.95      0.95      0.95       114



# (6) 모델을 평가해 보기

In [23]:
recall = recall_score(y_test, y_pred,
                      pos_label = 'positive',
                      average = 'weighted')

print('재현율 : {}'.format(recall))

재현율 : 0.9473684210526315


# 회고 
## - 프로젝트를 진행하면서 크게 어려운 점은 없었다. 하지만 모델 중에서 SVM과 SGD Classifier의 작동 원리가 잘 이해가 가지 않았다. 

## - 모델들마다 정밀도와 재현율이 조금씩 달랐는데, Random Forest를 사용했을 때 제일 성능이 좋아 보인다. 

## - Random Forest는 여러개의 결정 트리를 이용하여, 각 트리가 결정한 결과에서 투표를 실시하여 가장 많이 득표한 결과를 최종 결과로 결정하는 방식이다.

## - 로지스틱 회귀 모델에서 오류가 계속 나왔는데, max_iter값을 4000으로 주니깐 해결되었다. 

## - 암은 true인 값을 false로 판단하면 문제가 생기므로 재현율이 중요하다. 따라서 모델 평가할 때 재현율을 사용하였다.

## - 모델을 평가할 때 오류가 발생해서, pos_label는 positive로, average는 weighted로 정의했다.