# (3) load_breast_cancer : 유방암여부 진단

## 1 필요한 모듈 import하기

In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## 2  데이터 준비 - load_breast 메서드를 사용

In [2]:
breast = load_breast_cancer()

print(dir(breast))

['DESCR', 'data', 'data_module', 'feature_names', 'filename', 'frame', 'target', 'target_names']


## 3 데이터 이해하기

In [3]:
# 데이터와 타겟의 이름을 재정의하고 배열 구조 확인
breast_data = breast.data
breast_label = breast.target

print("breast_data의 배열구조: ", breast_data.shape)
print("breast_label의 배열구조:", breast_label.shape)

breast_data의 배열구조:  (569, 30)
breast_label의 배열구조: (569,)


In [4]:
# 특성 이름 확인하기
print("타겟 이름 확인:", breast.feature_names)

타겟 이름 확인: ['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']


In [5]:
# 타겟 이름 확인하기
print("타겟 이름 확인:", breast.target_names)

타겟 이름 확인: ['malignant' 'benign']


In [7]:
# 데이터 Describe 해 보기
print(breast.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

## 4 train, test 데이터 분리

In [8]:
X_train, X_test, y_train, y_test = train_test_split(breast_data, breast_label, test_size=0.2, random_state=42)

print('X_train 개수 :', len(X_train),', X_test 개수 :', len(X_test))

X_train 개수 : 455 , X_test 개수 : 114


In [9]:
print("X_train 배열구조 :", X_train.shape, "   y_train 배열구조 :", y_train.shape)
print("X_test 배열구조 :", X_test.shape, "   y_test 배열구조 :", y_test.shape)

X_train 배열구조 : (455, 30)    y_train 배열구조 : (455,)
X_test 배열구조 : (114, 30)    y_test 배열구조 : (114,)


## 5 다양한 모델로 학습시켜보기
- Decision Tree 사용해 보기
- Random Forest 사용해 보기
- SVM 사용해 보기
- SGD Classifier 사용해 보기
- Logistic Regression 사용해 보기

### Decision Tree 모델로 학습, 평가하기

In [10]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Decision Tree 모델 만들기
decision_tree = DecisionTreeClassifier(random_state=32)

# Decision Tree 모델로 훈련
decision_tree.fit(X_train, y_train)

# 테스트 데이터의 예상값 저장
y_pred = decision_tree.predict(X_test)

# 모델 정확도 알아보기1
accuracy = accuracy_score(y_test, y_pred)
print("Decision Tree 모델의 정확도 :", accuracy, "\n")

# 모델 분류 성능표
print("Decision Tree 모델의 분류 성능표 \n", classification_report(y_test, y_pred))

Decision Tree 모델의 정확도 : 0.9473684210526315 

Decision Tree 모델의 분류 성능표 
               precision    recall  f1-score   support

           0       0.93      0.93      0.93        43
           1       0.96      0.96      0.96        71

    accuracy                           0.95       114
   macro avg       0.94      0.94      0.94       114
weighted avg       0.95      0.95      0.95       114



### Random Forest 모델로 학습, 평가하기

In [11]:
from sklearn.ensemble import RandomForestClassifier

# RandomForestClassifier 모델 생성
random_forest = RandomForestClassifier(random_state=32)

# RandomForestClassifier 모델 훈련
random_forest.fit(X_train, y_train)

# 테스트 데이터의 예상값 저장
y_pred = random_forest.predict(X_test)

# 모델 정확도 알아보기
accuracy = accuracy_score(y_test, y_pred)
print("RandomForest 모델의 정확도 :", accuracy, "\n")

# 모델 분류 성능표
print("RandomForest 모델의 분류 성능표 \n", classification_report(y_test, y_pred))

RandomForest 모델의 정확도 : 0.9649122807017544 

RandomForest 모델의 분류 성능표 
               precision    recall  f1-score   support

           0       0.98      0.93      0.95        43
           1       0.96      0.99      0.97        71

    accuracy                           0.96       114
   macro avg       0.97      0.96      0.96       114
weighted avg       0.97      0.96      0.96       114



### SVM 모델로 학습, 평가하기

In [12]:
from sklearn import svm

# SVM 모델 생성
svm_model = svm.SVC()

# SVM 모델 훈련
svm_model.fit(X_train, y_train)

# 테스트 데이터의 예상값 저장
y_pred = svm_model.predict(X_test)

# 모델 정확도 알아보기
accuracy = accuracy_score(y_test, y_pred)
print("SVM 모델의 정확도 :", accuracy, "\n")

## 모델 분류 성능표
print("SVM 모델의 분류 성능표 \n", classification_report(y_test, y_pred))

SVM 모델의 정확도 : 0.9473684210526315 

SVM 모델의 분류 성능표 
               precision    recall  f1-score   support

           0       1.00      0.86      0.92        43
           1       0.92      1.00      0.96        71

    accuracy                           0.95       114
   macro avg       0.96      0.93      0.94       114
weighted avg       0.95      0.95      0.95       114



### SGD Classifier 모델로 학습, 평가하기

In [13]:
from sklearn.linear_model import SGDClassifier

# SGD 모델 생성
sgd_model = SGDClassifier()

# SGD 모델 훈련
sgd_model.fit(X_train, y_train)

# 테스트 데이터의 예상값 저장
y_pred = sgd_model.predict(X_test)

# 모델 정확도 알아보기
accuracy = accuracy_score(y_test, y_pred)
print("SGD 모델의 정확도 :", accuracy, "\n")

# 모델 분류 성능표
print("SGD 모델의 분류 성능표 \n", classification_report(y_test, y_pred))

SGD 모델의 정확도 : 0.9298245614035088 

SGD 모델의 분류 성능표 
               precision    recall  f1-score   support

           0       0.84      1.00      0.91        43
           1       1.00      0.89      0.94        71

    accuracy                           0.93       114
   macro avg       0.92      0.94      0.93       114
weighted avg       0.94      0.93      0.93       114



### Logistic Regression 모델로 학습, 평가하기

In [14]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()

# Logistic Regression 모델 훈련
logistic_model.fit(X_train, y_train)

# 테스트 데이터의 예상값 저장
y_pred = logistic_model.predict(X_test)

# 모델 정확도 알아보기
accuracy = accuracy_score(y_test, y_pred)
print("Logistic Regression 모델의 정확도 :", accuracy, "\n")

# 모델 분류 성능표
print("Logistic Regression 모델의 분류 성능표 \n", classification_report(y_test, y_pred))

Logistic Regression 모델의 정확도 : 0.956140350877193 

Logistic Regression 모델의 분류 성능표 
               precision    recall  f1-score   support

           0       0.97      0.91      0.94        43
           1       0.95      0.99      0.97        71

    accuracy                           0.96       114
   macro avg       0.96      0.95      0.95       114
weighted avg       0.96      0.96      0.96       114



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


#### Logistic Regression 모델 훈련 후 평가를 했더니 빨간 경고문이 뜬다.
 경고문이 싫어서 번역을 해 보았더니 max_iter를 늘이거나 데이터 크기를 조정하라고 하네요..<br>
 주어진 데이터이니 데이터 크기를 조정할 수 없어 <br>
 max_iter' 하이퍼파라미터를 조정했습니다. 

In [15]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression(max_iter = 2500)

# Logistic Regression 모델 훈련
logistic_model.fit(X_train, y_train)

# 테스트 데이터의 예상값 저장
y_pred = logistic_model.predict(X_test)

# 모델 정확도 알아보기
accuracy = accuracy_score(y_test, y_pred)
print("Logistic Regression 모델의 정확도 :", accuracy, "\n")

# 모델 분류 성능표
print("Logistic Regression 모델의 분류 성능표 \n", classification_report(y_test, y_pred))

Logistic Regression 모델의 정확도 : 0.956140350877193 

Logistic Regression 모델의 분류 성능표 
               precision    recall  f1-score   support

           0       0.97      0.91      0.94        43
           1       0.95      0.99      0.97        71

    accuracy                           0.96       114
   macro avg       0.96      0.95      0.95       114
weighted avg       0.96      0.96      0.96       114



##  6 모델평가하기

### 유방암 판단에는 
오차행렬에서 **recall지수**가 **낮은 것**이 좋은 모델이라고 판단해서<br>
정확도보다는 recall지수가 낮은 **SVM모델**이 가장 좋은 모델이라고 생각합니다.