In [2]:
# 필요한 모듈
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

# 0. 개요

## 1) load_breast_cancer 데이터셋

- 유방암 진단 데이터
- 악성 종양과 양성 종양을 구분하는데 사용

## 2) 데이터셋 설명

### [feature]

- 실수형 데이터
- 30개
- 물리적 속성을 나타냄

### [feature_names]
- mean radius: 평균 반지름 - 종양 핵의 평균 반지름

- mean texture: 평균 텍스처 - 회색조의 표준 편차를 나타냄

- mean perimeter: 평균 둘레 - 종양 핵의 평균 둘레

- mean area: 평균 면적 - 종양 핵의 평균 면적

- mean smoothness: 평균 평활도 - 국소 반경의 길이의 표준 편차

- mean compactness: 평균 압축성 - (둘레^2 / 면적 - 1.0)

- mean concavity: 평균 오목함 - 종양 핵의 오목한 부분의 심각도

- mean concave points: 평균 오목한 점 - 종양 핵의 오목한 점의 수

- mean symmetry: 평균 대칭성 - 종양 핵의 대칭성

- mean fractal dimension: 평균 프랙탈 차원 - "해안선 근사"로부터 얻은 프랙탈 차원

- radius error: 반지름 오류 - 종양 핵의 반지름에 대한 표준 오차

- texture error: 텍스처 오류 - 종양 핵의 텍스처에 대한 표준 오차

- perimeter error: 둘레 오류 - 종양 핵의 둘레에 대한 표준 오차

- area error: 면적 오류 - 종양 핵의 면적에 대한 표준 오차

- smoothness error: 평활도 오류 - 종양 핵의 평활도에 대한 표준 오차

- compactness error: 압축성 오류 - 종양 핵의 압축성에 대한 표준 오차

- concavity error: 오목함 오류 - 종양 핵의 오목함에 대한 표준 오차

- concave points error: 오목한 점 오류 - 종양 핵의 오목한 점 수에 대한 표준 오차

- symmetry error: 대칭성 오류 - 종양 핵의 대칭성에 대한 표준 오차

- fractal dimension error: 프랙탈 차원 오류 - 종양 핵의 프랙탈 차원에 대한 표준 오차

- worst radius: 최악의 반지름 - 종양 핵의 최대 반지름

- worst texture: 최악의 텍스처 - 종양 핵의 최대 텍스처

- worst perimeter: 최악의 둘레 - 종양 핵의 최대 둘레

- worst area: 최악의 면적 - 종양 핵의 최대 면적

- worst smoothness: 최악의 평활도 - 종양 핵의 최대 평활도

- worst compactness: 최악의 압축성 - 종양 핵의 최대 압축성

- worst concavity: 최악의 오목함 - 종양 핵의 최대 오목함

- worst concave points: 최악의 오목한 점 - 종양 핵의 최대 오목한 점 수

- worst symmetry: 최악의 대칭성 - 종양 핵의 최대 대칭성

- worst fractal dimension: 최악의 프랙탈 차원 - 종양 핵의 최대 프랙탈 차원

### [target]
- 0과 1로 이루어져 있음
- 0 = 악성 종양, 암
- 1 = 양성 종양, 단순한 혹덩어리

### [target_names]
- malignant: 악성
- benign: 양성

# 1. 머신러닝 만들어 보기 - 유방암 예측하기

In [21]:
# 유방암 진단 데이터셋
cancer = load_breast_cancer()

cancer_data = cancer.data

cancer_label = cancer.target
print('cancer target값:', cancer_label)
print('cancer target명:', cancer.target_names)

df = pd.DataFrame(data=cancer_data, columns=cancer.feature_names)
df['label'] = cancer_label
df.head(3)
# label에서 0 = malignant(악성), 1 = benign(양성)

cancer target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 0
 1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 1 1
 1 0 1 1 1 1 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1
 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 0 0 0 1 1
 1 1 0 1 0 1 0 1 1 1 0 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0
 0 1 0 0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 0 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1
 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 0 1 1 1 1 1 0 1 1
 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1
 1 1 1 1 

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,label
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,0


In [4]:
X_train, X_test, y_train, y_test = train_test_split(cancer_data, cancer_label, test_size=0.2, random_state=11)

dt_clf = DecisionTreeClassifier(random_state=11)
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)

from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9649


# 2. 교차 검증 해보기

## 1) KFOLD 교차 검증

In [5]:
from sklearn.model_selection import KFold

kfold = KFold(n_splits=5)
cv_accuracy = []
print('데이터셋 크기:', cancer_data.shape[0])

n_iter = 0
for train_index, test_index in kfold.split(cancer_data):
    X_train, X_test = cancer_data[train_index], cancer_data[test_index]
    y_train, y_test = cancer_label[train_index], cancer_label[test_index]

    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1

    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기:{2}, 테스트 데이터 크기:{3}'.format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)

print('\n## 평균 검증 정확도:', np.round(np.mean(cv_accuracy),4))

데이터셋 크기: 569

#1 교차 검증 정확도 :0.8684, 학습 데이터 크기:455, 테스트 데이터 크기:114
#1 검증 세트 인덱스:[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113]

#2 교차 검증 정확도 :0.8947, 학습 데이터 크기:455, 테스트 데이터 크기:114
#2 검증 세트 인덱스:[114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131
 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149
 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167
 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185
 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203
 204 205 206 207 208 209 2

## 2) Stratified KFOLD

In [6]:
df['label'].value_counts()

label
1    357
0    212
Name: count, dtype: int64

In [7]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter = 0

for train_index, test_index in skf.split(df, df['label']):
    n_iter += 1
    label_train = df['label'].iloc[train_index]
    label_test = df['label'].iloc[test_index]
    print('\n## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('테스트 레이블 데이터 분포:\n', label_test.value_counts())


## 교차 검증: 1
학습 레이블 데이터 분포:
 label
1    238
0    141
Name: count, dtype: int64
테스트 레이블 데이터 분포:
 label
1    119
0     71
Name: count, dtype: int64

## 교차 검증: 2
학습 레이블 데이터 분포:
 label
1    238
0    141
Name: count, dtype: int64
테스트 레이블 데이터 분포:
 label
1    119
0     71
Name: count, dtype: int64

## 교차 검증: 3
학습 레이블 데이터 분포:
 label
1    238
0    142
Name: count, dtype: int64
테스트 레이블 데이터 분포:
 label
1    119
0     70
Name: count, dtype: int64


In [8]:
dt_clf = DecisionTreeClassifier(random_state=11)

skfold = StratifiedKFold(n_splits=3)
n_iter = 0
cv_accuracy = []

for train_index, test_index in skfold.split(cancer_data, cancer_label):
    
    X_train, X_test = cancer_data[train_index], cancer_data[test_index]
    y_train, y_test = cancer_label[train_index], cancer_label[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test, pred),4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'.format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)

# 교차 검증별 정확도 및 평균 정확도 계산
print('\n## 교차 검증별 정확도:', np.round(cv_accuracy,4))
print('## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도 :0.8895, 학습 데이터 크기: 379, 검증 데이터 크기: 190
#1 검증 세트 인덱스:[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 123 124 125 128 130
 133 136 137 139 140 142 143 144 145 147 148 149 150 151 152 153 154 155
 157 158 159 160 163 165 166 169 170 173 174 175 176 178 179 183 185 187
 188 189 191 192 195 200 204 206 208 209 211 216 217 220 221 222 224 225
 226 227 228 231 232 234 235 238 240 241]

#2 교차 검증 정확도 :0.9526, 학습 데이터 크기: 379, 검증 데이터 크기: 190
#2 검증 세트 인덱스:[121 122 126 127 129 131 132 134 135 138 141 146 156 161 162 164 167 168
 171 172 177 180 181 

## 3) cross_val_score

In [9]:
from sklearn.model_selection import cross_val_score, cross_validate
scores = cross_val_score(dt_clf, cancer_data, cancer_label, scoring='accuracy', cv=3)
print('교차 검증별 정확도:', np.round(scores, 4))
print('평균 검증 정확도:', np.round(np.mean(scores),4))

교차 검증별 정확도: [0.8895 0.9526 0.8571]
평균 검증 정확도: 0.8997


## 4) GridSearchCV

In [10]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier(random_state=11)
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}
grid_search = GridSearchCV(estimator=rfc, param_grid=param_grid, cv=5, n_jobs=-1, verbose=2)
grid_search.fit(X_train, y_train)

print("GridSearchCV 최적 파라미터:", grid_search.best_params_)
print("GridSearchCV 최고 정확도: ", grid_search.best_score_)

Fitting 5 folds for each of 108 candidates, totalling 540 fits
GridSearchCV 최적 파라미터: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 200}
GridSearchCV 최고 정확도:  0.9578947368421054


In [11]:
estimator = grid_search.best_estimator_

pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

테스트 데이터 세트 정확도: 0.9683


# 3. 데이터 전처리

## 1) StandardScaler

In [12]:
print('feature 들의 평균 값')
print(df.mean())
print('\nfeature 들의 분산 값')
print(df.var())

feature 들의 평균 값
mean radius                 14.127292
mean texture                19.289649
mean perimeter              91.969033
mean area                  654.889104
mean smoothness              0.096360
mean compactness             0.104341
mean concavity               0.088799
mean concave points          0.048919
mean symmetry                0.181162
mean fractal dimension       0.062798
radius error                 0.405172
texture error                1.216853
perimeter error              2.866059
area error                  40.337079
smoothness error             0.007041
compactness error            0.025478
concavity error              0.031894
concave points error         0.011796
symmetry error               0.020542
fractal dimension error      0.003795
worst radius                16.269190
worst texture               25.677223
worst perimeter            107.261213
worst area                 880.583128
worst smoothness             0.132369
worst compactness            0.254

In [13]:
from sklearn.preprocessing import StandardScaler

cancer = load_breast_cancer()
df = pd.DataFrame(data=cancer.data, columns=cancer.feature_names)
scaler = StandardScaler()
scaler.fit(df)
cancer_scaled = scaler.transform(df)

cancer_df_scaled = pd.DataFrame(data=cancer_scaled, columns=cancer.feature_names)
print('feature 들의 평균 값')
print(cancer_df_scaled.mean())
print('\nfeature 들의 분산 값')
print(cancer_df_scaled.var())

feature 들의 평균 값
mean radius               -3.162867e-15
mean texture              -6.530609e-15
mean perimeter            -7.078891e-16
mean area                 -8.799835e-16
mean smoothness            6.132177e-15
mean compactness          -1.120369e-15
mean concavity            -4.421380e-16
mean concave points        9.732500e-16
mean symmetry             -1.971670e-15
mean fractal dimension    -1.453631e-15
radius error              -9.076415e-16
texture error             -8.853492e-16
perimeter error            1.773674e-15
area error                -8.291551e-16
smoothness error          -7.541809e-16
compactness error         -3.921877e-16
concavity error            7.917900e-16
concave points error      -2.739461e-16
symmetry error            -3.108234e-16
fractal dimension error   -3.366766e-16
worst radius              -2.333224e-15
worst texture              1.763674e-15
worst perimeter           -1.198026e-15
worst area                 5.049661e-16
worst smoothness        

## 2) MinMaxScaler

In [14]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(df)
cancer_scaled = scaler.transform(df)

cancer_df_scaled = pd.DataFrame(data=cancer_scaled, columns=cancer.feature_names)
print('feature 들의 최솟값')
print(cancer_df_scaled.min())
print('\nfeature 들의 최댓값')
print(cancer_df_scaled.max())

feature 들의 최솟값
mean radius                0.0
mean texture               0.0
mean perimeter             0.0
mean area                  0.0
mean smoothness            0.0
mean compactness           0.0
mean concavity             0.0
mean concave points        0.0
mean symmetry              0.0
mean fractal dimension     0.0
radius error               0.0
texture error              0.0
perimeter error            0.0
area error                 0.0
smoothness error           0.0
compactness error          0.0
concavity error            0.0
concave points error       0.0
symmetry error             0.0
fractal dimension error    0.0
worst radius               0.0
worst texture              0.0
worst perimeter            0.0
worst area                 0.0
worst smoothness           0.0
worst compactness          0.0
worst concavity            0.0
worst concave points       0.0
worst symmetry             0.0
worst fractal dimension    0.0
dtype: float64

feature 들의 최댓값
mean radius             

# 4. 새로운 데이터의 유방암 여부 예측하기

In [15]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

cancer = load_breast_cancer()
df = pd.DataFrame(data=cancer.data, columns=cancer.feature_names)
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.2, random_state=11)

# 결정 트리, Random Forest, 로지스틱 회귀를 위한 사이킷런 Classifier 클래스 생성
dt_clf = DecisionTreeClassifier(random_state=11)
rf_clf = RandomForestClassifier(random_state=11)
lr_clf = LogisticRegression(random_state=11)

# DecisionTreeClassifier 학습/예측/평가
dt_clf.fit(X_train, y_train)
dt_pred = dt_clf.predict(X_test)
print('DecisinTreeClassifier 정확도: {0:.4f}'.format(accuracy_score(y_test, dt_pred)))

# RandomForestClassifier 학습/예측/평가
rf_clf.fit(X_train, y_train)
rf_pred = rf_clf.predict(X_test)
print('RandomForestClassifier 정확도: {0:.4f}'.format(accuracy_score(y_test, rf_pred)))

# LogisticRegression 학습/예측/평가
lr_clf.fit(X_train, y_train)
lr_pred = lr_clf.predict(X_test)
print('LogisticRegression 정확도: {0:.4f}'.format(accuracy_score(y_test, lr_pred)))

DecisinTreeClassifier 정확도: 0.9649
RandomForestClassifier 정확도: 0.9825
LogisticRegression 정확도: 0.9386


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [23]:
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 1. 데이터 로드
cancer = load_breast_cancer()
cancer_data = cancer.data
cancer_label = cancer.target

# 2. 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(cancer_data, cancer_label, test_size=0.2, random_state=11)

# 3. 모델 정의
rf_clf = RandomForestClassifier(random_state=11)

# 모델 훈련
rf_clf.fit(X_train, y_train)

# 4. 모델 평가
# 테스트 데이터로 예측
pred = rf_clf.predict(X_test)

# 정확도 출력
accuracy = accuracy_score(y_test, pred)
print("정확도: {0:.4f}".format(accuracy))

# 오차 행렬 출력
print("오차 행렬:")
print(confusion_matrix(y_test, pred))

# 5. 새로운 데이터 예측
# 예시: 새로운 샘플 (랜덤으로 예시 데이터를 생성합니다)
new_sample = np.array([[14.0, 20.0, 90.0, 600.0, 0.1, 0.2, 0.3, 0.15, 0.2, 0.05,
                        0.3, 1.0, 2.0, 20.0, 0.005, 0.05, 0.07, 0.03, 0.01, 0.001,
                        16.0, 25.0, 100.0, 800.0, 0.15, 0.25, 0.35, 0.2, 0.25, 0.06]])

# 모델을 사용하여 새로운 샘플 예측
prediction = rf_clf.predict(new_sample)
prediction_proba = rf_clf.predict_proba(new_sample)

print("예측 (0: malignant, 1: benign):", prediction)
print("예측 확률:", prediction_proba[0][0])


정확도: 0.9825
오차 행렬:
[[36  2]
 [ 0 76]]
예측 (0: malignant, 1: benign): [0]
예측 확률: 0.63
