In [11]:
# load breaset cancer data
# from sklearn.datasets import load_breast_cancer

# cancer = load_breast_cancer()
# print(dir(cancer))
# print(cancer.DESCR)
# print(cancer.feature_names)
# print(cancer.data[0])
# print(cancer.target_names)
# print(cancer.target)

# 유방암 진단 데이터 호출 및 트레이닝 데이터와 테스트 데이터로 분류

In [17]:
from sklearn.datasets import load_breast_cancer #sklearn datasets의 유방암 진단 데이터 호출
import pandas as pd #pandas를 호출하고 pd로 정의
import numpy as np #numpy를 호출하고 np로 정의
from sklearn.model_selection import train_test_split

cancer = load_breast_cancer()

data = pd.DataFrame(np.c_[cancer["data"], cancer["target"]],
                    columns = np.append(cancer['feature_names'], ["target"]))

X = data.drop(["target"], axis=1) #target을 제외한 feature들을 X에 저장
y = data["target"].astype(int) #target을 y에 저장
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0) # train data와 test data를 7:3으로 나누고 random 값 고정

# features의 scale 설정
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
a = X_train
X_train_fit = sc.fit_transform(a)
b = X_test
X_test_fit = sc.fit_transform(b)

## DecisionTree 기반 모델 기본 버전

In [18]:
#DecisionTree 기반 모델
from sklearn.tree import DecisionTreeClassifier

dtc = DecisionTreeClassifier(random_state = 0) #dtc 머신 생성
dtc.fit(X_train_fit, y_train) 
y_pred = dtc.predict(X_test_fit) #머신의 예측값

# sklearn.metrics의 f1_score를 통해 DecisionTree 기반 모델 결과 확인
from sklearn.metrics import f1_score
print("DecisionTree 기반 모델 결과(f1_score) : ",end="")
print(f1_score(y_test, y_pred, average='binary'))


DecisionTree 기반 모델 결과(f1_score) : 0.9245283018867925


## RandomForest 기반 모델 기본 버전

In [19]:
#RandomForest 기반 모델
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier(n_estimators=100, #n_estimators 없이 실행시 에러메시지가 뜨고 n_estimators의 기본값은 100이라고 안내해줌
                             random_state=0)
rfc.fit(X_train_fit, y_train)
y_pred = rfc.predict(X_test_fit)

from sklearn.metrics import f1_score
print("RandomForest 기반 모델 결과(f1_score) : ",end="")
print(f1_score(y_test, y_pred, average='binary'))

RandomForest 기반 모델 결과(f1_score) : 0.9719626168224299


## Perceptron 기반 모델 기본 버전

In [92]:
#Perceptron 기반 모델
from sklearn.linear_model import Perceptron

pc = Perceptron(tol=1e-3, #tol 없이 실행시 에러메시지가 뜨고 tol의 기본값은 3이라고 안내해줌
                random_state=0)
pc.fit(X_train_fit, y_train)
y_pred = pc.predict(X_test_fit)

from sklearn.metrics import f1_score
print("Perceptron 기반 모델 결과(f1_score) : ",end="")
print(f1_score(y_test, y_pred, average='binary'))

Perceptron 기반 모델 결과(f1_score) : 0.9473684210526315


## Multi Layer Preceptron 기반 모델 기본 버전

In [4]:
from sklearn.neural_network import MLPClassifier

mc = MLPClassifier(solver='lbfgs',
                   random_state=0)
mc.fit(X_train_fit, y_train)

from sklearn.metrics import confusion_matrix
y_pred = mc.predict(X_test_fit)
confusion_matrix(y_test, y_pred)

from sklearn.metrics import f1_score
print("MLP 기반 모델 결과(f1_score) : ",end="")
print(f1_score(y_test, y_pred, average='binary'))

MLP 기반 모델 결과(f1_score) : 0.9478672985781991


## Multi Layer Preceptron 기반 모델 좋은 성능을 내는 hidden_layer_sizes 구하기(99.1%이상)


In [114]:
#Multi Layer Preceptron 기반 모델 좋은 성능을 내는 hidden_layer_sizes 구하기(99.1%이상)
from sklearn.neural_network import MLPClassifier
for n in range(len(cancer.feature_names)):
    for i in range(len(cancer.feature_names)):
        for j in range(len(cancer.feature_names)):
            for k in range(len(cancer.feature_names)):
                mc = MLPClassifier(solver='lbfgs',
                                   hidden_layer_sizes=(n+1,i+1, j+1, k+1),
                                   random_state=0)
                mc.fit(X_train_fit, y_train)

                from sklearn.metrics import confusion_matrix
                y_pred = mc.predict(X_test_fit)
                confusion_matrix(y_test, y_pred)
                if f1_score(y_test, y_pred, average='binary')>0.991:
                    print(n+1, " / ", i+1,"/", j+1, "/", k+1)
                if f1_score(y_test, y_pred, average='binary')==1:
                    print(n+1, " / ", i+1,"/", j+1, "/", k+1, "will make 100%AI")

1  /  6 / 14 / 4
1  /  10 / 16 / 4
1  /  11 / 22 / 3
1  /  20 / 20 / 20
2  /  18 / 9 / 11
2  /  21 / 5 / 19
3  /  2 / 4 / 8
3  /  11 / 15 / 2
3  /  14 / 3 / 21
3  /  20 / 22 / 13
3  /  25 / 23 / 1
4  /  3 / 1 / 20
4  /  3 / 19 / 4
4  /  5 / 14 / 4
4  /  5 / 18 / 30
4  /  10 / 3 / 13
4  /  12 / 3 / 21
4  /  19 / 26 / 2
4  /  22 / 28 / 23
4  /  23 / 9 / 19
4  /  23 / 19 / 10
4  /  24 / 6 / 23
4  /  25 / 17 / 8
4  /  26 / 26 / 19
4  /  27 / 16 / 24
4  /  29 / 14 / 27
5  /  1 / 16 / 15
5  /  1 / 30 / 7
5  /  6 / 1 / 3
5  /  12 / 20 / 2
5  /  13 / 6 / 2
5  /  14 / 12 / 29
5  /  16 / 14 / 5
5  /  19 / 5 / 13
6  /  7 / 30 / 23
6  /  10 / 2 / 26
6  /  15 / 19 / 15
6  /  15 / 19 / 15 will make 100%AI
6  /  19 / 3 / 10
7  /  5 / 1 / 29
7  /  6 / 1 / 16
7  /  6 / 26 / 4
7  /  7 / 28 / 23
7  /  8 / 3 / 16
7  /  8 / 23 / 3
7  /  13 / 10 / 3
7  /  13 / 13 / 6
7  /  16 / 5 / 30
7  /  16 / 20 / 10
7  /  17 / 5 / 20
7  /  18 / 4 / 8
7  /  20 / 16 / 4
7  /  22 / 28 / 8
7  /  24 / 9 / 9
7  /  29 / 29 / 2

# MLP 기반 최적화 모델

In [18]:
#MLP 기반 최적화 모델
from sklearn.neural_network import MLPClassifier

mc = MLPClassifier(solver='lbfgs',
                   hidden_layer_sizes=(9,11,5,20),
                   random_state=0)
mc.fit(X_train_fit, y_train)

from sklearn.metrics import f1_score
print("MLP 기반 모델 최적화 결과(f1_score) : ",end="")
print(f1_score(y_test, y_pred, average='binary'))

#confusion_matrix를 호출하여 결과 확인
from sklearn.metrics import confusion_matrix
y_pred = mc.predict(X_test_fit)
confusion_matrix(y_test, y_pred)

MLP 기반 모델 최적화 결과(f1_score) : 1.0


array([[ 63,   0],
       [  0, 108]], dtype=int64)

## RandomForest 기반 모델 좋은 성능의 n_estimators(트리의 갯수)와 max_features 구하기(98.3%이상)

In [82]:
#RandomForest 기반 모델 좋은 성능의 n_estimators(트리의 갯수)와 max_features 구하기(98.3%이상)
from sklearn.ensemble import RandomForestClassifier
for i in range(100): #10000까지 해본 결과 n_estimators가 92 넘는 결과 값을 얻은 적이 없어서 100으로 지정
    for j in range(len(cancer.feature_names)):#최대 특질의 수만큼 알아봄
        rfc = RandomForestClassifier(n_estimators=i+1,
                                     max_features=j+1,
                                     random_state=0)
        rfc.fit(X_train_fit, y_train)
        y_pred = rfc.predict(X_test_fit)
        if f1_score(y_test, y_pred, average='binary')>0.983:
            print(i+1, " / ", j+1)
        if f1_score(y_test, y_pred, average='binary')>0.99:
            print(i+1, " / ", j+1, " are 99%")
            
print("end")

# from sklearn.metrics import f1_score
# print("RandomForest 기반 모델 결과(f1_score) : ",end="")
# print(f1_score(y_test, y_pred, average='binary'))

21  /  18
40  /  1
41  /  20
47  /  10
51  /  10
55  /  10
57  /  10
71  /  25
71  /  25  are 99%
73  /  25
74  /  25
75  /  25
77  /  25
79  /  25
84  /  25
85  /  25
87  /  25
88  /  25
89  /  25
90  /  25
91  /  10
91  /  25
92  /  10
end


# RandomForest 기반 최적화 모델

In [110]:
#RandomForest 기반 최적화 모델
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier(n_estimators=71,
                             max_features=25,
                             random_state=0)
rfc.fit(X_train_fit, y_train)
y_pred = rfc.predict(X_test_fit)

from sklearn.metrics import f1_score
print("RandomForest 기반 최적화 모델 결과(f1_score) : ",end="")
print(f1_score(y_test, y_pred, average='binary'))

#confusion_matrix를 호출하여 결과 확인
from sklearn.metrics import confusion_matrix
y_pred = rfc.predict(X_test_fit)
confusion_matrix(y_test, y_pred)

RandomForest 기반 최적화 모델 결과(f1_score) : 0.9906542056074767


array([[ 63,   0],
       [  2, 106]], dtype=int64)

In [113]:
estimator = rfc.estimators_[30]

from sklearn.tree import export_graphviz
# Export as dot file
export_graphviz(estimator, out_file='tree.dot', 
                feature_names = cancer.feature_names,
                class_names = cancer.target_names,
                rounded = True, proportion = False, 
                precision = 2, filled = True)


In [26]:
from sklearn.datasets import load_breast_cancer #sklearn datasets의 유방암 진단 데이터 호출
import pandas as pd #pandas를 호출하고 pd로 정의
import numpy as np #numpy를 호출하고 np로 정의
from sklearn.model_selection import train_test_split

cancer = load_breast_cancer()

data = pd.DataFrame(np.c_[cancer["data"], cancer["target"]],
                    columns = np.append(cancer['feature_names'], ["target"]))

X = data.drop(["target"], axis=1) #target을 제외한 feature들을 X에 저장
y = data["target"].astype(int) #target을 y에 저장
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0) # train data와 test data를 7:3으로 나누고 random 값 고정

# features의 scale 설정
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
a = X_train
X_train_fit = sc.fit_transform(a)
b = X_test
X_test_fit = sc.fit_transform(b)

In [25]:
from sklearn.metrics import f1_score
print("MLP 기반 모델 최적화 결과(f1_score) : ",end="")
print(f1_score(y_test, y_pred, average='binary'))

#confusion_matrix를 호출하여 결과 확인
from sklearn.metrics import confusion_matrix
y_pred = mc.predict(X_test_fit)
confusion_matrix(y_test, y_pred)

MLP 기반 모델 최적화 결과(f1_score) : 0.6203703703703703


array([[ 63,   0],
       [  2, 106]], dtype=int64)