In [1]:
from sklearn.datasets import load_breast_cancer

cancer=load_breast_cancer()

x_data=cancer.data #입력값
y_data=cancer.target #타깃

print('<wisconsin breast cancer data set>')
print('  data shape : ',x_data.shape) 
print('target shape : ',y_data.shape)

# 사이킷런에서 유방암 데이터 세트를 가져온 뒤, x_data에 이 유방암 세트의 data(입력값)을, y_data에 target(타깃)을 대입

<wisconsin breast cancer data set>
  data shape :  (569, 30)
target shape :  (569,)


x_data(data)는 30개의 feature를 가진 데이터 569개를 가지고 있고, y_data는 x_data의 데이터에 대해 이 샘플이 음성 유방암 세포인지(True==1), 양성 유방암 세포(False==0)인지에 대한 데이터를 가지고 있음.

In [2]:
#음성 유방암 샘플과 양성 유방암 샘플의 개수를 파악
import numpy as np

np.unique(cancer.target,return_counts=True)

(array([0, 1]), array([212, 357]))

양성 유방암 샘플(True)는 총 212개, 음성 유방암 샘플(False)은 총 357개

In [3]:
#feature 확인
for i,feature in enumerate(cancer.feature_names):
  print(f'feature{(i+1)} : ',feature)

feature1 :  mean radius
feature2 :  mean texture
feature3 :  mean perimeter
feature4 :  mean area
feature5 :  mean smoothness
feature6 :  mean compactness
feature7 :  mean concavity
feature8 :  mean concave points
feature9 :  mean symmetry
feature10 :  mean fractal dimension
feature11 :  radius error
feature12 :  texture error
feature13 :  perimeter error
feature14 :  area error
feature15 :  smoothness error
feature16 :  compactness error
feature17 :  concavity error
feature18 :  concave points error
feature19 :  symmetry error
feature20 :  fractal dimension error
feature21 :  worst radius
feature22 :  worst texture
feature23 :  worst perimeter
feature24 :  worst area
feature25 :  worst smoothness
feature26 :  worst compactness
feature27 :  worst concavity
feature28 :  worst concave points
feature29 :  worst symmetry
feature30 :  worst fractal dimension


In [4]:
#데이터셋분리
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(cancer.data, 
                                                    cancer.target, 
                                                    stratify = cancer.target, 
                                                    random_state = 66)

### **KNN분류**

K-NN 알고리즘이란? K-최근접 이웃(K-NN, K-Nearest Neighbor) 알고리즘은 가장 간단한 머신러닝 알고리즘으로, 분류(Classification) 알고리즘이다. 비슷한 특성을 가진 데이터는 비슷한 범주에 속하는 경향이 있다는 가정하에 사용한다.

In [5]:
from sklearn.neighbors import KNeighborsClassifier
KNN=KNeighborsClassifier()
KNN.fit(X_train,y_train)

KNeighborsClassifier()

In [6]:
#성능파악
print(KNN.score(X_train, y_train))
print(KNN.score(X_test, y_test))

0.9483568075117371
0.9230769230769231


### **Decision Tree**

결정 트리는 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종이다. 결정 트리는 운용 과학, 그 중에서도 의사 결정 분석에서 목표에 가장 가까운 결과를 낼 수 있는 전략을 찾기 위해 주로 사용된다.

In [7]:
from sklearn.tree import DecisionTreeClassifier

tree = DecisionTreeClassifier(random_state=0)
tree.fit(X_train, y_train)

DecisionTreeClassifier(random_state=0)

In [None]:
print(tree.score(X_train, y_train))
print(tree.score(X_test, y_test))

### **Random Forest**

랜덤 포레스트는 지도 머신 러닝 알고리즘입니다. 정확성, 단순성 및 유연성으로 인해 가장 많이 사용되는 알고리즘 중 하나입니다. 분류 및 회귀 작업에 사용할 수 있다는 사실과 비선형 특성을 결합하면 다양한 데이터 및 상황에 매우 적합합니다.

In [8]:
from sklearn.ensemble import RandomForestClassifier

forest = RandomForestClassifier(random_state=0)
forest.fit(X_train, y_train)

RandomForestClassifier(random_state=0)

In [9]:
print(forest.score(X_train, y_train))
print(forest.score(X_test, y_test))

1.0
0.958041958041958
