<a href="https://colab.research.google.com/github/1st-award/andong_2021_2_1/blob/main/Python/%ED%95%84%EA%B8%B0%20%EC%82%AC%EB%B3%B8/MachineLearning_breast_cancer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 머신러닝을 이용한 유방암 예측


## 사이킷 런(Scikit-learn)라이브러리를 이용한 데이터 셋 가져오기

In [None]:
import pandas as pd
import seaborn as sb
from sklearn.datasets import load_breast_cancer

In [None]:
breast_cancer = load_breast_cancer()
breast_cancer.keys() # 확인 부분

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])

## 분류할 그룹 확인

In [None]:
breast_cancer['target_names']

array(['malignant', 'benign'], dtype='<U9')

### 분류 예측에 사용할 특성 확인

In [None]:
for i, f in enumerate(breast_cancer['feature_names']):
  print("%02d : %s" %(i, f))

## 데이터 셋의 크기 확인

### 데이터 셋에 대한 간략한 설명 확인

**data**: 각 환자별로 유방암 소견을 결정할 수 있는 30개의 특성값을 가지고 있는 numpy 배열

In [None]:
breast_cancer['data'].shape

In [None]:
print(breast_cancer['DESCR'])

## 유방암 판별을 위한 학습과 테스트

### 훈련 데이터와 테스트 데이터 나누기

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(breast_cancer['data'], breast_cancer['target'], test_size = 0.2, random_state=42)

print("X_train의 크기와 모양: {}".format(X_train.shape))
print("y_train의 크기와 모양: {}".format(y_train.shape))
print("X_test의 크기와 모양: {}".format(X_test.shape))
print("y_test의 크기와 모양: {}".format(y_test.shape))

x_train 데이터를 사용하여 데이터프레임 만들기

In [None]:
# 칼럼의 이름: iris_dataset.feature_names에 있는 문자열을 이용

trainCansor = pd.DataFrame(X_train, columns=breast_cancer.feature_names)
trainCansor['diagnosis'] = y_train
trainCansor.head(3)

In [None]:
trainCansor.info()

In [None]:
trainCansor.describe()

In [None]:
sb.countplot(trainCansor['diagnosis'])

## 머신러닝 알고리즘 적용

### SVM(Support Vector Machine) 알고리즘

In [None]:
from sklearn import svm, metrics
model = svm.SVC(gamma = 'scale') # 모델 생성
model.fit(X_train, y_train) # 학습데이터를 이용하여 훈련
y_pred = model.predict(X_test) # 테스트 데이터를 이용하여 예측
print("SVM: %.2f" %(metrics.accuracy_score(y_pred, y_test)*100)) # 테스트 정확도 측정

#### 분류 결과표(confusion_matrix)

- 타겟의 원래 클래스와 모형이 예측한 클래스와 일치하는지는 갯수로 세어서 표로 나타낸 것
- 정답 클래스는 행(row)으로 예측한 클래스는 열(column)로 나타냄

In [None]:
metrics.confusion_matrix(y_test, y_pred)

### DecisionTreeClassifier(결정트리) 알고리즘

In [None]:
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print("DecisionTreeClassifier: %.2f" %(metrics.accuracy_score(y_pred, y_test)*100))

In [None]:
metrics.confusion_matrix(y_test, y_pred)

### KNN(K-근접 이웃) 알고리즘

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knnModel = KNeighborsClassifier(n_neighbors=15)
knnModel.fit(X_train, y_train)
y_pred = knnModel.predict(X_test)
print("KNeighborsClassifier: %.2f" %(metrics.accuracy_score(y_pred, y_test)*100))

In [None]:
metrics.confusion_matrix(y_test, y_pred)

In [None]:
knnModel = KNeighborsClassifier(n_neighbors=11)
knnModel.fit(X_train, y_train)
y_pred = knnModel.predict(X_test)
print("KNeighborsClassifier: %.2f" %(metrics.accuracy_score(y_pred, y_test)*100))

In [None]:
metrics.confusion_matrix(y_test, y_pred)

### LogisticRegression(로지스틱 회귀) 알고리즘

In [None]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(solver='lbfgs', max_iter=4000)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("LogisticRegression: %.2f" %(metrics.accuracy_score(y_pred, y_test)*100))

LogisticRegression: 95.61


In [None]:
metrics.confusion_matrix(y_test, y_pred)

array([[39,  4],
       [ 1, 70]])

### RandomForestClassifier

In [None]:
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_estimators = 100)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("RandomForestClassifier: %.2f" %(metrics.accuracy_score(y_pred, y_test)*100))

In [None]:
metrics.confusion_matrix(y_test, y_pred)

array([[40,  3],
       [ 1, 70]])

## 코드 정리

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

# 데이터 읽어오기
breast_cancer = load_breast_cancer()
# 훈련 데이터와 학습 데이터의 분리
X_train, X_test, y_train, y_test = train_test_split(breast_cancer['data'], breast_cancer['target'], test_size = 0.2, random_state=42)
# 데이터 학습과 평가(KNN)
knnModel = KNeighborsClassifier(n_neighbors=11) # 학습모델 생성
knnModel.fit(X_train, y_train) # 학습 시작
y_pred = knnModel.predict(X_test) # 학습 평가
print("KNeighborsClassifier: %.2f" %(metrics.accuracy_score(y_pred, y_test)*100)) # 정확도 출력

In [None]:
# 평가 데이터를 이용하여 데이터프레임 만들기
dfCancerTestSet = pd.DataFrame(X_test, columns=breast_cancer.feature_names)
dfCancerTestSet['predict'] = y_pred
dfCancerTestSet['diagnosis'] = y_test
dfCancerTestSet