## load_breast_cancer : 유방암 여부를 진단해 봅시다


## 1. 필요한 모듈 import하기

In [4]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## 2. 데이터 준비
- `load_breast_cancer` 메서드를 사용합니다.

In [5]:
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

print(dir(cancer))
# dir()는 객체가 어떤 변수와 메서드를 가지고 있는지 나열함

In [6]:
cancer.keys() # wine 데이터셋에 담긴 정보 종류 확인

## 3. 데이터 이해하기
지피지기면 백전불태! 다루어야 할 데이터를 자세히 살펴봅시다.
- Feature Data 지정하기
- Label Data 지정하기
- Target Names 출력해 보기
- 데이터 Describe 해 보기

In [7]:
cancer_data = cancer.data

print(cancer_data.shape) 
# shape는 배열의 형상정보를 출력

In [8]:
cancer_data[0]
# 150개의 데이터 중 첫 번째 데이터 출력

In [9]:
cancer_label = cancer.target

print(cancer_label.shape)
cancer_label

In [10]:
cancer.target_names

In [11]:
print(cancer.DESCR)
# keys에서 확인한 정보 중 DESCR을 변수에 따로 저장하지 않고 호출
# 데이터셋 설명서 출력

In [12]:
cancer.feature_names

In [13]:
import pandas as pd

In [14]:
type(cancer_data)

In [16]:
cancer_df = pd.DataFrame(data=cancer_data, columns=cancer.feature_names)

In [17]:
cancer_df["label"] = cancer.target
cancer_df

## 4. train, test 데이터 분리
모델 학습과 테스트용 문제지와 정답지를 준비해 봅시다.
X_train, X_test, y_train, y_test를 생성하는 방법을 참고해 보세요.

In [19]:
from sklearn.model_selection import train_test_split
# sklearn model_selection패키지의 train_test_split 함수를 임포트

X_train, X_test, y_train, y_test = train_test_split(cancer_data, 
                                                    cancer_label, 
                                                    test_size=0.2, 
                                                    random_state=7)
# 나눠야 할 데이터(문제지, X): iris_data
# 데이터의 라벨(정답, y): iris_label
# iris_data와 iris_label를 각각 train:test = 8:2의 비율로 잘라서 
# X_train, X_test, y_train, y_test에 저장


print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))
# len은 배열의 길이를 출력

In [20]:
X_train.shape, y_train.shape
# train의 형상정보 확인

In [21]:
X_test.shape, y_test.shape
# test의 형상정보 확인

In [22]:
y_train, y_test
# label이 잘 분리되었는지 확인

In [24]:
cancer_df.label.value_counts()

In [23]:
cancer_df.label.value_counts().plot(kind='bar')

## 5. 다양한 모델로 학습시켜보기
학습데이터 X_train, y_train 을 활용해 분류기 모델을 만들어 봅시다. 어떤 모델이 가장 좋은 성능을 보일까요?

- Decision Tree 사용해 보기
- Random Forest 사용해 보기
- SVM 사용해 보기
- SGD Classifier 사용해 보기
- Logistic Regression 사용해 보기

In [25]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train) 
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

In [26]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32) # RandomForest분류기 객체를 생성
random_forest.fit(X_train, y_train) # 훈련
y_pred = random_forest.predict(X_test) # 예측

print(classification_report(y_test, y_pred)) # 결과 지표를 확인

In [27]:
from sklearn import svm
svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred)) 

In [28]:
from sklearn.linear_model import SGDClassifier #선형분류기인 SGDClassifier를 사용하기 위한 import
sgd_model = SGDClassifier() # 모델 객체 생성

sgd_model.fit(X_train, y_train) # sgd모델로 훈련데이터로 훈련시킨다.
y_pred = sgd_model.predict(X_test)# 그 모델로 test데이터를 사용해 예측

print(classification_report(y_test, y_pred)) # 결과 지표를 확인

In [29]:
from sklearn.linear_model import LogisticRegression # 선형분류기인 LogisticRegression를 사용하기 위한 import
logistic_model = LogisticRegression() # 모델 객체 생성

logistic_model.fit(X_train, y_train) #LogisticRegression모델로 훈련데이터를 가지고 훈련시킨다.
y_pred = logistic_model.predict(X_test) # 예측

print(classification_report(y_test, y_pred))

## 6. 모델을 평가해 보기
학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요? 모델의 성능을 평가하는 지표로는 무엇이 좋을까요? sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요. 선택하신 이유도 설명해 주세요.

class 1은 count 값이 357이고 class 0은 212로 불균형 데이터이므로 f1 score을 사용하였다

In [32]:
import numpy as np
from sklearn.metrics import f1_score

print('< F1 Score >')
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train) 
y_pred = decision_tree.predict(X_test)
print("decision_tree :", f1_score(y_test, y_pred))

random_forest = RandomForestClassifier(random_state=32) # RandomForest분류기 객체를 생성
random_forest.fit(X_train, y_train) # 훈련
y_pred = random_forest.predict(X_test)
print("random_forest :", f1_score(y_test, y_pred))

svm_model = svm.SVC() # 모델 객체를 만든다.
svm_model.fit(X_train, y_train) # 훈련
y_pred = svm_model.predict(X_test)
print("svm_model :", f1_score(y_test, y_pred))

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)
print("sgd_model :", f1_score(y_test, y_pred))

logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train) 
y_pred = logistic_model.predict(X_test)
print("logistic_model :", f1_score(y_test, y_pred))