<a href="https://colab.research.google.com/github/GentleBreeze7/AIFFEL_quest_cr/blob/main/LMSProject/6_3_%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8_(3)_load_breast_cancer_%EC%9C%A0%EB%B0%A9%EC%95%94_%EC%97%AC%EB%B6%80%EB%A5%BC_%EC%A7%84%EB%8B%A8%ED%95%B4_%EB%B4%85%EC%8B%9C%EB%8B%A4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# (1) 필요한 모듈 import하기
from sklearn.datasets import load_breast_cancer  # 유방암 데이터를 로드하기 위한 모듈
from sklearn.model_selection import train_test_split  # 데이터를 학습용과 테스트용으로 나누기 위한 모듈
from sklearn.metrics import classification_report  # 모델 성능 평가를 위한 모듈
from sklearn.tree import DecisionTreeClassifier  # Decision Tree 모델
from sklearn.ensemble import RandomForestClassifier  # Random Forest 모델
from sklearn.svm import SVC  # Support Vector Machine 모델
from sklearn.linear_model import SGDClassifier, LogisticRegression  # SGD와 Logistic Regression 모델

In [2]:
# (2) 데이터 준비
# load_breast_cancer 메서드를 통해 유방암 데이터를 로드
data = load_breast_cancer()

In [3]:
# (3) 데이터 이해하기
# Feature Data와 Label Data를 각각 X와 y에 저장
X = data.data  # 각 환자의 건강 지표 데이터
y = data.target  # 유방암 여부를 나타내는 레이블 데이터

# Target Names 출력
# target_names는 0과 1이 각각 무엇을 의미하는지 설명 (예: malignant, benign)
print("Target Names:", data.target_names)

# 데이터 구조를 확인하기 위한 출력
print("Feature Data Shape:", X.shape)  # Feature 데이터의 크기 확인
print("Label Data Shape:", y.shape)  # Label 데이터의 크기 확인
print("First Feature Example:", X[0])  # 첫 번째 환자의 건강 지표 데이터 출력
print("First Label Example:", y[0])  # 첫 번째 환자의 유방암 여부 출력

Target Names: ['malignant' 'benign']
Feature Data Shape: (569, 30)
Label Data Shape: (569,)
First Feature Example: [1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
 1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02
 6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01
 1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01
 4.601e-01 1.189e-01]
First Label Example: 0


In [4]:
# (4) train, test 데이터 분리
# 학습 데이터(X_train, y_train)와 테스트 데이터(X_test, y_test)를 분리
# 테스트 데이터는 전체의 20%, 학습 데이터는 80%로 설정
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [5]:
# (5) 다양한 모델로 학습시켜보기
# Decision Tree 모델 생성 및 학습
dt_model = DecisionTreeClassifier(random_state=42)  # 랜덤 시드를 고정하여 결과 재현 가능
dt_model.fit(X_train, y_train)  # 학습 데이터로 모델 학습
dt_pred = dt_model.predict(X_test)  # 테스트 데이터로 예측 수행

# Random Forest 모델 생성 및 학습
rf_model = RandomForestClassifier(random_state=42)  # 랜덤 시드 고정
rf_model.fit(X_train, y_train)  # 학습 데이터로 모델 학습
rf_pred = rf_model.predict(X_test)  # 테스트 데이터로 예측 수행

# SVM 모델 생성 및 학습
svm_model = SVC(random_state=42)  # 랜덤 시드 고정
svm_model.fit(X_train, y_train)  # 학습 데이터로 모델 학습
svm_pred = svm_model.predict(X_test)  # 테스트 데이터로 예측 수행

# SGD Classifier 모델 생성 및 학습
sgd_model = SGDClassifier(random_state=42)  # 랜덤 시드 고정
sgd_model.fit(X_train, y_train)  # 학습 데이터로 모델 학습
sgd_pred = sgd_model.predict(X_test)  # 테스트 데이터로 예측 수행

# Logistic Regression 모델 생성 및 학습
# Logistic Regression의 경우 max_iter를 충분히 크게 설정하여 학습이 수렴하도록 설정
lr_model = LogisticRegression(max_iter=10000, random_state=42)
lr_model.fit(X_train, y_train)  # 학습 데이터로 모델 학습
lr_pred = lr_model.predict(X_test)  # 테스트 데이터로 예측 수행


In [6]:
# (6) 모델을 평가해 보기
# 각 모델의 성능을 classification_report를 통해 평가
print("\nDecision Tree Classification Report:")
print(classification_report(y_test, dt_pred, target_names=data.target_names))

print("\nRandom Forest Classification Report:")
print(classification_report(y_test, rf_pred, target_names=data.target_names))

print("\nSVM Classification Report:")
print(classification_report(y_test, svm_pred, target_names=data.target_names))

print("\nSGD Classifier Classification Report:")
print(classification_report(y_test, sgd_pred, target_names=data.target_names))

print("\nLogistic Regression Classification Report:")
print(classification_report(y_test, lr_pred, target_names=data.target_names))


Decision Tree Classification Report:
              precision    recall  f1-score   support

   malignant       0.93      0.93      0.93        43
      benign       0.96      0.96      0.96        71

    accuracy                           0.95       114
   macro avg       0.94      0.94      0.94       114
weighted avg       0.95      0.95      0.95       114


Random Forest Classification Report:
              precision    recall  f1-score   support

   malignant       0.98      0.93      0.95        43
      benign       0.96      0.99      0.97        71

    accuracy                           0.96       114
   macro avg       0.97      0.96      0.96       114
weighted avg       0.97      0.96      0.96       114


SVM Classification Report:
              precision    recall  f1-score   support

   malignant       1.00      0.86      0.93        43
      benign       0.92      1.00      0.96        71

    accuracy                           0.95       114
   macro avg       0.96 