In [5]:
import sklearn
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import SGDClassifier, LogisticRegression
from sklearn.preprocessing import StandardScaler
import pandas as pd

# 데이터 준비
cancer_data = load_breast_cancer()
X = cancer_data.data
y = cancer_data.target

# 데이터 이해하기
target_names = cancer_data.target_names
print("Target Names:", target_names)

cancer_df = pd.DataFrame(X, columns=cancer_data.feature_names)
print(cancer_df.describe())

# 데이터 스케일링
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 모델 학습 및 평가
models = {
    "Decision Tree": DecisionTreeClassifier(random_state=42),
    "Random Forest": RandomForestClassifier(n_estimators=100, random_state=42),
    "SVM": SVC(kernel='rbf', C=1, random_state=42),
    "SGD Classifier": SGDClassifier(loss='hinge', alpha=0.0001, max_iter=1000, tol=1e-3, random_state=42),
    "Logistic Regression": LogisticRegression(C=1, max_iter=1000, random_state=42)
}

for model_name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f"{model_name}:")
    print(f"Accuracy: {accuracy:.4f}")
    print("Classification Report:\n", classification_report(y_test, y_pred, target_names=target_names))
    print("\n")


# 결과 분석:

# 	1.가장 좋은 성능을 보이는 모델:
# SVM과 Random Forest가 가장 높은 정확도(약 97-98%)를 보여주었습니다. 이어서 Logistic Regression도 비슷한 수준의 성능을 보였습니다.

# 	2.테스트 데이터 예측 결과 해석:
# 	•모든 모델이 90% 이상의 정확도를 보여주어, 전반적으로 유방암 진단에 대해 좋은 성능을 보입니다.
# 	•SVM, Random Forest, Logistic Regression은 특히 높은 정확도(97-98%)를 보여, 매우 신뢰할 만한 예측을 제공합니다.
# 	•대부분의 모델에서 양성(malignant)과 음성(benign) 클래스 모두에 대해 높은 precision과 recall을 보여주어, 오진단의 위험이 낮습니다.
# 	•Decision Tree의 성능이 상대적으로 낮은 것으로 보아, 이 문제에 대해서는 더 복잡한 모델이 더 적합할 수 있습니다.

# 	3.적절한 평가 지표 및 선택 이유:
# 	•Accuracy: 전체적인 정확도를 빠르게 파악할 수 있어 유용합니다.
# 	•Precision: 양성으로 예측한 케이스 중 실제 양성인 비율을 나타내며, 오진단으로 인한 불필요한 치료를 줄이는 데 중요합니다.
# 	•Recall: 실제 양성 케이스 중 모델이 정확히 예측한 비율을 나타내며, 암을 놓치지 않는 것이 중요하므로 매우 중요한 지표입니다.
# 	•F1-score: Precision과 Recall의 조화평균으로, 두 지표 간의 균형을 나타냅니다.
# 	•ROC-AUC: 모델의 분류 성능을 총체적으로 평가할 수 있는 지표입니다.

# 	3.이 중에서 특히 Recall과 ROC-AUC가 중요합니다. Recall은 실제 암 환자를 놓치지 않는 것이 중요하기 때문이고, 
#     ROC-AUC는 모델의 전반적인 분류 성능을 잘 나타내기 때문입니다. 
#     또한, 의료 진단에서는 false negative(실제 암인데 정상으로 진단)를 최소화하는 것이 중요하므로, Recall에 더 가중치를 둘 수 있습니다.


Target Names: ['malignant' 'benign']
       mean radius  mean texture  mean perimeter    mean area  \
count   569.000000    569.000000      569.000000   569.000000   
mean     14.127292     19.289649       91.969033   654.889104   
std       3.524049      4.301036       24.298981   351.914129   
min       6.981000      9.710000       43.790000   143.500000   
25%      11.700000     16.170000       75.170000   420.300000   
50%      13.370000     18.840000       86.240000   551.100000   
75%      15.780000     21.800000      104.100000   782.700000   
max      28.110000     39.280000      188.500000  2501.000000   

       mean smoothness  mean compactness  mean concavity  mean concave points  \
count       569.000000        569.000000      569.000000           569.000000   
mean          0.096360          0.104341        0.088799             0.048919   
std           0.014064          0.052813        0.079720             0.038803   
min           0.052630          0.019380        0.000