In [None]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import SGDClassifier, LogisticRegression
import sklearn
import matplotlib.pyplot as plt

# 버전 확인
print(f"scikit-learn 버전: {sklearn.__version__}")

# 1. 데이터 준비
digits = load_digits()
X = digits.data
y = digits.target

# 2. 데이터 이해하기
print("\n=== 데이터 정보 ===")
print(f"데이터 크기: {X.shape}")
print(f"레이블 크기: {y.shape}")
print(f"클래스 종류: {digits.target_names}")

# 샘플 이미지 시각화
plt.figure(figsize=(10, 4))
for i in range(10):
    plt.subplot(2, 5, i+1)
    plt.imshow(digits.images[i], cmap='gray')
    plt.title(f'Label: {y[i]}')
plt.tight_layout()
plt.show()

# 3. 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. 다양한 모델 학습 및 평가
models = {
    'Decision Tree': DecisionTreeClassifier(random_state=42),
    'Random Forest': RandomForestClassifier(random_state=42),
    'SVM': SVC(random_state=42),
    'SGD Classifier': SGDClassifier(random_state=42),
    'Logistic Regression': LogisticRegression(random_state=42)
}

# 각 모델 학습 및 평가
print("\n=== 모델 성능 평가 ===")
for name, model in models.items():
    print(f"\n{name} 모델:")
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print(classification_report(y_test, y_pred))

# 5. 모델 성능 비교
scores = {name: model.score(X_test, y_test) for name, model in models.items()}

plt.figure(figsize=(10, 5))
plt.bar(scores.keys(), scores.values())
plt.title('모델별 정확도 비교')
plt.xticks(rotation=45)
plt.ylim(0, 1)
for i, v in enumerate(scores.values()):
    plt.text(i, v, f'{v:.3f}', ha='center')
plt.tight_layout()
plt.show()

#(6) 모델을 평가해 보기
# 손글씨 숫자 분류의 경우 다음 지표들이 중요합니다:

# 1. 정확도(Accuracy)
# - 전체 숫자 중에서 올바르게 분류한 비율
# - 모든 숫자가 동일하게 중요하므로 전체 정확도가 중요

# 2. 정밀도(Precision)
# - "이 숫자는 7이다"라고 했을 때 실제로 7인 비율
# - 각 숫자별로 얼마나 정확하게 분류했는지 확인 가능

# 3. 재현율(Recall)
# - 실제 7인 숫자들 중에서 제대로 찾아낸 비율
# - 특정 숫자를 얼마나 잘 인식하는지 확인 가능

# 손글씨 숫자 분류에서는 모든 숫자가 동등하게 중요하므로,
# 정확도(Accuracy)와 각 숫자별 F1-score를 균형있게 보는 것이 좋습니다.
# 이유: 
# 1. 특정 숫자를 다른 숫자로 잘못 인식하는 것이 특별히 치명적이지 않음
# 2. 모든 숫자를 골고루 잘 인식하는 것이 중요
# 3. 실생활에서 모든 숫자가 비슷한 빈도로 사용됨 

In [None]:


from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.tree import DecisionTreeClassifier          # Decision Tree
from sklearn.ensemble import RandomForestClassifier      # Random Forest
from sklearn.svm import SVC                             # SVM
from sklearn.linear_model import SGDClassifier          # SGD
from sklearn.linear_model import LogisticRegression     # Logistic Regression

# 1. 데이터 준비
wine = load_wine()
X = wine.data
y = wine.target

# 2. 데이터 이해하기
print("\n=== 와인 데이터 정보 ===")
print(f"데이터 크기: {X.shape}")
print(f"레이블 크기: {y.shape}")
print(f"와인 종류: {wine.target_names}")
print("\n특성(feature) 이름:")
for i, feature in enumerate(wine.feature_names):
    print(f"{i+1}. {feature}")

# 3. 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. 각 모델 학습 및 평가
# Decision Tree
dt = DecisionTreeClassifier()
dt.fit(X_train, y_train)
dt_pred = dt.predict(X_test)
print("\n=== Decision Tree 성능 ===")
print(classification_report(y_test, dt_pred))

# Random Forest
rf = RandomForestClassifier()
rf.fit(X_train, y_train)
rf_pred = rf.predict(X_test)
print("\n=== Random Forest 성능 ===")
print(classification_report(y_test, rf_pred))

# SVM
svm = SVC()
svm.fit(X_train, y_train)
svm_pred = svm.predict(X_test)
print("\n=== SVM 성능 ===")
print(classification_report(y_test, svm_pred))

# SGD Classifier
sgd = SGDClassifier()
sgd.fit(X_train, y_train)
sgd_pred = sgd.predict(X_test)
print("\n=== SGD Classifier 성능 ===")
print(classification_report(y_test, sgd_pred))

# Logistic Regression
lr = LogisticRegression()
lr.fit(X_train, y_train)
lr_pred = lr.predict(X_test)
print("\n=== Logistic Regression 성능 ===")
print(classification_report(y_test, lr_pred))

#(6) 모델을 평가해 보기
# 와인 분류의 경우 다음 지표들이 중요합니다:

# 1. 정확도(Accuracy)
# - 전체 와인 중에서 올바르게 분류한 비율
# - 와인 분류는 잘못 분류해도 치명적이지 않아서 전반적인 정확도가 중요

# 2. 정밀도(Precision)
# - "이 와인은 레드와인이다"라고 했을 때 실제로 맞은 비율
# - 와인 종류별로 얼마나 정확하게 분류했는지 확인 가능

# 3. 재현율(Recall)
# - 실제 레드와인들 중에서 제대로 찾아낸 비율
# - 특정 종류의 와인을 얼마나 잘 찾아내는지 확인 가능

# 와인 분류에서는 정확도(Accuracy)가 가장 중요한 지표입니다.
# 이유: 와인 종류를 잘못 분류하더라도 심각한 문제가 발생하지 않으므로,
# 전체적으로 얼마나 많은 와인을 제대로 분류했는지가 중요합니다.

In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression

# 1. 데이터 준비
cancer = load_breast_cancer()
X = cancer.data
y = cancer.target

# 2. 데이터 이해하기
print("\n=== 유방암 데이터 정보 ===")
print(f"데이터 크기: {X.shape}")
print(f"레이블 크기: {y.shape}")
print(f"클래스: {cancer.target_names}")  # malignant(악성), benign(양성)
print("\n특성(feature) 이름:")
for i, feature in enumerate(cancer.feature_names):
    print(f"{i+1}. {feature}")

# 3. 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. 각 모델 학습 및 평가
# Decision Tree
dt = DecisionTreeClassifier()
dt.fit(X_train, y_train)
dt_pred = dt.predict(X_test)
print("\n=== Decision Tree 성능 ===")
print(classification_report(y_test, dt_pred, target_names=cancer.target_names))

# Random Forest
rf = RandomForestClassifier()
rf.fit(X_train, y_train)
rf_pred = rf.predict(X_test)
print("\n=== Random Forest 성능 ===")
print(classification_report(y_test, rf_pred, target_names=cancer.target_names))

# SVM
svm = SVC()
svm.fit(X_train, y_train)
svm_pred = svm.predict(X_test)
print("\n=== SVM 성능 ===")
print(classification_report(y_test, svm_pred, target_names=cancer.target_names))

# SGD Classifier
sgd = SGDClassifier()
sgd.fit(X_train, y_train)
sgd_pred = sgd.predict(X_test)
print("\n=== SGD Classifier 성능 ===")
print(classification_report(y_test, sgd_pred, target_names=cancer.target_names))

# Logistic Regression
lr = LogisticRegression()
lr.fit(X_train, y_train)
lr_pred = lr.predict(X_test)
print("\n=== Logistic Regression 성능 ===")
print(classification_report(y_test, lr_pred, target_names=cancer.target_names)) 

#(6) 모델을 평가해 보기
# 유방암 진단의 경우 단순 정확도 보다 더 중요한것 , 정밀도 , 재현율, f1-score 중요 한데 
# 유방암 진단에서는 특히 재현율이 중요한것 같습니다 실제 암환자를 놓치는것보다 건강한 사람을 암환자로 오진하는것이 더 위험하기 때문인것 같습니다