<a href="https://colab.research.google.com/github/hyojunyee/kita_2404/blob/main/m5_%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D/Task/Task_0723_%ED%92%80%EC%9D%B4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Task1_0723. 'Breast Cancer Wisconsin (Diagnostic) Data Set'을 사용하여 이진 분류 문제를 해결하고, 평가 지표(정확도, 정밀도, 재현율, F1 스코어, ROC AUC)를 계산하세요.

In [15]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix, classification_report

# 데이터 로드
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()

# 특성과 라벨
X = data.data
y = (data.target == 0).astype(int)

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 데이터 스케일링
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 평가지표(정확도, 정밀도, 재현율, F1 스코어, ROC AUC)를 계산 함수 작성
def evaluate_model(model, X_train, X_test, y_train, y_test):
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    y_pred_proba = model.predict_proba(X_test)[:, 1]

    confusion = confusion_matrix(y_test, y_pred)
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    roc_auc = roc_auc_score(y_test, y_pred_proba)
    print(f'오차 행렬:\n{confusion}')
    print(f'정확도: {accuracy:.4f}\n 정밀도: {precision:.4f}\n 재현율: {recall:.4f}\n F1: {f1:.4f}\n roc_auc {roc_auc:.4f}\n')

models = {
    'Logistic Regression' : LogisticRegression(max_iter=500, solver='lbfgs', random_state=42),
    'Random Forest Classifier' : RandomForestClassifier(n_estimators=100, random_state=42),
    'Decision Tree Classifier' : DecisionTreeClassifier(random_state=42),
    'Support Vector Machine' : SVC(probability=True, random_state=42) # probability=True는 확률 값을 반환하게 하여 predict_proba 메서드를 사용할 수 있게 함
}

for model_name, model in models.items():
    print(f'[{model_name}]')
    evaluate_model(model, X_train, X_test, y_train, y_test)

[Logistic Regression]
오차 행렬:
[[70  1]
 [ 2 41]]
정확도: 0.9737
 정밀도: 0.9762
 재현율: 0.9535
 F1: 0.9647
 roc_auc 0.9974

[Random Forest Classifier]
오차 행렬:
[[70  1]
 [ 3 40]]
정확도: 0.9649
 정밀도: 0.9756
 재현율: 0.9302
 F1: 0.9524
 roc_auc 0.9953

[Decision Tree Classifier]
오차 행렬:
[[68  3]
 [ 3 40]]
정확도: 0.9474
 정밀도: 0.9302
 재현율: 0.9302
 F1: 0.9302
 roc_auc 0.9440

[Support Vector Machine]
오차 행렬:
[[71  0]
 [ 2 41]]
정확도: 0.9825
 정밀도: 1.0000
 재현율: 0.9535
 F1: 0.9762
 roc_auc 0.9974



Task2_0723.
가상의 데이터셋을 생성하고, 이를 사용하여 다중 클래스 분류 모델을 훈련시킨 후 평가 지표를 계산하세요. 평가 지표는 정확도, 정밀도, 재현율, F1 스코어, ROC AUC입니다.

- n_samples=1500: 데이터셋에 포함될 샘플의 수를 1500개로 지정합니다.
- n_features=20: 각 샘플이 가질 특성(feature)의 수를 20개로 지정합니다.
- n_classes=5: 타겟 라벨의 클래스 수를 5개로 지정합니다.
- n_informative=15: 20개의 특성 중 15개는 타겟 라벨과 관련된 유용한 정보를 포함하도록 지정합니다. 나머지 5개의 특성은 유용하지 않거나 무작위로 생성된 특성입니다.
- random_state=42: 재현성을 위해 난수 생성 seed를 설정합니다.

average 매개변수에는 여러 가지 옵션이 있으며, 각 옵션은 다중 클래스 데이터에 대한 정밀도를 계산하는 다른 방법을 제공

[ average 매개변수 옵션 ]
- average='macro':
각 클래스의 정밀도를 개별적으로 계산한 후, 단순 평균을 구합니다.
모든 클래스가 동일하게 가중치를 부여받습니다.
클래스 간 불균형이 있을 때 유용합니다.
- average='micro':
전체 TP, FP, FN을 합쳐서 정밀도를 계산합니다.
모든 샘플을 개별적으로 동일하게 취급한다.
- average='weighted':
각 클래스의 정밀도를 개별적으로 계산한 후, 클래스별 샘플 수로 가중 평균을 구합니다.
클래스의 샘플 수에 따라 가중치를 부여합니다.
- average='samples' (다중 레이블 분류에 사용됨):
각 샘플에 대해 개별적으로 메트릭을 계산한 후 평균을 구합니다.
- average=None:
각 클래스별로 정밀도를 반환합니다. 다중 클래스 분류에서 각 클래스에 대한 정밀도를 별도로 얻을 수 있습니다.

In [20]:
import numpy as np
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix
from sklearn.preprocessing import label_binarize

# 데이터 생성 (5개의 클래스)
X, y = make_classification(n_samples=1500, n_features=20, n_classes=5, n_informative=15, random_state=42)

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 모델 훈련
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)
y_score = model.predict_proba(X_test)

# 다중 클래스 라벨을 이진화
y_test_binarized = label_binarize(y_test, classes=[0, 1, 2, 3, 4])

# 평가 지표 계산
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='macro')
recall = recall_score(y_test, y_pred, average='macro')
f1 = f1_score(y_test, y_pred, average='macro')
roc_auc = roc_auc_score(y_test_binarized, y_score, multi_class='ovr')
confusion = confusion_matrix(y_test, y_pred)

print(f'오차 행렬:\n{confusion}')
print(f'정확도: {accuracy:.4f}')
print(f'정밀도: {precision:.4f}')
print(f'재현율: {recall:.4f}')
print(f'F1 스코어: {f1:.4f}')
print(f'ROC AUC: {roc_auc:.4f}')

오차 행렬:
[[52  6  2  7  1]
 [ 1 46  2  0  5]
 [ 0  6 49  2  2]
 [ 5  2  4 46  6]
 [ 5  4  2  1 44]]
정확도: 0.7900
정밀도: 0.7909
재현율: 0.7926
F1 스코어: 0.7898
ROC AUC: 0.9481


In [None]:
import numpy as np
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.preprocessing import label_binarize
from collections import Counter

# 데이터셋 로드
digits = load_digits()
X, y = digits.data, digits.target

# 훈련 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 모델 훈련
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 평가 지표 계산
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

# 출력 레이블 이진화
y_test_binarized = label_binarize(y_test, classes=np.arange(10))
y_pred_binarized = label_binarize(y_pred, classes=np.arange(10))

# 클래스가 충분히 있는지 확인
if np.any(np.sum(y_test_binarized, axis=0) == 0):
    print("테스트 데이터에 모든 클래스가 포함되어 있지 않습니다.")
else:
    # ROC AUC 계산 (OvR 방식)
    roc_auc_ovr = roc_auc_score(y_test_binarized, y_pred_binarized, average='weighted', multi_class='ovr')

    # ROC AUC 계산 (OvO 방식)
    roc_auc_ovo = roc_auc_score(y_test_binarized, y_pred_binarized, average='weighted', multi_class='ovo')

    # 평가 지표 출력
    print(f"정확도: {accuracy:.2f}, 정밀도: {precision:.2f}, 재현율: {recall:.2f}, F1 Score: {f1:.2f}")
    print(f"ROC AUC (OvR): {roc_auc_ovr:.2f}, ROC AUC (OvO): {roc_auc_ovo:.2f}")


정확도: 0.97, 정밀도: 0.97, 재현율: 0.97, F1 Score: 0.97
ROC AUC (OvR): 0.98, ROC AUC (OvO): 0.98


Task3_0723. Task1_2022를 개선하시오

In [21]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# 1. 데이터 로드
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
columns = ['age', 'workclass', 'fnlwgt', 'education', 'education-num', 'marital-status',
           'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss',
           'hours-per-week', 'native-country', 'income']
data = pd.read_csv(url, header=None, names=columns, na_values='?', skipinitialspace=True)

# 2. 결측치 처리
# 수치형 변수의 결측치를 중앙값으로 대체
numeric_features = data.select_dtypes(include=[np.number]).columns.tolist()
imputer_numeric = SimpleImputer(strategy='median')
data[numeric_features] = imputer_numeric.fit_transform(data[numeric_features])

# 범주형 변수의 결측치를 최빈값으로 대체
categorical_features = data.select_dtypes(include=[object]).columns.tolist()
categorical_features.remove('income')
imputer_categorical = SimpleImputer(strategy='most_frequent')
data[categorical_features] = imputer_categorical.fit_transform(data[categorical_features])

# 3. 이상치 제거 (여기서는 'capital-gain'과 'capital-loss'에서 극단적인 값들을 이상치로 가정)
def replace_outliers_with_median(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    median = df[column].median()
    df[column] = np.where((df[column] < lower_bound) | (df[column] > upper_bound), median, df[column])
    return df

for col in numeric_features:
    data = replace_outliers_with_median(data, col)

# 4. 파생변수 작성
data['capital_diff'] = data['capital-gain'] - data['capital-loss']

# 5. 범주형 변수 인코딩
categorical_features = ['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country']
encoder = OneHotEncoder(drop='first', sparse=False)
encoded_categorical_data = encoder.fit_transform(data[categorical_features])
encoded_categorical_df = pd.DataFrame(encoded_categorical_data, columns=encoder.get_feature_names_out(categorical_features))

# 원래 데이터프레임에서 범주형 열을 제거하고 인코딩된 데이터프레임을 병합
data = data.drop(columns=categorical_features)
data = pd.concat([data, encoded_categorical_df], axis=1)

# 6. 변수 선택 및 데이터 분리
# 'income' 변수를 0과 1로 변환
data['income'] = data['income'].apply(lambda x: 1 if x.strip() == '>50K' else 0)
X = data.drop('income', axis=1)
y = data['income']

# 7. 데이터 표준화
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 8. 학습용과 테스트용 데이터셋으로 나누기
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42, stratify=y)

# 9. Logistic Regression 모델 생성 및 학습
model = LogisticRegression(random_state=42)
model.fit(X_train, y_train)

# 10. 예측 및 평가
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

print(f'Accuracy: {accuracy:.2f}')
print('Confusion Matrix:')
print(conf_matrix)
print('Classification Report:')
print(class_report)



Accuracy: 0.83
Confusion Matrix:
[[4563  382]
 [ 706  862]]
Classification Report:
              precision    recall  f1-score   support

           0       0.87      0.92      0.89      4945
           1       0.69      0.55      0.61      1568

    accuracy                           0.83      6513
   macro avg       0.78      0.74      0.75      6513
weighted avg       0.82      0.83      0.83      6513

