In [5]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 데이터 불러오기
file_path = r"C:\AI_Introduction\week1_assignment\iris.csv"
df = pd.read_csv(file_path)

# 특성과 타겟 분리 (X: 특성, y: 타겟)
X = df.iloc[:, :-1]  # 마지막 열 제외 (특성)
y = df.iloc[:, -1]   # 마지막 열 (타겟)

# 문자열 라벨을 숫자로 변환
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

# 학습 데이터(train)와 테스트 데이터(test) 50:50 비율로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=42, stratify=y)

# 데이터 정규화 (SVM과 로지스틱 회귀에서 성능 향상을 위해 사용)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 모델 리스트
models = {
    "Decision Tree": DecisionTreeClassifier(random_state=42),
    "Random Forest": RandomForestClassifier(random_state=42),
    "SVM": SVC(random_state=42),
    "Logistic Regression": LogisticRegression(random_state=42, max_iter=200)
}

# 모델 학습 및 평가
for name, model in models.items():
    if name in ["SVM", "Logistic Regression"]:
        model.fit(X_train_scaled, y_train)  # 정규화된 데이터 사용
        y_pred = model.predict(X_test_scaled)
    else:
        model.fit(X_train, y_train)  # 원본 데이터 사용
        y_pred = model.predict(X_test)

    accuracy = accuracy_score(y_test, y_pred)
    print(f"{name} 정확도: {accuracy:.4f}")

Decision Tree 정확도: 0.8800
Random Forest 정확도: 0.8933
SVM 정확도: 0.9600
Logistic Regression 정확도: 0.9467
