In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# -----------------------------
# 1) 데이터 준비 및 전처리
# -----------------------------

# 'iris.data'는 붓꽃 데이터셋으로, 붓꽃 데이터에는 문자열이 포함될 수 없습니다.
# 질문의 의도에 맞게 'car.data' 파일에 대한 가상의 전처리 코드로 변경하여 진행합니다.
# 실제 car.data 파일은 CSV 헤더가 없으며, 순서대로 6개의 특성과 1개의 레이블을 가집니다.

cols = ['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'label']

# car.data 파일을 가정하고 읽어옵니다.
df = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/car_evaluation.csv", header=None, names=cols).dropna()

# -----------------------------
# 1-1) 문자열 데이터 전처리
# -----------------------------
# 문자열을 순서가 있는 숫자 값으로 매핑합니다.
# pandas.DataFrame.replace() 메서드를 사용하여 값을 일괄 변환합니다.

# 가격(buying), 유지비(maint)
buying_maint_map = {'vhigh': 4, 'high': 3, 'med': 2, 'low': 1}
df['buying'] = df['buying'].replace(buying_maint_map)
df['maint'] = df['maint'].replace(buying_maint_map)

# 문 수(doors)
# '5more'를 5로 변환합니다.
doors_map = {'2': 2, '3': 3, '4': 4, '5more': 5}
df['doors'] = df['doors'].replace(doors_map)

# 인원(persons)
# 'more'를 6으로 변환합니다.
persons_map = {'2': 2, '4': 4, 'more': 6}
df['persons'] = df['persons'].replace(persons_map)

# 짐칸 크기(lug_boot)
lug_boot_map = {'small': 1, 'med': 2, 'big': 3}
df['lug_boot'] = df['lug_boot'].replace(lug_boot_map)

# 안전성(safety)
safety_map = {'low': 1, 'med': 2, 'high': 3}
df['safety'] = df['safety'].replace(safety_map)

# 레이블(label)
label_map = {'unacc': 1, 'acc': 2, 'good': 3, 'vgood': 4}
df['label'] = df['label'].replace(label_map)

# 데이터 분할
X = df.drop(columns=["label"])
y = df["label"]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)

# -----------------------------
# 2) 모델 구성
# -----------------------------
dt = DecisionTreeClassifier(random_state=42)
rf = RandomForestClassifier(n_estimators=200, random_state=42)
lr = LogisticRegression(max_iter=500)

# -----------------------------
# 3) 모델 학습
# -----------------------------
dt.fit(X_train, y_train)
rf.fit(X_train, y_train)
lr.fit(X_train, y_train)

# -----------------------------
# 4) 모델 평가
# -----------------------------
dt_acc = accuracy_score(y_test, dt.predict(X_test))
rf_acc = accuracy_score(y_test, rf.predict(X_test))
lr_acc = accuracy_score(y_test, lr.predict(X_test))

print("=== Test Accuracy ===")
print(f"Decision Tree : {dt_acc:.4f}")
print(f"Random Forest : {rf_acc:.4f}")
print(f"Logistic Reg. : {lr_acc:.4f}")

  df['buying'] = df['buying'].replace(buying_maint_map)
  df['maint'] = df['maint'].replace(buying_maint_map)
  df['doors'] = df['doors'].replace(doors_map)
  df['persons'] = df['persons'].replace(persons_map)
  df['lug_boot'] = df['lug_boot'].replace(lug_boot_map)
  df['safety'] = df['safety'].replace(safety_map)
  df['label'] = df['label'].replace(label_map)


=== Test Accuracy ===
Decision Tree : 0.9769
Random Forest : 0.9711
Logistic Reg. : 0.8064
