In [16]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, classification_report


# 1️⃣ 데이터 로드
file_path = "C:/Users/Minseok/AI_CLASS/car_evaluation.csv" 
df = pd.read_csv(file_path) #csv_file load
df.head()

Unnamed: 0,vhigh,vhigh.1,2,2.1,small,low,unacc
0,vhigh,vhigh,2,2,small,med,unacc
1,vhigh,vhigh,2,2,small,high,unacc
2,vhigh,vhigh,2,2,med,low,unacc
3,vhigh,vhigh,2,2,med,med,unacc
4,vhigh,vhigh,2,2,med,high,unacc


In [17]:
# 2️⃣ 결측치 확인
print("🔍 [결측치 개수 확인]")
print(df.isnull().sum())  # 각 컬럼별 결측치 개수 출력


🔍 [결측치 개수 확인]
vhigh      0
vhigh.1    0
2          0
2.1        0
small      0
low        0
unacc      0
dtype: int64


In [18]:
# 4️⃣ 레이블 확인 (Survived)
print("\n🎯 [타겟 레이블 확인]")
print(df['unacc'].value_counts())  # 생존(1) vs 사망(0) 개수 출력



🎯 [타겟 레이블 확인]
unacc
unacc    1209
acc       384
good       69
vgood      65
Name: count, dtype: int64


In [19]:
# 6️⃣ 문자 데이터를 숫자로 변환 (변환 전/후 비교)
print("\n🔄 [변환 전 데이터 확인]")
print(df.head())  # 변환 전 데이터 확인



🔄 [변환 전 데이터 확인]
   vhigh vhigh.1  2 2.1  small   low  unacc
0  vhigh   vhigh  2   2  small   med  unacc
1  vhigh   vhigh  2   2  small  high  unacc
2  vhigh   vhigh  2   2    med   low  unacc
3  vhigh   vhigh  2   2    med   med  unacc
4  vhigh   vhigh  2   2    med  high  unacc


In [20]:
label_encoders = {}  # 각 컬럼별 LabelEncoder 저장용
for col in df.select_dtypes(include=['object']).columns:  # 문자열 데이터만 변환
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])
    label_encoders[col] = le  # 인코더 저장


In [21]:
print("\n🔄 [변환 후 데이터 확인]")
print(df.head())  # 변환 후 데이터 확인



🔄 [변환 후 데이터 확인]
   vhigh  vhigh.1  2  2.1  small  low  unacc
0      3        3  0    0      2    2      2
1      3        3  0    0      2    0      2
2      3        3  0    0      1    1      2
3      3        3  0    0      1    2      2
4      3        3  0    0      1    0      2


In [22]:
# 7️⃣ 데이터 분할 (훈련 & 테스트)
X = df.drop(columns=['unacc'])  # 입력 변수
y = df['unacc']  # 타겟 변수


In [23]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

In [24]:
# 1️⃣ 로지스틱 회귀 (Logistic Regression)
from sklearn.linear_model import LogisticRegression

# 모델 생성 및 학습
model_lr = LogisticRegression(max_iter=1000)
model_lr.fit(X_train, y_train)

# 예측 및 평가
y_pred_lr = model_lr.predict(X_test)
acc_lr = accuracy_score(y_test, y_pred_lr)

print("\n🏆 [로지스틱 회귀]")
print(f"✅ 정확도: {acc_lr:.4f}")
print(classification_report(y_test, y_pred_lr))


🏆 [로지스틱 회귀]
✅ 정확도: 0.6821
              precision    recall  f1-score   support

           0       0.26      0.08      0.12        77
           1       0.00      0.00      0.00        14
           2       0.73      0.94      0.82       242
           3       0.18      0.15      0.17        13

    accuracy                           0.68       346
   macro avg       0.29      0.29      0.28       346
weighted avg       0.58      0.68      0.61       346



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [25]:
#2️⃣ 의사결정나무 (Decision Tree)
from sklearn.tree import DecisionTreeClassifier

# 모델 생성 및 학습
model_dt = DecisionTreeClassifier(random_state=42)
model_dt.fit(X_train, y_train)

# 예측 및 평가
y_pred_dt = model_dt.predict(X_test)
acc_dt = accuracy_score(y_test, y_pred_dt)

print("\n🌳 [의사결정나무]")
print(f"✅ 정확도: {acc_dt:.4f}")
print(classification_report(y_test, y_pred_dt))


🌳 [의사결정나무]
✅ 정확도: 0.9884
              precision    recall  f1-score   support

           0       0.96      0.99      0.97        77
           1       0.93      1.00      0.97        14
           2       1.00      1.00      1.00       242
           3       1.00      0.85      0.92        13

    accuracy                           0.99       346
   macro avg       0.97      0.96      0.96       346
weighted avg       0.99      0.99      0.99       346



In [26]:
#3️⃣ 랜덤 포레스트 (Random Forest)
from sklearn.ensemble import RandomForestClassifier

# 모델 생성 및 학습
model_rf = RandomForestClassifier(n_estimators=100, random_state=42)
model_rf.fit(X_train, y_train)

# 예측 및 평가
y_pred_rf = model_rf.predict(X_test)
acc_rf = accuracy_score(y_test, y_pred_rf)

print("\n🌲 [랜덤 포레스트]")
print(f"✅ 정확도: {acc_rf:.4f}")
print(classification_report(y_test, y_pred_rf))


🌲 [랜덤 포레스트]
✅ 정확도: 0.9827
              precision    recall  f1-score   support

           0       0.95      0.97      0.96        77
           1       1.00      0.93      0.96        14
           2       0.99      0.99      0.99       242
           3       1.00      0.92      0.96        13

    accuracy                           0.98       346
   macro avg       0.99      0.95      0.97       346
weighted avg       0.98      0.98      0.98       346



In [27]:
# 4️⃣ 서포트 벡터 머신 (SVM)
from sklearn.svm import SVC

# 모델 생성 및 학습
model_svm = SVC(kernel="linear")
model_svm.fit(X_train, y_train)

# 예측 및 평가
y_pred_svm = model_svm.predict(X_test)
acc_svm = accuracy_score(y_test, y_pred_svm)

print("\n🎯 [서포트 벡터 머신]")
print(f"✅ 정확도: {acc_svm:.4f}")
print(classification_report(y_test, y_pred_svm))


🎯 [서포트 벡터 머신]
✅ 정확도: 0.7197
              precision    recall  f1-score   support

           0       0.52      0.14      0.22        77
           1       0.00      0.00      0.00        14
           2       0.73      0.98      0.84       242
           3       0.00      0.00      0.00        13

    accuracy                           0.72       346
   macro avg       0.31      0.28      0.27       346
weighted avg       0.63      0.72      0.64       346



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [28]:
#5️⃣ K-최근접 이웃 (K-Nearest Neighbors, KNN)
from sklearn.neighbors import KNeighborsClassifier

# 모델 생성 및 학습
model_knn = KNeighborsClassifier(n_neighbors=5)
model_knn.fit(X_train, y_train)

# 예측 및 평가
y_pred_knn = model_knn.predict(X_test)
acc_knn = accuracy_score(y_test, y_pred_knn)

print("\n📌 [K-최근접 이웃]")
print(f"✅ 정확도: {acc_knn:.4f}")
print(classification_report(y_test, y_pred_knn))


📌 [K-최근접 이웃]
✅ 정확도: 0.9335
              precision    recall  f1-score   support

           0       0.87      0.86      0.86        77
           1       0.89      0.57      0.70        14
           2       0.95      1.00      0.97       242
           3       1.00      0.62      0.76        13

    accuracy                           0.93       346
   macro avg       0.93      0.76      0.82       346
weighted avg       0.93      0.93      0.93       346

