In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, confusion_matrix

# car_evaluation 데이터 CSV 파일 경로 설정
file_path = "/content/drive/MyDrive/car_evaluation.csv"

# 컬럼명 리스트를 만들고 CSV 파일을 읽어올 때 컬럼명 부여
column_names = ["price", "maint", "doors", "persons", "lug_capacity", "safety", "output"]
df = pd.read_csv(file_path, names=column_names, header=None)

# 데이터프레임 확인
display(df.head())
print("컬럼 목록:", df.columns)

Unnamed: 0,price,maint,doors,persons,lug_capacity,safety,output
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc


컬럼 목록: Index(['price', 'maint', 'doors', 'persons', 'lug_capacity', 'safety',
       'output'],
      dtype='object')


In [7]:
# 결측치 확인
print(df.isnull().sum(),"\n")


'''
# 결측치 제거(Age만 다른 데이터의 평균으로 수정)
df["Age"] = df["Age"].fillna(df["Age"].mean())
'''
'''
# pandas에서 inplace=True가 제대로 실행되지 않을 수 있어, 3.0버전부터는 일부 경우 아예 동작하지 않음
df['Age'].fillna(df['Age'].mean(), inplace=True)
'''

# 레이블의 데이터 비율을 확인(imbalanced data인지 확인)
print(df['output'].value_counts(),"\n")

'''
# 불필요한 컬럼 제거
df.drop(columns=['Name', 'Ticket', 'Cabin', 'Embarked'], inplace=True)
'''

# LabelEncoder 객체 생성
label_encoder = LabelEncoder()
# 모든 컬럼을 숫자로 변환
for column in df.columns:
    df[column] = label_encoder.fit_transform(df[column])
# 엔코딩 후에도 label value count 결과는 같음
print(df['output'].value_counts(),"\n")

price           0
maint           0
doors           0
persons         0
lug_capacity    0
safety          0
output          0
dtype: int64 

output
unacc    1210
acc       384
good       69
vgood      65
Name: count, dtype: int64 

output
2    1210
0     384
1      69
3      65
Name: count, dtype: int64 



In [8]:
# 데이터 전처리
X = df.drop('output', axis=1).values  # 특성(Feature) 데이터
y = df['output'].values   # 레이블(Label) 데이터

# x/y데이터. train/test 데이터 분리 (학습 80%, 테스트 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Decision Tree 분류
from sklearn.tree import DecisionTreeClassifier

dt_model = DecisionTreeClassifier() # Deicision Tree 모델 생성
dt_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_dt = dt_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
dt_acc = accuracy_score(y_test, y_pred_dt) # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"Decision Tree 정확도: {dt_acc:.4f}") # 정확도 검사 결과를 출력
conf_matrix = confusion_matrix(y_test, y_pred_dt) # Confusion Matrix, 예측값과 결과값을 비교하여 TP, FP, FN, TN 개수 반환
print("Confusion Matrix:", "\n", conf_matrix) # Confusion Matrix 결과를 출력

# Random Forest 분류
from sklearn.ensemble import RandomForestClassifier

rf_model = RandomForestClassifier(n_estimators=100) # Random Forest 모델 생성
rf_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_rf = rf_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
rf_acc = accuracy_score(y_test, y_pred_rf)  # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"Random Forest 정확도: {rf_acc:.4f}") # 정확도 검사 결과를 출력
conf_matrix = confusion_matrix(y_test, y_pred_rf) # Confusion Matrix, 예측값과 결과값을 비교하여 TP, FP, FN, TN 개수 반환
print("Confusion Matrix:", "\n", conf_matrix) # Confusion Matrix 결과를 출력

# SVM 분류
from sklearn.svm import SVC

svm_model = SVC() # SVM 모델 생성
svm_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_svm = svm_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
svm_acc = accuracy_score(y_test, y_pred_svm)  # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"SVM 정확도: {svm_acc:.4f}") # 정확도 검사 결과를 출력
conf_matrix = confusion_matrix(y_test, y_pred_svm) # Confusion Matrix, 예측값과 결과값을 비교하여 TP, FP, FN, TN 개수 반환
print("Confusion Matrix:", "\n", conf_matrix) # Confusion Matrix 결과를 출력

# Logistic Regression 분류
from sklearn.linear_model import LogisticRegression

lr_model = LogisticRegression(max_iter=200) # Logistic Regression 모델 생성
lr_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_lr = lr_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
lr_acc = accuracy_score(y_test, y_pred_lr)  # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"Logistic Regression 정확도: {lr_acc:.4f}") # 정확도 검사 결과를 출력
conf_matrix = confusion_matrix(y_test, y_pred_lr) # Confusion Matrix, 예측값과 결과값을 비교하여 TP, FP, FN, TN 개수 반환
print("Confusion Matrix:", "\n", conf_matrix) # Confusion Matrix 결과를 출력

# KNN 분류
from sklearn.neighbors import KNeighborsClassifier

knn_model = KNeighborsClassifier(n_neighbors=5)  # k=5 설정
knn_model.fit(X_train, y_train)  # 학습 데이터로 모델 학습
y_pred_knn = knn_model.predict(X_test)  # 예측
knn_acc = accuracy_score(y_test, y_pred_knn) # 정확도 검사
print(f"KNN 정확도: {knn_acc:.4f}") # 정확도 검사 결과를 출력
conf_matrix = confusion_matrix(y_test, y_pred_knn) # Confusion Matrix, 예측값과 결과값을 비교하여 TP, FP, FN, TN 개수 반환
print("Confusion Matrix:", "\n", conf_matrix) # Confusion Matrix 결과를 출력

Decision Tree 정확도: 0.9682
Confusion Matrix: 
 [[ 76   6   1   0]
 [  1  10   0   0]
 [  0   0 235   0]
 [  1   2   0  14]]
Random Forest 정확도: 0.9566
Confusion Matrix: 
 [[ 69   7   6   1]
 [  0  11   0   0]
 [  0   0 235   0]
 [  1   0   0  16]]
SVM 정확도: 0.9133
Confusion Matrix: 
 [[ 63   0  20   0]
 [  5   5   0   1]
 [  2   0 233   0]
 [  2   0   0  15]]
Logistic Regression 정확도: 0.6590
Confusion Matrix: 
 [[ 11   0  69   3]
 [  2   0   9   0]
 [ 17   0 217   1]
 [ 12   0   5   0]]
KNN 정확도: 0.8786
Confusion Matrix: 
 [[ 58   4  20   1]
 [  6   5   0   0]
 [  1   0 234   0]
 [  5   2   3   7]]
