# 1. 데이터 로드 & 결측치 확인

## pandas 라이브러리 사용 (데이터 로드 및 확인)

In [1]:
import pandas as pd  # 데이터 처리를 위한 라이브러리

# CSV 파일 불러오기
url = "https://raw.githubusercontent.com/Kim-TaeWook/AI-class/refs/heads/main/week3/car_evaluation.csv"

# 컬럼명이 없는 경우 header=None을 지정하여 컬럼명이 자동으로 들어가지 않도록 함
df = pd.read_csv(url, header=None)

# 데이터 확인
df

Unnamed: 0,0,1,2,3,4,5,6
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc
...,...,...,...,...,...,...,...
1723,low,low,5more,more,med,med,good
1724,low,low,5more,more,med,high,vgood
1725,low,low,5more,more,big,low,unacc
1726,low,low,5more,more,big,med,good


In [2]:
# 컬럼명 삽입
df.columns=['price', 'maint', 'doors', 'persons', 'lug_capacity', 'safety', 'output']

# 변환된 데이터 확인
df

Unnamed: 0,price,maint,doors,persons,lug_capacity,safety,output
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc
...,...,...,...,...,...,...,...
1723,low,low,5more,more,med,med,good
1724,low,low,5more,more,med,high,vgood
1725,low,low,5more,more,big,low,unacc
1726,low,low,5more,more,big,med,good


In [3]:
# 결측치 확인
df.isnull().sum()

price           0
maint           0
doors           0
persons         0
lug_capacity    0
safety          0
output          0
dtype: int64

# 2. 데이터 전처리

## Label Encoding (문자 데이터를 숫자로 변환)
**사용 라이브러리: sklearn.preprocessing.LabelEncoder**

In [4]:
from sklearn.preprocessing import LabelEncoder  # 문자 데이터를 숫자로 변환

# 모든 특성 데이터를 숫자로 변환 (Label Encoding 적용)
label_encoders = {} # 각 컬럼별 인코더를 저장할 딕셔너리 생성
columns = df.columns # 데이터프레임의 컬럼명 가져오기

for column in columns:
    label_encoders[column] = LabelEncoder() # 각 컬럼에 대해 LabelEncoder 객체 생성
    df[column] = label_encoders[column].fit_transform(df[column]) # 해당 컬럼에 Label Encoding 적용


# 변환된 데이터 확인
df

Unnamed: 0,price,maint,doors,persons,lug_capacity,safety,output
0,3,3,0,0,2,1,2
1,3,3,0,0,2,2,2
2,3,3,0,0,2,0,2
3,3,3,0,0,1,1,2
4,3,3,0,0,1,2,2
...,...,...,...,...,...,...,...
1723,1,1,3,2,1,2,1
1724,1,1,3,2,1,0,3
1725,1,1,3,2,0,1,2
1726,1,1,3,2,0,2,1


In [5]:
# 'output' 컬럼의 각 값이 몇 개씩 존재하는지 확인
df['output'].value_counts()

output
2    1210
0     384
1      69
3      65
Name: count, dtype: int64

In [6]:
# 'output' 컬럼을 타겟(y)으로 설정하고, 나머지 컬럼을 입력(X)으로 설정
X = df.drop('output', axis=1).values # 'output' 컬럼 제거 → X (입력 데이터)
y = df['output'].values # 'output' 컬럼만 추출 → y (정답 데이터)

In [7]:
# 입력 데이터 확인
X

array([[3, 3, 0, 0, 2, 1],
       [3, 3, 0, 0, 2, 2],
       [3, 3, 0, 0, 2, 0],
       ...,
       [1, 1, 3, 2, 0, 1],
       [1, 1, 3, 2, 0, 2],
       [1, 1, 3, 2, 0, 0]])

In [8]:
# 출력 데이터 확인
y

array([2, 2, 2, ..., 2, 1, 3])

# 4. 데이터 정규화 (Standardization)

## 데이터 정규화 (StandardScaler 사용)
**사용 라이브러리: sklearn.preprocessing.StandardScaler**

In [9]:
from sklearn.preprocessing import StandardScaler  # 데이터 정규화를 위한 라이브러리

# 종속변수 분리
X = df.drop(columns=[df.columns[-1]]).values  # 마지막 컬럼(output) 제거 후 특성 데이터 추출
y = df.iloc[:, -1].values  # 마지막 컬럼을 타겟 변수로 설정

# 데이터 정규화 (평균 0, 표준편차 1로 변환)
scaler = StandardScaler()
X = scaler.fit_transform(X)

# 변환된 데이터 확인
X

array([[ 1.34164079,  1.34164079, -1.34164079, -1.22474487,  1.22474487,
         0.        ],
       [ 1.34164079,  1.34164079, -1.34164079, -1.22474487,  1.22474487,
         1.22474487],
       [ 1.34164079,  1.34164079, -1.34164079, -1.22474487,  1.22474487,
        -1.22474487],
       ...,
       [-0.4472136 , -0.4472136 ,  1.34164079,  1.22474487, -1.22474487,
         0.        ],
       [-0.4472136 , -0.4472136 ,  1.34164079,  1.22474487, -1.22474487,
         1.22474487],
       [-0.4472136 , -0.4472136 ,  1.34164079,  1.22474487, -1.22474487,
        -1.22474487]])

# 4. 데이터 분할 (훈련 데이터 & 테스트 데이터)

**사용 라이브러리: sklearn.model_selection.train_test_split**

In [10]:
from sklearn.model_selection import train_test_split  # 데이터 분할을 위한 라이브러리

# 80% 훈련 데이터, 20% 테스트 데이터로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 데이터 크기 확인
print("\n 데이터 크기 확인:")
print("X_train:", X_train.shape, "X_test:", X_test.shape, "y_train:", y_train.shape, "y_test:", y_test.shape)


 데이터 크기 확인:
X_train: (1382, 6) X_test: (346, 6) y_train: (1382,) y_test: (346,)


# 5. 모델별 학습 및 평가

## 5-1. 결정 트리 (Decision Tree)
**사용 라이브러리: sklearn.tree.DecisionTreeClassifier, sklearn.metrics.accuracy_score, confusion_matrix**

In [11]:
from sklearn.tree import DecisionTreeClassifier  # 결정 트리 모델
from sklearn.metrics import accuracy_score, confusion_matrix  # 평가 지표

dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(X_train, y_train)
dt_pred = dt_model.predict(X_test)

# 정확도 평가
dt_acc = accuracy_score(y_test, dt_pred)
print("\n 결정 트리 정확도:", dt_acc)

# 혼동 행렬
print("\n 결정 트리 혼동 행렬:\n", confusion_matrix(y_test, dt_pred))


 결정 트리 정확도: 0.9739884393063584

 결정 트리 혼동 행렬:
 [[ 76   6   1   0]
 [  1  10   0   0]
 [  0   0 235   0]
 [  1   0   0  16]]


## 5-2. 랜덤 포레스트 (Random Forest)
**사용 라이브러리: sklearn.ensemble.RandomForestClassifier**

In [12]:
from sklearn.ensemble import RandomForestClassifier  # 랜덤 포레스트 모델

rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)
rf_pred = rf_model.predict(X_test)

# 정확도 평가
rf_acc = accuracy_score(y_test, rf_pred)
print("\n 랜덤 포레스트 정확도:", rf_acc)

# 혼동 행렬
print("\n 랜덤 포레스트 혼동 행렬:\n", confusion_matrix(y_test, rf_pred))


 랜덤 포레스트 정확도: 0.976878612716763

 랜덤 포레스트 혼동 행렬:
 [[ 76   7   0   0]
 [  0  11   0   0]
 [  0   0 235   0]
 [  1   0   0  16]]


## 5-3. 서포트 벡터 머신 (SVM)
**사용 라이브러리: sklearn.svm.SVC**

In [13]:
from sklearn.svm import SVC  # SVM 모델

svm_model = SVC(kernel='linear', random_state=42)
svm_model.fit(X_train, y_train)
svm_pred = svm_model.predict(X_test)

# 정확도 평가
svm_acc = accuracy_score(y_test, svm_pred)
print("\n SVM 정확도:", svm_acc)

# 혼동 행렬
print("\n SVM 혼동 행렬:\n", confusion_matrix(y_test, svm_pred))


 SVM 정확도: 0.6965317919075145

 SVM 혼동 행렬:
 [[ 10   0  73   0]
 [  0   0  11   0]
 [  4   0 231   0]
 [  7   0  10   0]]


## 5-4. 로지스틱 회귀 (Logistic Regression)
**사용 라이브러리: sklearn.linear_model.LogisticRegression**

In [14]:
from sklearn.linear_model import LogisticRegression  # 로지스틱 회귀 모델

lr_model = LogisticRegression(max_iter=500, random_state=42)
lr_model.fit(X_train, y_train)
lr_pred = lr_model.predict(X_test)

# 정확도 평가
lr_acc = accuracy_score(y_test, lr_pred)
print("\n 로지스틱 회귀 정확도:", lr_acc)

# 혼동 행렬
print("\n 로지스틱 회귀 혼동 행렬:\n", confusion_matrix(y_test, lr_pred))


 로지스틱 회귀 정확도: 0.6589595375722543

 로지스틱 회귀 혼동 행렬:
 [[ 11   0  69   3]
 [  2   0   9   0]
 [ 17   0 217   1]
 [ 12   0   5   0]]


# 6. 전체 결과 출력

In [15]:
print("\n---모델별 정확도 비교---")
print(f"결정 트리: {dt_acc:.4f}")
print(f"랜덤 포레스트: {rf_acc:.4f}")
print(f"SVM: {svm_acc:.4f}")
print(f"로지스틱 회귀: {lr_acc:.4f}")


---모델별 정확도 비교---
결정 트리: 0.9740
랜덤 포레스트: 0.9769
SVM: 0.6965
로지스틱 회귀: 0.6590
