In [29]:
from sklearn.datasets import load_breast_cancer
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.neighbors import KNeighborsClassifier
import seaborn as sns

1. 데이터 로딩

In [30]:
# car_evaluation.csv 파일의 raw URL
url = 'https://github.com/Yoon-Kyuhyun/AI-introduction/blob/main/week3/car_evaluation.csv'

# 데이터 로딩
df = pd.read_csv('car_evaluation.csv')

# 데이터 확인
df

Unnamed: 0,vhigh,vhigh.1,2,2.1,small,low,unacc
0,vhigh,vhigh,2,2,small,med,unacc
1,vhigh,vhigh,2,2,small,high,unacc
2,vhigh,vhigh,2,2,med,low,unacc
3,vhigh,vhigh,2,2,med,med,unacc
4,vhigh,vhigh,2,2,med,high,unacc
...,...,...,...,...,...,...,...
1722,low,low,5more,more,med,med,good
1723,low,low,5more,more,med,high,vgood
1724,low,low,5more,more,big,low,unacc
1725,low,low,5more,more,big,med,good


2. 인덱스 바꾸기

In [31]:
df.columns=['price', 'maint', 'doors', 'persons', 'lug_capacity', 'safety', 'output']

df

Unnamed: 0,price,maint,doors,persons,lug_capacity,safety,output
0,vhigh,vhigh,2,2,small,med,unacc
1,vhigh,vhigh,2,2,small,high,unacc
2,vhigh,vhigh,2,2,med,low,unacc
3,vhigh,vhigh,2,2,med,med,unacc
4,vhigh,vhigh,2,2,med,high,unacc
...,...,...,...,...,...,...,...
1722,low,low,5more,more,med,med,good
1723,low,low,5more,more,med,high,vgood
1724,low,low,5more,more,big,low,unacc
1725,low,low,5more,more,big,med,good


3. 결측치 확인

In [32]:
# 결측치 확인
df.isnull().sum()

price           0
maint           0
doors           0
persons         0
lug_capacity    0
safety          0
output          0
dtype: int64

4. 엔코딩

In [33]:
columns = ['price', 'maint', 'doors', 'persons', 'lug_capacity', 'safety','output']
label_encoders = {}
for column in columns:
    label_encoders[column] = LabelEncoder()
    df[column] = label_encoders[column].fit_transform(df[column])

df
     

Unnamed: 0,price,maint,doors,persons,lug_capacity,safety,output
0,3,3,0,0,2,2,2
1,3,3,0,0,2,0,2
2,3,3,0,0,1,1,2
3,3,3,0,0,1,2,2
4,3,3,0,0,1,0,2
...,...,...,...,...,...,...,...
1722,1,1,3,2,1,2,1
1723,1,1,3,2,1,0,3
1724,1,1,3,2,0,1,2
1725,1,1,3,2,0,2,1


5. 레이블 확인

In [34]:
df['output'].value_counts()

2    1209
0     384
1      69
3      65
Name: output, dtype: int64

6. X와 y의 값

In [37]:
# 'output' 열을 제외한 나머지 열들을 특성(Features)으로 설정
X = df.drop('output', axis=1).values  # 'output' 열을 제거한 DataFrame을 NumPy 배열로 변환하여 X에 저장
# 'output' 열을 타겟(Target) 변수로 설정
y = df['output'].values  # 'output' 열만 추출하여 NumPy 배열로 변환하여 y에 저장
X

array([[3, 3, 0, 0, 2, 2],
       [3, 3, 0, 0, 2, 0],
       [3, 3, 0, 0, 1, 1],
       ...,
       [1, 1, 3, 2, 0, 1],
       [1, 1, 3, 2, 0, 2],
       [1, 1, 3, 2, 0, 0]])

In [38]:
y

array([2, 2, 2, ..., 2, 1, 3])

7. 표준화

In [39]:
# 데이터를 표준화 (Standardize)
scaler = StandardScaler()  # StandardScaler 객체를 생성
X = scaler.fit_transform(X)  # X 데이터를 표준화, 각 특성(feature)의 평균을 0, 표준편차를 1로 변환

# 데이터셋을 훈련 세트와 테스트 세트로 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
# X와 y 데이터를 80% 훈련 세트, 20% 테스트 세트로 분리. random_state=0은 결과의 재현성을 위해 설정.


8. SVM 예측결과

In [40]:
# SVM 분류기 모델 정의 및 훈련
clf_svm = SVC(random_state=0)  # SVC 모델을 생성, random_state=0은 재현성을 위한 랜덤 시드 설정
clf_svm.fit(X_train, y_train)  # 훈련 데이터(X_train, y_train)로 모델 학습

# 테스트 데이터로 예측 수행
pred_svm = clf_svm.predict(X_test)  # 테스트 데이터(X_test)에 대해 예측 수행

# SVM 분류기의 결과 출력
print("\n--- SVM Classifier ---")  # SVM 분류기 결과 시작 표시
print(accuracy_score(y_test, pred_svm))  # 정확도 출력 (예측값과 실제값 비교)
print(confusion_matrix(y_test, pred_svm))  # 혼동 행렬 출력 (예측값과 실제값 비교)



--- SVM Classifier ---
0.8786127167630058
[[ 62   1  14   0]
 [  9   4   0   1]
 [ 17   0 222   0]
 [  0   0   0  16]]


9. Decision Tree 예측결과

In [41]:
# Decision Tree 분류기 모델 정의 및 훈련
clf_dt = DecisionTreeClassifier(random_state=0)  # DecisionTreeClassifier 모델을 생성, random_state=0은 재현성을 위한 랜덤 시드 설정
clf_dt.fit(X_train, y_train)  # 훈련 데이터(X_train, y_train)로 모델 학습

# 테스트 데이터로 예측 수행
pred_dt = clf_dt.predict(X_test)  # 테스트 데이터(X_test)에 대해 예측 수행

# Decision Tree 분류기의 결과 출력
print("\n--- Decision Tree Classifier ---")  # 출력 결과의 제목을 설정
print(accuracy_score(y_test, pred_dt))  # 정확도 출력: 예측값(pred_dt)과 실제값(y_test) 비교하여 정확도 계산
print(confusion_matrix(y_test, pred_dt))  # 혼동 행렬 출력: 예측값(pred_dt)과 실제값(y_test)을 비교하여 혼동 행렬 생성



--- Decision Tree Classifier ---
0.976878612716763
[[ 74   0   3   0]
 [  0  12   0   2]
 [  0   0 239   0]
 [  3   0   0  13]]


10. Random Forest 예측결과

In [42]:
print("\n--- Random Forest ---")  # Random Forest 분류기 결과 출력 시작 표시

# RandomForestClassifier 모델 정의 및 훈련
rf_clf = RandomForestClassifier(random_state=0)  # 랜덤 포레스트 분류기 모델 생성, random_state=0은 재현성을 위한 랜덤 시드 설정
rf_clf.fit(X_train, y_train)  # 훈련 데이터(X_train, y_train)로 모델 학습

# 테스트 데이터로 예측 수행
pred = rf_clf.predict(X_test)  # 테스트 데이터(X_test)에 대해 예측 수행

# Random Forest 분류기의 결과 출력
print(accuracy_score(y_test, pred))  # 정확도 출력: 예측값(pred)과 실제값(y_test) 비교하여 정확도 계산
print(confusion_matrix(y_test, pred))  # 혼동 행렬 출력: 예측값(pred)과 실제값(y_test)을 비교하여 혼동 행렬 생성


--- Random Forest ---
0.9739884393063584
[[ 72   1   4   0]
 [  1  10   0   3]
 [  0   0 239   0]
 [  0   0   0  16]]
