In [5]:
import requests
import zipfile
import io
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import LabelEncoder


# 1️⃣ ZIP 파일 다운로드 및 압축 해제
url = "https://github.com/MyungKyuYi/AI-class/raw/main/archive.zip"
response = requests.get(url)

if response.status_code == 200:
    zip_data = io.BytesIO(response.content)  # 메모리 버퍼에 저장
    with zipfile.ZipFile(zip_data, "r") as zip_ref:
        zip_ref.extractall("./unzipped_files")  # 압축 해제
    print("ZIP 파일 다운로드 및 압축 해제 완료!")
else:
    print("파일 다운로드 실패. 상태 코드:", response.status_code)

# 2️⃣ CSV 파일 로드 (해당 ZIP 파일 안의 파일명을 확인해야 함)
csv_path = "./unzipped_files/car_evaluation.csv"  # 압축 해제된 파일명을 지정
df = pd.read_csv(csv_path)

# 3️⃣ 데이터 확인
display(df)  # 데이터 일부 출력
print(df.columns)  # 컬럼명 확인

ZIP 파일 다운로드 및 압축 해제 완료!


Unnamed: 0,vhigh,vhigh.1,2,2.1,small,low,unacc
0,vhigh,vhigh,2,2,small,med,unacc
1,vhigh,vhigh,2,2,small,high,unacc
2,vhigh,vhigh,2,2,med,low,unacc
3,vhigh,vhigh,2,2,med,med,unacc
4,vhigh,vhigh,2,2,med,high,unacc
...,...,...,...,...,...,...,...
1722,low,low,5more,more,med,med,good
1723,low,low,5more,more,med,high,vgood
1724,low,low,5more,more,big,low,unacc
1725,low,low,5more,more,big,med,good


Index(['vhigh', 'vhigh.1', '2', '2.1', 'small', 'low', 'unacc'], dtype='object')


In [6]:
# 2️⃣ 모든 문자형 컬럼을 Label Encoding
label_encoders = {}  # 각 컬럼별 인코더 저장
for col in df.columns:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])  # 문자열을 숫자로 변환
    label_encoders[col] = le  # 변환기 저장 (필요하면 나중에 역변환 가능)

# 4️⃣ 마지막 열을 레이블(y), 나머지를 특징(X)으로 설정
X = df.iloc[:, :-1]  # 마지막 열을 제외한 모든 특징
y = df.iloc[:, -1]   # 마지막 열을 레이블로 지정
# 5️⃣ 훈련 데이터와 테스트 데이터로 분할 (8:2 비율)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [7]:
# (1) 결정 트리(Decision Tree, DT)
dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_train, y_train)
y_pred_dt = dt.predict(X_test)
print("Decision Tree Accuracy:", accuracy_score(y_test, y_pred_dt))

Decision Tree Accuracy: 0.9710982658959537


In [8]:
# (2) 랜덤 포레스트(Random Forest, RF)
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)
print("Random Forest Accuracy:", accuracy_score(y_test, y_pred_rf))

Random Forest Accuracy: 0.9624277456647399


In [9]:
# (3) 서포트 벡터 머신(Support Vector Machine, SVM)
svm = SVC(kernel='linear', random_state=42)
svm.fit(X_train, y_train)
y_pred_svm = svm.predict(X_test)
print("SVM Accuracy:", accuracy_score(y_test, y_pred_svm))

SVM Accuracy: 0.7167630057803468


In [10]:
# (4) 로지스틱 회귀(Logistic Regression, LR)
lr = LogisticRegression(max_iter=200)
lr.fit(X_train, y_train)
y_pred_lr = lr.predict(X_test)
print("Logistic Regression Accuracy:", accuracy_score(y_test, y_pred_lr))

Logistic Regression Accuracy: 0.684971098265896
