In [14]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score

# mobile 데이터 CSV 파일 읽기
url = "https://raw.githubusercontent.com/MyungKyuYi/AI-class/refs/heads/main/diabetes.csv"  # 실제 경로로 변경하세요
df = pd.read_csv(url)

# 데이터프레임 확인
display(df.head())
print("컬럼 목록:", df.columns)

# 데이터 전처리
X = df.iloc[:, :-1]  # 특성(Feature) 데이터
y = df.iloc[:, -1]    # 레이블(Label) 데이터

# 문자열 레이블을 숫자로 변환
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

# x/y데이터. train/test 데이터 분리 (학습 80%, 테스트 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Decision Tree 분류
from sklearn.tree import DecisionTreeClassifier

dt_model = DecisionTreeClassifier() # Deicision Tree 모델 생성
dt_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_dt = dt_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
dt_acc = accuracy_score(y_test, y_pred_dt) # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"Decision Tree 정확도: {dt_acc:.4f}") # 정확도 검사 결과를 출력

# Random Forest 분류
from sklearn.ensemble import RandomForestClassifier

rf_model = RandomForestClassifier(n_estimators=100) # Random Forest 모델 생성
rf_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_rf = rf_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
rf_acc = accuracy_score(y_test, y_pred_rf)  # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"Random Forest 정확도: {rf_acc:.4f}") # 정확도 검사 결과를 출력

# SVM 분류
from sklearn.svm import SVC

svm_model = SVC() # SVM 모델 생성
svm_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_svm = svm_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
svm_acc = accuracy_score(y_test, y_pred_svm)  # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"SVM 정확도: {svm_acc:.4f}") # 정확도 검사 결과를 출력

# Logistic Regression 분류
from sklearn.linear_model import LogisticRegression

lr_model = LogisticRegression(max_iter=1000000) # Logistic Regression 모델 생성
lr_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_lr = lr_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
lr_acc = accuracy_score(y_test, y_pred_lr)  # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"Logistic Regression 정확도: {lr_acc:.4f}") # 정확도 검사 결과를 출력

# KNN 분류
from sklearn.neighbors import KNeighborsClassifier

knn_model = KNeighborsClassifier(n_neighbors=5)  # k=5 설정
knn_model.fit(X_train, y_train)  # 학습 데이터로 모델 학습
y_pred_knn = knn_model.predict(X_test)  # 예측
knn_acc = accuracy_score(y_test, y_pred_knn) # 정확도 검사
print(f"KNN 정확도: {knn_acc:.4f}") # 정확도 검사 결과를 출력

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


컬럼 목록: Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')
Decision Tree 정확도: 0.7403
Random Forest 정확도: 0.7143
SVM 정확도: 0.7662
Logistic Regression 정확도: 0.7468
KNN 정확도: 0.6623
