# Diabetes Classification(DT, RF, SVM, LR, KNN)

### Documentation for operation test of basic classification model(DT, RF, SVM, LR, KNN)
### This code classifies diabetes data.

## import Libraries

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier  # KNN 추가
from sklearn.metrics import accuracy_score

## Classification(Learning, Test)

In [3]:
# 당뇨병 데이터 CSV파일 웹에서 읽어오기
url = "https://raw.githubusercontent.com/MyungKyuYi/AI-class/main/diabetes.csv"
df = pd.read_csv(url)

# 데이터프레임 확인
print(df.head())  # 데이터의 처음 5행을 출력한다.
print(df.columns)  # 데이터의 컬럼명을 출력한다.

# 데이터 준비
X = df.drop('Outcome', axis=1) # 데이터 특성 (Outcome 컬럼 제외)
Y = df['Outcome'] # 레이블 (Outcome 컬럼)

# 데이터 분할 (Training Data 70%와 Test Data 30%)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=42)

# 데이터 표준화
# SVM 모델과 LR 모델은 거리 기반 또는 경사 하강법을 사용하므로,
# 특성 값의 범위 차이가 크면 학습이 제대로 되지 않거나 성능이 저하될 수 있기 때문에 표준화된 데이터를 사용해야 한다.
# KNN 알고리즘 또한 거리 기반 알고리즘이므로 데이터 표준화가 필요하다.
# df.describe() 함수를 통해 확인해 본 결과 표준화된 데이터가 아니므로 표준화를 진행한다.
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Decision Tree (DT)
dt_model = DecisionTreeClassifier() # DT 모델 생성.
dt_model.fit(X_train, Y_train) # 모델 학습.
dt_predictions = dt_model.predict(X_test) # 예측. 즉, dt_predictions에는 테스트 데이터 특성(X_test)에 따라 예측한 Y값이 들어있는 것.
print("Decision Tree Accuracy:", accuracy_score(Y_test, dt_predictions)) # 예측한 값과 실제 Y값을 비교하여 정확도 평가.

# Random Forest (RF)
rf_model = RandomForestClassifier() # RF 모델 생성.
rf_model.fit(X_train, Y_train) # 모델 학습.
rf_predictions = rf_model.predict(X_test) # 예측. 즉, rf_predictions에는 테스트 데이터 특성(X_test)에 따라 예측한 Y값이 들어있는 것.
print("Random Forest Accuracy:", accuracy_score(Y_test, rf_predictions)) # 예측한 값과 실제 Y값을 비교하여 정확도 평가.

# Support Vector Machine (SVM)
svm_model = SVC() # SVM 모델 생성.
svm_model.fit(X_train, Y_train) # 모델 학습.
svm_predictions = svm_model.predict(X_test) # 예측. 즉, svm_predictions에는 테스트 데이터 특성(X_test)에 따라 예측한 Y값이 들어있는 것.
print("SVM Accuracy:", accuracy_score(Y_test, svm_predictions)) # 예측한 값과 실제 Y값을 비교하여 정확도 평가.

# Logistic Regression (LR)
lr_model = LogisticRegression() # LR 모델 생성.
lr_model.fit(X_train, Y_train) # 모델 학습.
lr_predictions = lr_model.predict(X_test) # 예측. 즉, lr_predictions에는 테스트 데이터 특성(X_test)에 따라 예측한 Y값이 들어있는 것.
print("Logistic Regression Accuracy:", accuracy_score(Y_test, lr_predictions)) # 예측한 값과 실제 Y값을 비교하여 정확도 평가.

# K-Nearest Neighbors (KNN) 추가 ⭐
knn_model = KNeighborsClassifier(n_neighbors=5)  # 기본적으로 K=5 사용
knn_model.fit(X_train, Y_train)
knn_predictions = knn_model.predict(X_test)
print("KNN Accuracy:", accuracy_score(Y_test, knn_predictions))


   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6      148             72             35        0  33.6   
1            1       85             66             29        0  26.6   
2            8      183             64              0        0  23.3   
3            1       89             66             23       94  28.1   
4            0      137             40             35      168  43.1   

   DiabetesPedigreeFunction  Age  Outcome  
0                     0.627   50        1  
1                     0.351   31        0  
2                     0.672   32        1  
3                     0.167   21        0  
4                     2.288   33        1  
Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')
Decision Tree Accuracy: 0.7186147186147186
Random Forest Accuracy: 0.7402597402597403
SVM Accuracy: 0.7445887445887446
Logistic Regression Acc

## Input new data and test

In [13]:
# 새로운 데이터 입력
new_data = {
    'Pregnancies': [6.4],  # 임신 횟수
    'Glucose': [145],   # 포도당 부하 검사 수치
    'BloodPressure': [75],  # 혈압
    'SkinThickness': [30], # 피하지방 측정값
    'Insulin': [3], # 혈청 인슐린
    'BMI': [33], # 체질량지수
    'DiabetesPedigreeFunction': [0.6], # 당뇨 내력 가중치값
    'Age':[41] # 나이
}
new_df = pd.DataFrame(new_data)

# 새로운 데이터도 표준화 적용
new_data_scaled = scaler.transform(new_df)

# 예측 수행
dt_pred = dt_model.predict(new_data_scaled)
rf_pred = rf_model.predict(new_data_scaled)
svm_pred = svm_model.predict(new_data_scaled)
lr_pred = lr_model.predict(new_data_scaled)
knn_pred = knn_model.predict(new_data_scaled)

# 예측 결과 출력
print("Decision Tree 예측 결과:", dt_pred)
print("Random Forest 예측 결과:", rf_pred)
print("SVM 예측 결과:", svm_pred)
print("Logistic Regression 예측 결과:", lr_pred)
print("K-nearest neighbors algorithm 예측 결과:", knn_pred)

Decision Tree 예측 결과: [1]
Random Forest 예측 결과: [1]
SVM 예측 결과: [1]
Logistic Regression 예측 결과: [1]
K-nearest neighbors algorithm 예측 결과: [1]


## Input new data from the user and test

In [17]:
# 사용자로부터 입력 받기
Pregnancies = float(input("임신 횟수를 입력하세요: "))
Glucose = float(input("포도당 부하 검사 수치를 입력하세요: "))
BloodPressure = float(input("혈압을 입력하세요: "))
SkinThickness = float(input("피하지방 측정값을 입력하세요: "))
Insulin = float(input("혈청 인슐린 수치를 입력하세요: "))
BMI = float(input("체질량지수를 입력하세요: "))
DiabetesPedigreeFunction = float(input("당뇨 내력 가중치값을 입력하세요: "))
Age = float(input("나이를 입력하세요: "))

# 새로운 데이터 입력
new_data = {
    'Pregnancies': [Pregnancies],  # 임신 횟수
    'Glucose': [Glucose],   # 포도당 부하 검사 수치
    'BloodPressure': [BloodPressure],  # 혈압
    'SkinThickness': [SkinThickness], # 피하지방 측정값
    'Insulin': [Insulin], # 혈청 인슐린
    'BMI': [BMI], # 체질량지수
    'DiabetesPedigreeFunction': [DiabetesPedigreeFunction], # 당뇨 내력 가중치값
    'Age':[Age] # 나이
}
new_df = pd.DataFrame(new_data)

# 새로운 데이터도 표준화 적용
new_data_scaled = scaler.transform(new_df)

# 예측 수행
dt_pred = dt_model.predict(new_data_scaled)
rf_pred = rf_model.predict(new_data_scaled)
svm_pred = svm_model.predict(new_data_scaled)
lr_pred = lr_model.predict(new_data_scaled)
knn_pred = knn_model.predict(new_data_scaled)

# 예측 결과 출력
print("Decision Tree 예측 결과:", dt_pred)
print("Random Forest 예측 결과:", rf_pred)
print("SVM 예측 결과:", svm_pred)
print("Logistic Regression 예측 결과:", lr_pred)
print("K-nearest neighbors algorithm 예측 결과:", knn_pred)

임신 횟수를 입력하세요:  6.4
포도당 부하 검사 수치를 입력하세요:  145
혈압을 입력하세요:  75
피하지방 측정값을 입력하세요:  30
혈청 인슐린 수치를 입력하세요:  3
체질량지수를 입력하세요:  33
당뇨 내력 가중치값을 입력하세요:  0.5
나이를 입력하세요:  39


Decision Tree 예측 결과: [1]
Random Forest 예측 결과: [1]
SVM 예측 결과: [1]
Logistic Regression 예측 결과: [1]
K-nearest neighbors algorithm 예측 결과: [1]
