In [8]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

In [9]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [10]:
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/diabetes.csv')

In [11]:
print(df.head())

   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6      148             72             35        0  33.6   
1            1       85             66             29        0  26.6   
2            8      183             64              0        0  23.3   
3            1       89             66             23       94  28.1   
4            0      137             40             35      168  43.1   

   DiabetesPedigreeFunction  Age  Outcome  
0                     0.627   50        1  
1                     0.351   31        0  
2                     0.672   32        1  
3                     0.167   21        0  
4                     2.288   33        1  


In [12]:
# 특징(X)과 타겟(y)을 분리
X = df.drop('Outcome', axis=1)
y = df['Outcome']

In [13]:
# 훈련 세트와 테스트 세트로 데이터를 나눔
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [14]:
# SVM 모델 생성 및 학습
svm = SVC(kernel='linear')
svm.fit(X_train, y_train)

# SVM 모델 예측 및 정확도 계산
svm_pred = svm.predict(X_test)
svm_acc = accuracy_score(y_test, svm_pred)
print(f"SVM 정확도: {svm_acc:.2f}")

SVM 정확도: 0.75


In [15]:
# 로지스틱 회귀 모델 생성 및 학습
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train, y_train)

# 로지스틱 회귀 예측 및 정확도 계산
lr_pred = lr.predict(X_test)
lr_acc = accuracy_score(y_test, lr_pred)
print(f"로지스틱 회귀 정확도: {lr_acc:.2f}")

로지스틱 회귀 정확도: 0.75


In [16]:
# 랜덤 포레스트 분류 모델 생성 및 학습
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

# 랜덤 포레스트 예측 및 정확도 계산
rf_pred = rf.predict(X_test)
rf_acc = accuracy_score(y_test, rf_pred)
print(f"랜덤 포레스트 정확도: {rf_acc:.2f}")

랜덤 포레스트 정확도: 0.72


In [17]:
# 결정 트리 분류 모델 생성 및 학습
dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_train, y_train)

# 결정 트리 예측 및 정확도 계산
dt_pred = dt.predict(X_test)
dt_acc = accuracy_score(y_test, dt_pred)
print(f"결정 트리 정확도: {dt_acc:.2f}")

결정 트리 정확도: 0.75


In [18]:
# KNN 분류 모델 생성 및 학습
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

# KNN 예측 및 정확도 계산
knn_pred = knn.predict(X_test)
knn_acc = accuracy_score(y_test, knn_pred)
print(f"KNN 정확도: {knn_acc:.2f}")

KNN 정확도: 0.66


In [19]:
# 스케일러 생성 및 적용
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [20]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 신경망 모델 정의
model = Sequential([
    Dense(16, activation='relu', input_shape=(X_train.shape[1],)), # 첫 번째 은닉층: 16개의 뉴런과 ReLU 활성화 함수 사용
    Dense(8, activation='relu'),  # 두 번째 은닉층: 8개의 뉴런과 ReLU 활성화 함수 사용
    Dense(1, activation='sigmoid')  # 출력층: 이진 분류를 위한 시그모이드 활성화 함수 사용
])

# 모델 컴파일
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])  # 옵티마이저는 Adam, 손실 함수는 이진 교차 엔트로피 사용

# 모델 학습
history = model.fit(X_train_scaled, y_train, epochs=50, batch_size=16, validation_split=0.1)  # 학습 과정에서 10%의 데이터를 검증 세트로 사용


Epoch 1/50


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 8ms/step - accuracy: 0.6657 - loss: 0.6921 - val_accuracy: 0.6129 - val_loss: 0.7015
Epoch 2/50
[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.7105 - loss: 0.6379 - val_accuracy: 0.6452 - val_loss: 0.6755
Epoch 3/50
[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.6822 - loss: 0.6478 - val_accuracy: 0.6774 - val_loss: 0.6512
Epoch 4/50
[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.7529 - loss: 0.6060 - val_accuracy: 0.6613 - val_loss: 0.6315
Epoch 5/50
[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.7525 - loss: 0.5654 - val_accuracy: 0.6452 - val_loss: 0.6132
Epoch 6/50
[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.7677 - loss: 0.5493 - val_accuracy: 0.6452 - val_loss: 0.5975
Epoch 7/50
[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━

In [21]:
# 테스트 세트에서 모델을 평가
loss, accuracy = model.evaluate(X_test_scaled, y_test)
print(f"딥러닝 모델 정확도: {accuracy:.2f}")


[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.7476 - loss: 0.5587 
딥러닝 모델 정확도: 0.75


In [22]:
# 특징과 타겟 변수 설정 (회귀 모델)
X_reg = df.drop(['Outcome', 'BMI'], axis=1) # BMI를 타겟 변수로 사용하기 위해 제외
y_reg = df['BMI']

In [23]:
# 데이터 분할
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)

In [24]:
# 선형 회귀 모델 생성 및 학습
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

lr_reg = LinearRegression()
lr_reg.fit(X_train_reg, y_train_reg)

# 선형 회귀 예측 및 MSE 계산
lr_pred = lr_reg.predict(X_test_reg)
lr_mse = mean_squared_error(y_test_reg, lr_pred)
print(f"선형 회귀 MSE: {lr_mse:.2f}")

선형 회귀 MSE: 52.24


In [25]:
# 결정 트리 회귀 모델 생성 및 학습
from sklearn.tree import DecisionTreeRegressor

dt_reg = DecisionTreeRegressor(random_state=42)
dt_reg.fit(X_train_reg, y_train_reg)

# 결정 트리 회귀 예측 및 MSE 계산
dt_pred = dt_reg.predict(X_test_reg)
dt_mse = mean_squared_error(y_test_reg, dt_pred)
print(f"결정 트리 회귀 MSE: {dt_mse:.2f}")


결정 트리 회귀 MSE: 104.13


In [26]:
# 랜덤 포레스트 회귀 모델 생성 및 학습
from sklearn.ensemble import RandomForestRegressor

rf_reg = RandomForestRegressor(n_estimators=100, random_state=42)
rf_reg.fit(X_train_reg, y_train_reg)

# 랜덤 포레스트 회귀 예측 및 MSE 계산
rf_pred = rf_reg.predict(X_test_reg)
rf_mse = mean_squared_error(y_test_reg, rf_pred)
print(f"랜덤 포레스트 회귀 MSE: {rf_mse:.2f}")


랜덤 포레스트 회귀 MSE: 47.71


In [27]:
# 서포트 벡터 회귀 모델 생성 및 학습
from sklearn.svm import SVR

svr_reg = SVR()
svr_reg.fit(X_train_reg, y_train_reg)

# SVR 예측 및 MSE 계산
svr_pred = svr_reg.predict(X_test_reg)
svr_mse = mean_squared_error(y_test_reg, svr_pred)
print(f"SVR MSE: {svr_mse:.2f}")


SVR MSE: 57.99


In [28]:
# KNN 회귀 모델 생성 및 학습
from sklearn.neighbors import KNeighborsRegressor

knn_reg = KNeighborsRegressor(n_neighbors=5)
knn_reg.fit(X_train_reg, y_train_reg)

# KNN 회귀 예측 및 MSE 계산
knn_pred = knn_reg.predict(X_test_reg)
knn_mse = mean_squared_error(y_test_reg, knn_pred)
print(f"KNN 회귀 MSE: {knn_mse:.2f}")


KNN 회귀 MSE: 52.75


In [29]:
# 스케일링
X_train_reg_scaled = scaler.fit_transform(X_train_reg)
X_test_reg_scaled = scaler.transform(X_test_reg)


In [30]:
# 신경망 회귀 모델 정의
model_reg = Sequential([
    Dense(16, activation='relu', input_shape=(X_train_reg.shape[1],)),  # 첫 번째 은닉층: 16개의 뉴런과 ReLU 활성화 함수 사용
    Dense(8, activation='relu'),  # 두 번째 은닉층: 8개의 뉴런과 ReLU 활성화 함수 사용
    Dense(1)  # 출력층: 회귀를 위한 하나의 출력 뉴런
])

# 모델 컴파일
model_reg.compile(optimizer='adam', loss='mean_squared_error', metrics=['mse'])   # 옵티마이저는 Adam, 손실 함수는 평균 제곱 오차 사용

# 모델 학습
history_reg = model_reg.fit(X_train_reg_scaled, y_train_reg, epochs=50, batch_size=16, validation_split=0.1)  # 학습 과정에서 10%의 데이터를 검증 세트로 사용


Epoch 1/50


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 14ms/step - loss: 1112.9271 - mse: 1112.9271 - val_loss: 1185.6498 - val_mse: 1185.6498
Epoch 2/50
[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step - loss: 1067.2603 - mse: 1067.2603 - val_loss: 1152.4612 - val_mse: 1152.4612
Epoch 3/50
[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step - loss: 1038.2493 - mse: 1038.2493 - val_loss: 1120.8481 - val_mse: 1120.8481
Epoch 4/50
[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - loss: 1016.0799 - mse: 1016.0799 - val_loss: 1080.6650 - val_mse: 1080.6650
Epoch 5/50
[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step - loss: 975.6458 - mse: 975.6458 - val_loss: 1024.5023 - val_mse: 1024.5023
Epoch 6/50
[1m35/35[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - loss: 907.8282 - mse: 907.8282 - val_loss: 947.3008 - val_mse: 947.3008
Epoch 7/50
[1m35/35[0m [32m━━━━━━━━━━━━━━

In [31]:
# 테스트 세트에서 모델을 평가
loss_reg, mse_reg = model_reg.evaluate(X_test_reg_scaled, y_test_reg)
print(f"신경망 회귀 MSE: {mse_reg:.2f}")

[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 61.0298 - mse: 61.0298 
신경망 회귀 MSE: 64.66
