In [40]:
# 필요한 라이브러리를 임포트합니다.
import pandas as pd  # 데이터 처리를 위한 라이브러리
from sklearn.model_selection import train_test_split  # 데이터 분할을 위한 함수
from sklearn.preprocessing import StandardScaler  # 데이터 정규화를 위한 클래스
from keras.models import Sequential  # Keras에서 순차적 모델 구성을 위한 클래스
from keras.layers import Dense  # Keras에서 Dense(밀집) 레이어를 사용하기 위한 클래스

In [41]:
# 데이터셋 불러오기
data = pd.read_csv('https://raw.githubusercontent.com/BigDeepData/2312_dl/main/data/diabetes.csv')

In [42]:
data.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [43]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [44]:
data.describe()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


In [45]:
# 데이터셋의 특성(독립 변수)과 라벨(종속 변수)을 분리합니다.
X = data.iloc[:, 0:8]  # 첫 8개 컬럼은 특성을 나타냅니다.
y = data.iloc[:, 8]    # 마지막 컬럼은 라벨(당뇨병 발병 여부)을 나타냅니다.

# 데이터 정규화: 각 특성의 범위를 표준화합니다 (평균 0, 표준편차 1).
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 데이터를 학습 데이터와 테스트 데이터로 분리합니다.
# 일반적으로 80%는 학습용, 20%는 테스트용으로 사용합니다.
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2)

In [46]:
X_train.shape

(614, 8)

In [47]:
# Keras를 이용한 딥러닝 모델 정의
model = Sequential()
# Sequential 모델은 Keras에서 층(layer)을 순차적으로 쌓아가는 모델입니다.

model.add(Dense(12,activation='relu', input_dim=X_train.shape[-1]))
# 첫 번째 층(입력층)을 추가합니다.
# 'Dense'는 완전 연결 레이어를 의미합니다.
# 이 층에는 12개의 노드(뉴런)이 있으며, 입력 차원(input_dim)은 8입니다 (데이터셋의 특성 수).
# 'relu'는 활성화 함수로, 각 노드의 출력을 결정합니다.

model.add(Dense(8, activation='relu'))
# 두 번째 층(은닉층)을 추가합니다. => 첫번째 은닉층의 출력층을 입력으로 받으므로 input 안적어도됨
# 이 층에는 8개의 노드가 있으며, 'relu' 활성화 함수를 사용합니다.

model.add(Dense(1, activation='sigmoid'))
# 세 번째 층(출력층)을 추가합니다.
# 이 층에는 1개의 노드가 있으며, 'sigmoid' 활성화 함수를 사용합니다.
# 'sigmoid' 함수는 출력값을 0과 1 사이로 제한하여, 이진 분류 문제에 적합합니다.

model.summary()
# 모델의 요약 정보를 출력합니다. 이를 통해 각 층의 구성, 파라미터 수 등을 확인할 수 있습니다.

Model: "sequential_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_9 (Dense)             (None, 12)                108       
                                                                 
 dense_10 (Dense)            (None, 8)                 104       
                                                                 
 dense_11 (Dense)            (None, 1)                 9         
                                                                 
Total params: 221 (884.00 Byte)
Trainable params: 221 (884.00 Byte)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [48]:
# 모델 컴파일
model.compile(
    loss = 'binary_crossentropy', # 손실 함수(loss function) 설정
    optimizer='adam',             # 최적화 알고리즘(optimizer) 설정
    metrics='accuracy')           # 평가 기준(metrics) 설정

# 'binary_crossentropy' 손실 함수는 이진 분류 문제에 적합한 손실 함수입니다.
# 이 함수는 실제 라벨과 예측된 확률 간의 차이를 측정합니다.

# 'adam' 최적화 알고리즘은 효율적인 경사 하강법의 한 형태로,
# 학습 과정에서 자동으로 학습률을 조정합니다.

# 'metrics'에 'accuracy'를 지정함으로써,
# 훈련 및 검증 과정에서 모델의 정확도를 평가할 수 있습니다.

In [49]:
# 모델 학습
model.fit(
    X_train, y_train, # 학습 데이터와 라벨
    epochs=180,       # 에폭(epoch) 수 설정
    batch_size=14)    # 배치 크기(batch size) 설정

# 'X_train'과 'y_train'은 모델을 훈련시키기 위한 학습 데이터와 해당 라벨입니다.

# 'epochs=150'은 모델이 전체 데이터셋에 대해 학습을 150회 반복한다는 것을 의미합니다.
# 에폭 수는 모델이 학습 데이터를 얼마나 많이 반복하여 볼 것인지 결정합니다.

# 'batch_size=10'은 한 번의 에폭에서 10개의 샘플을 처리한 후 가중치를 업데이트한다는 의미입니다.
# 배치 크기는 메모리 사용량과 학습 속도에 영향을 미치며, 너무 크거나 작으면 학습 성능에 부정적인 영향을 미칠 수 있습니다.

Epoch 1/180
Epoch 2/180
Epoch 3/180
Epoch 4/180
Epoch 5/180
Epoch 6/180
Epoch 7/180
Epoch 8/180
Epoch 9/180
Epoch 10/180
Epoch 11/180
Epoch 12/180
Epoch 13/180
Epoch 14/180
Epoch 15/180
Epoch 16/180
Epoch 17/180
Epoch 18/180
Epoch 19/180
Epoch 20/180
Epoch 21/180
Epoch 22/180
Epoch 23/180
Epoch 24/180
Epoch 25/180
Epoch 26/180
Epoch 27/180
Epoch 28/180
Epoch 29/180
Epoch 30/180
Epoch 31/180
Epoch 32/180
Epoch 33/180
Epoch 34/180
Epoch 35/180
Epoch 36/180
Epoch 37/180
Epoch 38/180
Epoch 39/180
Epoch 40/180
Epoch 41/180
Epoch 42/180
Epoch 43/180
Epoch 44/180
Epoch 45/180
Epoch 46/180
Epoch 47/180
Epoch 48/180
Epoch 49/180
Epoch 50/180
Epoch 51/180
Epoch 52/180
Epoch 53/180
Epoch 54/180
Epoch 55/180
Epoch 56/180
Epoch 57/180
Epoch 58/180
Epoch 59/180
Epoch 60/180
Epoch 61/180
Epoch 62/180
Epoch 63/180
Epoch 64/180
Epoch 65/180
Epoch 66/180
Epoch 67/180
Epoch 68/180
Epoch 69/180
Epoch 70/180
Epoch 71/180
Epoch 72/180
Epoch 73/180
Epoch 74/180
Epoch 75/180
Epoch 76/180
Epoch 77/180
Epoch 78

<keras.src.callbacks.History at 0x7fab4a288a00>

In [50]:
# 모델 평가
_, accuracy = model.evaluate(X_test, y_test)
# 'model.evaluate' 함수를 사용하여 테스트 데이터셋에 대한 모델의 성능을 평가합니다.
# 이 함수는 손실값(loss)과 metrics에 지정된 성능 지표(여기서는 정확도)를 반환합니다.

print(f'Accuracy: {accuracy*100:.2f}%')
# 계산된 정확도를 백분율로 출력합니다.

# 'X_test'와 'y_test'는 테스트 데이터셋과 해당 라벨입니다.
# 이 데이터셋은 모델의 학습 과정에서 사용되지 않았으며,
# 학습된 모델의 일반화 성능을 평가하는 데 사용됩니다.

# '_' (언더스코어)는 이 함수가 반환하는 첫 번째 값인 손실값을 무시하겠다는 의미입니다.
# 여기서 우리는 정확도만 관심이 있기 때문에 손실값은 무시합니다.

Accuracy: 78.57%


In [51]:
# 새로운 데이터에 대한 예측
predictions = model.predict(X_test)
# 'model.predict' 함수를 사용하여 테스트 데이터셋에 대한 예측을 수행합니다.
# 이 함수는 각 샘플에 대해 모델이 예측한 출력(여기서는 당뇨병 발병 확률)을 반환합니다.

rounded = [round(x[0]) for x in predictions]
# 모델의 출력은 확률 형태로 나타나므로, 이를 이진 분류 결과(0 또는 1)로 변환합니다.
# 여기서는 각 예측값을 반올림하여 0 또는 1의 값으로 변환합니다.

rounded
# 반올림된 예측 결과를 출력합니다.

# 'X_test'는 테스트 데이터셋을 나타냅니다.
# 이 데이터셋은 모델이 이전에 본 적 없는 데이터로,
# 모델이 얼마나 잘 일반화되었는지를 평가하는 데 사용됩니다.



[0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 1,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 1,
 1,
 0,
 0,
 1,
 1,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 1,
 1,
 1,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 1,
 0,
 0,
 1,
 1,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 1,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 1,
 0,
 1,
 1,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 0,
 0,
 1,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 1,
 0,
 0,
 0,
 1,
 1,
 1,
 1,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 1]

In [52]:
# 모델 저장
model.save('saved_model.h5')
# 'model.save' 함수를 사용하여 전체 모델을 하나의 HDF5 파일로 저장합니다.
# 이 파일에는 모델의 구조, 가중치 값, 학습 설정(컴파일에 사용된 설정), 옵티마이저 상태 등이 포함됩니다.

# 'pima_indians_diabetes_model.h5'는 저장할 파일의 이름입니다.
# '.h5' 확장자는 HDF5 포맷을 나타냅니다,
# 이 포맷은 대용량 데이터를 저장하기에 적합하며, 모델을 효율적으로 저장하고 로드할 수 있게 해줍니다.

# 이렇게 저장된 모델은 나중에 다시 로드하여 사용할 수 있으며,
# 추가 학습이나 다른 데이터셋에 대한 예측 등에 활용할 수 있습니다.

  saving_api.save_model(


In [53]:
from keras.models import load_model

# 저장된 모델 로드
loaded_model = load_model('saved_model.h5')
# 'load_model' 함수를 사용하여 저장된 HDF5 파일로부터 모델을 로드합니다.
# 'pima_indians_diabetes_model.h5' 파일에 저장된 모델의 구조, 가중치, 컴파일 정보 등이 로드됩니다.

_, accuracy = loaded_model.evaluate(X_test, y_test)
# 로드된 모델을 사용하여 테스트 데이터셋에 대해 평가합니다.
# 'evaluate' 함수는 모델의 손실값과 정확도를 반환합니다.
# 여기서는 정확도만 필요하기 때문에 손실값은 무시합니다('_' 사용).

print(f'Accuracy: {accuracy*100:.2f}%')
# 계산된 정확도를 백분율로 출력합니다.

# 'X_test'와 'y_test'는 이전에 분리된 테스트 데이터셋과 해당 라벨을 나타냅니다.
# 이 데이터셋은 모델의 일반화 성능을 평가하는 데 사용됩니다.

Accuracy: 78.57%
