In [5]:
# 필요한 라이브러리를 임포트합니다.
import pandas as pd  # 데이터 처리를 위한 라이브러리
from sklearn.model_selection import train_test_split  # 데이터 분할을 위한 함수
from sklearn.preprocessing import StandardScaler  # 데이터 정규화를 위한 클래스
from keras.models import Sequential  # Keras에서 순차적 모델 구성을 위한 클래스
from keras.layers import Dense  # Keras에서 Dense(밀집) 레이어를 사용하기 위한 클래스

In [6]:
# 데이터셋 불러오기
data = pd.read_csv('https://raw.githubusercontent.com/BigDeepData/2312_dl/main/data/diabetes.csv')

# 데이터셋의 특성(독립 변수)과 라벨(종속 변수)을 분리합니다.
X = data.iloc[:, 0:8]  # 첫 8개 컬럼은 특성을 나타냅니다.
y = data.iloc[:, 8]    # 마지막 컬럼은 라벨(당뇨병 발병 여부)을 나타냅니다.

# 데이터 정규화: 각 특성의 범위를 표준화합니다 (평균 0, 표준편차 1).
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 데이터를 학습 데이터와 테스트 데이터로 분리합니다.
# 일반적으로 80%는 학습용, 20%는 테스트용으로 사용합니다.
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2)

In [7]:
# Keras를 이용한 딥러닝 모델 정의
model = Sequential()
# Sequential 모델은 Keras에서 층(layer)을 순차적으로 쌓아가는 모델입니다.

model.add(Dense(12, input_dim=8, activation='relu'))
# 첫 번째 층(입력층)을 추가합니다.
# 'Dense'는 완전 연결 레이어를 의미합니다.
# 이 층에는 12개의 노드(뉴런)이 있으며, 입력 차원(input_dim)은 8입니다 (데이터셋의 특성 수).
# 'relu'는 활성화 함수로, 각 노드의 출력을 결정합니다.

model.add(Dense(8, activation='relu'))
# 두 번째 층(은닉층)을 추가합니다.
# 이 층에는 8개의 노드가 있으며, 'relu' 활성화 함수를 사용합니다.

model.add(Dense(1, activation='sigmoid'))
# 세 번째 층(출력층)을 추가합니다.
# 이 층에는 1개의 노드가 있으며, 'sigmoid' 활성화 함수를 사용합니다.
# 'sigmoid' 함수는 출력값을 0과 1 사이로 제한하여, 이진 분류 문제에 적합합니다.

model.summary()
# 모델의 요약 정보를 출력합니다. 이를 통해 각 층의 구성, 파라미터 수 등을 확인할 수 있습니다.

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_3 (Dense)             (None, 12)                108       
                                                                 
 dense_4 (Dense)             (None, 8)                 104       
                                                                 
 dense_5 (Dense)             (None, 1)                 9         
                                                                 
Total params: 221 (884.00 Byte)
Trainable params: 221 (884.00 Byte)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [8]:
# 모델 컴파일
model.compile(
    loss='binary_crossentropy',  # 손실 함수(loss function) 설정
    optimizer='adam',            # 최적화 알고리즘(optimizer) 설정
    metrics=['accuracy'])        # 평가 기준(metrics) 설정

# 'binary_crossentropy' 손실 함수는 이진 분류 문제에 적합한 손실 함수입니다.
# 이 함수는 실제 라벨과 예측된 확률 간의 차이를 측정합니다.

# 'adam' 최적화 알고리즘은 효율적인 경사 하강법의 한 형태로,
# 학습 과정에서 자동으로 학습률을 조정합니다.

# 'metrics'에 'accuracy'를 지정함으로써,
# 훈련 및 검증 과정에서 모델의 정확도를 평가할 수 있습니다.

In [9]:
# 모델 학습
model.fit(
    X_train, y_train,   # 학습 데이터와 라벨
    epochs=150,         # 에폭(epoch) 수 설정
    batch_size=10)      # 배치 크기(batch size) 설정

# 'X_train'과 'y_train'은 모델을 훈련시키기 위한 학습 데이터와 해당 라벨입니다.

# 'epochs=150'은 모델이 전체 데이터셋에 대해 학습을 150회 반복한다는 것을 의미합니다.
# 에폭 수는 모델이 학습 데이터를 얼마나 많이 반복하여 볼 것인지 결정합니다.

# 'batch_size=10'은 한 번의 에폭에서 10개의 샘플을 처리한 후 가중치를 업데이트한다는 의미입니다.
# 배치 크기는 메모리 사용량과 학습 속도에 영향을 미치며, 너무 크거나 작으면 학습 성능에 부정적인 영향을 미칠 수 있습니다.

Epoch 1/150
Epoch 2/150
Epoch 3/150
Epoch 4/150
Epoch 5/150
Epoch 6/150
Epoch 7/150
Epoch 8/150
Epoch 9/150
Epoch 10/150
Epoch 11/150
Epoch 12/150
Epoch 13/150
Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78

<keras.src.callbacks.History at 0x7ca7318ee0e0>

In [10]:
# 모델 평가
_, accuracy = model.evaluate(X_test, y_test)
# 'model.evaluate' 함수를 사용하여 테스트 데이터셋에 대한 모델의 성능을 평가합니다.
# 이 함수는 손실값(loss)과 metrics에 지정된 성능 지표(여기서는 정확도)를 반환합니다.

print(f'Accuracy: {accuracy*100:.2f}%')
# 계산된 정확도를 백분율로 출력합니다.

# 'X_test'와 'y_test'는 테스트 데이터셋과 해당 라벨입니다.
# 이 데이터셋은 모델의 학습 과정에서 사용되지 않았으며,
# 학습된 모델의 일반화 성능을 평가하는 데 사용됩니다.

# '_' (언더스코어)는 이 함수가 반환하는 첫 번째 값인 손실값을 무시하겠다는 의미입니다.
# 여기서 우리는 정확도만 관심이 있기 때문에 손실값은 무시합니다.

Accuracy: 74.03%


In [None]:
# 새로운 데이터에 대한 예측
predictions = model.predict(X_test)
# 'model.predict' 함수를 사용하여 테스트 데이터셋에 대한 예측을 수행합니다.
# 이 함수는 각 샘플에 대해 모델이 예측한 출력(여기서는 당뇨병 발병 확률)을 반환합니다.

rounded = [round(x[0]) for x in predictions]
# 모델의 출력은 확률 형태로 나타나므로, 이를 이진 분류 결과(0 또는 1)로 변환합니다.
# 여기서는 각 예측값을 반올림하여 0 또는 1의 값으로 변환합니다.

rounded
# 반올림된 예측 결과를 출력합니다.

# 'X_test'는 테스트 데이터셋을 나타냅니다.
# 이 데이터셋은 모델이 이전에 본 적 없는 데이터로,
# 모델이 얼마나 잘 일반화되었는지를 평가하는 데 사용됩니다.

In [12]:
# 모델 저장
model.save('pima_indians_diabetes_model.h5')
# 'model.save' 함수를 사용하여 전체 모델을 하나의 HDF5 파일로 저장합니다.
# 이 파일에는 모델의 구조, 가중치 값, 학습 설정(컴파일에 사용된 설정), 옵티마이저 상태 등이 포함됩니다.

# 'pima_indians_diabetes_model.h5'는 저장할 파일의 이름입니다.
# '.h5' 확장자는 HDF5 포맷을 나타냅니다,
# 이 포맷은 대용량 데이터를 저장하기에 적합하며, 모델을 효율적으로 저장하고 로드할 수 있게 해줍니다.

# 이렇게 저장된 모델은 나중에 다시 로드하여 사용할 수 있으며,
# 추가 학습이나 다른 데이터셋에 대한 예측 등에 활용할 수 있습니다.

  saving_api.save_model(


In [13]:
from keras.models import load_model

# 저장된 모델 로드
loaded_model = load_model('pima_indians_diabetes_model.h5')
# 'load_model' 함수를 사용하여 저장된 HDF5 파일로부터 모델을 로드합니다.
# 'pima_indians_diabetes_model.h5' 파일에 저장된 모델의 구조, 가중치, 컴파일 정보 등이 로드됩니다.

_, accuracy = loaded_model.evaluate(X_test, y_test)
# 로드된 모델을 사용하여 테스트 데이터셋에 대해 평가합니다.
# 'evaluate' 함수는 모델의 손실값과 정확도를 반환합니다.
# 여기서는 정확도만 필요하기 때문에 손실값은 무시합니다('_' 사용).

print(f'Accuracy: {accuracy*100:.2f}%')
# 계산된 정확도를 백분율로 출력합니다.

# 'X_test'와 'y_test'는 이전에 분리된 테스트 데이터셋과 해당 라벨을 나타냅니다.
# 이 데이터셋은 모델의 일반화 성능을 평가하는 데 사용됩니다.

Accuracy: 74.03%
