# Keras에서 앙상블 학습을 사용한 말라리아 기생충 탐지

앙상블 학습은 여러 모델의 예측을 결합하여 예측 정확도를 향상시킵니다.

앙상블 학습을 수행하는 방법에는 여러 가지가 있으며 https://en.wikipedia.org/wiki/Ensemble_learning 을 참조하세요.
앙상블 학습에는 두 가지 주요 클래스가 있습니다.
- Bagging: 독립적인 모델을 학습시킨 다음 그 것들의 예측을 평균합니다.
- Boosting: 여러 모델을 순차적으로 학습시킨 다음 예측의 평균을 냅니다.

이 노트북에서는 배깅 방식의 단순화된 형태를 사용할 것입니다.

- 독립 모델들을 훈련
- 각각의 예측을 수집
- 투표 절차 적용

여러 모델의 예측을 고려할 때 두 가지 투표 절차가 있습니다.
- Hard Voting: 예상되는 가장 일반적인 클래스 가져오기
- Soft Voting: 예측 확률 합계의 argmax를 취합니다. 가중치를 고려 혹은 고려 않을 수 있습니다.
   - 가중치 고려: 각 예측 확률에 미리 설정된 가중치를 곱합니다.
   - 가중치 비고려: 예측 확률을 곱하지 않고 바로 더합니다.

이 노트북에서는 하드 투표에 집중하겠습니다.

데이터세트: https://www.tensorflow.org/datasets/catalog/malaria

In [None]:
import statistics
import numpy as np

import tensorflow as tf
from tensorflow.keras.optimizers import  Adam
from tensorflow.keras.layers import Conv2D, Dense, MaxPooling2D, Flatten, Dropout
from tensorflow.keras.models import Sequential

import tensorflow_datasets as tfds

from sklearn.metrics import f1_score, confusion_matrix, accuracy_score, precision_score, recall_score
import matplotlib.pyplot as plt

## 데이터를 로드합니다.

In [None]:
# Malaria 데이터셋을 70:30 비율로 train과 test로 분리
(train_dataset, test_dataset), dataset_info = tfds.load(
    'malaria',
    split=['train[:70%]', 'train[70%:]'],
    as_supervised=True,
    with_info=True
)

print(dataset_info)

In [None]:
# 레이블 분포를 계산하는 함수
def get_label_distribution(dataset):
    distribution = {}
    for _, label in dataset:
        label = label.numpy()
        if label in distribution:
            distribution[label] += 1
        else:
            distribution[label] = 1
    return distribution

train_distribution = get_label_distribution(train_dataset)
test_distribution = get_label_distribution(test_dataset)

print(f"Train dataset label distribution: {train_distribution}")
print(f"Test dataset label distribution: {test_distribution}")

In [None]:
# 레이블 이름 출력
class_names = dataset_info.features['label'].names
print(class_names)

Image의 size 확인

In [None]:
for image, label in train_dataset.take(10):
    print(image.shape)
    print(label)

In [None]:
# image를 동일한 size로 resize
def resize_image(image, label):
    return tf.image.resize(image, [50, 50]), label

# 데이터셋을 셔플링 후 배치 크기로 분할하고 리사이징
train_ds = train_dataset.shuffle(buffer_size=10000).map(resize_image).batch(64)
test_ds = test_dataset.map(resize_image).batch(64)

In [None]:
# 첫 9개의 이미지와 레이블을 시각화
plt.figure(figsize=(12, 8))

for i, (image, label) in enumerate(train_dataset.take(9)):
    plt.subplot(3, 3, i + 1)
    plt.imshow(image)
    plt.title(f"Label: {label.numpy()}")
    plt.axis("off")

plt.tight_layout()
plt.show()

## deep CNN 모델 생성


In [None]:
def create_model(m):
    model = Sequential()
    model.add(Conv2D(4*m, (3, 3), activation='relu', input_shape=(50, 50, 3)))
    model.add(MaxPooling2D(pool_size=(2, 2)))
    model.add(Conv2D(8*m, (3, 3), activation='relu'))
    model.add(MaxPooling2D(pool_size=(2, 2)))
    model.add(Conv2D(16*m, (3, 3), activation='relu'))
    model.add(MaxPooling2D(pool_size=(2, 2)))
    model.add(Flatten())
    model.add(Dense(16*m, activation='relu'))
    model.add(Dropout(0.5))
    model.add(Dense(1, activation='sigmoid'))
    model.compile(optimizer=Adam(learning_rate=0.001), loss='binary_crossentropy', metrics=['accuracy'])
    return model

model = create_model(1)
model.summary()

## Train and test the CNN

주요 분류 메트릭을 제공하는 classification_report 함수를 사용하여 예측 정확도를 측정합니다. 또한 공식을 알 수 있도록 이러한 메트릭을 개별적으로 표시합니다.

- 정밀도: 음성인 샘플을 양성으로 분류하지 않는 분류기의 능력.
- Recall: 모든 양성 샘플을 찾는 분류기의 능력
- f1: 정밀도와 재현율의 조화 평균

In [None]:
history = model.fit(train_ds, epochs=10, verbose=1, validation_data=test_ds)

In [None]:
plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.legend()
plt.subplot(1, 2, 2)
plt.plot(history.history['accuracy'], label='Train Accuracy')
plt.plot(history.history['val_accuracy'], label='Validation Accuracy')
plt.legend()

In [None]:
# 이미지와 레이블을 NumPy 배열로 추출
images_list = [image.numpy() for image, _ in test_ds.unbatch()]
labels_list = [label.numpy() for _, label in test_ds.unbatch()]

test_images_array = np.array(images_list)
test_labels_array = np.array(labels_list)

In [None]:
test_images_array.shape, test_labels_array.shape

In [None]:
y_pred = model.predict(test_images_array, verbose=0) > 0.5

In [None]:
# accuracy = (true positives + true negatives) / (positives + negatives)
print('accuracy = {:.2f}'.format(accuracy_score(test_labels_array, y_pred)))
# precision = true positives / (true positives + false positives)
print('precision = {:.2f}'.format(precision_score(test_labels_array, y_pred)))
# recall = true positives / (true positives + false negatives)
print('recall = {:.2f}'.format(recall_score(test_labels_array, y_pred)))
# f1 = 2 * (precision * recall) / (precision + recall)
print('f1 score = {:.2f}'.format(f1_score(test_labels_array, y_pred)))

## Create the CNN models ensemble
하나의 CNN 모델로 좋은 정확도를 달성할 수 있다는 것을 알았으므로 CNN 모델의 앙상블을 시도해 봅니다.

In [None]:
models = {}
for i in range(1, 4):
    newmodel = create_model(i)
    models[i] = newmodel

models

## 앙상블할 모델들을 훈련하 예측을 수행합니다.
동일한 데이터 세트를 사용하여 각 모델을 개별적으로 훈련합니다.

완료되면 예측을 생성하고 배열 `predictions_hard`에 추가합니다.

In [None]:
for k in models:
    models[k].fit(train_ds, epochs=10, verbose=1, validation_data=test_ds)

In [None]:
predictions_hard = []
for k in models:
    y_pred = models[k].predict(test_images_array, verbose=0) > 0.5
    print('accuracy = {:.2f}'.format(accuracy_score(test_labels_array, y_pred)))
    predictions_hard.append(y_pred)

## 앙상블에 hard voting 적용
Hard Voting은 다수결에 따라 클래스를 결정하는 것입니다. 다른 것보다 더 자주 예측된 클래스를 얻기 위해 `mode()` 통계 함수를 사용할 것입니다.  

`mode()` 함수는 최빈값을 의미합니다.

In [None]:
predictions_hard[0].shape

In [None]:
voting_hard = []
for i in range(len(test_labels_array)):
    # 3개 모델의 i번째 예측 결과 중 최빈값을 찾아 voting_hard에 추가
    voting_hard += [statistics.mode([predictions_hard[0][i][0], predictions_hard[1][i][0], predictions_hard[2][i][0]])]

In [None]:
from sklearn.metrics import classification_report
print(classification_report(test_labels_array, voting_hard))