In [1]:
import tensorflow_datasets as tfds
import tensorflow as tf

# Charger le dataset Malaria depuis TensorFlow Datasets
dataset_name = "malaria"
(raw_train, raw_test), metadata = tfds.load(
    dataset_name,
    split=["train[:80%]", "train[80%:]"],  # Diviser en train (80%) et test (20%)
    as_supervised=True,  # Retourne les (image, label) directement
    with_info=True,      # Retourne également les métadonnées
)

# Afficher des informations sur le dataset
print(f"Dataset: {dataset_name}")
print(f"Nombre total d'images: {metadata.splits['train'].num_examples}")
print(f"Nombre de classes: {metadata.features['label'].num_classes}")
print(f"Classes: {metadata.features['label'].names}")

# Prétraitement : redimensionner et normaliser les images
IMG_SIZE = 128  # Taille des images (carrées, pour uniformiser)
def preprocess(image, label):
    image = tf.image.resize(image, [IMG_SIZE, IMG_SIZE])  # Redimensionner
    image = image / 255.0  # Normaliser (0-1)
    return image, label

# Appliquer le prétraitement
train = raw_train.map(preprocess).shuffle(1000).batch(32).prefetch(tf.data.AUTOTUNE)
test = raw_test.map(preprocess).batch(32).prefetch(tf.data.AUTOTUNE)

# Vérification du pipeline de données
for images, labels in train.take(1):  # Prendre un batch pour vérifier
    print(f"Images shape: {images.shape}")
    print(f"Labels shape: {labels.shape}")

Dataset: malaria
Nombre total d'images: 27558
Nombre de classes: 2
Classes: ['parasitized', 'uninfected']
Images shape: (32, 128, 128, 3)
Labels shape: (32,)
