In [1]:
import tensorflow as tf
from tensorflow.keras.applications import InceptionV3
from tensorflow.keras.models import Model
from tensorflow.keras.preprocessing.image import load_img, img_to_array
from tensorflow.keras.applications.inception_v3 import preprocess_input
import numpy as np

# 1. Charger InceptionV3
# weights='imagenet' : On utilise le savoir pré-acquis
# include_top=False  : On jette la dernière couche de classification (celle qui dit "chat", "chien")
# pooling='avg'      : Important ! On transforme la sortie (8x8x2048) en un vecteur plat (2048)
base_model = InceptionV3(weights='imagenet')

# On crée un nouveau modèle qui s'arrête juste avant la fin
# La couche finale d'InceptionV3 s'appelle souvent 'avg_pool' ou on prend l'avant dernière
model_inception = Model(inputs=base_model.input, outputs=base_model.layers[-2].output)

print("InceptionV3 chargé avec succès.")
print("Format de sortie des features :", model_inception.output_shape)
# Doit afficher (None, 2048) -> Un vecteur de 2048 nombres par image

# 2. Fonction de prétraitement d'une image
def load_and_process_image(image_path):
    # InceptionV3 attend obligatoirement du 299x299
    img = load_img(image_path, target_size=(299, 299))
    
    # Conversion en tableau numpy
    x = img_to_array(img)
    
    # Ajout d'une dimension (pour faire un batch de 1 image) : (299, 299, 3) -> (1, 299, 299, 3)
    x = np.expand_dims(x, axis=0)
    
    # Prétraitement spécifique à Inception (Mise à l'échelle entre -1 et 1)
    x = preprocess_input(x)
    return x

Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/inception_v3/inception_v3_weights_tf_dim_ordering_tf_kernels.h5
InceptionV3 chargé avec succès.
Format de sortie des features : (None, 2048)


In [3]:
import tensorflow as tf
import os
import json
import numpy as np
from tensorflow.keras.applications import InceptionV3
from tensorflow.keras.models import Model
from tensorflow.keras.preprocessing.image import load_img, img_to_array
from tensorflow.keras.applications.inception_v3 import preprocess_input

# --- CONFIGURATION ---
ANNOTATION_FILE = '/content/annotations/captions_train2014.json'
IMAGE_FOLDER = '/content/train2014/'
NUM_EXAMPLES = 10000  # On garde 10 000 images pour le prototype

# --- 1. CHARGEMENT DES LÉGENDES (JSON) ---
print("Chargement du fichier JSON...")
with open(ANNOTATION_FILE, 'r') as f:
    annotations = json.load(f)

# Mapping Image -> Caption
image_path_to_caption = {}
for annot in annotations['annotations']:
    caption = f"<start> {annot['caption']} <end>"
    image_id = annot['image_id']
    full_coco_image_path = os.path.join(IMAGE_FOLDER, 'COCO_train2014_' + '%012d.jpg' % (image_id))

    if full_coco_image_path in image_path_to_caption:
        image_path_to_caption[full_coco_image_path].append(caption)
    else:
        image_path_to_caption[full_coco_image_path] = [caption]

# Sélection aléatoire des images
image_paths = list(image_path_to_caption.keys())
import random
random.shuffle(image_paths)
train_image_paths = image_paths[:NUM_EXAMPLES]

print(f"Nombre d'images sélectionnées : {len(train_image_paths)}")

# --- 2. PRÉPARATION DU MODÈLE ---
print("Chargement d'InceptionV3...")
base_model = InceptionV3(weights='imagenet')
# On prend la sortie avant la classification finale
feature_extractor = Model(inputs=base_model.input, outputs=base_model.layers[-2].output)

# --- 3. EXTRACTION DES FEATURES ---
def load_image(image_path):
    img = tf.io.read_file(image_path)
    img = tf.io.decode_jpeg(img, channels=3)
    img = tf.image.resize(img, (299, 299))
    img = tf.keras.applications.inception_v3.preprocess_input(img)
    return img, image_path

# Création du dataset
image_dataset = tf.data.Dataset.from_tensor_slices(train_image_paths)
image_dataset = image_dataset.map(load_image, num_parallel_calls=tf.data.AUTOTUNE).batch(16)

print("Démarrage de l'extraction... (Patientez)")

batch_count = 0
for img, path in image_dataset:
    # Extraction
    batch_features = feature_extractor(img)
    
    # Reshape (batch, 8, 8, 2048) ou (batch, 2048) -> On veut (batch, 2048)
    # Souvent Inception sort (batch, 2048) directement avec layers[-2]
    # Mais par sécurité on s'assure que c'est compatible
    batch_features = tf.reshape(batch_features, (batch_features.shape[0], -1, 2048))

    # Sauvegarde .npy
    for bf, p in zip(batch_features, path):
        path_of_feature = p.numpy().decode("utf-8")

Chargement du fichier JSON...


FileNotFoundError: [Errno 2] No such file or directory: '/content/annotations/captions_train2014.json'

In [4]:
import tensorflow as tf
import numpy as np

# Fonction de chargement et preprocessing d'une image
def load_image(image_path):
    img = tf.io.read_file(image_path)
    img = tf.io.decode_jpeg(img, channels=3)
    img = tf.image.resize(img, (299, 299))
    img = tf.keras.applications.inception_v3.preprocess_input(img)
    return img, image_path

# Création d'un dataset TensorFlow pour charger les images efficacement
# Note : on suppose que 'train_image_paths' et 'feature_extractor' sont déjà définis par l'étape précédente
image_dataset = tf.data.Dataset.from_tensor_slices(train_image_paths)
image_dataset = image_dataset.map(load_image, num_parallel_calls=tf.data.AUTOTUNE).batch(16)

print("Démarrage de l'extraction des features... (Cela peut prendre du temps)")

# Compteur pour suivre la progression manuellement
batch_count = 0

# Boucle d'extraction (Sans tqdm)
for img, path in image_dataset:
    # 1. Extraction des features via InceptionV3
    batch_features = feature_extractor(img)
    
    # 2. Reshape : On s'assure que c'est bien (batch_size, 2048)
    batch_features = tf.reshape(batch_features, (batch_features.shape[0], -1, 2048))

    # 3. Sauvegarde sur le disque (.npy) pour chaque image
    for bf, p in zip(batch_features, path):
        path_of_feature = p.numpy().decode("utf-8")
        # On enregistre le fichier au même endroit que l'image mais avec extension .npy
        np.save(path_of_feature + '.npy', bf.numpy())

    # Affichage de progression tous les 100 batches
    batch_count += 1
    if batch_count % 100 == 0:
        print(f"Batch n°{batch_count} traité...")

print("Extraction terminée ! Toutes les images sont converties en vecteurs .npy")

NameError: name 'train_image_paths' is not defined

In [None]:
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np
from sklearn.model_selection import train_test_split

# --- 1. CONFIGURATION DU TEXTE ---
# On prend les 5000 mots les plus courants (suffisant pour un prototype)
TOP_K = 5000 

# On récupère toutes les légendes dans une liste unique
all_captions = []
for key in train_image_paths:
    for caption in image_path_to_caption[key]:
        all_captions.append(caption)

# --- 2. TOKENIZATION (Apprendre le vocabulaire) ---
print("Apprentissage du vocabulaire...")
tokenizer = Tokenizer(num_words=TOP_K, oov_token="<unk>", filters='!"#$%&()*+.,-/:;=?@[\]^_`{|}~ ')
tokenizer.fit_on_texts(all_captions)

# On ajoute un token spécial pour le "padding" (remplissage) s'il n'existe pas
tokenizer.word_index['<pad>'] = 0
tokenizer.index_word[0] = '<pad>'

# Création des séquences (Texte -> Chiffres)
train_seqs = tokenizer.texts_to_sequences(all_captions)

# Calcul de la taille maximale d'une phrase (pour que toutes aient la même taille)
max_length = max(len(seq) for seq in train_seqs)
print(f"Vocabulaire : {TOP_K} mots")
print(f"Phrase la plus longue : {max_length} mots")

# On stocke les vecteurs d'images et les captions correspondantes
# Pour simplifier, on associe chaque fichier .npy à ses captions
img_name_vector = []
train_captions_vector = []

for image_path in train_image_paths:
    caption_list = image_path_to_caption[image_path]
    for c in caption_list:
        # On ajoute le chemin vers le fichier .npy (pas l'image jpg !)
        img_name_vector.append(image_path + '.npy') 
        train_captions_vector.append(c)

# Transformation finale des textes en vecteurs de même longueur
train_seqs = tokenizer.texts_to_sequences(train_captions_vector)
cap_vector = pad_sequences(train_seqs, maxlen=max_length, padding='post')

# --- 3. SÉPARATION TRAIN / VALIDATION (80% - 20%) ---
img_train, img_val, cap_train, cap_val = train_test_split(img_name_vector, cap_vector, test_size=0.2, random_state=42)

print(f"Données d'entraînement : {len(img_train)} exemples")
print(f"Données de validation : {len(img_val)} exemples")

# --- 4. CRÉATION DU DATASET TF.DATA (Optimisé) ---
BATCH_SIZE = 64
BUFFER_SIZE = 1000
embedding_dim = 256
units = 512
vocab_size = TOP_K + 1

# Fonction qui charge le vecteur .npy et renvoie (Image, Caption)
def map_func(img_name, cap):
    img_tensor = np.load(img_name.decode('utf-8'))
    return img_tensor, cap

dataset = tf.data.Dataset.from_tensor_slices((img_train, cap_train))

# On utilise map avec numpy_function car np.load ne marche pas directement en pur TensorFlow
dataset = dataset.map(lambda item1, item2: tf.numpy_function(
          map_func, [item1, item2], [tf.float32, tf.int32]),
          num_parallel_calls=tf.data.AUTOTUNE)

dataset = dataset.shuffle(BUFFER_SIZE).batch(BATCH_SIZE).prefetch(buffer_size=tf.data.AUTOTUNE)
# Pareil pour la validation
dataset_val = tf.data.Dataset.from_tensor_slices((img_val, cap_val))
dataset_val = dataset_val.map(lambda item1, item2: tf.numpy_function(
          map_func, [item1, item2], [tf.float32, tf.int32]),
          num_parallel_calls=tf.data.AUTOTUNE).batch(BATCH_SIZE).prefetch(buffer_size=tf.data.AUTOTUNE)

print("Dataset prêt à l'emploi !")

In [None]:
# --- DÉFINITION DU MODÈLE (Encoder-Decoder avec Attention) ---

class BahdanauAttention(tf.keras.Model):
  def __init__(self, units):
    super(BahdanauAttention, self).__init__()
    self.W1 = tf.keras.layers.Dense(units)
    self.W2 = tf.keras.layers.Dense(units)
    self.V = tf.keras.layers.Dense(1)

  def call(self, features, hidden):
    # features shape: (batch_size, 64, embedding_dim)
    # hidden shape: (batch_size, hidden_size)
    hidden_with_time_axis = tf.expand_dims(hidden, 1)
    
    # Calcul du score d'attention
    attention_hidden_layer = (tf.nn.tanh(self.W1(features) +
                                         self.W2(hidden_with_time_axis)))
    score = self.V(attention_hidden_layer)
    attention_weights = tf.nn.softmax(score, axis=1)
    context_vector = attention_weights * features
    context_vector = tf.reduce_sum(context_vector, axis=1)
    return context_vector, attention_weights

class CNN_Encoder(tf.keras.Model):
    # L'encodeur a déjà été fait par InceptionV3, ici on ajoute juste une couche Dense pour adapter la dimension
    def __init__(self, embedding_dim):
        super(CNN_Encoder, self).__init__()
        self.fc = tf.keras.layers.Dense(embedding_dim)

    def call(self, x):
        x = self.fc(x)
        x = tf.nn.relu(x)
        return x

class RNN_Decoder(tf.keras.Model):
  def __init__(self, embedding_dim, units, vocab_size):
    super(RNN_Decoder, self).__init__()
    self.units = units
    self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim)
    self.gru = tf.keras.layers.GRU(self.units,
                                   return_sequences=True,
                                   return_state=True,
                                   recurrent_initializer='glorot_uniform')
    self.fc1 = tf.keras.layers.Dense(self.units)
    self.fc2 = tf.keras.layers.Dense(vocab_size)
    self.attention = BahdanauAttention(self.units)

  def call(self, x, features, hidden):
    # x = mot précédent
    # features = image
    context_vector, attention_weights = self.attention(features, hidden)
    x = self.embedding(x)
    x = tf.concat([tf.expand_dims(context_vector, 1), x], axis=-1)
    output, state = self.gru(x)
    x = self.fc1(output)
    x = tf.reshape(x, (-1, x.shape[2]))
    x = self.fc2(x)
    return x, state, attention_weights

  def reset_state(self, batch_size):
    return tf.zeros((batch_size, self.units))

# --- INSTANCIATION ---
encoder = CNN_Encoder(embedding_dim)
decoder = RNN_Decoder(embedding_dim, units, vocab_size)

optimizer = tf.keras.optimizers.Adam()
loss_object = tf.keras.losses.SparseCategoricalCrossentropy(
    from_logits=True, reduction='none')

def loss_function(real, pred):
  mask = tf.math.logical_not(tf.math.equal(real, 0))
  loss_ = loss_object(real, pred)
  mask = tf.cast(mask, dtype=loss_.dtype)
  loss_ *= mask
  return tf.reduce_mean(loss_)

# --- BOUCLE D'ENTRAÎNEMENT ---
@tf.function
def train_step(img_tensor, target):
  loss = 0
  hidden = decoder.reset_state(target.shape[0])
  dec_input = tf.expand_dims([tokenizer.word_index['<start>']] * target.shape[0], 1)

  with tf.GradientTape() as tape:
      features = encoder(img_tensor)
      
      # On prédit mot par mot
      for i in range(1, target.shape[1]):
          # passage dans le décodeur
          predictions, hidden, _ = decoder(dec_input, features, hidden)
          loss += loss_function(target[:, i], predictions)
          # Teacher forcing : le mot suivant est le mot correct
          dec_input = tf.expand_dims(target[:, i], 1)

  total_loss = (loss / int(target.shape[1]))
  trainable_variables = encoder.trainable_variables + decoder.trainable_variables
  gradients = tape.gradient(loss, trainable_variables)
  optimizer.apply_gradients(zip(gradients, trainable_variables))
  return total_loss

print("Modèle construit. Démarrage de l'entraînement...")

# --- LANCEMENT ---
EPOCHS = 10 # 10 ou 20 époques suffisent pour voir des résultats
import time

loss_plot = []
for epoch in range(EPOCHS):
    start = time.time()
    total_loss = 0

    # Itération sur les batches (sans tqdm pour éviter les erreurs)
    batch = 0
    for (img_tensor, target) in dataset:
        batch_loss = train_step(img_tensor, target)
        total_loss += batch_loss
        
        if batch % 100 == 0:
            print(f'Epoch {epoch+1} Batch {batch} Loss {batch_loss.numpy():.4f}')
        batch += 1

    loss_plot.append(total_loss / batch)
    print(f'Epoch {epoch+1} Loss {total_loss/batch:.4f}')
    print(f'Time taken for 1 epoch {time.time()-start:.2f} sec\n')

print("Entraînement terminé !")

In [None]:
import matplotlib.pyplot as plt

def evaluate(image_path):
    attention_plot = np.zeros((max_length, 2048)) # Placeholder pour l'attention

    # 1. Prétraitement de l'image (comme pour l'entraînement)
    img = tf.io.read_file(image_path)
    img = tf.io.decode_jpeg(img, channels=3)
    img = tf.image.resize(img, (299, 299))
    img = tf.keras.applications.inception_v3.preprocess_input(img)
    
    # 2. Extraction des features avec InceptionV3
    # On ajoute la dimension batch : (299, 299, 3) -> (1, 299, 299, 3)
    features = feature_extractor(tf.expand_dims(img, 0))
    
    # Reshape pour correspondre à ce qu'attend l'encodeur
    features = tf.reshape(features, (features.shape[0], -1, 2048))

    # 3. Passage dans l'Encodeur entraîné
    features = encoder(features)

    # 4. Initialisation du Décodeur
    dec_input = tf.expand_dims([tokenizer.word_index['<start>']], 0)
    hidden = decoder.reset_state(batch_size=1)

    result = []

    # 5. Boucle de génération (mot par mot)
    for i in range(max_length):
        predictions, hidden, attention_weights = decoder(dec_input, features, hidden)

        # On prend l'index du mot avec la plus haute probabilité
        predicted_id = tf.random.categorical(predictions, 1)[0][0].numpy()
        
        # On retrouve le mot texte grâce au tokenizer
        if predicted_id in tokenizer.index_word:
            result.append(tokenizer.index_word[predicted_id])
        else:
            result.append('<unk>') # Mot inconnu

        # Si le modèle prédit la fin de phrase, on arrête
        if tokenizer.index_word.get(predicted_id) == '<end>':
            return result

        # Le mot prédit devient l'entrée pour le tour suivant
        dec_input = tf.expand_dims([predicted_id], 0)

    return result

# --- FONCTION D'AFFICHAGE ---
def generate_caption(image_path):
    # Générer la légende
    result = evaluate(image_path)
    
    # Afficher l'image
    image = plt.imread(image_path)
    plt.figure(figsize=(10, 10))
    plt.imshow(image)
    plt.axis('off')
    
    # Afficher le texte généré (on enlève le <end>)
    caption_text = ' '.join(result).replace('<end>', '')
    plt.title(f"Prédiction IA : {caption_text}", fontsize=15, color='blue')
    plt.show()

# --- TEST SUR DES IMAGES DE VALIDATION ---
# On prend 3 images au hasard dans le set de validation
import random
print("Test sur des images du dataset...")
for i in range(3):
    # On récupère un chemin d'image original (.npy -> .jpg)
    npy_path = random.choice(img_val)
    jpg_path = npy_path.replace('.npy', '') # On retrouve le jpg original
    
    generate_caption(jpg_path)