In [None]:
!pip install obonet pandas numpy tensorflow scikit-learn
!pip install obonet pandas numpy tensorflow scikit-learn
import pandas as pd
import numpy as np
import obonet
import networkx as nx
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from sklearn.model_selection import train_test_split
from tensorflow.keras.backend import binary_crossentropy


In [None]:
# Chemins d'acc√®s aux fichiers (bas√©s sur votre input)
EMBEDDINGS_PATH = '/kaggle/input/test-protein-embedding-complet/test_protein_embeddings_complet.npy'
IDS_PATH = '/kaggle/input/test-protein-embedding-complet/test_protein_ids_complet.npy'
TERMS_PATH = '/kaggle/input/cafa-6-protein-function-prediction/Train/train_terms.tsv'
OBO_PATH = '/kaggle/input/cafa-6-protein-function-prediction/Train/go-basic.obo'

# --- Chargement des embeddings (X) et des IDs ---
X = np.load(EMBEDDINGS_PATH)
train_ids = np.load(IDS_PATH)
EMBEDDING_DIM = X.shape[1]
print(f"Embeddings charg√©s. Dimension X: {X.shape}")

# --- Chargement des Labels (Y) ---
train_terms = pd.read_csv(TERMS_PATH, sep='\t')
print(f"Termes charg√©s. Nombre de lignes: {len(train_terms)}")

train_terms = pd.read_csv(TERMS_PATH, sep='\t')
print("Noms exacts des colonnes dans train_terms.tsv:")
print(train_terms.columns.tolist())

In [None]:
# 1. S√©lection des termes GO (les labels)
# Nous utilisons seulement les termes GO pr√©sents dans le jeu d'entra√Ænement.
# Nous allons filtrer les termes trop rares pour l'entra√Ænement (par exemple, si moins de 50 prot√©ines ont ce terme).
TERM_COUNT_THRESHOLD = 50
term_counts = train_terms['term'].value_counts()
selected_terms = term_counts[term_counts >= TERM_COUNT_THRESHOLD].index.tolist()

# 2. Cr√©ation du mappage ID -> Index
protein_to_index = {pid: i for i, pid in enumerate(train_ids)}
term_to_index = {term: i for i, term in enumerate(selected_terms)}
num_classes = len(selected_terms)

# 3. Construction de la matrice Y binaire
Y_matrix = np.zeros((len(train_ids), num_classes), dtype=np.int8)

# Remplissage de la matrice Y
for _, row in train_terms.iterrows():
    protein_id = row['EntryID']
    term = row['term']
    
    if protein_id in protein_to_index and term in term_to_index:
        p_idx = protein_to_index[protein_id]
        t_idx = term_to_index[term]
        Y_matrix[p_idx, t_idx] = 1

print(f"Matrice de labels Y cr√©√©e. Dimension Y: {Y_matrix.shape}")

In [None]:
# --- Chargement du graphe GO et calcul des Poids d'IA ---
print("\n--- 3. Calcul de l'Information Content (IA) ---")

# Chargement du graphe (n√©cessite obonet)
try:
    go_graph = obonet.read_obo(OBO_PATH)
except Exception as e:
    print(f"Erreur lors du chargement d'obonet. Assurez-vous que 'obonet' est install√©. Erreur: {e}")
    # Si le chargement √©choue, on continue avec un IC bas√© uniquement sur la fr√©quence
    # sans utiliser la hi√©rarchie GO pour le moment (moins pr√©cis mais fonctionnel)
    pass


# Calcul des fr√©quences d'apparition (pour l'Information Content - IC)
# On compte combien de prot√©ines ont chaque terme dans le jeu Y_matrix
term_frequencies = Y_matrix.sum(axis=0)

# Calcul de l'Information Content (IC)
# IC = -log2(P(t)) o√π P(t) est la probabilit√© d'un terme t
total_proteins = len(train_ids)
term_probabilities = term_frequencies / total_proteins
# Le terme le plus fr√©quent (P proche de 1) aura un IC proche de 0
# Le terme le plus rare (P proche de 0) aura un IC tr√®s √©lev√©
# On ajoute une petite valeur (epsilon) pour √©viter log(0)
epsilon = 1e-10
IC_values = -np.log2(term_probabilities + epsilon)

# Normalisation pour la fonction de perte
# Plus l'IC est √©lev√©, plus le poids sera grand.
# On normalise pour que le poids maximum soit 1.0 (ou proche).
class_weights = IC_values / IC_values.max() 
class_weights_tensor = tf.constant(class_weights, dtype=tf.float32)

print(f"Poids d'Information Content (IA) calcul√©s. Nombre de classes: {len(class_weights)}. Max weight: {class_weights.max():.2f}")

In [None]:
# Inspecter le poids
print("Valeurs des poids (IA) :")
print(class_weights_tensor)
print(f"Nombre de poids nuls : {tf.reduce_sum(tf.cast(class_weights_tensor == 0, tf.int32))}")

In [None]:
# --- √âtape A : Inspection des IDs ---
# R√©cup√©rer les 5 premiers IDs de la source label (train_terms.tsv)
# Utilisez le nom de colonne 'EntryID' original, puis le nettoyage.
ids_terms_original = train_terms['EntryID'].head().tolist()
ids_terms_nettoyes = train_terms['EntryID'].str.split('.').str[0].head().tolist()

# R√©cup√©rer les 5 premiers IDs de la source embeddings (train_ids.npy)
ids_embeddings = train_ids[:5].tolist()


print("IDs labels (EntryID original) :", ids_terms_original)
print("IDs labels (Apr√®s .split('.')) :", ids_terms_nettoyes)
print("IDs embeddings (train_ids.npy) :", ids_embeddings)

In [None]:
# --- √âtape de CORRECTION D√âFINITIVE (R√©-ex√©cutez tout le bloc de nettoyage) ---

# 1. Nettoyage des IDs dans les labels (train_terms.tsv)
# Bien que les exemples soient d√©j√† propres, on garde le split pour la s√©curit√©
train_terms['EntryID_CLEAN'] = train_terms['EntryID'].str.split('.').str[0]

# 2. Nettoyage CRITIQUE des IDs d'embeddings (train_ids.npy)
# On extrait l'ID Uniprot brut (le segment entre les barres verticales '|')
def extract_uniprot_id(full_id):
    """Extrait l'ID Uniprot brut de la cha√Æne FASTA compl√®te."""
    try:
        # La 2e position (index 1) apr√®s le split par '|' est l'ID Uniprot
        return full_id.split('|')[1]
    except IndexError:
        # Retourne l'ID original si le format n'est pas trouv√© (s√©curit√©)
        return full_id

# Appliquer la fonction pour cr√©er les IDs propres des embeddings
train_ids_cleaned = np.array([extract_uniprot_id(str(i)) for i in train_ids]) 

# 3. Recr√©ation du Dictionnaire de Mapping (avec les IDs nettoy√©s)
# Les cl√©s seront maintenant les IDs bruts (ex: 'A0A0C5B5G6')
protein_to_index = {pid: i for i, pid in enumerate(train_ids_cleaned)}

# V√©rification pour s'assurer qu'au moins quelques IDs correspondent (optionnel mais utile)
print(f"\nExemples d'IDs nettoy√©s des embeddings : {train_ids_cleaned[:5].tolist()}")
print(f"L'ID 'Q5W0B1' est-il dans le dictionnaire ? {'Q5W0B1' in protein_to_index}")


# --- 4. Remplissage de la matrice Y (CODE FINAL) ---
# Re-initialiser la matrice Y 
Y_matrix = np.zeros((len(train_ids_cleaned), num_classes), dtype=np.int8)

filled_count = 0
for _, row in train_terms.iterrows():
    # Utiliser l'ID nettoy√© du terme
    protein_id_clean = str(row['EntryID_CLEAN'])
    term = row['term']
    
    # La condition devrait maintenant √™tre VRAIE si l'ID existe dans le jeu d'embeddings
    if protein_id_clean in protein_to_index and term in term_to_index:
        p_idx = protein_to_index[protein_id_clean]
        t_idx = term_to_index[term]
        Y_matrix[p_idx, t_idx] = 1
        filled_count += 1

# --- V√âRIFICATION FINALE ---
print(f"\nNombre total de labels positifs ('1') remplis : {Y_matrix.sum()}")
print(f"Nombre total de lignes trait√©es : {filled_count}")

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout

# --- D√âFINITION DE L'ARCHITECTURE MLP ) ---
# Ceci cr√©e la variable 'model'
model = Sequential([
    # Couche d'entr√©e : la dimension est la taille des embeddings (320)
    Dense(1024, activation='relu', input_shape=(320,)), 
    Dropout(0.2),
    # Couche cach√©e interm√©diaire (peut varier)
    Dense(512, activation='relu'),
    Dropout(0.2),
    # Couche de sortie : 1585 neurones (le nombre de termes GO) avec activation sigmo√Øde pour la multi-classification
    Dense(1585, activation='sigmoid') 
])

# V√©rifiez l'architecture
model.summary()


In [None]:
# --- D√©finition de la Perte, de l'Architecture et Entra√Ænement ---

# 1. D√©finir la fonction de perte pond√©r√©e (si les poids IA sont d√©j√† calcul√©s et vari√©s)
# Nous avions une perte de validation tr√®s faible pr√©c√©demment. Nous allons
# nous assurer que le mod√®le apprend quelque chose en utilisant la perte standard.

# Si vous voulez avancer sans risque de bug de la perte IA:
# loss_function = 'binary_crossentropy' 

# Si vous voulez essayer √† nouveau la perte IA corrig√©e (en esp√©rant que le bug √©tait li√© √† Y nul):
# loss_function = weighted_binary_crossentropy 


# --- S√©paration des donn√©es pour l'entra√Ænement et la validation ---
X_train, X_val, Y_train, Y_val = train_test_split(
    X, 
    Y_matrix, 
    test_size=0.1, 
    random_state=42 
)

# --- Compilation et Entra√Ænement (avec binary_crossentropy pour la s√©curit√©) ---
# Si le GPU est d√©tect√©, l'entra√Ænement sera rapide.
model.compile(
    optimizer='adam',
    loss='binary_crossentropy', # UTILISATION DE LA PERTE STANDARD POUR V√âRIFICATION
    metrics=[tf.keras.metrics.Precision(name='precision'), tf.keras.metrics.Recall(name='recall')]
)

print("\nD√©but de l'entra√Ænement du mod√®le MLP...")

early_stopping = tf.keras.callbacks.EarlyStopping(
    monitor='val_loss', 
    patience=5, 
    restore_best_weights=True
)

history = model.fit(
    X_train, Y_train,
    epochs=50, 
    batch_size=64,
    validation_data=(X_val, Y_val),
    callbacks=[early_stopping] 
)

print("\nEntra√Ænement termin√©.")

In [None]:
# second entra√Ænement
import tensorflow as tf
from tensorflow.keras import backend as K
import numpy as np # Assurez-vous d'avoir import√© numpy si class_weights_tensor vient d'un numpy array

# --- Fonction de perte pond√©r√©e par l'IA (CORRIG√âE) ---
def weighted_binary_crossentropy_FINAL(y_true, y_pred):
    """
    Fonction de perte pond√©r√©e par l'Information Content (IA).
    Utilise le backend de Keras pour g√©rer correctement les formes.
    """
    # 1. Calcul de la BCE pour chaque √©l√©ment (sans r√©duction)
    # y_true et y_pred sont de forme (batch_size, 1585)
    bce = K.binary_crossentropy(y_true, y_pred) 
    
    # 2. Ajout de dimension (1585,) -> (1, 1585) pour le broadcasting s√©curis√©
    # Ceci assure que chaque ligne du batch est multipli√©e par le vecteur de poids.
    weights = class_weights_tensor[None, :] 
    
    # 3. Multiplication √©l√©ment par √©l√©ment : (64, 1585) * (1, 1585)
    weighted_bce = bce * weights
    
    # 4. Retourne la moyenne de la perte sur toutes les classes et le batch
    return K.mean(weighted_bce)

# --- Recr√©er le Tenseur de Poids si n√©cessaire ---
# Si votre class_weights_tensor a √©t√© perdu ou red√©fini, assurez-vous qu'il soit bien un tenseur TF
# class_weights_tensor = tf.constant(votre_array_de_poids_IA_de_numpy, dtype=tf.float32)

print("Fonction de perte pond√©r√©e par l'IA mise √† jour et charg√©e.")

In [None]:
# --- Compilation du Mod√®le avec la Perte IA ---

print("\n--- Relance de la compilation avec la Perte IA ---")

# Recompilez le mod√®le en utilisant la nouvelle fonction de perte
model.compile(
    optimizer='adam',
    # UTILISATION DE LA PERTE POND√âR√âE PAR L'IA CORRIG√âE
    loss=weighted_binary_crossentropy_FINAL, 
    metrics=[tf.keras.metrics.Precision(name='precision'), tf.keras.metrics.Recall(name='recall')]
)

# --- Entra√Ænement ---

print("\nD√©but du second entra√Ænement (Optimisation Fmax)...")

# Lancer le nouvel entra√Ænement
# L'EarlyStopping utilisera la 'val_loss' pond√©r√©e pour d√©terminer le meilleur point d'arr√™t
history_ia = model.fit(
    X_train, Y_train,
    epochs=50, # Vous pouvez augmenter les √©poques si le premier entrainement a utilis√© moins de 20
    batch_size=64,
    validation_data=(X_val, Y_val),
    callbacks=[early_stopping] 
)

print("\nEntra√Ænement avec la Perte IA termin√©.")
NEW_WEIGHTS_FILE = 'best_cafa6_mlp_ic_weighted.weights.h5' 
model.save_weights(NEW_WEIGHTS_FILE)

print(f"Sauvegarde des poids termin√©e : {NEW_WEIGHTS_FILE}")

In [None]:
import pandas as pd
import numpy as np
import tensorflow as tf
from tensorflow.keras import backend as K

# --- 0. D√©finition des chemins des sources de la comp√©tition ---
# Ces fichiers sont n√©cessaires pour la recr√©ation
TRAIN_TERMS_FILE = '/kaggle/input/cafa-6-protein-function-prediction/Train/train_terms.tsv'

# --- CORRECTION CLEF : RECR√âATION DU MAPPING GO √Ä PARTIR DE LA SOURCE ---
print("Tentative de recr√©ation du mapping GO...")
try:
    # 1. Charger le fichier de termes source
    df_terms = pd.read_csv(TRAIN_TERMS_FILE, sep='\t')
    
    # 2. Identifier les 1585 termes que vous avez utilis√©s (les plus fr√©quents)
    # On suppose que vous avez filtr√© sur les termes les plus fr√©quents (> 220 occurrences, le seuil standard)
    term_counts = df_terms['term'].value_counts()
    
    # D√©finir le seuil utilis√© pour la comp√©tition (typiquement 220 pour avoir ~1585 termes)
    # Ceci doit correspondre au seuil que vous avez utilis√© lors de la cr√©ation de Y !
    # Si le nombre de termes est 1585, le seuil √©tait probablement autour de 220.
    TARGET_TERM_COUNT = 1585 
    
    # Ajustement heuristique pour obtenir le bon nombre de termes (cela suppose un ordre pr√©cis)
    # Pour l'inf√©rence, nous allons simplement prendre les 1585 termes les plus fr√©quents.
    # C'est la m√©thode la plus probable que vous ayez utilis√©e.
    
    # Prendre les termes les plus fr√©quents dans l'ordre de leur fr√©quence (hypoth√®se la plus forte)
    go_terms_list_recreated = term_counts.head(TARGET_TERM_COUNT).index.tolist()
    
    # Cr√©er le dictionnaire de conversion (index -> ID GO)
    index_to_term = {i: term for i, term in enumerate(go_terms_list_recreated)}
    
    print(f"‚úÖ Mapping index -> GO ID recr√©√© avec succ√®s. Total termes : {len(index_to_term)}")
    
    # --- Continuer le chargement des autres fichiers pour l'inf√©rence ---
    
    # ... (code de chargement X_test et test_ids_clean) ...
    
    # Ensuite, le code de pr√©diction et de soumission...
    
except Exception as e:
    print(f"‚ùå √âCHEC : Impossible de recr√©er le mapping GO √† partir de {TRAIN_TERMS_FILE}. D√©tails : {e}")
    index_to_term = {}

In [None]:
import numpy as np
import tensorflow as tf
import os 
import pandas as pd
from tensorflow.keras import backend as K

# --- 0. Initialisation et D√©finitions ---

# Chemins d'acc√®s confirm√©s par l'utilisateur (utilis√©s pour l'inf√©rence)
TEST_IDS_FILE = '/kaggle/input/test-protein-embedding-complet/test_protein_ids_complet.npy'
TEST_EMBEDDINGS_FILE = '/kaggle/input/test-protein-embedding-complet/test_protein_embeddings_complet.npy' 
TRAIN_TERMS_FILE = '/kaggle/input/cafa-6-protein-function-prediction/Train/train_terms.tsv'

# Assurez-vous que 'model' (avec les poids entra√Æn√©s) et 'class_weights_tensor' sont d√©finis dans votre notebook !

def weighted_binary_crossentropy_FINAL(y_true, y_pred):
    # La fonction de perte doit √™tre d√©finie si le mod√®le est recompil√©
    bce = K.binary_crossentropy(y_true, y_pred) 
    weights = class_weights_tensor[None, :] 
    weighted_bce = bce * weights
    return K.mean(weighted_bce)

try:
    # Re-compiler le mod√®le pour s'assurer que les m√©triques sont disponibles (les poids sont restaur√©s par EarlyStopping)
    model.compile(
        optimizer='adam',
        loss=weighted_binary_crossentropy_FINAL, 
        metrics=[tf.keras.metrics.Precision(name='precision'), tf.keras.metrics.Recall(name='recall')]
    )
except NameError:
    print("‚ùå ATTENTION : La variable 'model' ou 'class_weights_tensor' n'est pas d√©finie. Veuillez recharger le mod√®le.")

# --- 1. CHARGEMENT DES DONN√âES DE TEST ET RECR√âATION DU MAPPING GO ---
print("\n--- 1. Chargement et Recr√©ation du Mapping ---")

# 1. Charger les IDs de test
try:
    test_ids = np.load(TEST_IDS_FILE) 
    test_ids_clean = np.array([i.split('|')[1] if '|' in str(i) else str(i) for i in test_ids])
    print(f"‚úÖ IDs charg√©s. Nombre de prot√©ines : {len(test_ids_clean)}")
except Exception as e:
    print(f"‚ùå Erreur de chargement IDs : {e}")
    test_ids_clean = np.array([]) 

# 2. Charger les embeddings de test (X_test)
try:
    X_test = np.load(TEST_EMBEDDINGS_FILE) 
    print(f"‚úÖ Embeddings charg√©s. Forme : {X_test.shape}")
except Exception as e:
    print(f"‚ùå Erreur de chargement Embeddings : {e}")
    X_test = np.array([])

# 3. RECR√âATION du mapping des termes GO (Solution de d√©blocage)
try:
    df_terms = pd.read_csv(TRAIN_TERMS_FILE, sep='\t')
    term_counts = df_terms['term'].value_counts()
    # On suppose que 1585 termes correspondent aux 1585 plus fr√©quents
    go_terms_list_recreated = term_counts.head(1585).index.tolist()
    index_to_term = {i: term for i, term in enumerate(go_terms_list_recreated)}
    print(f"‚úÖ Mapping index -> GO ID recr√©√©. Total termes : {len(index_to_term)}")
except Exception as e:
    print(f"‚ùå √âCHEC FATAL : Impossible de recr√©er le mapping GO. {e}")
    index_to_term = {} 



In [None]:
#  INF√âRENCE (CRITIQUE) ---

print("D√©but de l'inf√©rence sur le jeu de test complet...")

# ‚ö†Ô∏è X_test doit contenir les embeddings complets de test (forme: 224309, 320)
# La variable Y_pred_proba stockera les probabilit√©s de pr√©diction brutes du MLP
Y_pred_proba = model.predict(X_test) 

print(f"‚úÖ Inf√©rence termin√©e. Dimensions des pr√©dictions brutes : {Y_pred_proba.shape}")
print(f"Le mod√®le a pr√©dit {Y_pred_proba.shape[0]} prot√©ines sur {Y_pred_proba.shape[1]} termes GO.")


In [None]:
# Propagation GO
!pip install obonet networkx

import networkx as nx
import numpy as np

import obonet
# Remplacez 'chemin/vers/go-basic.obo' par le chemin r√©el dans votre Kaggle Input
OBO_FILE_PATH = '/kaggle/input/cafa-6-protein-function-prediction/Train/go-basic.obo' 
go_graph = obonet.read_obo(OBO_FILE_PATH)
print(f"Graphe GO charg√© avec {go_graph.number_of_nodes()} n≈ìuds.")


# --- 1. S√âCURIT√â ET PR√âPARATION ---

# Cr√©e une copie des pr√©dictions brutes pour les modifier (tr√®s important !)
Y_pred_proba_propagated = np.copy(Y_pred_proba)

# R√©cup√®re l'ensemble des termes GO pr√©dits par le mod√®le
go_terms_in_model = set(index_to_term.values())

# --- 2. FONCTION DE PROPAGATION HIERARCHIQUE ---

# Nous allons it√©rer sur les n≈ìuds du graphe GO par ordre topologique inverse
# (des feuilles vers les racines) pour assurer que les parents sont mis √† jour apr√®s les enfants.

# On utilise les termes qui sont √† la fois dans notre mod√®le et dans le graphe GO
nodes_to_propagate = [n for n in nx.topological_sort(go_graph) if n in go_terms_in_model]
# Inverser l'ordre : du bas (feuilles) vers le haut (racines)
nodes_to_propagate.reverse()

print(f"\nD√©but de la propagation pour {len(nodes_to_propagate)} termes GO...")

# --- 3. APPLICATION DE LA PROPAGATION ---

for term_id_child in nodes_to_propagate:
    try:
        # R√©cup√®re l'index de ce terme dans la matrice de pr√©diction
        idx_child = term_to_index[term_id_child]

        # Trouvez tous les parents directs (relations 'is a' ou 'part of')
        # On utilise go_graph.predecessors(node) pour trouver les parents directs
        # dans le graphe OBO o√π les ar√™tes pointent d'enfant √† parent.
        for term_id_parent in go_graph.predecessors(term_id_child):
            
            # Assurez-vous que le parent est un terme que notre mod√®le pr√©dit (un des 1585)
            if term_id_parent in term_to_index:
                idx_parent = term_to_index[term_id_parent]
                
                # R√®gle de propagation: Score(Parent) = max(Score(Parent), Score(Enfant))
                # np.maximum effectue cette op√©ration ligne par ligne (pour toutes les prot√©ines √† la fois)
                
                # Mise √† jour des scores du parent pour toutes les prot√©ines
                Y_pred_proba_propagated[:, idx_parent] = np.maximum(
                    Y_pred_proba_propagated[:, idx_parent], 
                    Y_pred_proba_propagated[:, idx_child]
                )

    except KeyError:
        # Ignore les termes qui sont dans le graphe GO mais que nous n'avons pas s√©lectionn√©s (pas l'un des 1585)
        continue 

print("‚úÖ Propagation GO termin√©e.")
print(f"Les pr√©dictions finales sont stock√©es dans Y_pred_proba_propagated (Forme: {Y_pred_proba_propagated.shape}).")



In [None]:
import numpy as np
import os
from operator import itemgetter

# --- 3. FORMATAGE ET √âCRITURE DU FICHIER DE SOUMISSION CONFORME CAFA ---
print("\n--- 3. Formatage et √âcriture du Fichier de Soumission CAFA FINAL ---")

# ‚ö†Ô∏è L'ENTR√âE EST MAINTENANT LE RESULTAT DE LA PROPAGATION GO
Y_FINAL_SCORES = Y_pred_proba_propagated

# üö® Rappel de la contrainte (score minimum pour ce type de comp√©tition)
# Le score DOIT √™tre dans l'intervalle (0, 1.000]. Votre seuil est 0.01.
# Le minimum requis est de 0.5 (selon vos informations m√©moris√©es).
# Cependant, pour le formatage CAFA, on garde souvent un seuil bas (0.01) 
# pour inclure tous les termes avant la limite de 1500.

if len(Y_FINAL_SCORES) > 0 and len(index_to_term) == 1585:
    
    # Le score DOIT √™tre dans l'intervalle (0, 1.000].
    SEUIL_SOUMISSION = 0.01 # Gardons ce seuil pour la capture initiale
    # La limite est de 1500 termes MAX par prot√©ine.
    MAX_TERMS_PER_PROTEIN = 1500
    
    submission_lines = []

    for i in range(len(test_ids_clean)):
        protein_id = test_ids_clean[i]
        # Utilisez les scores finaux propag√©s
        probabilities = Y_FINAL_SCORES[i]
        
        predictions = []
        
        # 1. Identifier les pr√©dictions au-dessus du seuil (doit √™tre > 0.0)
        indices_predits = np.where(probabilities > SEUIL_SOUMISSION)[0]
        
        # Cr√©er des paires (terme, probabilit√©) pour le tri
        for idx in indices_predits:
            term_id = index_to_term.get(idx)
            prob = probabilities[idx]
            
            if term_id and term_id != 'GO:UNKNOWN':
                predictions.append((term_id, prob))

        # 2. Trier par probabilit√© (du plus haut au plus bas)
        predictions.sort(key=itemgetter(1), reverse=True)
        
        # 3. Appliquer la limite de 1500 termes
        final_predictions = predictions[:MAX_TERMS_PER_PROTEIN]
        
        # 4. Formatage des lignes
        for term_id, prob in final_predictions:
            # Score doit √™tre dans (0, 1.000] avec max 3 chiffres significatifs.
            formatted_prob = f"{prob:.3f}"
            
            # Format: ID_prot [TAB] GO_ID [TAB] Score (une association par ligne)
            submission_lines.append(f"{protein_id}\t{term_id}\t{formatted_prob}")

    # --- √âCRIRE LE FICHIER (SANS HEADER) ---
    
    # üí• CORRECTION CRITIQUE : Le nom du fichier DOIT √™tre 'submission.tsv' pour Kaggle.
    SUBMISSION_FILE_NAME = 'submission.tsv'

    with open(os.path.join('/kaggle/working', SUBMISSION_FILE_NAME), 'w') as f:
        # CRITIQUE : √âcriture des lignes SANS HEADER
        f.write('\n'.join(submission_lines))

    print(f"\n‚úÖ Fichier de soumission cr√©√© : {SUBMISSION_FILE_NAME}. Nombre total de pr√©dictions : {len(submission_lines)}")
    print("Le fichier est maintenant nomm√© correctement pour la soumission √† Kaggle.")
else:
    print("\n‚ùå √âCHEC FINAL : V√©rifiez le chargement de Y_FINAL_SCORES (Y_pred_proba_propagated) ou la taille de index_to_term.")