## Import des d√©pendances

In [19]:
import pandas as pd

## Importation du dataset et split en train, validation et test

In [None]:
df = pd.read_csv('data/diabetes_clean.csv')
df.head()

# S√©parer les features (X) de la cible (y)
y_train = df['class']  # ‚úÖ LABELS (0=mort, 1=survie)

# ‚ö†Ô∏è CORRECTION : Exclure 'id' et 'class' des features
# L'ID n'a aucune valeur pr√©dictive m√©dicale !
X_train = df.drop(['class', 'id'], axis=1)  # ‚úÖ FEATURES (sans la cible et sans l'ID)
print(f'Shape X-train: {X_train.shape}, Shape y-train: {y_train.shape}')
print(f'Colonnes dans X_train: {list(X_train.columns)}')

Shape X-train: (416, 17), Shape y-train: (416,)


In [None]:
# ‚úÖ V√âRIFICATION : S'assurer qu'on n'a pas d'ID dans les features
print("=== V√âRIFICATION DES FEATURES ===")
print(f"Features utilis√©es pour l'entra√Ænement: {list(X_train.columns)}")
print(f"Nombre de features: {len(X_train.columns)}")

# V√©rifier qu'il n'y a pas d'ID
if 'id' in X_train.columns:
    print("‚ùå ERREUR: L'ID est encore pr√©sent dans les features!")
else:
    print("‚úÖ PARFAIT: L'ID a √©t√© exclu des features d'entra√Ænement")

# Afficher quelques statistiques
print(f"\nStatistiques des donn√©es:")
print(f"- Nombre d'√©chantillons: {X_train.shape[0]}")
print(f"- Nombre de features: {X_train.shape[1]}")
print(f"- Distribution des classes: {y_train.value_counts().to_dict()}")

## Encodage des variables (Features + Target)

In [21]:
# üî§ ENCODAGE DES VARIABLES CAT√âGORIELLES
# Import 

from sklearn.preprocessing import LabelEncoder


print("\n=== VARIABLES √Ä ENCODER ===")
# Identifier les colonnes non-num√©riques
categorical_columns = X_train.select_dtypes(include=['object']).columns.tolist()
print(f"Colonnes cat√©gorielles: {categorical_columns}")

# Afficher les valeurs uniques avant encodage
for col in categorical_columns:
    print(f"\n{col}: {X_train[col].unique()}")

# Encoder chaque colonne cat√©gorielle
label_encoders = {}
X_train_encoded = X_train.copy()

for col in categorical_columns:
    le = LabelEncoder()
    X_train_encoded[col] = le.fit_transform(X_train[col])
    label_encoders[col] = le  # Sauvegarder pour plus tard
    
    print(f"\n‚úÖ {col} encod√©:")
    print(f"   Avant: {X_train[col].unique()}")
    print(f"   Apr√®s: {X_train_encoded[col].unique()}")

print(f"\nR√âSULTAT FINAL X_train :")
print(f"X_train_encoded shape: {X_train_encoded.shape}")
print(f"Types de donn√©es:")
print(X_train_encoded.dtypes)

# V√©rification : plus de colonnes 'object'
if X_train_encoded.select_dtypes(include=['object']).shape[1] == 0:
    print(f"\n‚úÖ PARFAIT ! Toutes les variables X sont maintenant num√©riques")
else:
    print(f"\n‚ùå Il reste des variables non-num√©riques √† traiter dans X")

print(f"\n=== ENCODAGE DE LA VARIABLE CIBLE (y_train) ===")
print(f"y_train avant encodage: {y_train.unique()}")
print(f"Type de y_train: {y_train.dtype}")

# Encoder y_train
le_target = LabelEncoder()
y_train_encoded = le_target.fit_transform(y_train)

print(f"\n‚úÖ y_train encod√©:")
print(f"   Avant: {y_train.unique()}")
print(f"   Apr√®s: {le_target.classes_} -> {[0, 1]}")
print(f"   Mapping: {dict(zip(le_target.classes_, [0, 1]))}")

print(f"\n=== V√âRIFICATION FINALE ===")
print(f"X_train_encoded shape: {X_train_encoded.shape}, dtype: num√©riques ‚úÖ")
print(f"y_train_encoded shape: {y_train_encoded.shape}, dtype: {y_train_encoded.dtype} ‚úÖ")
print(f"\nTous les encodages sont corrects ! Pr√™t pour l'entra√Ænement du mod√®le üöÄ")

print(f"\nAPER√áU DES DONN√âES ENCOD√âES:")
print("X_train_encoded:")
print(X_train_encoded.head())
print(f"\ny_train_encoded (premiers 10):")
print(y_train_encoded[:10])


=== VARIABLES √Ä ENCODER ===
Colonnes cat√©gorielles: ['gender', 'polyuria', 'polydipsia', 'sudden_weight_loss', 'weakness', 'polyphagia', 'genital_thrush', 'visual_blurring', 'itching', 'irritability', 'delayed_healing', 'partial_paresis', 'muscle_stiffness', 'alopecia', 'obesity']

gender: ['Female' 'Male']

polyuria: ['Yes' 'No']

polydipsia: ['No' 'Yes']

sudden_weight_loss: ['Yes' 'No']

weakness: ['Yes' 'No']

polyphagia: ['No' 'Yes']

genital_thrush: ['Yes' 'No']

visual_blurring: ['Yes' 'No']

itching: ['Yes' 'No']

irritability: ['No' 'Yes']

delayed_healing: ['Yes' 'No']

partial_paresis: ['Yes' 'No']

muscle_stiffness: ['Yes' 'No']

alopecia: ['No' 'Yes']

obesity: ['Yes' 'No']

‚úÖ gender encod√©:
   Avant: ['Female' 'Male']
   Apr√®s: [0 1]

‚úÖ polyuria encod√©:
   Avant: ['Yes' 'No']
   Apr√®s: [1 0]

‚úÖ polydipsia encod√©:
   Avant: ['No' 'Yes']
   Apr√®s: [0 1]

‚úÖ sudden_weight_loss encod√©:
   Avant: ['Yes' 'No']
   Apr√®s: [1 0]

‚úÖ weakness encod√©:
   Avant: [

## Split en train, validation, test

In [None]:
# üöÄ ENTRA√éNEMENT DU MOD√àLE RANDOM FOREST

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score, log_loss
import numpy as np

print("=== ENTRA√éNEMENT DU MOD√àLE ===")

# Cr√©ation et entra√Ænement du mod√®le
model = RandomForestClassifier(
    random_state=42,
    n_estimators=300,     # Nombre d'arbres
    max_depth=8,         # Profondeur des arbres
    min_samples_split=5,  # Minimum d'√©chantillons pour diviser
    min_samples_leaf=2    # Minimum d'√©chantillons par feuille
)

print(f"üèÉ‚Äç‚ôÇÔ∏è Entra√Ænement en cours...")
print(f"Features utilis√©es: {list(X_train_encoded.columns)}")
print(f"Shape des donn√©es: {X_train_encoded.shape}")

model.fit(X_train_encoded, y_train_encoded)
# Sauvegarder le mod√®le CORRIG√â (sans ID)
import joblib
model_filename = 'Model_diabetes_RF_FIXED.pkl'
joblib.dump(model, model_filename)
print(f"\nüíæ Mod√®le CORRIG√â sauvegard√©: '{model_filename}'")
print(f"‚úÖ Entra√Ænement termin√© !")
print(f"üìä Features dans le mod√®le: {len(X_train_encoded.columns)} colonnes")
print(f"üéØ Features: {list(X_train_encoded.columns)}")

=== ENTRA√éNEMENT DU MOD√àLE ===
üèÉ‚Äç‚ôÇÔ∏è Entra√Ænement en cours...

üíæ Mod√®le sauvegard√©: 'Model_diabetes_RF.pkl'
‚úÖ Entra√Ænement termin√© !

üíæ Mod√®le sauvegard√©: 'Model_diabetes_RF.pkl'
‚úÖ Entra√Ænement termin√© !


In [23]:
data_csv = pd.read_csv("data/test_without_class.csv")
print(data_csv.head())
data_csv_copy = data_csv.copy()
doublons = data_csv_copy.duplicated(keep=False).sum()
print(f"il ya {doublons} doublons dans le dataset")
nans = data_csv_copy.isna().sum()
print(f"il y a {nans} nans dans le dataset")
print(data_csv_copy["Age"].describe())
data_csv_copy.columns = data_csv_copy.columns.str.replace(' ', '_').str.lower()
print(data_csv_copy.columns)

data_csv_copy.to_csv("data/test_without_class_cleaned.csv", index=False)

    ID  Age  Gender Polyuria Polydipsia sudden weight loss weakness  \
0  417   50  Female       No         No                 No      Yes   
1  418   55    Male       No        Yes                 No      Yes   
2  419   67    Male      Yes        Yes                 No      Yes   
3  420   45    Male       No         No                 No       No   
4  421   37    Male       No         No                 No       No   

  Polyphagia Genital thrush visual blurring Itching Irritability  \
0         No             No             Yes     Yes           No   
1         No            Yes              No      No          Yes   
2        Yes            Yes              No     Yes          Yes   
3        Yes            Yes              No      No           No   
4         No             No              No      No           No   

  delayed healing partial paresis muscle stiffness Alopecia Obesity  
0             Yes              No               No      Yes      No  
1             Yes       

## Test du mod√®le sur donn√©es de test

In [24]:
# üìä CHARGEMENT DES DONN√âES DE TEST
print("=== CHARGEMENT DU FICHIER DE TEST ===")

# Charger le fichier test (sans la colonne 'class')
df_test = pd.read_csv('data/test_without_class_cleaned.csv')
print(f"Donn√©es de test charg√©es: {df_test.shape}")
print(f"Colonnes disponibles: {list(df_test.columns)}")

# V√©rifier la structure
print(f"\nAper√ßu des donn√©es de test:")
print(df_test.head())

# IMPORTANT: Garder la colonne 'id' comme feature (m√™me structure que l'entra√Ænement)
test_ids = df_test['id'].copy()  # Sauvegarder les IDs pour plus tard
X_test = df_test  # Garder TOUTES les colonnes y compris 'id'

print(f"\nShape X_test: {X_test.shape}")
print(f"Colonnes dans X_test: {list(X_test.columns)}")
print(f"Types de donn√©es dans X_test:")
print(X_test.dtypes)

=== CHARGEMENT DU FICHIER DE TEST ===
Donn√©es de test charg√©es: (104, 17)
Colonnes disponibles: ['id', 'age', 'gender', 'polyuria', 'polydipsia', 'sudden_weight_loss', 'weakness', 'polyphagia', 'genital_thrush', 'visual_blurring', 'itching', 'irritability', 'delayed_healing', 'partial_paresis', 'muscle_stiffness', 'alopecia', 'obesity']

Aper√ßu des donn√©es de test:
    id  age  gender polyuria polydipsia sudden_weight_loss weakness  \
0  417   50  Female       No         No                 No      Yes   
1  418   55    Male       No        Yes                 No      Yes   
2  419   67    Male      Yes        Yes                 No      Yes   
3  420   45    Male       No         No                 No       No   
4  421   37    Male       No         No                 No       No   

  polyphagia genital_thrush visual_blurring itching irritability  \
0         No             No             Yes     Yes           No   
1         No            Yes              No      No          Yes 

In [25]:
# üî§ ENCODAGE DES DONN√âES DE TEST
print("=== ENCODAGE DES DONN√âES DE TEST ===")

# Identifier les colonnes cat√©gorielles dans le test (exclure 'id' qui est num√©rique)
categorical_columns_test = X_test.select_dtypes(include=['object']).columns.tolist()
print(f"Colonnes cat√©gorielles dans le test: {categorical_columns_test}")

# Copier les donn√©es pour encodage
X_test_encoded = X_test.copy()

# Utiliser les m√™mes encodeurs que pour l'entra√Ænement
print(f"\nEncodage avec les encodeurs d'entra√Ænement...")
for col in categorical_columns_test:
    if col in label_encoders:
        # Utiliser l'encodeur d'entra√Ænement
        le = label_encoders[col]
        
        # V√©rifier si toutes les valeurs du test sont connues
        unknown_values = set(X_test[col].unique()) - set(le.classes_)
        if unknown_values:
            print(f"‚ö†Ô∏è Valeurs inconnues dans {col}: {unknown_values}")
            # G√©rer les valeurs inconnues (les remplacer par la valeur la plus fr√©quente)
            mode_value = X_test[col].mode()[0]
            X_test_encoded[col] = X_test[col].fillna(mode_value)
        
        X_test_encoded[col] = le.transform(X_test_encoded[col])
        print(f"‚úÖ {col} encod√© avec l'encodeur d'entra√Ænement")
    else:
        print(f"‚ùå Pas d'encodeur trouv√© pour {col}")

print(f"\nR√âSULTAT ENCODAGE TEST:")
print(f"X_test_encoded shape: {X_test_encoded.shape}")
print(f"Colonnes dans X_test_encoded: {list(X_test_encoded.columns)}")
print(f"Types de donn√©es:")
print(X_test_encoded.dtypes)

# V√©rification finale
if X_test_encoded.select_dtypes(include=['object']).shape[1] == 0:
    print(f"\n‚úÖ PARFAIT ! Toutes les variables de test sont num√©riques")
else:
    print(f"\n‚ùå Il reste des variables non-num√©riques dans le test")

print(f"\nAper√ßu des donn√©es test encod√©es:")
print(X_test_encoded.head())

=== ENCODAGE DES DONN√âES DE TEST ===
Colonnes cat√©gorielles dans le test: ['gender', 'polyuria', 'polydipsia', 'sudden_weight_loss', 'weakness', 'polyphagia', 'genital_thrush', 'visual_blurring', 'itching', 'irritability', 'delayed_healing', 'partial_paresis', 'muscle_stiffness', 'alopecia', 'obesity']

Encodage avec les encodeurs d'entra√Ænement...
‚úÖ gender encod√© avec l'encodeur d'entra√Ænement
‚úÖ polyuria encod√© avec l'encodeur d'entra√Ænement
‚úÖ polydipsia encod√© avec l'encodeur d'entra√Ænement
‚úÖ sudden_weight_loss encod√© avec l'encodeur d'entra√Ænement
‚úÖ weakness encod√© avec l'encodeur d'entra√Ænement
‚úÖ polyphagia encod√© avec l'encodeur d'entra√Ænement
‚úÖ genital_thrush encod√© avec l'encodeur d'entra√Ænement
‚úÖ visual_blurring encod√© avec l'encodeur d'entra√Ænement
‚úÖ itching encod√© avec l'encodeur d'entra√Ænement
‚úÖ irritability encod√© avec l'encodeur d'entra√Ænement
‚úÖ delayed_healing encod√© avec l'encodeur d'entra√Ænement
‚úÖ partial_paresis encod√© 

In [26]:
# üîÆ PR√âDICTIONS SUR LES DONN√âES DE TEST
print("=== PR√âDICTIONS SUR LE DATASET DE TEST ===")

# Faire les pr√©dictions
y_test_pred = model.predict(X_test_encoded)

print(f"Pr√©dictions effectu√©es sur {len(y_test_pred)} √©chantillons")
print(f"Classes pr√©dites: {np.bincount(y_test_pred)}")  # [nombre de 0, nombre de 1]

=== PR√âDICTIONS SUR LE DATASET DE TEST ===
Pr√©dictions effectu√©es sur 104 √©chantillons
Classes pr√©dites: [42 62]


In [27]:
# üíæ SAUVEGARDE DES R√âSULTATS DE TEST
print("=== SAUVEGARDE DES R√âSULTATS ===")

# Cr√©er le DataFrame de soumission (format: ID + class en 0/1)
submission_df = pd.DataFrame({
    'ID': test_ids,
    'class': y_test_pred
})

# Sauvegarder le fichier de soumission
output_filename = 'predictions_test_diabetes.csv'
submission_df.to_csv(output_filename, index=False)

print(f"‚úÖ Fichier sauvegard√©: {output_filename}")
print(f"Format: ID, class (0/1)")
print(f"Total: {len(submission_df)} pr√©dictions")

=== SAUVEGARDE DES R√âSULTATS ===
‚úÖ Fichier sauvegard√©: predictions_test_diabetes.csv
Format: ID, class (0/1)
Total: 104 pr√©dictions
