# 1 Chargement du mod√®le de prediction

In [2]:
# 1) Imports
import joblib
import pandas as pd
import numpy as np

# 2) Charger le pipeline sauvegard√©
bundle = joblib.load("rf_no_pca_pipeline.joblib")
pipe = bundle["pipeline"]
FEATURES = bundle["features"]
print(" Mod√®le charg√©. Features attendues :", FEATURES)


 Mod√®le charg√©. Features attendues : ['diagonal', 'height_left', 'height_right', 'margin_low', 'margin_up', 'length']


# 2 Chargement du fichier √† pr√©dire

### attention : le fichier d‚Äôentr√©e doit contenir en colonnes au moins diagonal, height_left, height_right, margin_low, margin_up, length (noms exacts)

In [5]:
# Indique le chemin du fichier √† pr√©dire (s√©parateur ; comme dans ma base de donn√©es initial )
INPUT_PATH = "billets_test.csv"   # <-- √† adapter
OUTPUT_PATH = "billets_predictions.csv" # <-- o√π je veux √©crire le r√©sultat

# Chargement 
df_in = pd.read_csv(INPUT_PATH) #ajouter => , sep=";" si s√©parateur ;

print("Aper√ßu du fichier d'entr√©e :")
display(df_in.head())
print(df_in.shape)


Aper√ßu du fichier d'entr√©e :


Unnamed: 0,diagonal,height_left,height_right,margin_low,margin_up,length,id
0,172.09,103.95,103.73,4.39,3.09,113.19,B_1
1,171.52,104.17,104.03,5.27,3.16,111.82,B_2
2,171.78,103.8,103.75,3.81,3.24,113.39,B_3
3,172.02,104.08,103.99,5.57,3.3,111.1,B_4
4,171.79,104.34,104.37,5.0,3.07,111.87,B_5


(5, 7)


# 3 Contr√¥le et pr√©partion des valeurs manquantes

In [7]:
# 3.1 V√©rifier la pr√©sence des colonnes n√©cessaires
missing_cols = [c for c in FEATURES if c not in df_in.columns]
if missing_cols:
    raise ValueError(f"Colonnes manquantes dans le fichier d'entr√©e : {missing_cols}")

# 3.2 Conserver uniquement les features n√©cessaires (on laisse les autres pour les r√©attacher apr√®s)
df_feat = df_in[FEATURES].copy()

# 3.3 Aligner le traitement avec l'entra√Ænement : suppression des lignes incompl√®tes
before = len(df_feat)
mask_complete = df_feat[FEATURES].notna().all(axis=1)
df_feat = df_feat[mask_complete]
dropped = before - len(df_feat)

# Conserver les m√™mes lignes c√¥t√© df_in pour r√©attacher les pr√©dictions proprement
df_clean_in = df_in.loc[mask_complete].copy()

print(f" Lignes compl√®tes conserv√©es : {len(df_feat)} (lignes supprim√©es : {dropped})")


 Lignes compl√®tes conserv√©es : 5 (lignes supprim√©es : 0)


# 4 Pr√©dire (probailit√©s + classes)

In [9]:
# 4.1 Probabilit√©s de "vrai billet" (classe True) -> colonne 1 si y est bool√©en
proba_true = pipe.predict_proba(df_feat)[:, 1]

# 4.2 Classe bool√©enne (seuil 0.5 par d√©faut)
pred_bool = proba_true >= 0.5

# Seuil de d√©cision : 0.5 par d√©faut. Si, m√©tier, on veut encore moins de faux n√©gatifs, 
# on peut baisser le seuil (ex. 0.45) pour √™tre plus ‚Äústrict‚Äù sur la d√©tection des faux.

# 4.3 √âtiquette lisible
pred_label = np.where(pred_bool, "Vrai billet", "Faux billet")

# 4.4 R√©attacher au DataFrame d'entr√©e filtr√©
df_out = df_clean_in.copy()
df_out["proba_true"] = proba_true.round(4)
df_out["prediction_bool"] = pred_bool
df_out["prediction_label"] = pred_label

print("Aper√ßu des pr√©dictions :")
display(df_out.head())


Aper√ßu des pr√©dictions :


Unnamed: 0,diagonal,height_left,height_right,margin_low,margin_up,length,id,proba_true,prediction_bool,prediction_label
0,172.09,103.95,103.73,4.39,3.09,113.19,B_1,1.0,True,Vrai billet
1,171.52,104.17,104.03,5.27,3.16,111.82,B_2,0.0,False,Faux billet
2,171.78,103.8,103.75,3.81,3.24,113.39,B_3,1.0,True,Vrai billet
3,172.02,104.08,103.99,5.57,3.3,111.1,B_4,0.0033,False,Faux billet
4,171.79,104.34,104.37,5.0,3.07,111.87,B_5,0.0033,False,Faux billet


# 5 Export du fichier enrichi

In [11]:
# Sauvegarde (m√™me s√©parateur ;)
df_out.to_csv(OUTPUT_PATH, index=False) # si s√©parateur ";" alors ajouter apr√®s output_path => , sep=";"
print(f" Fichier pr√©dictions √©crit : {OUTPUT_PATH}")
print("R√©sum√© des classes pr√©dites :")
print(df_out["prediction_label"].value_counts())


 Fichier pr√©dictions √©crit : billets_predictions.csv
R√©sum√© des classes pr√©dites :
prediction_label
Faux billet    3
Vrai billet    2
Name: count, dtype: int64


# 6 Bonus : si fichier contient quand m√™me is_genuine (pour test interne)

In [13]:
if "is_genuine" in df_out.columns:
    from sklearn.metrics import classification_report, confusion_matrix
    print("\nüîé √âvaluation interne (car 'is_genuine' pr√©sent) :")
    print(classification_report(df_out["is_genuine"], df_out["prediction_bool"],
                                target_names=["Faux billet", "Vrai billet"]))
    print("Matrice de confusion :")
    print(confusion_matrix(df_out["is_genuine"], df_out["prediction_bool"]))


# 7 Bonus bis : Zone d'abstention autour de 0.5

In [15]:
# --- Param√®tres de triage (√† ajuster) ---
LOW  = 0.45   # seuil bas de la zone d‚Äôabstention
HIGH = 0.55   # seuil haut de la zone d‚Äôabstention

# Probas d√©j√† calcul√©es plus haut : proba_true = pipe.predict_proba(df_feat)[:, 1]

# 1) Cat√©gorie tri-√©tats
def triage_label(p):
    if p < LOW:
        return "Faux billet"
    elif p > HIGH:
        return "Vrai billet"
    else:
        return "√Ä v√©rifier"   # zone d‚Äôabstention

df_out = df_clean_in.copy()
df_out["proba_true"] = proba_true
df_out["prediction_3classes"] = [triage_label(p) for p in df_out["proba_true"]]

# 2) R√©sum√©
print("R√©partition des pr√©dictions (triage 3 classes) :")
print(df_out["prediction_3classes"].value_counts(dropna=False))




R√©partition des pr√©dictions (triage 3 classes) :
prediction_3classes
Faux billet    3
Vrai billet    2
Name: count, dtype: int64
