In [1]:
# ============================================================
# üîÆ INF√âRENCE ‚Äì TF-IDF + ResNet50 + XGBoost (version corrig√©e)
# ============================================================

import os, re, html, joblib
import numpy as np
import pandas as pd
import torch
import torchvision.models as models
import torchvision.transforms as transforms
from PIL import Image
import xgboost as xgb
from bs4 import BeautifulSoup
from scipy import sparse

# ============================================================
# 1Ô∏è‚É£ Chargement des artefacts
# ============================================================
print("üì¶ Chargement des mod√®les...")

# üü¢ Chemin correct pour ton vectorizer
vectorizer = joblib.load("data/processed/tfidf_vectorizer.joblib")
encoder    = joblib.load("data/models/label_encoder.joblib")
bst        = xgb.Booster()
bst.load_model("data/models/xgb_fusion.json")

print("‚úÖ Artefacts charg√©s avec succ√®s.")

# ============================================================
# 2Ô∏è‚É£ Fonction de nettoyage texte
# ============================================================
def clean_text(text):
    if not isinstance(text, str):
        return ""
    text = BeautifulSoup(text, "html.parser").get_text(" ")
    text = html.unescape(text)
    text = re.sub(r"[^A-Za-z√Ä-√ñ√ò-√∂√∏-√ø0-9\s]", " ", text)
    text = re.sub(r"\s+", " ", text).strip().lower()
    return text

# ============================================================
# 3Ô∏è‚É£ Charger une ligne du CSV
# ============================================================
df = pd.read_csv("data/X_train_update.csv")
sample = df.sample(1, random_state=42).iloc[0]

designation = str(sample["designation"])
description = str(sample["description"])
imageid     = str(sample["imageid"])

print(f"\nüßæ Produit test√© : {designation[:80]}...")

# ============================================================
# 4Ô∏è‚É£ TF-IDF texte
# ============================================================
text_clean = clean_text(designation + " " + description)
X_text = vectorizer.transform([text_clean])

# ============================================================
# 5Ô∏è‚É£ Embeddings image (ResNet50 PyTorch)
# ============================================================
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
resnet = models.resnet50(weights=models.ResNet50_Weights.IMAGENET1K_V1)
resnet.fc = torch.nn.Identity()
resnet.eval().to(device)

transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225]),
])

img_path = f"data/images/images/image_train/{imageid}.jpg"
try:
    img = Image.open(img_path).convert("RGB")
    x = transform(img).unsqueeze(0).to(device)
    with torch.no_grad():
        X_img = resnet(x).cpu().numpy()
except Exception:
    print("‚ö†Ô∏è Image introuvable ‚Üí vecteur nul utilis√©.")
    X_img = np.zeros((1, 2048), dtype=np.float32)

# ============================================================
# 6Ô∏è‚É£ Fusion texte + image
# ============================================================
X_all = sparse.hstack([X_text, sparse.csr_matrix(X_img)]).tocsr()

# ============================================================
# 7Ô∏è‚É£ Pr√©diction XGBoost
# ============================================================
dtest = xgb.DMatrix(X_all)
proba = bst.predict(dtest)[0]
pred_id = np.argmax(proba)
prdtypecode = encoder.inverse_transform([pred_id])[0]

print(f"\nüéØ Code produit pr√©dit : {prdtypecode}")

# ============================================================
# 8Ô∏è‚É£ Top-5 pr√©dictions + cat√©gories
# ============================================================
top5_idx = np.argsort(proba)[::-1][:5]
top5_codes = encoder.inverse_transform(top5_idx)
top5_scores = proba[top5_idx]

cat_map = {
    10:  "Livres et ouvrages culturels",
    40:  "Jeux vid√©o et accessoires",
    50:  "Accessoires gaming",
    60:  "Consoles r√©tro",
    1140:"Figurines Pop & licences geek",
    1160:"Cartes √† collectionner",
    1180:"Jeux de figurines & wargames",
    1280:"Jouets enfants & b√©b√©s",
    1281:"Jeux et loisirs enfants",
    1300:"Drones et mod√®les r√©duits",
    1301:"Chaussettes & accessoires enfants",
    1302:"Jouets divers & loisirs cr√©atifs",
    1320:"Pu√©riculture & √©quipement b√©b√©",
    1560:"Mobilier & articles de maison",
    1920:"Linge de maison & d√©coration textile",
    1940:"Alimentation & boissons",
    2060:"D√©coration & accessoires saisonniers",
    2220:"Accessoires pour animaux",
    2280:"Magazines & journaux anciens",
    2403:"Livres, mangas & partitions",
    2462:"Lots jeux vid√©o et consoles",
    2522:"Fournitures de papeterie",
    2582:"Mobilier et accessoires de jardin",
    2583:"Accessoires pour piscines et spas",
    2585:"Outils et √©quipements de jardinage",
    2705:"Essais & livres d‚Äôhistoire",
    2905:"Jeux PC √† t√©l√©charger & √©ditions sp√©ciales",
}

print("\nüèÜ Top-5 pr√©dictions :")
for c, s in zip(top5_codes, top5_scores):
    name = cat_map.get(int(c), "Non d√©fini")
    print(f"  {c:<6} | {s:.3f} | {name}")

if int(prdtypecode) in cat_map:
    print(f"\nü™Ñ Cat√©gorie pr√©dite : {cat_map[int(prdtypecode)]}")
else:
    print("\n‚ö†Ô∏è Cat√©gorie non r√©f√©renc√©e dans le mapping local.")


üì¶ Chargement des mod√®les...


FileNotFoundError: [Errno 2] No such file or directory: 'data/processed/tfidf_vectorizer.joblib'