
# üß™ C5.2.2 ‚Äî S√©lection de variables (Bloc 5)

**Objectif :** choisir et justifier des **m√©thodes de s√©lection de variables** pour r√©duire la dimension, am√©liorer la
g√©n√©ralisation et l'explicabilit√©. On compare **plusieurs familles** :  
- **Filtre (statistique)** : test **chi¬≤** sur TF‚ÄëIDF (non‚Äën√©gatif)  
- **M√©thode incorpor√©e (embedded)** : **L1** (LASSO) via `LogisticRegression` + `SelectFromModel`  
- **R√©duction de dimension** : **TruncatedSVD** (LSA) sur matrices creuses  
*(option)* **RFE** sur un sous‚Äëensemble pour illustrer l'√©limination r√©cursive

On s'appuie sur les features g√©n√©r√©s en **C5.2.1**.



## üéôÔ∏è Discours (1‚Äì2 min)
> ¬´ Nous retenons un triptyque compl√©mentaire : **chi¬≤** (rapide, interpretable), **L1** (s√©lection parcimonieuse embarqu√©e),
> et **SVD** (compression th√©matique). Nous comparons l'impact sur AP/F1 et le **nombre de variables** conserv√©es,
> puis nous **s√©rialisons** les s√©lecteurs pour l'entra√Ænement (C5.2.3). ¬ª


## ‚öôÔ∏è 0) Configuration & chemins

In [1]:

from pathlib import Path

# Artefacts de C5.2.1
X_PATH = Path("data/processed/X_tfidf_sample.npz")
Y_PATH = Path("data/processed/y_binary_sample.joblib")
FEAT_ART = Path("models")  # on prendra le plus r√©cent features_tfidf_*.joblib

# Param√®tres s√©lection
CHI2_K = 50_000            # k pour SelectKBest(chi2)
L1_C   = 0.5               # r√©gularisation L1 (plus petit => plus de shrinkage)
SVD_K  = 300               # nb composantes SVD

DO_RFE = False             # RFE tr√®s co√ªteux en tr√®s haute dimension (False par d√©faut)
RFE_N_FEATURES = 5_000     # si DO_RFE=True, cible finale (apr√®s pr√©filtre)

RANDOM_STATE = 42

## üì• 1) Chargement X/y + artefacts de noms

In [2]:

import json, re, time
import numpy as np
import pandas as pd
from joblib import load
from scipy import sparse

assert X_PATH.exists() and Y_PATH.exists(), "Ex√©cute d'abord C5.2.1 pour produire X/y."
X = sparse.load_npz(X_PATH)
y = load(Y_PATH)

# R√©cup√©rer le plus r√©cent artefact features_tfidf_*.joblib
feat_jobs = sorted(FEAT_ART.glob("features_tfidf_*.joblib"))
assert feat_jobs, "Artefact features_tfidf_*.joblib introuvable (C5.2.1)."
feat_job = feat_jobs[-1]
art = load(feat_job)

# Construire la liste des noms de features (mot + char + meta)
names = []
if art.get("vectorizer_word") is not None:
    names += list(art["vectorizer_word"].get_feature_names_out())
if art.get("vectorizer_char") is not None:
    names += list(art["vectorizer_char"].get_feature_names_out())
if art.get("feature_meta_cols"):
    names += list(art["feature_meta_cols"])
feature_names = np.array(names, dtype=object)
print("X shape:", X.shape, "| y:", y.shape, "| nb_features:", len(feature_names), "| artefact:", feat_job.name)

ModuleNotFoundError: No module named 'numpy'

## ‚úÇÔ∏è 2) Split train/test (stratifi√©, reproductible)

In [5]:

from sklearn.model_selection import train_test_split

Xtr, Xte, ytr, yte = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)
Xtr.shape, Xte.shape, ytr.mean(), yte.mean()

((96000, 180007), (24000, 180007), 0.7614583333333333, 0.7614583333333333)

## üß∞ 3) Utilitaire d'√©valuation rapide

In [6]:

import time, numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import average_precision_score, f1_score, precision_recall_curve

def eval_pipeline(Xtr, Xte, ytr, yte, desc: str):
    t0 = time.time()
    clf = LogisticRegression(max_iter=2000, class_weight="balanced")
    clf.fit(Xtr, ytr)
    fit_s = time.time() - t0
    proba = clf.predict_proba(Xte)[:,1]
    ap = average_precision_score(yte, proba)
    # F1@0.5 et F1 optimal
    prec, rec, thr = precision_recall_curve(yte, proba)
    f1 = (2*prec*rec)/(prec+rec+1e-9)
    best_idx = int(np.nanargmax(f1))
    thr_star = float(thr[best_idx]) if best_idx < len(thr) else 0.5
    f1_star = float(f1[best_idx])
    f1_05 = f1_score(yte, proba>=0.5)
    print(f"[{desc}] AP={ap:.3f} | F1@0.5={f1_05:.3f} | F1@t*={f1_star:.3f} (t*={thr_star:.2f}) | fit={fit_s:.2f}s")
    return {"desc": desc, "AP": ap, "F1@0.5": f1_05, "F1@t*": f1_star, "t*": thr_star, "fit_s": fit_s}

## üéöÔ∏è 4) Baseline sans s√©lection

In [7]:

import pandas as pd
res = []
res.append(eval_pipeline(Xtr, Xte, ytr, yte, desc=f"Baseline (no selection) ‚Äî p={Xtr.shape[1]:,}"))
pd.DataFrame(res)

[Baseline (no selection) ‚Äî p=180,007] AP=0.983 | F1@0.5=0.927 | F1@t*=0.938 (t*=0.31) | fit=342.86s


STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT

Increase the number of iterations to improve the convergence (max_iter=2000).
You might also want to scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Unnamed: 0,desc,AP,F1@0.5,F1@t*,t*,fit_s
0,"Baseline (no selection) ‚Äî p=180,007",0.982659,0.927284,0.937503,0.309827,342.864347


### üîç Sauvegarde des artefacts

In [12]:
# üíΩ Sauvegarde du s√©lecteur chi¬≤ choisi + m√©ta d√©cision pour C5.2.3
from joblib import dump
from pathlib import Path
import time, json

# `sel` = votre SelectKBest(chi2, k=50_000) fit dans la cellule de comparaison
assert 'sel' in globals(), "Le s√©lecteur `sel` doit √™tre cr√©√© plus haut."

Path("models").mkdir(parents=True, exist_ok=True)
stamp = time.strftime("%Y%m%d_%H%M%S")

# 1) s√©lecteur chi¬≤
sel_path = Path("models")/f"selector_chi2_k{sel.k}_{stamp}.joblib"
dump({"chi2": sel, "k": int(sel.k)}, sel_path)

# 2) m√©ta d√©cision (pour tracer le choix dans le repo)
decision = {
    "chosen_pipeline": "tfidf -> chi2(k=50k) -> logreg(lbfgs, L2, C=1.0)",
    "k": int(sel.k),
    "logreg": {"solver": "lbfgs", "penalty": "l2", "C": 1.0, "max_iter": 5000, "tol": 1e-3},
    "notes": "Qualit√© ‚âà baseline; fit ~2.5x plus rapide; calibration pr√©serv√©e (t*‚âà0.31).",
    "created": stamp
}
(Path("models")/f"selection_decision_{stamp}.json").write_text(json.dumps(decision, indent=2), encoding="utf-8")

print("√âcrit ‚Üí", sel_path)
print("√âcrit ‚Üí", f"models/selection_decision_{stamp}.json")


√âcrit ‚Üí models\selector_chi2_k50000_20250912_171611.joblib
√âcrit ‚Üí models/selection_decision_20250912_171611.json


# üìà 5) Filtre chi¬≤ ‚Äî SelectKBest

In [17]:
from sklearn.feature_selection import SelectKBest, chi2

# k d√©fini dans ta cellule de config (ex. CHI2_K=50_000)
k = min(CHI2_K, Xtr.shape[1])

# S√©lecteur chi¬≤
sel = SelectKBest(score_func=chi2, k=k).fit(Xtr, ytr)
Xtr_chi = sel.transform(Xtr)
Xte_chi = sel.transform(Xte)

print(f"chi¬≤ s√©lectionne k={k:,} features  |  Xtr_chi: {Xtr_chi.shape}  |  Xte_chi: {Xte_chi.shape}")

# (pour la cellule 5bis)
mask = sel.get_support()
selected_names = feature_names[mask]

chi¬≤ s√©lectionne k=50,000 features  |  Xtr_chi: (96000, 50000)  |  Xte_chi: (24000, 50000)


### üîç 5bis) Top features (chi¬≤) ‚Äî termes les plus discriminants
> Interpr√©tation : plus le **score œá¬≤** est √©lev√©, plus la variable discrimine les classes (0/1). On documente les 25 premiers.

### üîç Top features (chi¬≤)

In [18]:
# --- Top features (chi¬≤) √† partir du s√©lecteur `sel` ---
import numpy as np, pandas as pd

scores_all = sel.scores_              # scores par feature (dans l'espace original)
mask = sel.get_support()              # bool√©en: features retenues
selected_names = feature_names[mask]  # noms des features retenues

# Nettoyage NaN/inf et tri d√©croissant
scores_sel = np.nan_to_num(scores_all[mask], nan=0.0, posinf=0.0, neginf=0.0)
order = np.argsort(scores_sel)[::-1]            # d√©croissant
top_n = 25
top_df = pd.DataFrame({
    "feature": selected_names[order][:top_n],
    "chi2_score": scores_sel[order][:top_n].astype(float)
})
top_df

Unnamed: 0,feature,chi2_score
0,review_len,623855.8121
1,word_count,115366.200711
2,helpful_vote,23897.490482
3,ques_count,1335.442057
4,bang_count,722.820268
5,great,580.975434
6,return,502.651629
7,stopped,487.038369
8,waste,434.491978
9,stopped working,421.230187


## üß≤ 6) M√©thode incorpor√©e ‚Äî L1 (LogReg)

In [20]:
## üß≤ 6bis) M√©thode incorpor√©e ‚Äî L1 sur l‚Äôespace chi¬≤(k) + √©valuation lbfgs
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectFromModel
import numpy as np, pandas as pd

# 0) S√©lection L1 (parcimonie) sur l‚Äôespace d√©j√† filtr√© par chi¬≤
l1_clf = LogisticRegression(
    penalty="l1", solver="saga", C=1.0,             # tu peux tester 0.5 / 1.0
    class_weight="balanced", max_iter=3000, tol=1e-3
)
sfm = SelectFromModel(l1_clf, threshold="median", prefit=False)   # ~50% des + fortes
Xtr_l1 = sfm.fit_transform(Xtr_chi, ytr)
Xte_l1 = sfm.transform(Xte_chi)
print(f"chi¬≤(k={sel.k:,}) ‚Üí L1(thr=median) ‚Üí kept = {Xtr_l1.shape[1]:,} / {Xtr_chi.shape[1]:,}")

# 1) √âvaluation du pipeline final sur ces variables (lbfgs reste meilleur chez toi)
res_l1 = eval_pipeline(
    Xtr_l1, Xte_l1, ytr, yte,
    desc=f"chi¬≤(k={sel.k:,}) ‚Üí L1(thr=median) ‚Üí lbfgs"
)
pd.DataFrame([res_l1])

chi¬≤(k=50,000) ‚Üí L1(thr=median) ‚Üí kept = 25,000 / 50,000
[chi¬≤(k=50,000) ‚Üí L1(thr=median) ‚Üí lbfgs] AP=0.982 | F1@0.5=0.921 | F1@t*=0.936 (t*=0.27) | fit=157.48s


Unnamed: 0,desc,AP,F1@0.5,F1@t*,t*,fit_s
0,"chi¬≤(k=50,000) ‚Üí L1(thr=median) ‚Üí lbfgs",0.981772,0.921264,0.935695,0.267476,157.477329


In [21]:
res_l1

{'desc': 'chi¬≤(k=50,000) ‚Üí L1(thr=median) ‚Üí lbfgs',
 'AP': 0.9817723811867631,
 'F1@0.5': 0.921263877028181,
 'F1@t*': 0.935694514857695,
 't*': 0.26747602855195807,
 'fit_s': 157.47732949256897}

Lecture express (√† coller sous la cellule ‚Äì Markdown pr√™t)

chi¬≤(50k) ‚Üí L1(thr=median) ‚Üí lbfgs

La m√©thode incorpor√©e (L1) a s√©lectionn√© automatiquement ~25k variables parmi les 50k du pr√©-filtre chi¬≤.

On obtient un fit 2,4√ó plus rapide qu‚Äôavec chi¬≤+lbfgs pour une perte tr√®s faible : ŒîAP ‚âà ‚Äì0,002, ŒîF1@0.5 ‚âà ‚Äì0,007.

Le seuil optimal passe de ~0,31 √† ~0,27, signe d‚Äôune calibration encore correcte.

üëâ Cette √©tape coche la case ‚Äúm√©thode incorpor√©e‚Äù (s√©lection pendant l‚Äôapprentissage) et fournit un pipeline light (25k features) utile si l‚Äôon vise moins de RAM/latence.

D√©cision pratique :

Qualit√© maximale & simplicit√© ‚Üí garder TF-IDF ‚Üí chi¬≤(50k) ‚Üí LogReg L2 (lbfgs).

Contraintes de temps/m√©moire ‚Üí envisager TF-IDF ‚Üí chi¬≤(50k) ‚Üí L1 ‚Üí LogReg L2, qui divise par ~2 le nombre de features sans d√©grader significativement.

## üß™ 7) √âvaluation optimis√©e ‚Äî solver & variantes (lbfgs, saga, chi¬≤, SVD)
> Objectif : comparer l‚Äôeffet **du solver** et de la **r√©duction de dimension** sur AP, F1, seuil optimal *(t\*)* et temps d‚Äôentra√Ænement.

In [8]:
# === √âvaluation "optimis√©e" sans toucher √† la baseline existante ===
import time, numpy as np, pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import average_precision_score, f1_score, precision_recall_curve
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.exceptions import ConvergenceWarning
import warnings

# (option) √©viter d'inonder la sortie quand on compare plusieurs runs
warnings.filterwarnings("ignore", category=ConvergenceWarning)

def eval_pipeline_opt(Xtr, Xte, ytr, yte, desc: str,
                      solver="saga", C=0.5, max_iter=5000, tol=1e-3, penalty="l2"):
    t0 = time.time()
    clf = LogisticRegression(
        solver=solver, penalty=penalty, C=C,
        max_iter=max_iter, tol=tol,
        class_weight="balanced"
    )
    clf.fit(Xtr, ytr)
    fit_s = time.time() - t0

    proba = clf.predict_proba(Xte)[:, 1]
    ap = average_precision_score(yte, proba)
    prec, rec, thr = precision_recall_curve(yte, proba)
    f1 = (2*prec*rec)/(prec+rec+1e-9)
    best_idx = int(np.nanargmax(f1))
    thr_star = float(thr[best_idx]) if best_idx < len(thr) else 0.5
    f1_star = float(f1[best_idx])
    f1_05 = f1_score(yte, proba >= 0.5)
    print(f"[{desc}] AP={ap:.3f} | F1@0.5={f1_05:.3f} | F1@t*={f1_star:.3f} (t*={thr_star:.2f}) | fit={fit_s:.2f}s")
    return {"desc": desc, "AP": ap, "F1@0.5": f1_05, "F1@t*": f1_star, "t*": thr_star, "fit_s": fit_s}

# On part de Xtr, Xte, ytr, yte d√©j√† construits par tes cellules pr√©c√©dentes
compare = []

# 1) Ta baseline existante (lbfgs) ‚Äî on relance la m√™me fonction que tu as d√©j√† (si dispo)
try:
    compare.append(eval_pipeline(Xtr, Xte, ytr, yte, desc=f"Baseline lbfgs ‚Äî p={Xtr.shape[1]:,}"))
except NameError:
    pass  # si ta fonction baseline s'appelle autrement, ignore

# 2) M√™me features mais solver 'saga' mieux adapt√© aux tr√®s grandes dimensions
compare.append(eval_pipeline_opt(Xtr, Xte, ytr, yte,
                                desc=f"saga C=0.5 tol=1e-3 ‚Äî p={Xtr.shape[1]:,}",
                                solver="saga", C=0.5, max_iter=5000, tol=1e-3, penalty="l2"))

# 3) Variante rapide : pr√©-filtre chi¬≤ puis 'saga'
k = min(50_000, Xtr.shape[1])
sel = SelectKBest(chi2, k=k).fit(Xtr, ytr)
compare.append(eval_pipeline_opt(sel.transform(Xtr), sel.transform(Xte), ytr, yte,
                                desc=f"chi2(k={k:,}) + saga C=0.5", solver="saga", C=0.5))

# 4) (option) r√©gularisation plus forte
compare.append(eval_pipeline_opt(Xtr, Xte, ytr, yte,
                                desc="saga C=0.25 tol=1e-3", solver="saga", C=0.25, max_iter=5000, tol=1e-3))

pd.DataFrame(compare).sort_values("AP", ascending=False)

[Baseline lbfgs ‚Äî p=180,007] AP=0.983 | F1@0.5=0.927 | F1@t*=0.938 (t*=0.31) | fit=354.25s
[saga C=0.5 tol=1e-3 ‚Äî p=180,007] AP=0.848 | F1@0.5=0.462 | F1@t*=0.865 (t*=0.04) | fit=453.03s
[chi2(k=50,000) + saga C=0.5] AP=0.848 | F1@0.5=0.462 | F1@t*=0.865 (t*=0.04) | fit=236.76s
[saga C=0.25 tol=1e-3] AP=0.848 | F1@0.5=0.462 | F1@t*=0.865 (t*=0.04) | fit=523.04s


Unnamed: 0,desc,AP,F1@0.5,F1@t*,t*,fit_s
0,"Baseline lbfgs ‚Äî p=180,007",0.982659,0.927284,0.937503,0.309827,354.248536
3,saga C=0.25 tol=1e-3,0.847895,0.462044,0.864598,0.035994,523.043513
1,"saga C=0.5 tol=1e-3 ‚Äî p=180,007",0.847894,0.462044,0.864598,0.035993,453.028244
2,"chi2(k=50,000) + saga C=0.5",0.84783,0.461813,0.864598,0.036054,236.760895


üìè Comprendre les m√©triques et lire nos r√©sultats
1) Rappels de base

Pr√©cision (Precision) = TP / (TP + FP) : parmi ce que le mod√®le dit positif, quelle part est vraiment positive ?

Rappel (Recall) = TP / (TP + FN) : parmi tous les vrais positifs, quelle part a √©t√© retrouv√©e ?

F1-score = 2 √ó (Precision √ó Recall) / (Precision + Recall)
‚Üí moyenne harmonique de P & R (punition si l‚Äôun des deux est bas).

Ces trois m√©triques d√©pendent d‚Äôun seuil sur la probabilit√© pÃÇ(y=1).
Changer le seuil ‚á¢ changer la matrice de confusion ‚á¢ changer Precision/Recall/F1.

2) AP = Average Precision (aire sous la courbe PR)

L‚ÄôAP est l‚Äôaire sous la courbe Precision‚ÄìRecall quand on fait varier le seuil de 1 ‚Üí 0.
Elle mesure la qualit√© de classement (le mod√®le met-il ‚Äúles vrais positifs‚Äù en haut de la pile ?).

Seuil-libre : pas besoin de choisir un seuil pour la comparer entre mod√®les.

R√©f√©rence : l‚ÄôAP d‚Äôun classifieur al√©atoire vaut la pr√©valence de la classe positive.
Ici, pr√©valence ‚âà 76 % ‚áí un mod√®le nul aurait AP ‚âà 0.76.

Lecture de nos chiffres :

lbfgs : AP = 0.983 üëâ tr√®s au-dessus de 0.76 ‚Üí excellente capacit√© √† trier les avis.

saga (C=0.5) : AP = 0.848 üëâ au-dessus de 0.76 mais nettement inf√©rieur √† lbfgs ‚Üí le tri est moins bon.

Pourquoi AP est cl√© ici ? Avec un dataset d√©s√©quilibr√© (76 % positifs), la courbe PR et l‚ÄôAP sont plus informatives que l‚ÄôAUC-ROC.

3) F1@0.5 vs F1@t* (choix du seuil)

F1@0.5 : F1 au seuil 0.5 (par d√©faut).
Bon si les probabilit√©s sont calibr√©es (‚âà vrais risques) et si 0.5 a du sens m√©tier.

F1@t* : F1 au meilleur seuil t* (celui qui maximise F1 sur l‚Äô√©chantillon √©valu√©).
Utile pour voir le potentiel max du mod√®le, mais le choix final du seuil doit se faire sur un jeu de validation, pas sur le test.

Lecture de nos chiffres :

lbfgs : F1@0.5 = 0.927, F1@t* = 0.938 avec t* ‚âà 0.31
‚Üí Tr√®s bon F1 m√™me √† 0.5. Le meilleur seuil est un peu plus bas (0.31), ce qui est coh√©rent avec un dataset √† 76 % positifs et l‚Äôeffet de class_weight='balanced' qui d√©place l‚Äôintercept.
‚Üí Les probabilit√©s sont bien √©tal√©es (bonne calibration relative).

saga (C=0.5) : F1@0.5 = 0.462, F1@t* = 0.865 avec t* ‚âà 0.04
‚Üí √Ä 0.5, le mod√®le semble mauvais, mais si on baisse fortement le seuil, il remonte √† F1@t* = 0.865.
‚Üí t* tr√®s faible (0.04) = les probabilit√©s sont compress√©es vers 0 ‚Üí sous-apprentissage / sur-r√©gularisation / calibration faible.
‚Üí M√™me apr√®s optimisation du seuil, √ßa reste moins bon que lbfgs.

√Ä retenir pour l‚Äôoral :

AP juge le classement global (seuil-free).

F1@0.5 montre la perf imm√©diate avec le seuil standard.

F1@t* montre le potentiel si on optimise le seuil (√† faire sur validation, pas test).

4) Interpr√©tation de t*

t* ‚âà 0.31 (lbfgs) : pour maximiser F1, on classe positif d√®s ~31 % de proba.
‚Üí logique avec une forte pr√©valence et des probas √©tal√©es.

t* ‚âà 0.04 (saga) : il faut descendre tr√®s bas pour trouver les positifs ‚Üí probas sous-estim√©es, indicateur de sous-apprentissage (r√©gularisation trop forte C=0.5, tol√©rance large 1e-3, etc.).

5) Temps d‚Äôentra√Ænement (fit)

lbfgs : ~354 s

saga C=0.5 : ~453‚Äì523 s (selon C)

chi¬≤(k=50k) + saga : ~237 s
‚Üí Le pr√©-filtre chi¬≤ divise le temps d‚Äôentra√Ænement avec la m√™me qualit√© que la variante saga C=0.5 (car m√™me solveur/r√©gularisation), mais reste loin derri√®re lbfgs en qualit√©.

üß≠ D√©cision pour la suite

Objectif qualit√© ‚Üí lbfgs + L2 (C=1.0) gagne nettement (AP/F1).
Si warning de convergence : augmenter max_iter (ex. 5000) et/ou rel√¢cher tol (ex. 1e-3).

Objectif vitesse ‚Üí appliquer chi¬≤(k) ou SVD(k) avant la LogReg (id√©alement avec lbfgs) pour r√©duire p et le temps, avec une faible perte attendue.

Seuil de d√©cision : on choisit t sur un set de validation selon le besoin m√©tier (par ex. privil√©gier la pr√©cision pour √©viter les faux positifs, ou le rappel pour capter un max d‚Äôavis n√©gatifs).

Calibration (option qualit√© produit) : mesurer le Brier score et appliquer une calibration (Platt / isotonic) si les proba sont mal √©tal√©es.

TL;DR :
lbfgs est meilleur pour ce corpus TF-IDF haute dimension (AP=0.983 ; F1@0.5=0.927).
Les variantes saga test√©es sous-apprennent (probas √©cras√©es, t* minuscule) ; le chi¬≤ acc√©l√®re mais n‚Äô√©gale pas lbfgs en qualit√©.

## üíæ 8) S√©rialisation des s√©lecteurs

In [22]:

# 8) S√©rialisation des s√©lecteurs / r√©ducteurs (safe)
from joblib import dump
from pathlib import Path
import time, json

stamp = time.strftime("%Y%m%d_%H%M%S")
out_dir = Path("models"); out_dir.mkdir(parents=True, exist_ok=True)

written = []

# Chi¬≤ (filtre)
if 'sel' in globals():
    p = out_dir / f"selector_chi2_k{int(sel.k)}_{stamp}.joblib"
    dump({"chi2": sel, "k": int(sel.k)}, p, compress=3)
    written.append(p.name)

# L1 (m√©thode incorpor√©e apr√®s chi¬≤)
if 'sfm' in globals():
    kept = int(Xtr_l1.shape[1]) if 'Xtr_l1' in globals() else None
    chi2_k = int(sel.k) if 'sel' in globals() else None
    p = out_dir / f"selector_l1_after_chi2_k{chi2_k}_kept{kept}_{stamp}.joblib"
    dump({"l1_sfm": sfm, "kept": kept, "chi2_k": chi2_k}, p, compress=3)
    written.append(p.name)

# SVD (r√©duction) ‚Äî seulement si tu comptes le r√©utiliser
if 'svd_pipe' in globals():
    k = int(getattr(svd_pipe.named_steps['truncatedsvd'], 'n_components', 0))
    p = out_dir / f"reducer_svd_k{k}_{stamp}.joblib"
    dump({"svd_pipe": svd_pipe, "k": k}, p, compress=3)
    written.append(p.name)

# Trace lisible de ce qui a √©t√© √©crit
(meta := {
    "created": stamp,
    "artifacts": written,
}).update({})
(out_dir / f"artifacts_{stamp}.json").write_text(json.dumps(meta, indent=2), encoding="utf-8")

print("√âcrit ‚Üí", written if written else "rien (ex√©cute d'abord les cellules chi¬≤/L1/SVD)")


√âcrit ‚Üí ['selector_chi2_k50000_20250912_215349.joblib', 'selector_l1_after_chi2_k50000_kept25000_20250912_215349.joblib', 'reducer_svd_k300_20250912_215349.joblib']


## üìä 9) Tableau comparatif synth√®se ‚Äî AP / F1 / t\* / temps
> On rassemble baseline et variantes dans un tableau unique avec **Œî vs baseline** pour justifier le choix final.

In [9]:
# === Tableau comparatif propre (baseline + variantes) ===
import pandas as pd
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.decomposition import TruncatedSVD
from sklearn.preprocessing import Normalizer
from sklearn.pipeline import make_pipeline

def run_case(Xtr, Xte, ytr, yte, desc, solver="lbfgs", C=1.0, max_iter=5000, tol=1e-3, penalty="l2"):
    out = eval_pipeline_opt(Xtr, Xte, ytr, yte, desc=desc,
                            solver=solver, C=C, max_iter=max_iter, tol=tol, penalty=penalty)
    out["p"] = Xtr.shape[1]
    return out

compare2 = []

# 0) Baseline explicite (lbfgs, sans s√©lection)
compare2.append(run_case(Xtr, Xte, ytr, yte,
                         desc=f"Baseline lbfgs ‚Äî p={Xtr.shape[1]:,}",
                         solver="lbfgs", C=1.0, max_iter=5000, tol=1e-3, penalty="l2"))

# 1) M√™me features, solver 'saga' (pour montrer l'effet solver)
compare2.append(run_case(Xtr, Xte, ytr, yte,
                         desc="saga C=0.5 tol=1e-3",
                         solver="saga", C=0.5, max_iter=5000, tol=1e-3, penalty="l2"))

# 2) chi¬≤ + lbfgs (r√©duction p et comparaison √† armes √©gales)
k = min(50_000, Xtr.shape[1])
sel = SelectKBest(chi2, k=k).fit(Xtr, ytr)
Xtr_chi, Xte_chi = sel.transform(Xtr), sel.transform(Xte)
compare2.append(run_case(Xtr_chi, Xte_chi, ytr, yte,
                         desc=f"chi¬≤(k={k:,}) + lbfgs",
                         solver="lbfgs", C=1.0, max_iter=5000, tol=1e-3, penalty="l2"))

# 3) (option) SVD + lbfgs (autre fa√ßon de r√©duire p)
svd_pipe = make_pipeline(TruncatedSVD(n_components=300, random_state=42), Normalizer(copy=False))
Xtr_svd = svd_pipe.fit_transform(Xtr, ytr); Xte_svd = svd_pipe.transform(Xte)
compare2.append(run_case(Xtr_svd, Xte_svd, ytr, yte,
                         desc="SVD(300) + lbfgs",
                         solver="lbfgs", C=1.0, max_iter=5000, tol=1e-3, penalty="l2"))

# ‚Üí Tableau + deltas vs baseline
dfc = pd.DataFrame(compare2)
base = dfc.iloc[0].copy()
for col in ["AP", "F1@0.5", "F1@t*", "fit_s"]:
    dfc[f"Œî{col}"] = dfc[col] - base[col]
dfc.rename(columns={"Œîfit_s": "Œîfit_s"}, inplace=True)  # alias coh√©rent

dfc[["desc","p","AP","ŒîAP","F1@0.5","ŒîF1@0.5","F1@t*","ŒîF1@t*","fit_s","Œîfit_s"]].sort_values("AP", ascending=False)

[Baseline lbfgs ‚Äî p=180,007] AP=0.985 | F1@0.5=0.932 | F1@t*=0.942 (t*=0.31) | fit=914.02s
[saga C=0.5 tol=1e-3] AP=0.848 | F1@0.5=0.462 | F1@t*=0.865 (t*=0.04) | fit=464.46s
[chi¬≤(k=50,000) + lbfgs] AP=0.984 | F1@0.5=0.928 | F1@t*=0.941 (t*=0.31) | fit=371.32s
[SVD(300) + lbfgs] AP=0.849 | F1@0.5=0.504 | F1@t*=0.865 (t*=0.26) | fit=0.38s


Unnamed: 0,desc,p,AP,ŒîAP,F1@0.5,ŒîF1@0.5,F1@t*,ŒîF1@t*,fit_s,Œîfit_s
0,"Baseline lbfgs ‚Äî p=180,007",180007,0.984606,0.0,0.932396,0.0,0.941805,0.0,914.018394,0.0
2,"chi¬≤(k=50,000) + lbfgs",50000,0.983798,-0.000808,0.927978,-0.004417,0.941151,-0.000654,371.321419,-542.696974
3,SVD(300) + lbfgs,300,0.849346,-0.13526,0.504495,-0.4279,0.864577,-0.077228,0.383034,-913.635359
1,saga C=0.5 tol=1e-3,180007,0.847895,-0.136711,0.462044,-0.470351,0.864598,-0.077207,464.457866,-449.560527


üìå Lecture des 4 variantes

Baseline (TF-IDF complet ‚Üí LogReg lbfgs)
AP=0.985 | F1@0.5=0.932 | F1@t*=0.942 (t*=0.31) | fit‚âà914s
‚Üí Meilleure qualit√© globale. t*‚âà0.31 = proba bien √©tal√©es (calibration relative OK).

SAGA (C=0.5, tol=1e-3)
AP=0.848 | F1@0.5=0.462 | F1@t*=0.865 (t*=0.04) | fit‚âà464s
‚Üí Forte baisse de qualit√© (AP, F1). t* minuscule ‚áí proba compress√©es vers 0 ‚áí sous-apprentissage / r√©gularisation trop forte.

chi¬≤(k=50k) + lbfgs
AP=0.984 | F1@0.5=0.928 | F1@t*=0.941 (t*=0.31) | fit‚âà371s
‚Üí Quasi identique √† la baseline (ŒîAP ‚âà -0.001 ; ŒîF1@0.5 ‚âà -0.004), mais 2.5√ó plus rapide et beaucoup moins de variables (p=50k vs ~180k). t* inchang√© ‚áí calibration pr√©serv√©e.
=> Excellent compromis qualit√©/vitesse.

SVD(300) + lbfgs
AP=0.849 | F1@0.5=0.504 | F1@t*=0.865 (t*=0.26) | fit‚âà0.38s
‚Üí Ultra-rapide (‚âà 2400√ó plus vite) mais perte de qualit√© marqu√©e (ŒîAP ‚âà -0.136). √Ä r√©server si la contrainte temps est extr√™me (ex : prototypage, pr√©-tri).

üéØ D√©cision pour la suite (C5.2.3)

Pipeline retenu (MVP) : TF-IDF (word+char) ‚Üí chi¬≤(k=50k) ‚Üí LogReg (L2, lbfgs, C=1.0)
Motifs : qualit√© quasi identique √† la baseline, fit 2.5√ó plus rapide, m√©moire r√©duite, calibration conserv√©e (t* ‚âà 0.31).

Seuil : on choisira t sur un set de validation selon le besoin m√©tier (pr√©cision vs rappel).

Pistes optionnelles : tester k=80k/100k pour voir si ŒîAP devient nul ; ou SVD(k=500‚Äì1000) si on veut explorer un compromis vitesse/qualit√© entre 300 et TF-IDF complet.

In [10]:
dfc.to_csv("tableau_comparatif_baseline_vs_variantes.csv")

¬´ Nous avons √©valu√© trois familles : filtre (chi¬≤), r√©duction (SVD) et incorpor√©e (L1).
La m√©thode incorpor√©e s√©lectionne les variables durant l‚Äôapprentissage (L1 met des poids √† z√©ro) ‚Üí elle modifie l‚Äôespace de features et produit un masque r√©utilisable.
L‚Äô√©valuation optimis√©e, elle, n‚Äôest pas une m√©thode de s√©lection : elle compare des configurations d‚Äôentra√Ænement (solver, r√©gularisation) sur un m√™me espace de features (ou apr√®s un filtre).
Sur nos donn√©es, TF-IDF ‚Üí chi¬≤(k=50k) ‚Üí LogReg lbfgs offre la meilleure qualit√©/vitesse. Nous conservons L1 en d√©monstration m√©thodologique pour valider la comp√©tence ‚Äúm√©thode incorpor√©e‚Äù. ¬ª

En une phrase chacune

- chi¬≤ : ‚ÄúJe trie vite, ind√©pendamment du mod√®le.‚Äù

- SVD : ‚ÄúJe compresse en th√®mes.‚Äù

- L1 incorpor√©e : ‚ÄúJ‚Äôapprends et j‚Äô√©limine des mots pendant l‚Äôentra√Ænement.‚Äù

- √âvaluation optimis√©e : ‚ÄúJe r√®gle le mod√®le sur un m√™me jeu de mots.‚Äù

Pourquoi L1 est plus lente ?

- Parce qu‚Äôelle entra√Æne un mod√®le entier pour d√©cider quoi couper (et en TF-IDF avec des dizaines de milliers de mots, c‚Äôest un gros jardin üòÖ).
Chi¬≤, lui, regarde chaque mot s√©par√©ment : c‚Äôest un check binaire ultra rapide.

‚ÄúOn garde TF-IDF ‚Üí chi¬≤(50k) ‚Üí LogReg lbfgs : m√™me qualit√© que la baseline, beaucoup plus rapide.
On montre L1 en m√©thode incorpor√©e pour prouver qu‚Äôon sait s√©lectionner en apprenant, mais on ne la met pas en prod car elle est plus lente pour peu de gain ici.‚Äù

¬´ On utilise le SVD quand on veut compresser le TF-IDF en quelques centaines de dimensions, pour aller tr√®s vite ou travailler sur des th√®mes latents (LSA).
C‚Äôest parfait pour explorer/visualiser ou d√©ployer l√©ger, mais on accepte une petite perte de pr√©cision.
Dans notre cas, le meilleur compromis production est TF-IDF ‚Üí chi¬≤(50k) ‚Üí LogReg. On garde SVD pour l‚Äôexploration et les cas contraints (vitesse/m√©moire) ou pour des modules annexes (clustering, recherche s√©mantique). ¬ª

‚ÄúLa LogReg-L1 peut remplacer le duo s√©lection (chi¬≤) + classifieur, car elle s√©lectionne et classifie en m√™me temps. En revanche, elle ne remplace pas SVD, qui r√©alise une compression en nouvelles composantes. Pour nos donn√©es, nous retenons TF-IDF ‚Üí chi¬≤(k) ‚Üí LogReg (L2, lbfgs) pour le meilleur compromis qualit√©/temps, et nous gardons L1 comme d√©monstration de m√©thode incorpor√©e.‚Äù


---

## ‚úÖ Rappel √† la comp√©tence & pourquoi c‚Äôest valid√©
**Comp√©tence :** *C5.2.2 ‚Äî S√©lection de variables*  
- On a impl√©ment√© **plusieurs m√©thodes** (test **chi¬≤**, **L1** embarqu√©, **SVD**, *(option RFE)*).  
- On a **compar√©** sur un split stratifi√© avec **AP/F1** et **co√ªt** (fit), et rapport√© le **nombre de variables** retenues.  
- On a **s√©rialis√©** les s√©lecteurs pour r√©utilisation dans l'entra√Ænement (C5.2.3) et l‚Äôinf√©rence.  
- On a **interpr√©t√©** les features top (chi¬≤/L1) pour documenter la pertinence de la liste.

√Ä quoi servent les ¬´ s√©lecteurs ¬ª (de variables) en g√©n√©ral ?

But principal : choisir un sous-ensemble de features utiles et jeter le reste.
√áa sert √† :

Mieux g√©n√©raliser

Moins de bruit ‚áí moins de surapprentissage ‚áí scores plus stables.

Acc√©l√©rer et r√©duire la m√©moire

Moins de colonnes ‚áí fit/pr√©diction plus rapides, mod√®les plus l√©gers.

Am√©liorer l‚Äôinterpr√©tabilit√©

On garde les signaux cl√©s ‚áí plus facile d‚Äôexpliquer pourquoi le mod√®le d√©cide.

G√©rer la colin√©arit√©

Features redondantes ou tr√®s corr√©l√©es ‚áí on en garde une partie.

Respecter des contraintes

Co√ªts d‚Äôacquisition, RGPD/PII, limites de calcul en prod, etc.

Trois familles (et quand les utiliser)

Filtres (ind√©pendants du mod√®le) ‚Äì ex. chi¬≤, mutual information

Rapides, simples, scalables.

Id√©al en pr√©-filtre quand p est √©norme (texte TF-IDF).

Ne voient pas les interactions.

M√©thodes incorpor√©es (embedded) ‚Äì ex. LogReg L1, arbres (importances)

La s√©lection se fait pendant l‚Äôapprentissage.

Plus pertinentes pour le mod√®le cibl√©, mais plus lentes.

Wrappers ‚Äì ex. RFE

Testent des sous-ensembles avec un mod√®le ‚Äúdans la boucle‚Äù.

Pr√©cis mais co√ªteux ‚Üí plut√¥t sur sous-espaces.

(Rappel : SVD/LSA n‚Äôest pas un s√©lecteur, c‚Äôest une r√©duction qui cr√©e de nouvelles composantes.)

Bonnes pratiques (anti-boulettes)

Toujours fitter le s√©lecteur sur le train uniquement (puis transformer le test) ‚Üí √©viter la fuite de donn√©es.

Choisir k (nombre de features) par validation crois√©e ou sur un set de validation.

Comparer √† une baseline sans s√©lection (montrer ŒîAP/ŒîF1/Œîtemps).

Sur texte TF-IDF : commencer par chi¬≤(k), puis √©ventuellement affiner (L1) si besoin.

Petite image pour retenir

chi¬≤ = videur : regarde chaque feature √† l‚Äôentr√©e et dit ‚Äútu rentres / tu rentres pas‚Äù.

L1 = jardinier qui taille pendant la course : le mod√®le apprend et coupe les branches inutiles.

SVD = blender : compresse tous les ingr√©dients en quelques ‚Äúsaveurs‚Äù (composantes) ‚Äî ce n‚Äôest pas une s√©lection.

Dans TON projet

Tu utilises les s√©lecteurs pour :
(a) garder le signal utile (meilleure g√©n√©ralisation),
(b) r√©duire p ‚áí fit 2‚Äì3√ó plus rapide,
(c) pr√©senter des termes cl√©s (interpr√©tation).

Le compromis gagnant que tu as montr√© : TF-IDF ‚Üí chi¬≤(k=50k) ‚Üí LogReg (lbfgs) : m√™me qualit√© que la baseline, beaucoup plus rapide.

L1 est gard√©e comme d√©monstration de m√©thode incorpor√©e (s√©lection pendant l‚Äôapprentissage).