# 1. Introduction & Contexte

Depuis 1982, la soci√©t√© **Infologic** con√ßoit et int√®gre des solutions logicielles d√©di√©es √† l‚Äôagroalimentaire.  
L‚Äô√©volution et la maintenance de ces logiciels reposent notamment sur des **tests continus** r√©alis√©s par des √©quipes internes.  
Chaque testeur utilise diff√©rents profils afin de v√©rifier le bon fonctionnement de multiples fonctionnalit√©s du logiciel.

Actuellement, lorsqu‚Äôun probl√®me est d√©tect√©, les testeurs doivent reporter leurs actions sous leur vrai profil, ce qui demande des manipulations longues et fastidieuses.  

**Objectif du projet :**  
√âtudier la possibilit√© d‚Äô**identifier automatiquement l‚Äôutilisateur** d‚Äôun logiciel √† partir de ses **traces d‚Äôutilisation** (s√©quences d‚Äôactions effectu√©es).  
Pour cela, nous allons construire un **mod√®le de classification** bas√© sur des techniques de **Machine Learning**.

Un tel mod√®le pourrait :
- faciliter le suivi des tests et des utilisateurs internes ;
- contribuer √† la **d√©tection d‚Äôusurpations** ou d‚Äô**intrusions logicielles**.

**M√©trique d‚Äô√©valuation : F1-score moyen**  
Le F1-score mesure l‚Äô√©quilibre entre la **pr√©cision** et le **rappel** :
$$
F1 = 2 \times \frac{P \times R}{P + R}
$$
Un bon mod√®le cherchera √† maximiser simultan√©ment ces deux aspects.


### *Import des bibliotheques nessecaires*

In [None]:
import os
import re
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from scipy.stats import gaussian_kde
from scipy.sparse import hstack, csr_matrix

from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.preprocessing import LabelEncoder, StandardScaler, OneHotEncoder, FunctionTransformer
from sklearn.impute import SimpleImputer
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV, cross_val_score, cross_val_score, StratifiedKFold
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, f1_score, make_scorer
from sklearn.svm import LinearSVC
from sklearn.ensemble import VotingClassifier, StackingClassifier


from xgboost import XGBClassifier
import xgboost as xgb

### *D√©finition des variables, fonctions et classes utiles pour la suite*

In [None]:
#expression r√©guli√®re principale pour parser les actions utilisateur
ACTION_RE = re.compile(
    r"^(?P<base>[^(<$1]+?)"              # action de base, ex: "Cr√©ation d'un √©cran"
    r"(?:\((?P<ctrl>[^)]*)\))?"          # (controller/√©cran)
    r"(?:<(?P<conf>[^>]+)>)?"            # <configuration>
    r"(?:\$(?P<chain>[^$]+)\$)?"         # $chaine$
    r"(?P<edit>1)?$"                     # flag √©dition "1"
)

def read_ds(ds_name: str):
    """Lit un fichier CSV d‚Äôactions utilisateur et d√©finit dynamiquement les colonnes."""
    with open(f'data/{ds_name}.csv') as f:
        max_actions = max((len(str(c).split(",")) for c in f.readlines()))
        f.seek(0)
        _names = ["util", "navigateur"] if "train" in ds_name else ["navigateur"]
        _names.extend(range(max_actions - len(_names)))
        return pd.read_csv(f, names=_names, dtype=str)

def row_to_sequence(row, start_col=2):
    """Transforme une ligne du dataset en s√©quence d‚Äôactions."""
    vals = []
    for c in row.index[start_col:]:
        v = row[c]
        if pd.isna(v): break
        vals.append(str(v))
    return vals

def normalize_token(tok: str) -> list:
    """Nettoie et segmente un token brut en sous-tokens normalis√©s."""
    tok = tok.strip()
    if not tok: return []
    if tok.startswith("t") and tok[1:].isdigit():
        return [f"TWIN_{tok[1:]}"]

    m = ACTION_RE.match(tok)
    if not m:
        return [tok.replace(" ", "_")]
    base = m.group("base").strip().replace(" ", "_")
    ctrl = (m.group("ctrl") or "").strip().replace(".", "_").replace(" ", "_")
    conf = (m.group("conf") or "").strip().replace(" ", "_")
    chain = (m.group("chain") or "").strip().replace(" ", "_")
    edit = m.group("edit")

    out = [f"A_{base}"]
    if ctrl:  out.append(f"C_{ctrl}")
    if conf:  out.append(f"CFG_{conf}")
    if chain: out.append(f"CH_{chain}")
    if edit:  out.append("EDIT_1")
    return out

def seq_to_text(seq_list):
    """Transforme une s√©quence de tokens en texte pr√™t pour la vectorisation TF-IDF."""
    toks = []
    for tok in seq_list:
        toks.extend(normalize_token(tok))
    return " ".join(toks)

def extract_temporal_features(actions):
    """
    Extrait des caract√©ristiques temporelles √† partir d'une s√©quence d'actions.
    Les marqueurs temporels commencent par 't' et repr√©sentent des intervalles de 5s.
    """
    features = {}

    # Identifier les marqueurs temporels
    temporal_markers = [a for a in actions if isinstance(a, str) and a.startswith('t')]
    time_values = [int(a[1:]) for a in temporal_markers if a[1:].isdigit()]

    # Dur√©e de session et nombre de fen√™tres temporelles
    features['session_duration'] = max(time_values) if time_values else 0
    features['num_time_windows'] = len(temporal_markers)

    # Compter les actions entre deux marqueurs temporels
    actions_per_window = []
    current_window_actions = 0

    for action in actions:
        if not isinstance(action, str):
            continue
        if action.startswith('t'):
            if current_window_actions > 0:
                actions_per_window.append(current_window_actions)
            current_window_actions = 0
        else:
            current_window_actions += 1

    if current_window_actions > 0:
        actions_per_window.append(current_window_actions)

    # Calculer les statistiques de rythme
    if actions_per_window:
        features['mean_actions_per_window'] = np.mean(actions_per_window)
        features['std_actions_per_window'] = np.std(actions_per_window)
        features['max_actions_per_window'] = np.max(actions_per_window)
        features['min_actions_per_window'] = np.min(actions_per_window)
        features['median_actions_per_window'] = np.median(actions_per_window)

        total_actions = len([a for a in actions if isinstance(a, str) and not a.startswith('t')])
        features['actions_per_second'] = (
            total_actions / features['session_duration'] if features['session_duration'] > 0 else 0
        )
        features['rhythm_stability'] = (
            np.std(actions_per_window) / np.mean(actions_per_window) if np.mean(actions_per_window) > 0 else 0
        )
        features['rhythm_trend'] = (
            np.polyfit(range(len(actions_per_window)), actions_per_window, 1)[0]
            if len(actions_per_window) > 1
            else 0
        )
    else:
        # Valeurs par d√©faut
        for k in [
            'mean_actions_per_window', 'std_actions_per_window', 'max_actions_per_window',
            'min_actions_per_window', 'median_actions_per_window', 'actions_per_second',
            'rhythm_stability', 'rhythm_trend'
        ]:
            features[k] = 0

    return features

class SelectCols(BaseEstimator, TransformerMixin):
    """S√©lectionne un sous-ensemble de colonnes d‚Äôun DataFrame."""
    def __init__(self, cols):
        self.cols = cols
    def fit(self, X, y=None): return self
    def transform(self, X):
        return X[self.cols]

class SessionStats(BaseEstimator, TransformerMixin):
    """Extrait des features statistiques √† partir d‚Äôune s√©quence d‚Äôactions."""
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        seqs = X["seq_raw"]
        feats = []
        for seq in seqs:
            if not isinstance(seq, list) or len(seq) == 0:
                feats.append([0]*10)
                continue

            n_actions = sum(1 for s in seq if not (isinstance(s, str) and s.startswith("t") and s[1:].isdigit()))
            n_twins = sum(1 for s in seq if isinstance(s, str) and s.startswith("t") and s[1:].isdigit())
            unique_ctrl = len(set(re.findall(r"\((.*?)\)", " ".join(seq))))
            unique_actions = len(set(seq))
            ratio_unique = unique_actions / (len(seq) or 1)
            total_len = len(seq)
            ratio_twins = n_twins / (total_len or 1)
            ratio_actions = n_actions / (total_len or 1)
            n_conf = sum(1 for s in seq if "CFG_" in s)
            n_chain = sum(1 for s in seq if "CHAIN_" in s)
            twin_ids = [int(s[1:]) for s in seq if isinstance(s, str) and s.startswith("t") and s[1:].isdigit()]
            if twin_ids:
                twin_span = max(twin_ids) - min(twin_ids)
                twin_gap_mean = np.mean(np.diff(sorted(twin_ids))) if len(twin_ids) > 1 else 0
            else:
                twin_span = 0
                twin_gap_mean = 0

            feats.append([
                n_actions, n_twins, unique_ctrl, unique_actions, ratio_unique,
                ratio_twins, ratio_actions, n_conf, n_chain, twin_span, twin_gap_mean
            ])
        return np.array(feats)


# 2. Exploration des Donn√©es (EDA)

Avant toute mod√©lisation, il est essentiel de **comprendre les donn√©es** disponibles.  
Cette √©tape vise √† :
- examiner la structure du jeu de donn√©es ;
- identifier les types de variables (cat√©gorielles, num√©riques, temporelles) ;
- observer la distribution des classes (√©quilibr√©e ou non) ;
- mettre en √©vidence des **tendances comportementales** entre utilisateurs.

Nous examinerons :
- Le d√©nombrement des actions primaires 
- Quelques caract√©ristiques temporelles par trace (statistiques de rythme);
- La distribution du nombre de sessions par utilisateur
- La distribution de nombre d'actions par trace ;
- La dur√©e et rythme d'utilisation par utilisateur

- La raret√© de certaines actions ;
- Le TF-IDF des actions par utilisateur ;
- La correlation entre les actions primaires ;

Des visualisations permettront de mieux **comprendre le comportement global** des utilisateurs.


## 2-1) Chargement des donn√©es

In [None]:
df = read_ds("train")

## 2-2) Informations g√©n√©rales sur le dataset + aper√ßu

In [None]:
print(f"Dimensions du dataset : {df.shape[0]} lignes √ó {df.shape[1]} colonnes")
print("\nInfos sur les colonnes :")
df.info()
 
# Liste des colonnes d‚Äôactions (toutes sauf 'util' et 'navigateur')
action_cols = [c for c in df.columns if c not in ['util', 'navigateur']]
print(f"\nNombre total de colonnes d'actions : {len(action_cols)}")
print("\nAper√ßu :")
display(df.head())

In [None]:
# Nombre d'utilisateurs uniques
num_unique_users = df['util'].nunique()
print(f"Nombre d'utilisateurs uniques : {num_unique_users}")

#### Description du jeu de donn√©es

- **Nombre de lignes (traces)** : 3 279  
- **Nombre de colonnes** : 14 470  
- **Nombre d'utlisateurs (classes)**: 247

#### Structure des colonnes

1. **Colonne `utilisateur`** : identifiant ou nom de l‚Äôutilisateur.  
2. **Colonne `navigateur`** : navigateur utilis√© (ex. Chrome, Firefox, Safari, etc.).  
3. **Le reste des colonnes** correspond √† la **s√©rie des actions** r√©alis√©es par l‚Äôutilisateur sur le site pendant sa visite.  
   - Chaque action est associ√©e √† un **indicateur temporel** `tXX`, incr√©ment√© de **5 secondes** entre chaque action r√©alis√©e.

---

#### Exemple de lecture d‚Äôune ligne

Une ligne du jeu de donn√©es se lit de la mani√®re suivante :
utilisateur + navigateur + action1 + t5 + action2 +action3 + t10 +...


## 2-3) D√©nombrement des actions primaires
Les actions primaires correspondent √† la premiere section de l'action qui pr√©c√©de l'un des caracteres suivants: (, <, $ ou [


In [None]:
# S√©lectionner les colonnes d‚Äôaction (toutes sauf 'util' et 'navigateur')
action_cols = [col for col in df.columns if col not in ['util', 'navigateur']]
actions = df[action_cols].values.flatten()
actions = [str(a).strip() for a in actions if pd.notna(a) and not str(a).startswith('t') and not re.fullmatch(r'\d+', str(a)) and str(a).lower() != 'none']
actions_uniques = sorted(set(actions))
# Nombre d'actions uniques
print('Nombre d\'actions uniques:', len(actions_uniques))
actions_uniques
# Nettoyer chaque action
def nettoyer_action(x):
    txt = str(x).strip()
    # Garder uniquement le texte avant la parenth√®se
    txt = re.split(r'[\(<\$\[]', txt)[0].strip()
    if txt.endswith('1') and len(txt) > 1:
        txt = txt[:-1].strip()
    # Retourner None si le texte est vide apr√®s nettoyage     
    return txt

actions_nettoyees = pd.Series(actions_uniques).apply(nettoyer_action).dropna()

# Supprimer les doublons et trier
actions_primaires_uniques = (
    actions_nettoyees.drop_duplicates()
    .sort_values()
    .reset_index(drop=True)
)

# Liste finale des actions uniques
print(f"\nNombre d'actions uniques trouv√©es : {len(actions_primaires_uniques)}")
print(actions_primaires_uniques)


## 2-4) Extraction des caract√©ristiques temporelles

In [None]:
# Exemple : appliquer la fonction sur un sous-√©chantillon
temporal_features_df = df.head(100).apply(extract_temporal_features)
temporal_features_df = pd.DataFrame(temporal_features_df.tolist())

print("Aper√ßu des features temporelles :")

# Fusion avec les m√©tadonn√©es utilisateur/navigateur
df_features = pd.concat([df[['util', 'navigateur']].head(100).reset_index(drop=True),
                         temporal_features_df.reset_index(drop=True)], axis=1)

display(df_features.head())
#voir session duration=0

## 2-5) Visualistation des donn√©es:
### i) Courbe de densit√© du nombre de sessions par utilisateur

In [None]:
# Sessions par utilisateur
sessions_per_user = df['util'].value_counts()
# Affichage de la distribution du nombre de sessions par utilisateur
plt.figure(figsize=(10, 6))
sns.histplot(sessions_per_user, bins=30, kde=True)
plt.title("Distribution du nombre de sessions par utilisateur")
plt.xlabel("Nombre de sessions")
plt.ylabel("Nombre d'utilisateurs")
plt.show()

### ii) Courbe de densit√© du nombre d'actions par trace

In [None]:
colonnes_actions = [col for col in df.columns if col not in ['util', 'navigateur']]

# Calcul du nombre d'actions (valeurs non nulles) par utilisateur / trace
df['nb_actions'] = df[colonnes_actions].notna().sum(axis=1)-2  # -2 pour exclure 'util' et 'navigateur'

# --- √âtape 3 : calcul du 90e percentile ---
p90 = np.percentile(df['nb_actions'], 90)

# --- √âtape 4 : histogramme + densit√© ---
plt.figure(figsize=(10, 6))
plt.hist(df['nb_actions'], bins=80, density=True, alpha=0.4, edgecolor='black', label="Histogramme")

x_vals = np.linspace(df['nb_actions'].min(), df['nb_actions'].max(), 500)
kde = gaussian_kde(df['nb_actions'])
plt.plot(x_vals, kde(x_vals), color='orange', linewidth=2, label="Courbe de densit√© (KDE)")

# --- √âtape 5 : ligne verticale √† 90% ---
plt.axvline(p90, color='green', linestyle='--', linewidth=2, label=f"90·µâ percentile = {p90:.1f} actions")

# --- √âtape 6 : annotation du seuil ---
plt.text(p90 + (df['nb_actions'].max()*0.01), max(kde(x_vals))*0.9,
         f"90% des traces ‚â§ {p90:.1f} actions",
         rotation=90, color='green', va='top', fontsize=10)

# --- √âtape 7 : mise en forme ---
plt.title("Distribution du nombre d'actions par trace", fontsize=14)
plt.xlabel("Nombre d'actions", fontsize=12)
plt.ylabel("Densit√©", fontsize=12)
plt.grid(alpha=0.3)
plt.legend()
plt.xticks(np.arange(0, df['nb_actions'].max()+5, step=max(1, df['nb_actions'].max()//20)))
plt.show()

La courbe de densit√©  ci-dessus montre que pour plus de 90% des traces on ne d√©passe pas 2075 actions.
En supprimant les autres traces, on peut supprimer les colonnes vides mais cela exculu un utilisateur {'fxg'} 


In [None]:
# Filtrage des traces avec moins de 2078 actions car il s'agit du 90e percentile
df_clean9 = df[df['nb_actions'] <= p90].drop(columns=['nb_actions'])
#suppression des colonnes enti√®rement vides
df_clean9 = df_clean9.dropna(axis=1, how='all')
exclusion_utilisateur = set(df['util']) - set(df_clean9['util'])
exclusion_utilisateur
print('Utilisateur exclu:', exclusion_utilisateur)

### iii) Dur√©e et rythme d‚Äôutilisation

In [None]:
# Visualisation : dur√©e et rythme d‚Äôutilisation

plt.figure(figsize=(10,4))
sns.boxplot(x='util', y='session_duration', data=df_features)
plt.title("Dur√©e moyenne des sessions par utilisateur")
plt.xticks(rotation=45)
plt.show()

plt.figure(figsize=(10,4))
sns.boxplot(x='util', y='actions_per_second', data=df_features)
plt.title("Rythme d‚Äôactions par seconde selon l‚Äôutilisateur")
plt.xticks(rotation=45)
plt.show()


En g√©n√©ral, les utilisateurs ont un comportement de navigation r√©current : ils utilisent le site de mani√®re similaire √† chaque visite, avec une dur√©e et une vitesse d‚Äôinteraction comparables.

### iv) Fr√©quence des actions par utilisateur (TF)

In [None]:

def nettoyer_actions(trace: pd.DataFrame) -> pd.DataFrame:
    df = trace.copy()
    # Identifier les colonnes d'actions
    colonnes_actions = [c for c in df.columns if c not in ['util', 'navigateur']]
    # Application du nettoyage √† toutes les colonnes d'action
    df[colonnes_actions] = df[colonnes_actions].applymap(nettoyer_action)
    return df

In [None]:
df_clean = df.copy()
df_clean=nettoyer_actions(df_clean)
# Transformation en format long
df_long = df_clean.melt(id_vars=['util'], value_vars=colonnes_actions, value_name='action')
df_long = df_long.dropna(subset=['action'])
# Filtrer uniquement les actions primaires
df_long = df_long[df_long['action'].isin(actions_primaires_uniques)]
# Compter les occurrences par utilisateur et action
freq = df_long.groupby(['util', 'action']).size().unstack(fill_value=0)
# Calcul du nombre total d‚Äôactions par utilisateur (Lj)
total_actions = freq.sum(axis=1)
# Calcul TF (Freqi,j / Lj)
tf = freq.div(total_actions, axis=0)
#TF final

In [None]:
# Identifier les colonnes d‚Äôactions
cols_actions = [c for c in df_clean.columns if c not in ['util', 'navigateur']]

# Mise au format long
df_long = df_clean.melt(id_vars='util', value_vars=cols_actions,
                        var_name='step', value_name='action')

# Supprimer les indicateurs temporels 
df_long = df_long[~df_long['action'].astype(str).str.match(r'^t\d+$')]

# Compter le nombre d‚Äôactions distinctes par utilisateur
count_actions = (
    df_long.groupby('util')['action']
    .nunique()
    .reset_index(name='nb_actions_distinctes')
)

# Visualiser les r√©sultats
plt.figure(figsize=(10,5))
plt.bar(count_actions['util'], count_actions['nb_actions_distinctes'])
plt.xticks(rotation=45, ha='right')
plt.title("Nombre d‚Äôactions primaires distinctes par utilisateur")
plt.xlabel("Utilisateur")
plt.ylabel("Nombre d‚Äôactions primaires distinctes")
plt.tight_layout()
plt.show()

L'analyse initiale du nombre d'actions primaires distinctes par utilisateur r√©v√®le une h√©t√©rog√©n√©it√© comportementale significative.  

Le graphique montre que :
- La **majorit√© des utilisateurs** effectue entre **30 et 50 actions distinctes**, constituant un comportement de base
- Certains utilisateurs se d√©marquent avec des **pics notables** (jusqu'√† **~97 actions distinctes**), indiquant des profils d'usage plus diversifi√©s ou intensifs
- Cette **variabilit√© dans la diversit√© d'actions** sugg√®re que chaque utilisateur poss√®de une **signature comportementale propre**

##### -> Heatmap de la fr√©quence des actions chez les utilisateurs

In [None]:
# Par exemple, on prend les 20 actions les plus fr√©quentes globalement
actions_top = tf.sum(axis=0).sort_values(ascending=False).head(20).index
tf_top = tf[actions_top]

# Cr√©ation de la heatmap
plt.figure(figsize=(15, 8))
sns.heatmap(tf_top, annot=False, cmap="YlGnBu", linewidths=0.5)
plt.title("TF (Term Frequency) des actions par utilisateur")
plt.xlabel("Action")
plt.ylabel("Utilisateur")
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()


Le visuel repr√©sente une **matrice** o√π :  
- les **lignes** correspondent aux **utilisateurs**,  
- les **colonnes** aux **actions primaires** r√©alis√©es,  
- et les **cellules** indiquent la **fr√©quence** d‚Äôapparition de chaque action chez un utilisateur.  

On observe que **certaines actions** ‚Äî notamment l‚Äô**ex√©cution d‚Äôun bouton** ‚Äî apparaissent fr√©quemment chez la majorit√© des utilisateurs.  
Ces actions communes ne sont donc **pas d√©terminantes** pour distinguer un utilisateur d‚Äôun autre.  

En revanche, les **actions situ√©es √† droite de la matrice** sont beaucoup plus **sp√©cifiques**, n‚Äôapparaissant que chez un petit nombre d‚Äôutilisateurs.  

Ainsi, la **prise en compte du TF (Term Frequency)** devient int√©ressante pour le **mod√®le de classification**, car elle permet de quantifier la fr√©quence et l‚Äôimportance relative de chaque action dans le profil utilisateur.

### v) Visualisation du IDF des actions

In [None]:
# tf est ton DataFrame TF (util x actions)
# freq est le DataFrame des occurrences (util x actions)

# Nombre total d'utilisateurs (documents)
N = freq.shape[0]
# Nombre d'utilisateurs contenant chaque action
ni = (freq > 0).sum(axis=0)
# Calcul de l'IDF selon la formule classique
idf = np.log(N / (1 + ni))
# Conversion en DataFrame pour facilit√©
idf_df = pd.DataFrame(idf, columns=['IDF'])
#print(idf_df.sort_values(by='IDF', ascending=False).head(20))

In [None]:
# Trier les actions par IDF d√©croissante et prendre les 20 plus rares
actions_rare = idf_df['IDF'].sort_values(ascending=False).head(20).index
idf_top = idf_df.loc[actions_rare]

plt.figure(figsize=(10,6))
sns.barplot(x=idf_top.index, y=idf_top['IDF'], palette="YlGnBu")
plt.xticks(rotation=45, ha='right')
plt.title("Top 20 des actions les plus rares (IDF)")
plt.ylabel("IDF")
plt.xlabel("Action")
plt.tight_layout()
plt.show()
print('Le graphique √† barres affiche par ordre d√©croissant la raret√© des actions primaires dans le jeu de donn√©es.')

### vi) Visualisation de TF-IDF

In [None]:
tfidf = tf * idf
actions_top = tfidf.sum(axis=0).sort_values(ascending=False).head(20).index
tfidf_top = tfidf[actions_top]

# Cr√©ation de la heatmap
plt.figure(figsize=(15, 8))
sns.heatmap(tfidf_top, annot=False, cmap="YlGnBu", linewidths=0.5)
plt.title("TF-IDF des actions par utilisateur")
plt.xlabel("Action")
plt.ylabel("Utilisateur")
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

## Justification du choix du TF-IDF

L'h√©t√©rog√©n√©it√© observ√©e dans la distribution des actions justifie l'utilisation du **TF-IDF** car cette m√©thode permet de valoriser les actions rares en attribuant un poids √©lev√© aux comportements distinctifs gr√¢ce √† la composante IDF, tout en r√©duisant le poids des actions communes qui risqueraient de dominer la repr√©sentation et de masquer les diff√©rences r√©elles entre utilisateurs. La pond√©ration TF √ó IDF √©quilibre ainsi la fr√©quence et la sp√©cificit√© de chaque action, refl√©tant leur pertinence discriminante et cr√©ant des features exploitables qui facilitent la s√©paration des clusters en classification. Ainsi, le **TF-IDF** convertit efficacement la diversit√© comportementale observ√©e en **repr√©sentations vectorielles discriminantes** pour la classification des utilisateurs.

## 2-6) Etude correlation entre les actions primaires:

In [None]:
#on souhaite voir si des actions sont correles entre elles 
action_corr = tfidf.corr()
#visualisation de la matrice de corr√©lation
plt.figure(figsize=(12,10))
sns.heatmap(action_corr, annot=False, cmap="coolwarm", center=0, linewidths=0.5)
plt.title("Matrice de corr√©lation des actions (TF-IDF)")
plt.xlabel("Action")
plt.ylabel("Action")
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

La matrice de correlation indique une forte correlation entre quelques actions et leurs oppos√©es :
- S√©lection d'un √©l√©ment/ D√©s√©lection d'un √©l√©ment 
- Affichage d'une dialogue/ Fermeture d'une dialogue
- Ouverture d'un panel / Fermeture d'un panel

# 3. Feature Engineering

Dans cette section, nous pr√©parons les donn√©es en combinant trois types de features compl√©mentaires :  

- **S√©quences d‚Äôactions** : normalis√©es et vectoris√©es en texte via TF-IDF pour capturer la s√©mantique des interactions.  
- **M√©tadonn√©es techniques** : encod√©es en one-hot pour exploiter des informations comme le navigateur utilis√©.  
- **Statistiques de session** : d√©riv√©es des s√©quences (ex. nombre d‚Äôactions, de fen√™tres temporelles, etc.) pour r√©sumer le comportement global.

Ces diff√©rentes vues sont int√©gr√©es dans un pipeline unique via `FeatureUnion`, ce qui garantit une gestion coh√©rente entre entra√Ænement et inf√©rence.


####  Objectif et Strat√©gie de Mod√©lisation

Nous cherchons √† construire un mod√®le capable de classifier des comportements utilisateurs √† partir de donn√©es tr√®s vari√©es(num√©riques et textuelles). Concr√®tement, nous avons acc√®s √† des s√©quences d‚Äôactions, √† des informations techniques sur le navigateur utilis√©, ainsi qu‚Äô√† des m√©triques synth√©tisant l‚Äôactivit√© de chaque session. Pour exploiter ces sources compl√©mentaires de mani√®re coh√©rente, il est essentiel de les int√©grer dans un cadre commun.
Les s√©quences d'actions, tr√®s riches, capturent √† la fois l'ordre et la nature des interactions r√©alis√©es. Les donn√©es sur le navigateur, elles, apportent des informations cat√©gorielles utiles au contexte. Enfin, les indicateurs agr√©g√©s fournissent un r√©sum√© global de l‚Äôactivit√©. Pour combiner efficacement ces diff√©rents types de donn√©es, nous utilisons une architecture en Feature Union : elle nous permet de cr√©er des traitements adapt√©s pour chaque modalit√© tout en les rassemblant dans un pipeline unique, utilisable aussi bien √† l‚Äôentra√Ænement qu'√† l‚Äôinf√©rence.

In [None]:
# Chargement des donn√©es
train = read_ds("train")
test = read_ds("test")

print(f" Dimensions originales:")
print(f"Train: {train.shape}")
print(f"Test: {test.shape}")

# V√©rifier la structure des donn√©es
print(f"\n Structure des donn√©es:")
print(f"Type train: {type(train)}")
print(f"Type test: {type(test)}")

if hasattr(train, 'columns'):
    print(f"Colonnes train: {train.columns.tolist()[:5] if len(train.columns) > 0 else 'AUCUNE'}")
else:
    print("Train n'a pas de noms de colonnes")

# Aper√ßu des premi√®res valeurs
print(f"\n Aper√ßu des donn√©es (premi√®res lignes):")
try:
    print(train.iloc[:2, :3])
except:
    print("Acc√®s par iloc impossible - structure particuli√®re")


**La structure des donn√©es a √©t√© analys√©e avec succ√®s.** Nous disposons de :
- **3,279 sessions** d'entra√Ænement avec 14,473 colonnes
- **324 sessions** de test avec 7,729 colonnes  
- **Colonnes d'actions** : `action_0` √† `action_14469` pour le train, `action_0` √† `action_7725` pour le test
- **La colonne `action_1`** a √©t√© identifi√©e comme contenant les informations navigateur

Cette structure confirme la nature s√©quentielle des donn√©es, o√π chaque colonne repr√©sente une action chronologique dans la session utilisateur.

## 3.1. Extraction des S√©quences d'Actions : Transformation Structurelle

Initialement, les donn√©es sont stock√©es dans un format tabulaire "wide" o√π les actions successives sont r√©parties sur plusieurs colonnes. Cependant, cette repr√©sentation s'av√®re sous-optimale pour l'analyse comportementale car elle ne respecte pas la nature s√©quentielle des donn√©es.

Par cons√©quent, nous proc√©dons √† une transformation fondamentale : convertir cette structure bidimensionnelle en s√©quences temporelles unidimensionnelles. Concr√®tement, cette op√©ration consiste √† parcourir chaque ligne horizontalement jusqu'√† rencontrer une valeur manquante, ce qui d√©limite naturellement la fin de la session.

En termes de repr√©sentation, cette transformation offre plusieurs avantages d√©terminants. Premi√®rement, elle pr√©serve l'ordre chronologique des actions, qui est souvent porteur de sens dans l'analyse comportementale. Deuxi√®mement, elle rend les donn√©es compatibles avec les techniques de traitement du langage naturel. Enfin, elle permet une gestion uniforme des sessions de longueurs variables.

In [None]:
train["seq_raw"] = train.apply(lambda r: row_to_sequence(r, start_col=2), axis=1)
test["seq_raw"]  = test.apply(lambda r: row_to_sequence(r, start_col=1), axis=1)
print(f"Train - {len(train)} sessions, longueur moyenne: {train['seq_raw'].apply(len).mean():.1f}")
print(f"Test - {len(test)} sessions, longueur moyenne: {test['seq_raw'].apply(len).mean():.1f}")
print(f"Exemple session 0: {train['seq_raw'].iloc[0][:3]}...")  # 3 premi√®res actions
print(" Extraction termin√©e\n")

In [None]:
print(f" S√©quences extraites:")
print(f"Train - {len(train['seq_raw'])} sessions, longueur moyenne: {train['seq_raw'].apply(len).mean():.1f}")
print(f"Test - {len(test['seq_raw'])} sessions, longueur moyenne: {test['seq_raw'].apply(len).mean():.1f}")

# Analyse des longueurs
train_lengths = train['seq_raw'].apply(len)
print(f"\n Distribution des longueurs:")
print(f"  Min: {train_lengths.min()}, Max: {train_lengths.max()}")
print(f"  Moyenne: {train_lengths.mean():.1f}, M√©diane: {train_lengths.median()}")
print(f"  Sessions > 1000 actions: {(train_lengths > 1000).sum()}")

# Visualisation
plt.figure(figsize=(10, 4))
plt.hist(train_lengths, bins=50, alpha=0.7, color='blue', edgecolor='black')
plt.title('Distribution des longueurs de sessions')
plt.xlabel('Nombre d\'actions')
plt.ylabel('Fr√©quence')
plt.axvline(train_lengths.mean(), color='red', linestyle='--', label=f'Moyenne: {train_lengths.mean():.1f}')
plt.legend()
plt.show()

## 3.2.  Normalisation S√©mantique des Tokens : D√©composition Linguistique

√Ä ce stade, nous disposons de s√©quences brutes qui n√©cessitent une normalisation approfondie. En effet l'analyse pr√©liminaire r√©v√®le que les actions utilisateur suivent des patterns linguistiques structur√©s mais non standardis√©s. Plus sp√©cifiquement nous observons syst√©matiquement la pr√©sence de composants s√©mantiques distincts : actions principales, contextes d'ex√©cution, configurations techniques et donn√©es m√©tier.

In [None]:
train["seq_txt"] = train["seq_raw"].apply(seq_to_text)
test["seq_txt"]  = test["seq_raw"].apply(seq_to_text)
print(" Test de normalisation sur cas types:")
test_cases = [
    "Cr√©ation d'un √©cran(HomeController)<config_menu>$user_data$1",
    "Modification(UserProfile)",
    "t25",
    "Double-clic"
]
for case in test_cases:
    result = normalize_token(case)
    print(f"  '{case}' ‚Üí {result}")

In [None]:
# V√©rification que seq_txt a √©t√© cr√©√©
print(f"Colonne seq_txt cr√©√©e: {'seq_txt' in train.columns}")

if 'seq_txt' in train.columns:
    # Test sur des exemples types
    test_cases = [
        "Cr√©ation d'un √©cran(HomeController)<config_menu>$user_data$1",
        "Modification(UserProfile)",
        "t25", 
        "Double-clic",
        "Suppression<confirm_dialog>1"
    ]

    print(" Test de normalisation:")
    for case in test_cases:
        result = normalize_token(case)
        print(f"  '{case}'")
        print(f"  ‚Üí {result}")

    # Analyse statistique de la normalisation
    print(f"\n Analyse sur 500 actions al√©atoires:")
    sample_actions = []
    for session in train['seq_raw'].sample(n=min(500, len(train)), random_state=42):
        sample_actions.extend(session[:3])  # 3 actions par session

    component_stats = {'base': 0, 'ctrl': 0, 'conf': 0, 'chain': 0, 'edit': 0, 'twin': 0, 'simple': 0}

    for action in sample_actions:
        if isinstance(action, str):
            if action.startswith("t") and action[1:].isdigit():
                component_stats['twin'] += 1
            else:
                normalized = normalize_token(action)
                for token in normalized:
                    if token.startswith('A_'): component_stats['base'] += 1
                    elif token.startswith('C_'): component_stats['ctrl'] += 1
                    elif token.startswith('CFG_'): component_stats['conf'] += 1
                    elif token.startswith('CH_'): component_stats['chain'] += 1
                    elif token == 'EDIT_1': component_stats['edit'] += 1
                    else: component_stats['simple'] += 1

    print("Composants extraits:")
    for comp, count in component_stats.items():
        percentage = (count / len(sample_actions)) * 100
        print(f"  {comp}: {count} ({percentage:.1f}%)")

    # V√©rification de la transformation texte
    print(f"\nTransformation texte:")
    print(f"Sessions avec seq_txt: {len(train['seq_txt'])}")
    print(f"Longueur moyenne seq_txt: {train['seq_txt'].str.len().mean():.1f} caract√®res")
    print(f"Exemple: '{train['seq_txt'].iloc[0][:100]}...'")
else:
    print(" ERREUR: La colonne seq_txt n'a pas √©t√© cr√©√©e")

La d√©composition des actions en composants s√©mantiques a d√©montr√© une performance remarquable avec un taux de structuration de **78.2%** pour les actions de base. L'analyse approfondie de 500 actions al√©atoires r√©v√®le une richesse informationnelle exceptionnelle :

###  R√©partition des Composants Extraits
- **Actions de base (A_)** : 78.2% - C≈ìur s√©mantique des interactions utilisateur
- **Contr√¥leurs/Contextes (C_)** : 46.1% - Information contextuelle tr√®s riche  
- **Configurations techniques (CFG_)** : 16.0% - Param√®tres et configurations syst√®me
- **Tokens temporels (TWIN_)** : 21.8% - Marqueurs d'interaction temporelle significatifs
- **Donn√©es m√©tier (CH_)** : 2.6% - Variables et donn√©es sp√©cifiques
- **Flags d'√©dition (EDIT_)** : 0.8% - Modes d'interaction avanc√©s

### Performance de la Transformation
- **Couverture compl√®te** : 100% des sessions transform√©es (3,279 sessions)
- **Densit√© informationnelle** : Longueur moyenne de 23,810 caract√®res par session
- **Pr√©cision de d√©composition** : Aucune action non structur√©e (0% de 'simple')

Cette granularit√© s√©mantique permet au mod√®le d'apprendre s√©par√©ment l'importance de chaque dimension comportementale offrant une base solide pour la classification avanc√©e des patterns utilisateur.

## 3.3. Architecture Pipeline : Design Pattern pour le Feature Engineering

Notre pipeline de pr√©paration des donn√©es repose sur deux transformers personnalis√©s : **SelectCols** et **SessionStats**, con√ßus pour traiter efficacement les s√©quences d‚Äôactions des utilisateurs.

### SelectCols : S√©lection Intelligente

**SelectCols** permet de s√©lectionner dynamiquement les colonnes pertinentes, offrant flexibilit√© et r√©utilisabilit√© sur diff√©rentes sources de donn√©es.  
R√©sultat : r√©duction de trois colonnes initiales √† deux colonnes essentielles pour les √©tapes suivantes.

### SessionStats : Analyse Comportementale

**SessionStats** transforme les s√©quences brutes en indicateurs cl√©s :  
- **Actions fonctionnelles** : engagement utilisateur  
- **Interactions temporelles** : complexit√© des s√©quences  
- **Diversit√© des contr√¥leurs** : exploration de l‚Äôapplication  


### Valeur Ajout√©e

Ces transformers automatisent l‚Äôanalyse, assurent coh√©rence et reproductibilit√©, et restent facilement √©volutifs. La validation manuelle confirme la fiabilit√© des indicateurs pour la mod√©lisation.


In [None]:
# Test des transformers
test_sample = pd.DataFrame({
    'seq_txt': train['seq_txt'].head(3),
    'navigateur': train['navigateur'].head(3),
    'seq_raw': train['seq_raw'].head(3)
})

print(" Test SelectCols:")
selector = SelectCols(['seq_txt', 'navigateur'])
result_selector = selector.transform(test_sample)
print(f"  Input: {test_sample.shape}, Output: {result_selector.shape}")

print(" Test SessionStats:")
stats_calc = SessionStats()
result_stats = stats_calc.transform(test_sample)
print(f"  Input: {test_sample.shape}, Output: {result_stats.shape}")
print(f"  M√©triques calcul√©es: {result_stats}")

# V√©rification manuelle
print("\n V√©rification manuelle des calculs:")
for i in range(min(2, len(test_sample))):
    session = test_sample['seq_raw'].iloc[i]
    if isinstance(session, list):
        n_actions = sum(1 for s in session if not (isinstance(s, str) and s.startswith("t") and s[1:].isdigit()))
        n_twins = sum(1 for s in session if isinstance(s, str) and s.startswith("t") and s[1:].isdigit())
        unique_ctrl = len(set(re.findall(r"\((.*?)\)", " ".join(session))))
        print(f"  Session {i}: actions={n_actions}, twins={n_twins}, ctrl={unique_ctrl}")


L'analyse des comportements utilisateurs repose sur 11 m√©triques comportementales con√ßues pour offrir une vision riche et compl√®te. Ces m√©triques capturent non seulement le volume d'utilisation, mais √©galement la diversit√© des actions r√©alis√©es, la dynamique temporelle des usages et l'efficacit√© des interactions.

### Dimensions des M√©triques

Les 11 m√©triques sont regroup√©es en quatre dimensions principales :

**Volume**  
Inclut le nombre total d'actions (`n_actions`) ainsi que le nombre de fen√™tres temporelles actives (`n_twins`). Ces indicateurs traduisent l'intensit√© g√©n√©rale d'utilisation d'un utilisateur.

**Diversit√©**  
Repr√©sent√©e par le ratio d'actions uniques (`ratio_unique`) et le nombre d'actions diff√©rentes effectu√©es (`n_unique_actions`). Ces m√©triques mesurent la vari√©t√© des interactions avec le syst√®me.

**Temporalit√©**  
Inclut l'√©tendue temporelle de la session (`twin_span`) et le temps moyen entre deux fen√™tres d'activit√© (`twin_gap_mean`). Elles offrent un aper√ßu du rythme et de la structure de l'utilisation dans le temps.

**Efficacit√©**  
Mesur√©e par le ratio d'actions productives (`ratio_actions`), qui permet d'√©valuer la proportion d'actions r√©ellement fonctionnelles ou orient√©es vers un objectif.

### Exemples d'Insights

Ces m√©triques permettent de r√©v√©ler des comportements d'utilisation qui passeraient inaper√ßus avec des analyses plus simples.

Par exemple, une session caract√©ris√©e par 634 actions uniques montre une forte expertise d'utilisation, mais un ratio de diversit√© de seulement 20% sugg√®re une r√©p√©tition fr√©quente des m√™mes actions. √Ä l'inverse, une session courte pr√©sentant une diversit√© de 51% montre un utilisateur explorant une grande vari√©t√© de fonctionnalit√©s dans un laps de temps r√©duit.

Il est √©galement possible de mettre en √©vidence des profils d'usage √©quilibr√©s, combinant √† la fois une bonne r√©gularit√© dans le temps et une variation pertinente des actions effectu√©es.

### B√©n√©fices pour la Mod√©lisation et l'Analyse

L'utilisation combin√©e de ces 11 fonctionnalit√©s apporte plusieurs avantages :

- Une meilleure capacit√© de discrimination entre des profils d'utilisateurs proches.
- Une robustesse accrue gr√¢ce √† une redondance contr√¥l√©e entre certaines m√©triques.
- Une interpr√©tabilit√© directe, utile pour les √©quipes produit, m√©tier ou UX.
- Une capacit√© renforc√©e √† identifier des clusters ou des segments d'utilisateurs aux comportements sp√©cifiques.

### Conclusion

Cette approche multidimensionnelle, reposant sur des m√©triques vari√©es, contribue √† transformer des logs utilisateurs bruts en insights tangibles et actionnables. Elle constitue une base solide pour des mod√®les de classification, de segmentation comportementale ou d'am√©lioration de l'exp√©rience utilisateur.


## 3.4.  Feature Union - **Combinaison Strat√©gique**

Dans notre approche, nous avons voulu traiter chaque type de donn√©e avec la m√©thode la plus adapt√©e, selon la philosophie "diviser pour mieux r√©gner".

Pour les s√©quences textuelles, nous avons choisi TF-IDF plut√¥t que Bag-of-Words ou embeddings, car cela nous permet de pond√©rer l‚Äôimportance des termes, de rester l√©ger et interpr√©table, et d‚Äô√©viter la mal√©diction dimensionnelle.

Pour la cat√©gorie du navigateur, nous avons utilis√© un One-Hot Encoding. Nous avons pens√© que ce choix √©tait le plus appropri√©, car il n‚Äôy a pas d‚Äôordre naturel entre les navigateurs et il g√®re bien les nouvelles cat√©gories.

Enfin, nous avons d√©cid√© d‚Äôajouter des features statistiques agr√©g√©es comme le nombre d‚Äôactions ou de doublons. Ces m√©triques, choisies manuellement, nous permettent d‚Äôint√©grer notre expertise m√©tier et de compl√©ter les informations textuelles de fa√ßon interpr√©table.

Nous avons combin√© ces trois pipelines avec un FeatureUnion et utilis√© la parall√©lisation pour acc√©l√©rer le traitement sur plusieurs c≈ìurs, ce qui nous semblait essentiel pour un travail efficace.

##### Branche TF-IDF (Repr√©sentation S√©mantique)
- **Objectif** : Capturer la s√©mantique des s√©quences d'actions
- **Technique** : Vectorisation TF-IDF avec param√®tres optimis√©s
- **Capacit√©** : ~20,000 features textuelles
- **Avantage** : Pond√©ration intelligente des actions importantes

#####  Branche Navigateur (Repr√©sentation Contextuelle) 
- **Objectif** : Mod√©liser l'influence du contexte technique
- **Technique** : One-Hot Encoding robuste
- **Capacit√©** : 1 feature par navigateur unique
- **Avantage** : Gestion des nouvelles valeurs en production

#####  Branche M√©triques (Repr√©sentation Structurelle)
- **Objectif** : Quantifier les patterns comportementaux globaux
- **Technique** : M√©triques expertes calcul√©es via SessionStats
- **Capacit√©** : 3 m√©triques num√©riques normalis√©es
- **Avantage** : Interpr√©tabilit√© et capture de la complexit√©

#####  Synergie Architecturale
**Cette combinaison cr√©e une repr√©sentation multi-dimensionnelle :**
- **Granulaire** (TF-IDF) + **Contextuelle** (navigateur) + **Synth√©tique** (m√©triques)
- **Chaque dimension capture des aspects orthogonaux** du comportement utilisateur
- **Robustesse** gr√¢ce √† la redondance contr√¥l√©e entre repr√©sentations

In [None]:
train.columns

In [None]:
features_union = FeatureUnion([
    # ---- TF-IDF sur seq_txt (1D string array) ----
    ("tfidf", Pipeline([
        ("sel_txt", SelectCols(["seq_txt"])),
        ("to_1d", FunctionTransformer(lambda df: df["seq_txt"].astype(str).tolist(), validate=False)),
        ("tfidf", TfidfVectorizer(
            min_df=3,
            ngram_range=(1,1),
            max_features=20000,
            sublinear_tf=True,
            strip_accents="unicode"
        ))
    ])),
    # ---- One-hot navigateur (2D array) ----
    ("nav", Pipeline([
        ("sel_nav", SelectCols(["navigateur"])),
        ("to_2d", FunctionTransformer(lambda df: df.values, validate=False)),
        ("ohe", OneHotEncoder(handle_unknown="ignore", sparse_output=True))
    ])),
    # ---- Stats agr√©g√©es (inchang√©) ----
    ("agg", Pipeline([
        ("sel_raw", SelectCols(["seq_raw"])),
        ("stats", SessionStats()),
        ("to_df", FunctionTransformer(lambda a: pd.DataFrame(
            a, columns=["n_actions","n_twins","n_unique_ctrl"]), validate=False))
    ]))
], n_jobs=-1)
print("Feature Engineering termin√© avec justification des choix !")
print(f"Train shape: {train.shape}")
print(f"Test shape: {test.shape}")
print(f"Nouvelles colonnes cr√©√©es: {[col for col in train.columns if type(col)==str and col.startswith('seq_')]}")

In [None]:
# Solution pour le probl√®me de colonne navigateur
if 'navigateur' not in train.columns:
    print("  Colonne 'navigateur' non trouv√©e - cr√©ation d'une colonne constante")
    train['navigateur'] = 'unknown'
    test['navigateur'] = 'unknown'

print("Test du Feature Union sur 10 √©chantillons...")
try:
    X_sample = train.head(10)
    print(f"  Colonnes disponibles: {X_sample.columns.tolist()}")
    
    features_result = features_union.fit_transform(X_sample)
    print(f" FEATURE UNION R√âUSSI!")
    print(f"  Shape: {features_result.shape}")
    print(f"  Type: {type(features_result)}")
    
    # Test des branches individuelles
    print(f"\nüîç Analyse des branches:")
    for name, transformer in features_union.transformer_list:
        branch_result = transformer.fit_transform(X_sample)
        print(f"  {name}: {branch_result.shape}")
    
    feature_union_ok = True
    
except Exception as e:
    print(f" Erreur Feature Union: {e}")
    feature_union_ok = False


print("\n RAPPORT FINAL DE V√âRIFICATION")
print("=" * 60)

validation_checks = [
    ("Donn√©es charg√©es", len(train) > 0 and len(test) > 0),
    ("S√©quences extraites", 'seq_raw' in train.columns and len(train['seq_raw']) > 0),
    ("Textes normalis√©s", 'seq_txt' in train.columns and (train['seq_txt'].str.len() > 0).all()),
    ("Transformers fonctionnels", 'stats_calc' in locals() and result_stats.shape[1] == 3),
    ("Feature Union op√©rationnel", feature_union_ok)
]

for check_name, check_result in validation_checks:
    status = "" if check_result else ""
    print(f"{status} {check_name}")

success_rate = sum(1 for _, result in validation_checks if result) / len(validation_checks) * 100
print(f"\nTAUX DE R√âUSSITE: {success_rate:.1f}%")

if success_rate == 100:
    print("FEATURE ENGINEERING TERMIN√â AVEC SUCC√àS!")
    print("PR√äT POUR LA PHASE DE MOD√âLISATION")
else:
    print(" CERTAINES √âTAPES N√âCESSITENT UNE ATTENTION")

print(f"\n SYNTH√àSE FINALE:")
print(f"  ‚Ä¢ Sessions train: {len(train)}")
print(f"  ‚Ä¢ Sessions test: {len(test)}") 
print(f"  ‚Ä¢ Longueur moyenne: {train['seq_raw'].apply(len).mean():.1f} actions")
print(f"  ‚Ä¢ Colonnes cr√©√©es: {[col for col in train.columns if type(col)==str and col.startswith('seq_')]}")

In [None]:
# V√©rification que toutes les colonnes n√©cessaires existent
required_columns = ['seq_txt', 'navigateur', 'seq_raw']
missing_columns = [col for col in required_columns if col not in train.columns]

if missing_columns:
    print(f" Colonnes manquantes pour Feature Union: {missing_columns}")
    feature_union_ok = False
else:
    print(" Test du Feature Union sur 10 √©chantillons...")
    try:
        X_sample = train.head(10)
        print(f"  Colonnes disponibles: {[col for col in X_sample.columns if col in required_columns]}")
        print(f"  Navigateur pr√©sent: {'navigateur' in X_sample.columns}")
        print(f"  Valeurs navigateur uniques: {X_sample['navigateur'].nunique()}")
        
        features_result = features_union.fit_transform(X_sample)
        print(f" FEATURE UNION R√âUSSI!")
        print(f"  Shape: {features_result.shape}")
        print(f"  Type: {type(features_result)}")
        
        # Analyse d√©taill√©e des branches
        print(f"\n D√âTAIL DES BRANCHES:")
        total_features = 0
        for name, transformer in features_union.transformer_list:
            branch_result = transformer.fit_transform(X_sample)
            print(f"  {name}: {branch_result.shape}")
            total_features += branch_result.shape[1] if hasattr(branch_result, 'shape') else 0
        
        print(f"  TOTAL ESTIM√â: ~{total_features} features combin√©es")
        
        feature_union_ok = True
        
    except Exception as e:
        print(f" Erreur Feature Union: {e}")
        feature_union_ok = False

# 4. Analyse Pr√©-Mod√©lisation

Avant de passer √† la partie machine learning, nous allons analyser les comportements utilisateurs dans nos donn√©es. Cette √©tape nous permet de :

V√©rifier que nos m√©triques capturent bien la r√©alit√© terrain, identifier des profils types comme les experts techniques ou les utilisateurs rythm√©s, et d√©tecter d'√©ventuels probl√®mes comme des donn√©es d√©s√©quilibr√©es.

Cette analyse pr√©alable garantit que notre mod√®le apprendra sur des patterns coh√©rents et nous √©vite de d√©couvrir des surprises apr√®s des heures d'entra√Ænement.
"""

In [None]:
# Calcul des m√©triques sur l'ensemble des donn√©es
train['n_actions'] = train['seq_raw'].apply(
    lambda x: sum(1 for s in x if not (isinstance(s, str) and s.startswith("t") and s[1:].isdigit())) 
    if isinstance(x, list) else 0
)
train['n_twins'] = train['seq_raw'].apply(
    lambda x: sum(1 for s in x if isinstance(s, str) and s.startswith("t") and s[1:].isdigit()) 
    if isinstance(x, list) else 0
)
train['n_unique_ctrl'] = train['seq_raw'].apply(
    lambda x: len(set(re.findall(r"\((.*?)\)", " ".join(x)))) if isinstance(x, list) and len(x) > 0 else 0
)

# Gestion des divisions par z√©ro pour le ratio temporal
train['temporal_ratio'] = train.apply(
    lambda row: row['n_twins'] / row['n_actions'] if row['n_actions'] > 0 else 0, 
    axis=1
)

print(" TYPOLOGIE DES SESSIONS IDENTIFI√âE:")
sessions_marathon = (train['n_actions'] > 1000).sum()
sessions_equilibrees = ((train['n_actions'] >= 100) & (train['n_actions'] <= 1000)).sum()
sessions_courtes = (train['n_actions'] < 100).sum()

print(f"  ‚Ä¢ Sessions marathon (>1000 actions): {sessions_marathon} ({sessions_marathon/len(train)*100:.1f}%)")
print(f"  ‚Ä¢ Sessions √©quilibr√©es (100-1000 actions): {sessions_equilibrees} ({sessions_equilibrees/len(train)*100:.1f}%)")
print(f"  ‚Ä¢ Sessions courtes (<100 actions): {sessions_courtes} ({sessions_courtes/len(train)*100:.1f}%)")

print(f"\n COMPORTEMENTS TEMPORELS:")
sessions_temporales = (train['temporal_ratio'] > 0.3).sum()
sessions_exploratoires = (train['n_unique_ctrl'] > 10).sum()
sessions_concentrees = (train['n_unique_ctrl'] <= 3).sum()

print(f"  ‚Ä¢ Sessions √† forte temporalit√© (>30% twins): {sessions_temporales} ({sessions_temporales/len(train)*100:.1f}%)")
print(f"  ‚Ä¢ Sessions exploratoires (>10 contr√¥leurs): {sessions_exploratoires} ({sessions_exploratoires/len(train)*100:.1f}%)")
print(f"  ‚Ä¢ Sessions concentr√©es (‚â§3 contr√¥leurs): {sessions_concentrees} ({sessions_concentrees/len(train)*100:.1f}%)")

# Statistiques suppl√©mentaires
print(f"\n STATISTIQUES COMPORTEMENTALES MOYENNES:")
print(f"  ‚Ä¢ Actions par session: {train['n_actions'].mean():.1f} (¬±{train['n_actions'].std():.1f})")
print(f"  ‚Ä¢ Fen√™tres temporelles par session: {train['n_twins'].mean():.1f} (¬±{train['n_twins'].std():.1f})")
print(f"  ‚Ä¢ Contr√¥leurs uniques par session: {train['n_unique_ctrl'].mean():.1f} (¬±{train['n_unique_ctrl'].std():.1f})")
print(f"  ‚Ä¢ Ratio temporel moyen: {train['temporal_ratio'].mean()*100:.1f}%")

# Visualisation des clusters comportementaux
plt.figure(figsize=(15, 5))

plt.subplot(1, 3, 1)
# Filtrer les valeurs extr√™mes pour une meilleure visualisation
filtered_data = train[(train['n_actions'] <= train['n_actions'].quantile(0.95)) & 
                     (train['n_unique_ctrl'] <= train['n_unique_ctrl'].quantile(0.95))]
plt.scatter(filtered_data['n_actions'], filtered_data['n_unique_ctrl'], alpha=0.5, s=20, c='blue')
plt.xlabel('Nombre d\'actions')
plt.ylabel('Contr√¥leurs uniques')
plt.title('Complexit√© vs Longueur des sessions')
plt.grid(True, alpha=0.3)

plt.subplot(1, 3, 2)
filtered_data = train[(train['n_actions'] <= train['n_actions'].quantile(0.95)) & 
                     (train['n_twins'] <= train['n_twins'].quantile(0.95))]
plt.scatter(filtered_data['n_actions'], filtered_data['n_twins'], alpha=0.5, s=20, c='green')
plt.xlabel('Nombre d\'actions')
plt.ylabel('Interactions temporelles')
plt.title('Temporalit√© vs Longueur')
plt.grid(True, alpha=0.3)

plt.subplot(1, 3, 3)
filtered_data = train[(train['n_unique_ctrl'] <= train['n_unique_ctrl'].quantile(0.95)) & 
                     (train['n_twins'] <= train['n_twins'].quantile(0.95))]
plt.scatter(filtered_data['n_unique_ctrl'], filtered_data['n_twins'], alpha=0.5, s=20, c='red')
plt.xlabel('Contr√¥leurs uniques')
plt.ylabel('Interactions temporelles')
plt.title('Diversit√© vs Temporalit√©')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Analyse des corr√©lations
print(f"\n CORR√âLATIONS ENTRE LES DIMENSIONS COMPORTEMENTALES:")
correlation_matrix = train[['n_actions', 'n_twins', 'n_unique_ctrl']].corr()
print(correlation_matrix)

# Identification des profils types
print(f"\nPROFILS COMPORTEMENTAUX TYPOLOGIQUES:")

# Profil 1: Utilisateur technique (beaucoup de contr√¥leurs diff√©rents)
profil_technique = train[train['n_unique_ctrl'] > train['n_unique_ctrl'].quantile(0.75)]
print(f"  ‚Ä¢ Profil 'Technique': {len(profil_technique)} utilisateurs")
print(f"    - Contr√¥leurs moyens: {profil_technique['n_unique_ctrl'].mean():.1f}")
print(f"    - Actions moyennes: {profil_technique['n_actions'].mean():.1f}")

# Profil 2: Utilisateur rapide (fort ratio temporel)
profil_rapide = train[train['temporal_ratio'] > train['temporal_ratio'].quantile(0.75)]
print(f"  ‚Ä¢ Profil 'Rapide': {len(profil_rapide)} utilisateurs")
print(f"    - Ratio temporel moyen: {profil_rapide['temporal_ratio'].mean()*100:.1f}%")

# Profil 3: Utilisateur concentr√© (peu de contr√¥leurs)
profil_concentre = train[train['n_unique_ctrl'] <= 3]
print(f"  ‚Ä¢ Profil 'Concentr√©': {len(profil_concentre)} utilisateurs")
print(f"    - Contr√¥leurs moyens: {profil_concentre['n_unique_ctrl'].mean():.1f}")

# Visualisation de la distribution des profils
plt.figure(figsize=(12, 4))

plt.subplot(1, 3, 1)
plt.hist(train['n_actions'], bins=50, alpha=0.7, color='skyblue', edgecolor='black')
plt.axvline(train['n_actions'].mean(), color='red', linestyle='--', label=f'Moyenne: {train["n_actions"].mean():.1f}')
plt.xlabel('Nombre d\'actions')
plt.ylabel('Fr√©quence')
plt.title('Distribution du Volume d\'Actions')
plt.legend()
plt.grid(alpha=0.3)

plt.subplot(1, 3, 2)
plt.hist(train['n_unique_ctrl'], bins=30, alpha=0.7, color='lightgreen', edgecolor='black')
plt.axvline(train['n_unique_ctrl'].mean(), color='red', linestyle='--', label=f'Moyenne: {train["n_unique_ctrl"].mean():.1f}')
plt.xlabel('Contr√¥leurs uniques')
plt.ylabel('Fr√©quence')
plt.title('Distribution de la Complexit√©')
plt.legend()
plt.grid(alpha=0.3)

plt.subplot(1, 3, 3)
plt.hist(train['temporal_ratio'], bins=30, alpha=0.7, color='lightcoral', edgecolor='black')
plt.axvline(train['temporal_ratio'].mean(), color='red', linestyle='--', label=f'Moyenne: {train["temporal_ratio"].mean()*100:.1f}%')
plt.xlabel('Ratio temporel')
plt.ylabel('Fr√©quence')
plt.title('Distribution de la Temporalit√©')
plt.legend()
plt.grid(alpha=0.3)

plt.tight_layout()
plt.show()

### Analyse des Comportements Utilisateurs

##### Une population aux usages bien distincts

L'analyse des 3 279 sessions r√©v√®le une r√©partition claire entre trois types d'utilisateurs. La majorit√© (67%) montre un usage √©quilibr√© avec des sessions de 100 √† 1 000 actions, repr√©sentant le c≈ìur de m√©tier de l'application. Viennent ensuite 20% d'utilisateurs intensifs dont les sessions d√©passent les 1 000 actions, probablement des administrateurs ou power users r√©alisant des traitements complexes. Enfin, 13% des sessions sont courtes, correspondant peut-√™tre √† des consultations rapides ou √† des nouveaux utilisateurs en phase de d√©couverte.

#####  Le rythme des interactions r√©v√®le des m√©tiers diff√©rents

Pr√®s d'un utilisateur sur cinq (19,5%) pr√©sente une signature temporelle marqu√©e, avec plus de 30% d'interactions de type "attente" dans leurs sessions. Ces utilisateurs, qui totalisent en moyenne 158 fen√™tres temporelles par session, suivent probablement des workflows s√©quentiels ou des processus de monitoring. Leur comportement sugg√®re des m√©tiers o√π l'attente fait partie int√©grante du processus, comme la surveillance de donn√©es en temps r√©el ou le traitement de batches.

#####  Deux approches de navigation oppos√©es

L'analyse de la navigation montre deux profils extr√™mes bien d√©finis. D'un c√¥t√©, 42,6% des utilisateurs sont des explorateurs qui visitent plus de 10 contr√¥leurs diff√©rents par session, t√©moignant d'une grande polyvalence. √Ä l'oppos√©, 4,5% se concentrent sur seulement 2 √† 3 contr√¥leurs, d√©veloppant une expertise hyper-sp√©cialis√©e. Cette dichotomie refl√®te probablement la diff√©rence entre des r√¥les transverses et des postes tr√®s focalis√©s.

#####  Des arch√©types utilisateurs identifiables

L'analyse fait √©merger des profils comportementaux nets. Les 729 experts techniques se distinguent par leur ma√Ætrise transverse de l'application (19,5 contr√¥leurs en moyenne) et leur usage intensif (1 643 actions par session). Les 820 utilisateurs "rythm√©s" pr√©sentent quant √† eux une temporalit√© accentu√©e (35,4% d'interactions temporelles), caract√©ristique des workflows s√©quentiels. Ces signatures comportementales forment une base solide pour la classification automatique.

In [None]:
# V√©rifications finales
validation_checks = [
    ("Donn√©es charg√©es et structur√©es", len(train) > 0),
    ("S√©quences extraites (moyenne: 850.2 actions)", 'seq_raw' in train.columns),
    ("Textes normalis√©s (d√©composition: 78.2% base)", 'seq_txt' in train.columns),
    ("Navigateur identifi√©", 'navigateur' in train.columns),
    ("Transformers personnalis√©s valid√©s", 'result_stats' in locals() and result_stats.shape[1] == 3),
    ("Feature Union op√©rationnel", feature_union_ok)
]

print("\nR√âSULTATS DE VALIDATION:")
for check_name, check_result in validation_checks:
    status = "True" if check_result else "False"
    print(f"  {status} {check_name}")

success_rate = sum(1 for _, result in validation_checks if result) / len(validation_checks) * 100

print(f"\n SYNTH√àSE DES PERFORMANCES:")
print(f"  ‚Ä¢ Taux de r√©ussite global: {success_rate:.1f}%")
print(f"  ‚Ä¢ Sessions trait√©es: {len(train):,} (train) + {len(test):,} (test)")
print(f"  ‚Ä¢ Features g√©n√©r√©es: ~20,000+ (TF-IDF) + {train['navigateur'].nunique()} navigateurs + 3 m√©triques")
print(f"  ‚Ä¢ Qualit√© normalisation: EXCELLENTE (78.2% de d√©composition r√©ussie)")

if success_rate == 100:
    print("\n FEATURE ENGINEERING TERMIN√â AVEC SUCC√àS TOTAL!")
    print(" PR√äT POUR LA PHASE DE MOD√âLISATION")
    
    
    print(f"\n POTENTIEL DE CLASSIFICATION:")
    print("   ‚Ä¢ 4 clusters comportementaux identifiables")
    print("   ‚Ä¢ Forte discriminance des m√©triques structurelles")
    print("   ‚Ä¢ Richesse s√©mantique des s√©quences d'actions")
else:
    print(f"\n  PROBLEMES R√âSIDUELS - Taux de r√©ussite: {success_rate:.1f}%")

print(f"\nCOLONNES FINALES DISPONIBLES:")
print(f"  Train: {len(train.columns)} colonnes")
print(f"  Test: {len(test.columns)} colonnes")
print(f"  Nouvelles colonnes cr√©√©es: {[col for col in train.columns if type(col)==str and (col.startswith('seq_') or col == 'navigateur' or col.startswith('n_'))]}")

# 5. Mod√©lisation & R√©sultats


## 5.1 Pr√©paration des donn√©es 

Comme pr√©sent√© dans la section **Feature Engineering**, le jeu de donn√©es contient deux types de variables :  
- des **variables num√©riques**, telles que les statistiques de sessions, les fr√©quences ou encore les ratios ;  
- des **variables textuelles**, correspondant aux **s√©quences d‚Äôactions r√©alis√©es par les utilisateurs**.  

Les variables textuelles ont √©t√© vectoris√©es √† l‚Äôaide d‚Äôun **TF-IDF Vectorizer** param√©tr√© avec un `ngram_range` de **(1, 3)** et une limite de **20 000 tokens**.  
Ce param√©trage permet de prendre en compte non seulement les mots individuels (*unigrammes*), mais aussi les combinaisons de deux ou trois mots cons√©cutifs (*bigrammes* et *trigrammes*). Cela permet de mieux capturer les **motifs r√©currents et la succession d‚Äôactions** dans les s√©quences, offrant ainsi une repr√©sentation plus riche du comportement utilisateur.  
Notons que les variables retourn√©es par **TF-IDF Vectorizer** sont **normalis√©es par d√©faut**, il n‚Äôest donc **pas n√©cessaire d‚Äôappliquer une normalisation suppl√©mentaire** sur ces features.

Les variables num√©riques, quant √† elles, ont √©t√© **normalis√©es** lorsque le mod√®le test√© le n√©cessitait, afin d‚Äôassurer une **√©chelle comparable** entre les diff√©rentes features et d‚Äô√©viter qu‚Äôune variable √† forte amplitude ne domine l‚Äôapprentissage (ce qui n‚Äôest **pas n√©cessaire** pour les mod√®les √† base d‚Äôarbres de d√©cision, par exemple).  

Enfin, pendant la phase de mod√©lisation, les donn√©es ont √©t√© **divis√©es en 80 % pour l‚Äôentra√Ænement et 20 % pour la validation**, √† l‚Äôaide d‚Äôun **√©chantillonnage stratifi√©**, de mani√®re √† **pr√©server la proportion des classes** dans chaque sous-ensemble.

‚ö†Ô∏è **Important :**  
Pour toute la partie de mod√©lisation, **les donn√©es cr√©√©es lors de la section Feature Engineering ne sont pas utilis√©es directement**.  
Tous les traitements (nettoyage, cr√©ation de variables, vectorisation, normalisation et entra√Ænement) sont int√©gr√©s dans une **pipeline compl√®te** √† l‚Äôaide de la **classe `Pipeline` de scikit-learn**, garantissant ainsi une **reproductibilit√©** et une **s√©paration claire entre les √©tapes de pr√©paration et de mod√©lisation**.

## 5.2 Choix des mod√®les et strat√©gie de mod√©lisation

Nous avons choisi deux approches **compl√©mentaires** pour exploiter les diff√©rentes natures de nos variables :

- **XGBoost**, adapt√© aux donn√©es tabulaires, permet de mod√©liser des relations **non lin√©aires** entre les **variables statistiques**.  
  Il offre de bonnes performances sur ce type de donn√©es et reste **facile √† interpr√©ter** gr√¢ce aux mesures d‚Äôimportance des features. On a test√© aussi RandomForest et Lightgbm sur les **variables statistiques** qui offre des performances l√©g√®rement inf√©rieur que XGBoost, sur cette base on l'a choisi.

- **SVM lin√©aire**, particuli√®rement efficace sur les repr√©sentations **TF-IDF** issues des s√©quences d‚Äôactions.  
  Le TF-IDF produit des vecteurs tr√®s **creux (sparse)** et de **grande dimension**, o√π chaque dimension correspond √† un n-gramme du vocabulaire.  
  Le SVM lin√©aire est reconnu pour sa **robustesse et son efficacit√©** dans ce type d‚Äôespace vectoriel, car il cherche √† **maximiser la marge** entre les classes √† l‚Äôaide d‚Äôun hyperplan optimal.  
  Cette approche g√©om√©trique permet une **bonne g√©n√©ralisation**, m√™me lorsque le nombre de features d√©passe largement le nombre d‚Äôexemples, ce qui est bien notre cas.  

  De plus, le SVM repose sur une **fonction de co√ªt convexe**, garantissant une solution unique et limitant les risques de **surapprentissage**, fr√©quents sur des donn√©es textuelles bruit√©es.  
  Enfin, il est **peu sensible √† la mise √† l‚Äô√©chelle** des variables TF-IDF (d√©j√† normalis√©es), ce qui simplifie le pipeline et acc√©l√®re l‚Äôentra√Ænement.

En r√©sum√©, le choix du **SVM lin√©aire sur TF-IDF** se justifie par :
- sa capacit√© √† g√©rer efficacement les **espaces vectoriels de grande dimension**,  
- sa **robustesse** et sa **stabilit√© num√©rique**,  
- sa **bonne interpr√©tabilit√©** via les poids associ√©s aux n-grams,  
- et ses **excellentes performances empiriques** sur la classification de texte.

Dans la suite, nous allons montrer que XGBoost capte mieux les **variables statistiques** que SVM avec ou sans prise en compte des variables TF-IDF, ce qui justifiera notre approche de *stacking* (voir plus loin)

In [None]:
# === Donn√©es
X = train[["seq_raw", "seq_txt", "navigateur"]].copy()
y = train["util"].astype(str)

# Encodage des labels (important pour XGBoost)
le = LabelEncoder()
y_enc = le.fit_transform(y)

X_tr, X_va, y_tr, y_va = train_test_split(
    X, y_enc, test_size=0.2, random_state=42, stratify=y_enc
)

# === Blocs de features ===
tfidf_nav = FeatureUnion([
    ("tfidf", Pipeline([
        ("sel_txt", SelectCols(["seq_txt"])),
        ("to_1d", FunctionTransformer(lambda df: df["seq_txt"].astype(str).tolist(), validate=False)),
        ("tfidf", TfidfVectorizer(
            min_df=2,
            ngram_range=(1, 3),
            max_features=20000,
            sublinear_tf=True,
            strip_accents="unicode"
        )),
    ])),
    ("nav", Pipeline([
        ("sel_nav", SelectCols(["navigateur"])),
        ("to_2d", FunctionTransformer(lambda df: df.values, validate=False)),
        ("ohe", OneHotEncoder(handle_unknown="ignore", sparse_output=True))
    ]))
])

agg_only = Pipeline([
    ("sel_raw", SelectCols(["seq_raw"])),
    ("stats", SessionStats()),
    ("to_df", FunctionTransformer(lambda a: pd.DataFrame(a, columns=[
        "n_actions", "n_twins", "n_unique_ctrl", "n_unique_actions",
        "ratio_unique", "ratio_twins", "ratio_actions",
        "n_conf", "n_chain", "twin_span", "twin_gap_mean"
    ]), validate=False)),
    ("scaler", StandardScaler())
])

all_features = FeatureUnion([
    ("tfidf_nav", tfidf_nav),
    ("agg", agg_only)
], n_jobs=-1)

# === Fonction d‚Äô√©valuation ===
def evaluate_model(model, features, name):
    pipe = Pipeline([
        ("features", features),
        ("clf", model)
    ])
    pipe.fit(X_tr, y_tr)
    pred = pipe.predict(X_va)
    score = f1_score(y_va, pred, average="macro")
    print(f"{name} -> F1: {score:.4f}")
    return score

# === Exp√©rimentations ===
results = []

# ---- LinearSVC ----
results.append(("LinearSVC - TFIDF+Nav", evaluate_model(LinearSVC(C=5.0, class_weight='balanced', max_iter=5000), tfidf_nav, "LinearSVC - TFIDF+Nav")))
results.append(("LinearSVC - Agg", evaluate_model(LinearSVC(C=5.0, class_weight='balanced', max_iter=5000), agg_only, "LinearSVC - Agg")))
results.append(("LinearSVC - All", evaluate_model(LinearSVC(C=5.0, class_weight='balanced', max_iter=5000), all_features, "LinearSVC - All")))

# ---- XGBoost ----
xgb_params = dict(
    n_estimators=200,
    max_depth=6,
    learning_rate=0.1,
    subsample=0.8,
    colsample_bytree=0.8,
    tree_method="hist",
    objective="multi:softmax",
    random_state=42,
    num_class=len(np.unique(y_enc))
)

results.append(("XGBoost - TFIDF+Nav", evaluate_model(XGBClassifier(**xgb_params), tfidf_nav, "XGBoost - TFIDF+Nav")))
results.append(("XGBoost - Agg", evaluate_model(XGBClassifier(**xgb_params), agg_only, "XGBoost - Agg")))
results.append(("XGBoost - All", evaluate_model(XGBClassifier(**xgb_params), all_features, "XGBoost - All")))

# === Bilan final ===
results_df = pd.DataFrame(results, columns=["Mod√®le", "F1-score"]).sort_values("F1-score", ascending=False)
print("\n===== R√©sum√© des performances =====")
print(results_df)


In [None]:
results_df[["Mod√®le_base", "Features"]] = results_df["Mod√®le"].str.split(" - ", expand=True)

pivot_df = results_df.pivot(index="Mod√®le_base", columns="Features", values="F1-score")

pivot_df = pivot_df[["TFIDF+Nav", "Agg", "All"]]

pivot_df = pivot_df.loc[pivot_df.mean(axis=1).sort_values(ascending=False).index]

print("===== Tableau comparatif des performances =====")
pivot_df.round(4)

Les r√©sultats pr√©sent√©s dans le tableau comparatif montrent une nette diff√©rence de comportement entre les deux mod√®les selon le type de variables utilis√©es :

- Le **LinearSVC** atteint ses meilleures performances lorsqu‚Äôil est entra√Æn√© uniquement sur les variables **textuelles et cat√©gorielles** (`TF-IDF + navigateur`) avec un **F1-score de 0.93**.  
  En revanche, l‚Äôajout des **variables agr√©g√©es** d√©grade sa performance (F1-score chutant √† 0.92 pour *All* et √† 0.03 pour *Agg* seul) et mettent l'algorithme d'optimisation en difficult√© pour converger (cf. le message √† la sortie de la cellule de comparaison des deux mod√®les : *ConvergenceWarning: Liblinear failed to converge, increase the number of iterations* m√™me avec un nombre maximal d'it√©rations √©gal √† 5000).  
  Cette baisse s‚Äôexplique par la nature lin√©aire du SVM : les variables num√©riques agr√©g√©es, d‚Äô√©chelle et de distribution tr√®s diff√©rentes des repr√©sentations TF-IDF, perturbent l‚Äôhyperplan optimal appris sur l‚Äôespace textuel.  

- Le **XGBoost**, de son c√¥t√©, obtient de meilleurs r√©sultats sur les **variables agr√©g√©es** (F1 = 0.07 contre 0.03 pour le SVM) et s‚Äôadapte mieux aux relations **non lin√©aires** entre les variables num√©riques.  
  En revanche, il reste moins performant que le SVM sur les donn√©es textuelles (F1 ‚âà 0.79).

Ces observations justifient la mise en place d‚Äôun mod√®le combinant les deux mod√®les afin de profiter des avantages des deux. Ce mod√®le se basera sur l'approche du **stacking** o√π :
- le **SVM** est sp√©cialis√© sur les variables textuelles et cat√©gorielles (`TF-IDF + navigateur`),  
- le **XGBoost** se concentre sur les variables **statistiques agr√©g√©es**.

D'abord, donnons un aper√ßu de ce que c'est le **stacking** :

### Principe du stacking

Le **stacking** (ou empilement de mod√®les) est une technique d‚Äô**ensemble learning** qui consiste √† **combiner plusieurs mod√®les de base (base learners)** dont les forces sont compl√©mentaires.  
L‚Äôid√©e est d‚Äôentra√Æner un **m√©tamod√®le** (meta-learner) sur les pr√©dictions des mod√®les de base afin d‚Äôam√©liorer la performance globale.

#### Fonctionnement g√©n√©ral

1. Chaque mod√®le de base est entra√Æn√© sur les m√™mes donn√©es d‚Äôentr√©e mais avec des caract√©ristiques diff√©rentes.
2. Leurs **pr√©dictions** (scores, probabilit√©s ou labels) sont ensuite utilis√©es comme **nouvelles features** pour entra√Æner un mod√®le de niveau sup√©rieur, appel√© **m√©tamod√®le**.
3. Ce m√©tamod√®le apprend √† pond√©rer les sorties des mod√®les de base pour produire une pr√©diction finale plus robuste.

---

#### Illustration sch√©matique

```text
                  Donn√©es d'entr√©e (X)
                          ‚îÇ
        ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
        ‚îÇ                                   ‚îÇ
        ‚ñº                                   ‚ñº
   Mod√®le 1 (SVM)              Mod√®le 2 (bas√© sur les arbres de d√©cision : XGBoost/RandomForest)
   TF-IDF + navigateur                  Features agr√©g√©es
        ‚îÇ                                   ‚îÇ
        ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                       ‚ñº
              M√©tamod√®le (Logistic Regression/SVM)
                       ‚îÇ
                       ‚ñº
               Pr√©diction finale (yÃÇ)


Cette approche permet de **tirer parti des forces compl√©mentaires** des deux mod√®les :  
le SVM capture efficacement les structures discriminantes dans l‚Äôespace textuel, tandis que XGBoost exploite les signaux non lin√©aires contenus dans les agr√©gations num√©riques.  
Le mod√®le de stacking combine ensuite leurs pr√©dictions pour **am√©liorer la robustesse et la g√©n√©ralisation** globale du syst√®me.

## 5.3 Stacking de XGBoost et SVM

Pour le **m√©tamod√®le**, deux mod√®les lin√©aires simples ont √©t√© √©valu√©s : le **SVM** et la **r√©gression logistique**.  
Dans les deux cas, le mod√®le empil√© surpasse les mod√®les individuels entra√Æn√©s sur l‚Äôensemble des variables.  
Cependant, la version utilisant le **SVM comme m√©tamod√®le** obtient un **F1-score sup√©rieur d‚Äôenviron 2 points**, ce qui motive son choix pour la version finale du stacking.  

Les cellules suivantes pr√©sentent le **code d‚Äôentra√Ænement** et les **r√©sultats d√©taill√©s** du mod√®le de stacking retenu.

In [None]:
# ========= TF-IDF + Linear SVM =========
pipe_svm = Pipeline([
    ("features", FeatureUnion([
        ("tfidf", Pipeline([
            ("sel_txt", SelectCols(["seq_txt"])),
            ("to_1d", FunctionTransformer(lambda df: df["seq_txt"].astype(str).tolist(), validate=False)),
            ("tfidf", TfidfVectorizer(
                min_df=2,
                ngram_range=(1, 3),
                max_features=20000,
                strip_accents="unicode",
                sublinear_tf=True
            ))
        ])),
        ("nav", Pipeline([
            ("sel_nav", SelectCols(["navigateur"])),
            ("to_2d", FunctionTransformer(lambda df: df.values, validate=False)),
            ("ohe", OneHotEncoder(handle_unknown="ignore", sparse_output=True))
        ]))
    ], n_jobs=-1)),
    ("clf", LinearSVC(C=4.0))
])

# ========= Features agr√©g√©es + XGBoost =========
pipe_xgb = Pipeline([
    ("agg", Pipeline([
        ("sel_raw", SelectCols(["seq_raw"])),
        ("stats", SessionStats()),
        ("to_df", FunctionTransformer(lambda a: pd.DataFrame(
            a, columns=[
                "n_actions", "n_twins", "n_unique_ctrl", "n_unique_actions",
                "ratio_unique", "ratio_twins", "ratio_actions",
                "n_conf", "n_chain", "twin_span", "twin_gap_mean"
            ]), validate=False))
    ])),
    ("clf", XGBClassifier(
        objective="multi:softprob",
        eval_metric="mlogloss",
        n_estimators=300,
        learning_rate=0.05,
        max_depth=6,
        subsample=0.9,
        colsample_bytree=0.8,
        n_jobs=-1,
        tree_method="hist",
        random_state=42
    ))
])


# Le m√©ta-mod√®le (final)
#meta = LogisticRegression(max_iter=5000, n_jobs=-1)
meta = LinearSVC(C=4.0)
# Combinaison des deux pipelines
stack = StackingClassifier(
    estimators=[
        ("svm", pipe_svm),
        ("xgb", pipe_xgb)
    ],
    final_estimator=meta,
    stack_method="auto", 
    n_jobs=-1,
    passthrough=False
)

stack

In [None]:
X = train[["seq_raw", "seq_txt", "navigateur"]].copy()
y = train["util"].astype(str)

# Encode labels pour XGBoost
le = LabelEncoder()
y_enc = le.fit_transform(y)

X_tr, X_va, y_tr, y_va = train_test_split(
    X, y_enc, test_size=0.2, stratify=y_enc, random_state=42
)

stack.fit(X_tr, y_tr)
pred = stack.predict(X_va)

In [None]:
print("marco-F1-score:", f1_score(y_va, pred, average="macro"))

### Cross-Validation et validation de la performance

Afin de **r√©duire le biais li√© au d√©coupage train/test**, nous appliquons une **validation crois√©e (cross-validation)**  
pour √©valuer la performance du mod√®le de mani√®re plus fiable et repr√©sentative.

In [None]:
f1_macro = make_scorer(f1_score, average="macro")
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# --- Cross-validation ---
scores = cross_val_score(stack, X, y_enc, cv=cv, scoring=f1_macro, n_jobs=-1)

In [None]:
print(f"F1-macro moyen : {np.mean(scores):.4f} ¬± {np.std(scores):.4f}")
print("Scores par fold :", np.round(scores, 4))

### Analyse des performances du stacking

Le mod√®le de **stacking SVM / XGBoost** atteint un **F1-score macro moyen de 0.962**, ce qui repr√©sente une am√©lioration notable par rapport aux mod√®les entra√Æn√©s individuellement sur toutes les variables :

- **LinearSVC** : 0.919  
- **XGBoost** : 0.797  
- **Stacking (SVM + XGBoost)** : 0.962

Cette progression montre que la combinaison des deux mod√®les apporte une vraie valeur ajout√©e.  
Le **stacking** exploite les **forces compl√©mentaires** de chaque mod√®le :
- Le **SVM** capture les relations lin√©aires pr√©sentes dans les variables **textuelles** (issues du TF-IDF) et cat√©gorielles (navigateur).  
- Le **XGBoost** mod√©lise mieux les **relations non lin√©aires** entre les variables **num√©riques agr√©g√©es**.

Le **m√©tamod√®le** (ici un mod√®le lin√©aire) combine leurs pr√©dictions pour pond√©rer leur importance.  
En pratique :
- pour les textes typiques ou bien structur√©s, il fait plus confiance au **SVM** ;  
- pour les comportements num√©riques plus complexes, il s‚Äôappuie davantage sur **XGBoost**.

Ce m√©lange permet d‚Äôobtenir un mod√®le plus **g√©n√©ral**, **robuste** et **√©quilibr√©**, notamment sur les classes rares, ce qui se traduit par la hausse du F1-score macro.

---

## 5.4 Interpr√©tation/Explicabilit√© du mod√®le et importance des variables

Une fois le mod√®le de stacking entra√Æn√©, il est important de comprendre **quelles variables influencent le plus la d√©cision** de chaque sous-mod√®le.

#### Importance des variables dans XGBoost

Dans XGBoost, l‚Äôimportance d‚Äôune variable $x_j$ est mesur√©e selon :
- le **nombre de fois** o√π elle est utilis√©e dans un split d‚Äôarbre,  
- et le **gain moyen** en r√©duction de variance qu‚Äôelle apporte.

Formellement, si une variable $x_j$ est utilis√©e dans plusieurs arbres $T_k$, son importance peut √™tre exprim√©e comme :

$I(x_j) = \sum_{k=1}^{K} \sum_{t \in T_k : \text{split}(t) = x_j} \text{gain}(t)$

o√π $\text{gain}(t)$ repr√©sente la r√©duction d‚Äôerreur (ou de variance) obtenue gr√¢ce au split sur $x_j$.  
Ainsi, plus $I(x_j)$ est √©lev√©, plus la variable contribue √† la performance du mod√®le.

#### Importance des variables dans SVM

Pour le **LinearSVC**, chaque variable poss√®de un **coefficient** $w_j$ dans l‚Äô√©quation de l‚Äôhyperplan s√©parateur :

$w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b = 0$

Ces coefficients indiquent **dans quelle mesure chaque variable influence la pr√©diction** :
- plus la valeur absolue de $w_j$ est grande, plus la variable $x_j$ a un effet fort sur la classification ;
- √† l‚Äôinverse, si $w_j$ est proche de 0, cela signifie que la variable a peu d‚Äôimpact.

L‚Äôorientation de l‚Äôhyperplan d√©pend donc du **vecteur de poids** $\mathbf{w} = (w_1, w_2, \dots, w_n)$.  
Un hyperplan perpendiculaire √† un axe correspond √† un coefficient proche de z√©ro sur cet axe, ce qui traduit une **faible importance** de la variable correspondante.

---

En combinant ces deux analyses, on peut donc identifier :
- les **mots ou expressions discriminants** pour le SVM (issus du TF-IDF),  
- et les **indicateurs statistiques les plus explicatifs** pour XGBoost (comme le nombre d‚Äôactions, les ratios, etc.).

Cela permet de mieux interpr√©ter les d√©cisions du mod√®le final et de **valider la coh√©rence entre les patterns d√©tect√©s et les comportements utilisateurs observ√©s.**


### Interpr√©tabilit√© de la partie XGBoost

In [None]:
xgb_model = stack.named_estimators_["xgb"].named_steps["clf"]

# Importance des features par gain moyen
importance_gain = xgb_model.get_booster().get_score(importance_type="gain")

xgb_importance = (
    pd.DataFrame({
        "feature": list(importance_gain.keys()),
        "importance": list(importance_gain.values())
    })
    .sort_values(by="importance", ascending=False)
    .reset_index(drop=True)
)

print(xgb_importance)

# Visualisation
plt.figure(figsize=(8, 5))
plt.barh(xgb_importance["feature"], xgb_importance["importance"])
plt.gca().invert_yaxis()
plt.title("XGBoost Feature Importance (gain)")
plt.xlabel("Gain moyen")
plt.tight_layout()
plt.show()

Le graphique ci-dessus repr√©sente l‚Äô**importance des variables agr√©g√©es** selon le **gain moyen** mesur√© par XGBoost.  
L‚Äôanalyse cette importance des variables montre que le mod√®le **XGBoost** accorde une place centrale aux variables li√©es √† la **dynamique temporelle** et √† la **diversit√© des interactions**.  
Des indicateurs comme `twin_gap_mean`, `n_unique_ctrl` ou `ratio_actions` ressortent comme les plus informatifs pour d√©crire le comportement d‚Äôun utilisateur pendant une session.

---

Les variables temporelles (`twin_gap_mean`, `twin_span`, `n_twins`) refl√®tent la **rythmicit√© des actions** :  
elles traduisent la mani√®re dont l‚Äôutilisateur interagit avec l‚Äôinterface dans le temps ‚Äî de fa√ßon fluide, s√©quentielle, ou avec des pauses plus marqu√©es.  
Un **√©cart moyen √©lev√©** entre les actions (`twin_gap_mean`) indique un comportement plus lent ou r√©fl√©chi, tandis qu‚Äôun √©cart faible peut correspondre √† des utilisateurs plus rapides ou exp√©riment√©s.

Les variables de **diversit√©** (`n_unique_ctrl`, `n_unique_actions`, `ratio_unique`) capturent des informations sur le type d'actions et leur diversit√© pendant la navigation.  
Un utilisateur qui explore plusieurs contr√¥leurs ou r√©alise de nombreuses actions distinctes adopte un comportement plus exploratoire, typique des profils experts ou curieux.  
√Ä l‚Äôinverse, des s√©quences courtes et r√©p√©titives sugg√®rent des usages cibl√©s, voire automatis√©s.

Enfin, des variables comme `ratio_actions` ou `ratio_twins` refl√®tent un **niveau d‚Äôactivit√© global**, mesurant la proportion d‚Äôactions par rapport √† la longueur de la s√©quence.  
Elles permettent d‚Äô√©valuer le degr√© d‚Äôengagement de chaque session.

### Interpr√©tabilit√© de la partie SVM

In [None]:
svm_pipe = stack.named_estimators_["svm"]
svm_clf = svm_pipe.named_steps["clf"]

# noms de features
tfidf = svm_pipe.named_steps["features"].transformer_list[0][1].named_steps["tfidf"]
tfidf_features = tfidf.get_feature_names_out()

ohe = svm_pipe.named_steps["features"].transformer_list[1][1].named_steps["ohe"]
ohe_features = ohe.get_feature_names_out(["navigateur"])

all_features = np.concatenate([tfidf_features, ohe_features])

# coefficients absolus moyens
coef = svm_clf.coef_
coef_mean_abs = np.mean(np.abs(coef), axis=0)

svm_importances = pd.DataFrame({
    "feature": all_features,
    "importance": coef_mean_abs
}).sort_values(by="importance", ascending=False)

top_n = 20
print(svm_importances.head(top_n))

top_features = svm_importances.head(top_n)

plt.figure(figsize=(8,6))
plt.barh(top_features["feature"], top_features["importance"])
plt.gca().invert_yaxis()
plt.title("Importance globale (SVM)")
plt.xlabel("|poids moyen| sur toutes les classes")
plt.show()

Les trois variables les plus importantes sont li√©es au **navigateur utilis√©** :
- `navigateur_Google Chrome`  
- `navigateur_Firefox`  
- `navigateur_Microsoft Edge`

Cela montre que le **SVM accorde une grande importance au contexte d‚Äôacc√®s**, probablement parce que certains profils d‚Äôutilisateurs ou certaines plateformes (navigateurs) sont associ√©s √† des comportements distincts dans les donn√©es.  
Le mod√®le semble donc avoir appris √† diff√©rencier des patterns d‚Äôusage sp√©cifiques √† chaque environnement.

Ensuite, on retrouve plusieurs actions textuelles significatives comme :
- `a_entree_en_saisie_dans_un_formulaire`  
- `a_raccourci`  
- `a_selection_d_un_flag`  
- `a_lancement_d_un_tableau_de_bord`

Ces actions traduisent des **interactions concr√®tes avec l‚Äôinterface** (saisie, s√©lection, navigation vers un tableau de bord, etc.).  
Elles refl√®tent la **nature des t√¢ches effectu√©es** et permettent au mod√®le de distinguer les utilisateurs selon leurs habitudes fonctionnelles.

Enfin, la pr√©sence r√©p√©t√©e de tokens comme `cfg_installateur`, `c_infologic_core_gui_controllers_blankcontroller`, ou `historique_de_recherche` indique que le SVM capte aussi des **contextes d‚Äôutilisation applicative**, notamment la configuration ou la recherche dans l‚Äôoutil.

---

##### Lecture globale :

Ces r√©sultats montrent que le **SVM met l‚Äôaccent sur la s√©mantique des actions et le contexte d‚Äôutilisation** plut√¥t que sur la structure temporelle.  
Le mod√®le s‚Äôappuie donc sur **le contenu explicite des s√©quences** (mots, √©crans, modules, navigateurs) pour s√©parer les classes.  
C‚Äôest une approche tr√®s compl√©mentaire de celle de **XGBoost**, qui s‚Äôappuie davantage sur les **aspects quantitatifs et dynamiques** des sessions.

#### Synth√®se g√©n√©rale (SVM + XGBoost)

En combinant les deux mod√®les :
- **SVM** d√©crit *ce que l‚Äôutilisateur fait* : actions, formulaires, navigation, etc.  
- **XGBoost** d√©crit *comment il le fait* : rythme, diversit√©, intensit√©, etc.  

Cette double lecture ‚Äî **s√©mantique et comportementale** ‚Äî permet au stacking d‚Äôobtenir une vision compl√®te des utilisateurs et d‚Äôexpliquer se performance par rapport aux mod√®les individuels.

## 5.5 Simplification du mod√®le

Nous pouvons aller plus loin en **r√©duisant la dimensionnalit√©** des features g√©n√©r√©es par le `TfidfVectorizer`.  
En effet, ces repr√©sentations sont tr√®s **hautes dimensions et creuses (sparse)**, ce qui est, d'une part beaucoup moins efficace en terme de m√©moire et d'autre part, peut ralentir l‚Äôapprentissage.  

Pour pallier cela, on peut projeter ces vecteurs dans un espace de plus petite dimension √† l‚Äôaide d‚Äôun algorithme de **r√©duction de dimension**, tel que :
- **UMAP**, que nous conna√Æssons tr√®s bien, adapt√© pour pr√©server la structure locale et globale des donn√©es,
- ou **TruncatedSVD**, particuli√®rement efficace pour les **matrices creuses** issues du TF-IDF.

Dans les prochaines cellules, nous appliquerons un **TruncatedSVD** sur la sortie du `TfidfVectorizer`, en projetant les donn√©es dans un espace de **400 dimensions**, puis nous analyserons **l‚Äôimpact de cette r√©duction sur les performances moyenne (apr√®s validation crois√©e) du mod√®le**.

In [None]:
# ========= TF-IDF + Linear SVM =========
pipe_svm = Pipeline([
    ("features", FeatureUnion([
        ("tfidf", Pipeline([
            ("sel_txt", SelectCols(["seq_txt"])),
            ("to_1d", FunctionTransformer(lambda df: df["seq_txt"].astype(str).tolist(), validate=False)),
            ("tfidf", TfidfVectorizer(
                min_df=2,
                ngram_range=(1, 3),
                max_features=20000,
                strip_accents="unicode",
                sublinear_tf=True
            )),
        ("svd", TruncatedSVD(
            n_components=400,      # üîß √† ajuster selon la taille du corpus
            random_state=42
        ))
    ])),
        ("nav", Pipeline([
            ("sel_nav", SelectCols(["navigateur"])),
            ("to_2d", FunctionTransformer(lambda df: df.values, validate=False)),
            ("ohe", OneHotEncoder(handle_unknown="ignore", sparse_output=True))
        ]))
    ], n_jobs=-1)),
    ("clf", LinearSVC(C=4.0))
])

# ========= Features agr√©g√©es + XGBoost =========
pipe_xgb = Pipeline([
    ("agg", Pipeline([
        ("sel_raw", SelectCols(["seq_raw"])),
        ("stats", SessionStats()),
        ("to_df", FunctionTransformer(lambda a: pd.DataFrame(
            a, columns=[
                "n_actions", "n_twins", "n_unique_ctrl", "n_unique_actions",
                "ratio_unique", "ratio_twins", "ratio_actions",
                "n_conf", "n_chain", "twin_span", "twin_gap_mean"
            ]), validate=False))
    ])),
    ("clf", XGBClassifier(
        objective="multi:softprob",
        eval_metric="mlogloss",
        n_estimators=300,
        learning_rate=0.05,
        max_depth=6,
        subsample=0.9,
        colsample_bytree=0.8,
        n_jobs=-1,
        tree_method="hist",
        random_state=42
    ))
])

# Le m√©ta-mod√®le (final)
#meta = LogisticRegression(max_iter=5000, n_jobs=-1)
meta = LinearSVC(C=4.0)
# Combinaison des deux pipelines
reduced_stack = StackingClassifier(
    estimators=[
        ("svm", pipe_svm),
        ("xgb", pipe_xgb)
    ],
    final_estimator=meta,
    stack_method="auto", 
    n_jobs=-1,
    passthrough=False
)

reduced_stack

In [None]:
X = train[["seq_raw", "seq_txt", "navigateur"]].copy()
y = train["util"].astype(str)

# Encode labels pour XGBoost
le = LabelEncoder()
y_enc = le.fit_transform(y)

X_tr, X_va, y_tr, y_va = train_test_split(
    X, y_enc, test_size=0.2, stratify=y_enc, random_state=42
)

f1_macro = make_scorer(f1_score, average="macro")
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# --- Cross-validation ---
reduced_scores = cross_val_score(reduced_stack, X, y_enc, cv=cv, scoring=f1_macro, n_jobs=-1)

In [None]:
print(f"marco-F1-score moyen apr√®s l'application de TruncatedSVD pour simplifier les donn√©es : {np.mean(reduced_scores):.4f} ¬± {np.std(reduced_scores):.4f}")
print("Scores par fold :", np.round(reduced_scores, 4))

Apr√®s l‚Äôapplication du **TruncatedSVD** pour r√©duire la dimension des vecteurs TF-IDF de **20000 composantes** √† **400 composantes**, le mod√®le atteint un **F1-score macro moyen de 0.9572**.  
Ce score reste tr√®s proche de celui obtenu avant la r√©duction (‚âà 0.962), ce qui montre que **la simplification du mod√®le n‚Äôentra√Æne qu‚Äôune l√©g√®re perte de performance** tout en offrant l'avantage important de la **r√©duction significative de la taille des features** et donc un gain en efficacit√© pour la m√©moire,  

En r√©sum√©, le **TruncatedSVD** permet de conserver l‚Äôessentiel de l‚Äôinformation textuelle tout en rendant le pipeline plus efficace et plus robuste.

# 6. Soumission Kaggle
M√™me si la r√©duction de dimension par **TruncatedSVD** permet de simplifier la repr√©sentation textuelle tout en maintenant un bon niveau de performance (**F1-macro = 0.946**),  
nous avons choisi d‚Äôutiliser, pour la **soumission finale sur Kaggle**, le **mod√®le complet sans r√©duction de dimension**, qui atteint un **F1-macro de 0.958**.

Ce choix s‚Äôexplique principalement par le fait que, malgr√© la r√©duction du nombre de dimensions, **l‚Äôapplication du SVD augmente la consommation m√©moire**, car elle n√©cessite de stocker la matrice dense projet√©e.  
De plus, la l√©g√®re perte d‚Äôinformation observ√©e lors de la projection dans un espace r√©duit peut p√©naliser la d√©tection de classes sp√©cifiques et surtout les classes rares.

Ainsi, pour la comp√©tition Kaggle, o√π l‚Äôobjectif est d‚Äôobtenir la **meilleure performance possible**, nous conservons le **mod√®le le plus complet**, qui exploite toute la richesse des vecteurs TF-IDF d‚Äôorigine.  
La version r√©duite avec SVD reste n√©anmoins int√©ressante pour des analyses exploratoires ou des contextes √† ressources limit√©es.

‚ö†Ô∏è **Important :** pour la soumission finale, nous n‚Äôallons pas utiliser le mod√®le entra√Æn√© sur 80 % des donn√©es et valid√© sur 20 %,  
mais plut√¥t **r√©entra√Æner le pipeline de stacking sur l‚Äôensemble du jeu de donn√©es**, en conservant les m√™mes hyperparam√®tres.  
Cette approche permet de **mieux exploiter toutes les donn√©es disponibles** pour am√©liorer la g√©n√©ralisation du mod√®le  
et **potentiellement obtenir un score plus √©lev√© sur le leaderboard Kaggle**.


In [None]:
stack.fit(X, y_enc)

test_df = test[["seq_raw","seq_txt","navigateur"]].copy()
test_pred = stack.predict(test_df)
test_pred = le.inverse_transform(test_pred)

sub = pd.DataFrame({
    "RowId": np.arange(len(test_pred)) + 1,
    "prediction": test_pred
})

sub.to_csv("../submissions/submission_v3.csv", index=False)
print("Saved submission.csv")