# Identification des utilisateurs de Copilote

**MOD 7.2 (Introduction à la sciences des données)**, BE séances 1, 2, 3

**Enseignants :** Julien Velcin (CM, BE), Erwan Versmée (BE)

Le projet qu'on vous demande de réaliser concerne le traitement de **traces d'utilisation** du logiciel Copilote. Ce logiciel édité par la société Infologic, concerne le secteur de l'agro-alimentaire et est utilisé par de nombreux acteurs industriels.

L'étude de ces traces est très important pour l'entreprise. Elle permet entre autre d'améliorer son offre auprès de ses clients. Le projet vous propose de travailler sur des **modèles d'analyse automatique** de ces traces.

## Consignes

### Délimitation du travail

Pour ce projet, vous travaillerez par groupe de 3 élèves. Des groupes plus petits peuvent être autorisés même s'ils ne sont pas conseillés.

Les 3 séances doivent vous permettre d'avancer dans la résolution du problème qui est présenté sur la [page Kaggle de la compétition](https://www.kaggle.com/competitions/qui-utilise-mon-appli-challenge/). Elles seront grosso modo organisées de la manière suivante :

1. Découverte des données, construction des variables, mise en forme tabulaire, nettoyage, premières explorations et visualisations
2. Explorations plus avancées des données, développement d'un premier modèle de classification automatique
3. Optimisation de votre solution de classification automatique, participation au challenge

A l'issue de ces trois séances, vous aurez un peu plus d'une semaine supplémentaire pour compléter ce travail.

Date limite de rendu : **2/11/25 au soir**

### Ce qui est attendu

Le rendu consiste en 3 éléments :

- le *code Python* de votre solution, code qui doit être ré-exécutable dans un autre environnement (à priori, python en version 3.13). N'oubliez pas de fournir également les bibliothèques nécessaires par ex. via un fichier *requirements.txt*
- un *rapport* au format PDF de 5 à 8 pages qui doit présenter succinctement votre travail, les choix que vous avez faits et leurs motivations, les résultats obtenus.
- le *dépôt* de vos prédictions sur l'ensemble de test du challenge.

Le **rapport** doit être déposé sur la page moodle de l'enseignement. Il doit être au format PDF et faire entre 5 et 8 pages. Il présente le problème que vous attaquez et comment vous proposez d'y répondre. Il faut en particulier présenter les différentes caractéristiques choisies, si nécessaire avec une petite explication, et les approches de classification mises en oeuvre. Il faut bien sûr présenter les résultats obtenus, en précisant bien les métriques employées, identifier si possible les variables les plus influentes, mener une petite discussion, avant de conclure.

Le **code** doit être suffisamment bien structuré et commenté pour qu'un observateur en comprenne rapidement le fonctionnement, y compris à la lumière du rapport. N'hésitez pas à le rendre disponible sur une plateforme de type git (avec le fichier README adapté) et de fournir l'url directement dans le rapport. Sinon, vous pouvez aussi fournir le code dans une archive (ZIP, TAR...) et le déposer en même temps que votre rapport, mais *sans* y mettre les fichiers de données.

Il est possible de rendre un notebook *à condition* que celui-ci soit succinct et très lisible (ce qui ne veut pas dire que le code intégral soit, lui, succinct).

Le **dépôt** doit être réalisé sur le page du leaderboard de la compétition :

- Groupe TD - 1 (8h-10h), Julien Velcin : https://www.kaggle.com/t/077eb1959d124b11971668f381767f06
- Groupe TD - 2 (8h-10h), Erwan Versmée :  https://www.kaggle.com/t/2374f58cda734c69a28a8ba3ef6692e8
- Groupe TD - 3 (10h-12h),  Julien Velcin :  https://www.kaggle.com/t/ce3349734cc44028bad2875d462e7085
- Groupe TD - 4 (10h-12h), Erwan Versmée :  https://www.kaggle.com/t/6435d33bed324430a9749337b04c2168

### Evaluation

L'évaluation de ce travail sera réalisée selon trois critères :

- mise en place d'une chaîne de traitement complète d'analyse
- capacité à expliquer et motiver les différents traitement mis en oeuvre
- production d'une solution efficace dans un contexte concurrentiel

En plus d'une note /20, vous serez également évalué lors de la 3ème séance de BE selon la compétence C2C2 **Résoudre et arbitrer** :

- *A (remarquable si)* : identifie les méthodes les plus pertinentes pour répondre au problème imposé, exploite la méthode choisie pour répondre au problème, choisit des critères pertinents pour évaluer l'efficacité.
- *C (acquis si)* : identifie les méthodes les plus pertinentes pour répondre au problème imposé, exploite la méthode choisie pour répondre au problème.
- *F (à travailler si)* : n'identifie pas les méthodes les plus pertinentes pour répondre au problème imposé, et/ou propose une exploitation de la méthode choisie qui ne répond pas suffisamment au problème.

## Résolution du problème

Nous vous proposons de suivre les étapes suivantes dans le traitement de cette problématique :

- Prendre connaissance du problème et des données à votre disposition
- Chargement des données brutes en mémoire
- Première analyse de ces données
- Construction de caractéristiques adaptées
- Statistiques simples sur les variables construites
- Développement d'une solution de classification automatique
- Evaluation de votre solution
- Discussion au sujet de vos résultats


## Prendre connaissance du problème et des données à votre disposition

Pour commencer, allez lire la description plus détaillée du problème qui vous est donnée sur la page du challenge mis en place cette année (cf. lien ci-dessus).

Les données sont présentées plus en détail et téléchargeables via l'onglet "data".

L'objectif consiste à comprendre à quoi correspondent chacune des lignes du tableau des données et commencer à vous poser des questions sur la manière d'utiliser ces données pour répondre au challenge. Pour le moment, vous pouvez utiliser un **simple éditeur** (comme Notepad++, Sublime Text...) pour aller voir le contenu des fichiers, les importer dans Excel (mais attention car le volume peut rendre les manipulatins difficiles), ou passer déjà par Python si vous êtes suffisamment à l'aise.

## Chargement des données brutes en mémoire

La toute première étape dans le traitement des données avec Python est de les charger en mémoire pour pouvoir mieux les examiner. Plusieurs solutions s'offrent alors à vous, parmi lesquelles :

- utiliser la librairie Pandas et les méthodes qui permettent de charger directement les données dans des DataFrame comme *readcsv*,
- ouvrir le fichier texte en mode lecture (*open*) et parcourir les lignes grâce à la commande *readlines()*

Cette dernière approche semble plus robuste au regard de la régularité du fichier d'entrée. Identifiez le délimiteur qui permet de séparer les différentes actions de l'utilisateur et utilisez-le pour construire la liste des actions réalisées.

In [None]:
import pandas as pd
import os
import csv

def read_ds(ds_name: str):
    """Robust CSV loader for files where rows have variable field counts.
    Uses Python's csv.reader to parse lines, pads rows to the maximum column count with empty strings,
    and returns a pandas DataFrame with missing values replaced by empty strings.
    Accepts either 'train' or 'train.csv' as input.
    """
    filename = ds_name if ds_name.endswith('.csv') else ds_name + '.csv'
    path = os.path.join('data', filename)
    # Read using csv.reader which avoids pandas C-engine tokenization errors on malformed rows
    with open(path, 'r', encoding='utf-8', errors='replace') as f:
        reader = csv.reader(f)
        rows = [row for row in reader]
    if not rows:
        print(f"No rows read from {path}")
        return pd.DataFrame()
    max_cols = max(len(r) for r in rows)
    padded = [r + [''] * (max_cols - len(r)) for r in rows]
    df = pd.DataFrame(padded)
    df = df.fillna('')
    print(df.head())
    return df

# Example call (accepts with or without .csv)
read_ds('train.csv')

ParserError: Error tokenizing data. C error: Expected 3130 fields in line 42, saw 3259


In [None]:
features_train = read_ds("train")
features_test = read_ds("test")
features_train.shape, features_test.shape

In [None]:
features_train.head()

## Première analyse de ces données

Les données contiennent l'utilisateur (e.g. la variable dépendante, uniquement pour l'ensemble d'apprentissage), le navigateur choisi par l'utilisateur, puis toutes les actions effectuées dans la session par l'utilisateur actuel. Un marqueur spécial « tXX » indique un intervalle de temps de 5 secondes.

In [None]:
features_train.loc[:,:20].head()

La première observation des données montre que nous avons un nombre considérable de colonnes (14470), mais la plupart d'entre elles semblent contenir des valeurs NaN, ce qui est logique puisque pandas étend les lignes comportant moins de colonnes afin qu'elles aient toutes le même nombre de colonnes, ajoutant ainsi des valeurs NaN aux champs manquants. Quelques utilisateurs ont gardé la même session pendant une très longue durée, alors que la plupart ont des sessions plus courtes ou de durée moyenne. Ainsi, les quelques sessions longues ont entraîné l'extension de toutes les autres à leur durée. C'est de là que proviennent toutes ces valeurs NaN.

In [None]:
# TODO: Inspecter les valeurs distinctes des navigateurs

Quelques fonctions "utilitaires" qui pourraient vous être utiles (ou pas) :

In [None]:
import warnings
from IPython.display import display, Markdown

# décorateurs utilitaires pour supprimer les avertissements de la sortie et imprimer un cadre de données dans un tableau Markdown.
def ignore_warnings(f):
    def _f(*args, **kwargs):
        warnings.filterwarnings('ignore')
        v = f(*args, **kwargs)
        warnings.filterwarnings('default')
        return v
    return _f

# affiche un DataFrame Pandas sous forme de tableau Markdown dans un notebook Jupyter.
def markdown_table(headNtail=False, use_index=True, title=None, precision=2):
    def _get_value(val): return str(round(val, precision) if isinstance(val, float) else val)
    def _format_row(row): 
        row_str = ""
        if use_index: row_str += f"|{str(row.name)}"
        for value in row.values: row_str += f"| {_get_value(value)}"
        return row_str + "|"
    def _get_str(df):
        return "\n".join(df.apply(_format_row, axis=1))
    def _deco(f):
        def _f(*args, **kwargs):
            df = f(*args, **kwargs)
            _str = f"#### {title}\n" if title else ""
            header = ([str(df.index.name)] if use_index else []) + df.columns.astype(str).to_list() 
            _str += f"|{'|'.join(header)}|" + f"\n|{'--|'*len(header)}\n" if header else None
            if headNtail:
                _str += _get_str(df.head())
                _str += "\n|...|...|\n"
                _str += _get_str(df.tail())
            else:
                _str += _get_str(df)
            display(Markdown(_str))
        return _f
    return _deco

# fonction utilitaire permettant d'obtenir une grille graphique à partir d'un nombre arbitraire de lignes/colonnes ou de données.
def get_grid(n, n_row=None, n_col=None, titles=None, figsize=(10, 8), wspace=.5, hspace=.5, **kwargs):
    if n_row: n_col= n_col or math.floor(n/n_row)
    elif n_col: n_row= n_row or math.ceil(n/n_col)
    else:
        n_row = math.ceil(math.sqrt(n))
        n_col = math.floor(n/n_row)
    fig, axs = plt.subplots(n_row, n_col, figsize=figsize, **kwargs)
    plt.subplots_adjust(hspace=hspace, wspace=wspace)
    if titles is not None:
        for ax, title in zip(axs.flat, titles): ax.set_title(title)
    return fig, axs

Maintenant que nous avons un premier aperçu de nos données, approfondissons un peu et examinons quelques statistiques à leur sujet.

In [None]:
@markdown_table(title="Navigateur par utilisateur", headNtail=True)
def browsers_per_player(df):
    # Afficher ici pour chaque utilisateur (en ligne) le nombre de fois qu'il a utilisé chaque navigateur (en colonne)

# TODO: inspecter d'autre statistiques du jeu de données (la variable dépendante Y sera inspecté dans la prochaine cellule)

// Votre analyse ici

In [None]:
@markdown_table(headNtail=True, title="Stats: Y distribution")
def get_Y_stats(df):
    # Inspecter la distribution de la variable dépendante ici (Y)

// Votre analyse ici

## Construction de caractéristiques

### Traitements préliminaires

En fonction du modèle choisi, différentes étapes de pré-traitement peuvent être nécessaire. Voir https://scikit-learn.org/stable/supervised_learning.html pour des exemples de modèles dans le cas supervisé (notre cas). Quelques exemples : 
- SVMs
- Régression logistiques
- Arbres de décision
- Modèle ensembliste (Random Forest, XGBoost, etc.)
- Réseaux de neurones 

Il faut commencer par se demander s'il y a des valeurs aberrantes (*outliers*) et, le cas échéant, appliquer le traitement approprié (pour le moment vous pouvez à priori les supprimer).

In [None]:
# TODO: inspecter s'il y a des valeurs aberrantes, et les enlever le cas échéant

### Variable de classe
Notre variable dépendante est une chaîne de caractères (str). Nous pouvons la convertir en codes catégoriels (numériques) à l'aide de la fonction pd.Categorical.

In [None]:
features_train["util"] = pd.Categorical(features_train["util"])

pd.Categorical ne modifie pas directement l'ID utilisateur en un nombre, mais lui ajoute un attribut cat.codes. Nous pouvons créer une petite fonction pour convertir la variable de classe d'une chaîne de caractères en son ID de catégorie :

In [None]:
def to_categories(df, col="util"):
    df[[col]] = df[[col]].apply(lambda x: x.cat.codes)

### Obtention des caractéristiques...

Nous allons maintenant créer des caractéristiques à partir de l'ensemble de données. Pour cela, il va falloir comprendre leur format, les parser et voir comment les agréger. On peut commencer par inspecter toutes les actions différentes, indépendemment des informations sur l'écran ou la fiche travaillée.

In [None]:
def filter_action(value: str):
    for delim in [ "(", "<", "$", "1"]:
        if delim in value and (low_ind := value.index(delim)):
            value = value[:low_ind]
    return value

uniques = features_train.iloc[:,2:].stack().unique()
filtered_uniques = list(set([filter_action(un) for un in uniques if not un.startswith("t")]))
len(filtered_uniques), filtered_uniques

In [None]:
#TODO Définir des features sur les données brutes et les placer dans un nouveau dataframe

Ensuite, on peut employer des fonctions plus complexes pour extraire l'écran le plus utilisé, la configuration d'écran la plus utilisé et la chaîne (catégorie) de la fiche la plus utilisé. Pour vous aider, voici les expressions régulières (*regex*) qui permettent d'extraire de telles informations. N'hésitez pas à extraire d'autres informations si cela vous parait pertinent.

In [None]:
import re
from collections import Counter

pattern_ecran = re.compile(r"\((.*?)\)")
pattern_conf_ecran = re.compile(r"<(.*?)>")
pattern_chaine = re.compile(r"\$(.*?)\$")


### Traitement des chaînes de caractère
La colonne navigateur ne peut prendre que quatre valeurs ; pour la convertir en nombre, on a deux choix : 
- la convertir en variable catégorielle comme nous l'avons fait avec notre variable dépendante
- la convertir en One-Hot Encoding (OHE), un pour chaque navigateur. Pandas propose également une fonction pour cela : get_dummies

En fonction du modèle, l'un ou l'autre peut être plus pertinent (par exemple, pour un arbre de décision ?).

In [None]:
#TODO : traiter les chaînes de caractères

## Statistiques simples sur les variables

### Inspection des caractéristiques

Commencez par inspecter les caractéristiques que vous avez construites, et afficher des graphiques en les interprétant. Vous pouvez utiliser la librairie Matplotlib à cette fin.

In [None]:
fig, (ax1, ax2, ax3) = plt.subplots(ncols=3, sharey=True, figsize=(20,6))
# TODO: afficher des graphiques de trois features différentes sur les trois axes donnés

// Votre analyse ici

### Inspection de la corrélation d'une caractéristique pour une classe particulière
Comme il peut être difficile d'inspecter les données lorsque nous avons un tel nombre de classes possibles, nous pouvons commencer par tracer des graphiques de corrélation pour une ou quelques cibles particulières, choisies arbitrairement.


In [None]:
def plot_categories(categories, type_="box", feature="actions_means"):
    fig, axs = get_grid(len(categories), n_row=1, figsize=(16, 4))
    # TODO : afficher les graphiques des catégories passées en paramètre

In [None]:
categories = [0, 15, 152, 199]
plot_categories(categories)

Un boxplot est très utile pour estimer la distribution d'une caractéristique au sein d'une catégorie (cf. cours), mais d'autres visualisations peuvent servir comme les violin plots, cf. : https://www.data-to-viz.com



// à compléter

## Développement d'une solution de classification automatique

Une fois que vous avez exploré les données et mieux compris comment résoudre la tâche qui vous est confiée, c'est le moment de commencer à développer votre solution de classification automatique supervisée.

La première opération consiste à séparer votre jeu de données en deux sous-ensembles : un jeu d'entraînement (**training set**) et un jeu de validation (**validation set**). Le jeu de validation vous aidera dans la sélection du meilleur modèle. Suivant les algorithmes employés, et leur coût computationnel, vous pourriez aussi avoir recours à la validation croisée à K-folds (*K-fold cross validation*).

Il s'agit ensuite de tester plusieurs algorithmes classiques et de faire varier ses hyper-paramètres, tel que :

- Régression logistique
- Machines à vecteurs supports (SVM) : différents types de noyau (linéaire, polynomial à différents degrés)
- Arbres de décisions simples
- Ensembles d'arbres (Random Forest, XGBoost) : nombre d'arbres
- Réseaux de neurones artificiels (simple MLP) : nombre de couches, nombre de neurones par couche

Vous pouvez également tester les méthodes de régularisation afin d'obtenir des modèles parcimonieux.

Pour cela, vous privilégierez l'usage de la librairie *scikit-learn*.

## Evaluation de votre solution

Les algorithmes déployés dans la section précédente permettent de réaliser des prédictions sur des données qui n'ont pas été vus durant l'entraînement. Dans le cadre de cette compétition, vous utiliserez pour ça un ensemble de validation.

Il s'agit à présent de définir convenablement et d'utiliser les métriques les plus appropriées à votre tâche. On vous conseille à minima d'employer la **réussite simple** en classification (*accuracy*) et la **F-Mesure** (ou F1-score) mais vous êtes aussi encouragés à utiliser d'autres manière d'évaluer l'efficacité d'un modèle.

// à compléter

## Discussion au sujet de vos résultats

Il faut discuter de vos résultats, si possible en prenant en compte tous les critères que vous jugerez utiles (cf. mesures discutées dans la partie précédente).

## Evaluation sur l'ensemble de données de test

Il s'agit enfin d'utiliser votre modèle sur l'ensemble de données de test fourni.

In [None]:
#TODO: preprocess test dataset, compute features values and post-process it (handle string, etc.)
test_processed_df = # TODO

In [None]:
preds_test =  votre_modele.predict(test_processed_df)
preds_test

## Soumission à la compétition Kaggle

Il faut bien mettre en forme le fichier que vous pourrez utiliser pour soumettre sur le site de la compétitiokn.

In [None]:
preds_test = pd.Categorical.from_codes(preds_test, features_train["util"].cat.categories)
df_subm = pd.DataFrame(preds_test)
df_subm = df_subm.rename_axis('RowId')
df_subm.rename(columns={0: 'prediction'}, inplace=True)
df_subm.index = df_subm.index + 1
df_subm

In [None]:
df_subm.to_csv('submission.csv')