In [3]:
from sklearn.model_selection import train_test_split
import pandas as pd
from pathlib import Path
import os
import sys
sys.path.insert(0, str(Path(os.getcwd()).resolve().parent.parent))
from src.utils.tools import create_dummies

list_var_num: list = ['Duree_credit', 'Montant_credit', 'Age']
list_var_cat: list = ['Objet_credit', 'Historique_credit', 'Epargne', 'Anciennete_emploi', 
           'Situation_familiale', 'Anciennete_domicile', 'Nb_credits', 'Biens', 
           'Type_emploi', 'Comptes', 'Taux_effort', 'Autres_credits', 'Statut_domicile', 
           'Garanties', 'Telephone', 'Nb_pers_charge', 'Etranger']
target: str = "Cible"

path = Path("../../data/processed/credit_scoring_with_labels.parquet").resolve() # chemin vers fichier csv
df = pd.read_parquet(path)
df[list_var_cat] = df[list_var_cat].astype("category")

### 4. Discr√©tisation des variables continues  _(bonus)_

<div class="alert alert-block alert-warning">
<b> Question 23:</b> Pourquoi discr√©tiser ? 
</div>

<div class="alert alert-block alert-success">
<b> R√©ponse:</b> Cela peut permettre de capter les liens non lin√©aires qui peuvent exister entre la variable explicative continue et la variable cible
</div>

<div class="alert alert-block alert-warning">
<b> Question 24:</b> Pour quel(s) type(s) de mod√©lisations la discr√©tisation est-t-elle le plus utile ? Le moins utile ?
</div>

<div class="alert alert-block alert-success">
  <b>R√©ponse :</b>
  <ul>
    <li>Le plus utile : La r√©gression logistique, KNN</li>
    <li>Le moins utile : La discr√©tisation des variables continues n'est <b>pas n√©cessaire</b> pour les <b>mod√®les √† base d'arbres</b> puisque par construction, ils feront eux-m√™mes les d√©coupages (i.e. la discr√©tisation). N√©anmoins, cela peut rester int√©ressant</li>
  </ul>
</div>


<div class="alert alert-block alert-info">
  <b>M√©thodes de discr√©tisation des variables continues :</b>
  <a href="https://eric.univ-lyon2.fr/ricco/cours/slides/discretisation.pdf">
    https://eric.univ-lyon2.fr/

### 5. Pr√©paration √† la mod√©lisation

<div class="alert alert-block alert-info">
  <b>‚ö†Ô∏è Remarque tr√®s importante :</b>
  pensez √† utiliser la m√™me s√©paration apprentissage/test pour TOUS vos mod√®les afin de les rendre comparables entre eux.
</div>


#### 5.1 S√©paration Apprentissage/Test

<div class="alert alert-block alert-warning">
<b> Question 26:</b> Construisez nos deux paires d'√©chantillons en respectant les proportions suivantes :
<br>- 80% pour l'√©chantillon d'apprentissage
<br>- 20% pour l'√©chantillon de test
</div>

<div class="alert alert-block alert-info">
<b>‚ÑπÔ∏è Aide :</b> utilisez la fonction <code>train_test_split</code> de la library <code>sklearn.model_selection</code>
</div>

In [4]:
X_train, X_test, y_train, y_test = train_test_split(df, df[target],
                                                    test_size=0.2, stratify=df[target]) 
del X_train[target], X_test[target] # On retire la variable cible 

In [5]:
print(f"Echantillon train: Part y=1 : {y_train.astype(int).mean()}")
print(f"Echantillon test: Part y=1 : {y_test.astype(int).mean()}")

Echantillon train: Part y=1 : 0.3
Echantillon test: Part y=1 : 0.3


#### 5.2 Gestion des valeurs manquantes

<div class="alert alert-block alert-warning">
<b> Question 24:</b> Etudier le nombre de valeurs manquantes pour tous les champs. Puis faites un print des champs contenant des valeurs manquantes.
</div>

<div class="alert alert-block alert-success">
<b> R√©ponse:</b>
</div>

In [6]:
# Pour covariables
for name, dataframe in {"X_train": X_train, "X_test": X_test}.items():
    tmp = dataframe.isna().sum().reset_index().rename(columns={'index':'Field',0:'Nb_missing'})
    list_with_nan =  tmp.loc[tmp['Nb_missing']>0,'Field'].tolist()
    if len(list_with_nan)>0:
        print(f"{name} // Liste des variables contenant des valeurs manquantes {list_with_nan}")
# Pour variable cible
for name, values in {"y_train": y_train, "y_test": y_test}.items():
    nb_missing_values = values.isna().sum()
    if nb_missing_values>0:
        print(f"{name}: {nb_missing_values} valeurs manquantes")

<div class="alert alert-block alert-warning">
<b> Question 24:</b> Citez quelques m√©thodes pour traiter les valeurs manquantes (pour les variables explicatives)
</div>

<div class="alert alert-block alert-success">
  <p><b>R√©ponse :</b></p>
  <table>
    <thead>
      <tr>
        <th>M√©thode</th>
        <th>Description</th>
      </tr>
    </thead>
    <tbody>
      <tr>
        <td>Suppression</td>
        <td>Retirer les lignes contenant des valeurs manquantes ou supprimer la variable si trop de valeurs sont manquantes.</td>
      </tr>
      <tr>
        <td>Imputation par valeur statistique</td>
        <td>Remplacer les valeurs manquantes par une statistique (moyenne pour les variables num√©riques, m√©diane ou mode pour les variables cat√©gorielles).</td>
      </tr>
      <tr>
        <td>Imputation par mod√®le pr√©dictif</td>
        <td>Pr√©dire la valeur manquante √† l'aide d'un mod√®le (par exemple, r√©gression ou k-Nearest Neighbors) bas√© sur les autres variables.</td>
      </tr>
      <tr>
        <td>Imputation multiple</td>
        <td>Utiliser des m√©thodes comme MICE (Multiple Imputation by Chained Equations) pour g√©n√©rer plusieurs jeux d‚Äôimputations et prendre en compte l‚Äôincertitude.</td>
      </tr>
      <tr>
        <td>Algorithmes d'apprentissage automatique</td>
        <td>Recourir √† des mod√®les capables de g√©rer directement les valeurs manquantes (par exemple, certains arbres de d√©cision ou for√™ts al√©atoires).</td>
      </tr>
    </tbody>
  </table>
</div>


#### 5.2 Encoding des variables cat√©gorielles

<div class="alert alert-block alert-warning">
<b> Question 25:</b> Citez au moins 2 raisons pour lesquelles il est important de r√©aliser un encoding des variables cat√©gorielles
</div>

<div class="alert alert-block alert-success">
  <p><b>R√©ponse :</b></p>
  <table>
    <thead>
      <tr>
        <th>Raison</th>
        <th>D√©tails</th>
      </tr>
    </thead>
    <tbody>
      <tr>
        <td>Compatibilit√© avec les algorithmes de ML</td>
        <td>Un grand nombre d'algorithmes n'autorisent que des variables num√©riques.</td>
      </tr>
      <tr>
        <td>√âviter une relation d'ordre inappropri√©e</td>
        <td>Par exemple, 1 pour ¬´ rouge ¬ª, 2 pour ¬´ bleu ¬ª, 3 pour ¬´ vert ¬ª risque de cr√©er une hi√©rarchie ou une distance artificielle entre elles. L'encodage en dummies √©vite ce biais en cr√©ant une colonne binaire pour chaque cat√©gorie.</td>
      </tr>
      <tr>
        <td>Faciliter/Rendre possible l'interpr√©tation des r√©sultats</td>
        <td></td>
      </tr>
    </tbody>
  </table>
</div>


#### 5.2.1 One hot encoding

<div class="alert alert-block alert-info">
<b>üîî Rappel :</b> Le One hot encoding consiste √† transformer une variable cat√©gorielle en plusieurs colonnes binaires, chacune indiquant la pr√©sence (1) ou l'absence (0) d'une cat√©gorie donn√©e pour chaque observation
</div>

<div class="alert alert-block alert-warning">
<b> Question 26:</b> Que faire si ma variable √† dummiser a un grand nombre de modalit√©s distinctes ?
</div>

<div class="alert alert-block alert-success">
  <b>R√©ponse :</b>
  <ul>
    <li>r√©duire le nombre de modalit√©s</li>
    <li>adopter une autre m√©thode d'encoding</li>
  </ul>
</div>

<div class="alert alert-block alert-warning">
<b> Question 27:</b> Appliquer le One Hot Encoding aux variables cat√©gorielles du dataset
</div>

<div class="alert alert-block alert-info">
<b>‚ÑπÔ∏è Aide :</b> utilisez la fonction <code>create_dummies</code>
</div>

In [7]:
# Rappel du nombre de modalit√©s pour chaque variable cat√©gorielle
print("Jeu de donn√©es train:")
print(X_train[list_var_cat].nunique())

Jeu de donn√©es train:
Objet_credit           10
Historique_credit       5
Epargne                 5
Anciennete_emploi       5
Situation_familiale     4
Anciennete_domicile     4
Nb_credits              4
Biens                   4
Type_emploi             4
Comptes                 4
Taux_effort             4
Autres_credits          3
Statut_domicile         3
Garanties               3
Telephone               2
Nb_pers_charge          2
Etranger                2
dtype: int64


In [8]:
print("Jeu de donn√©es test:")
print(X_test[list_var_cat].nunique())

Jeu de donn√©es test:
Objet_credit           9
Historique_credit      5
Epargne                5
Anciennete_emploi      5
Situation_familiale    4
Anciennete_domicile    4
Nb_credits             4
Biens                  4
Type_emploi            4
Comptes                4
Taux_effort            4
Autres_credits         3
Statut_domicile        3
Garanties              3
Telephone              2
Nb_pers_charge         2
Etranger               2
dtype: int64


In [9]:
X_train_with_dummies = create_dummies(dataframe= X_train,list_var_cat= list_var_cat, drop_original_var_cat= True) # apprentissage
X_test_with_dummies = create_dummies(dataframe= X_test,list_var_cat= list_var_cat, drop_original_var_cat= True) # test

In [10]:
# On v√©rifie que les m√™mes DUMMY ont √©t√© cr√©√©s pour les deux jeux de donn√©es (sinon il faudra traiter les diff√©rences)
dummies_train = [field for field in X_train_with_dummies.columns if field.startswith("DUMMY_")]
dummies_test = [field for field in X_train_with_dummies.columns if field.startswith("DUMMY_")]
not_in_train = list(set(dummies_test)-set(dummies_train))
not_in_test = list(set(dummies_test)-set(dummies_train))
if not_in_train:
    print("Champs pr√©sents dans X_test mais pas dans X_train: {not_in_train}")
if not_in_test:
    print("Champs pr√©sents dans X_test mais pas dans X_train: {not_in_test}")

In [11]:
# Export des donn√©es
path = Path(f"../../data/processed").resolve()
X_train_with_dummies.to_parquet(f"{path}/X_train.parquet")
X_test_with_dummies.to_parquet(f"{path}/X_test.parquet")
y_train.to_frame().to_parquet(f"{path}/y_train.parquet")
y_test.to_frame().to_parquet(f"{path}/y_test.parquet")

#### 5.2.2 Autres m√©thode d'encoding

<div class="alert alert-block alert-warning">
<b> Question 26:</b> Quelle(s) m√©thode(s) adopteriez-vous pour r√©duire le nombre de modalit√©s ?
</div>

<div class="alert alert-block alert-success">
  <b>R√©ponse :</b></p>
  <table>
    <thead>
      <tr>
        <th>Approche</th>
        <th>D√©tail</th>
      </tr>
    </thead>
    <tbody>
      <tr>
        <td>Gestion des modalit√©s rares</td>
        <td>Regrouper les modalit√©s rares.</td>
      </tr>
      <tr>
        <td>Approche experte</td>
        <td>Regrouper intelligemment certaines modalit√©s.</td>
      </tr>
      <tr>
        <td>Approche stat</td>
        <td>Identifier et regrouper certaines modalit√©s entre elles. Regrouper les modalit√©s qui apportent la m√™me information pour expliquer la cible.</td>
      </tr>
    </tbody>
  </table>
</div>


<div class="alert alert-block alert-warning">
<b> Question 27:</b> Quelles autres m√©thodes d'encoding des variables cat√©gorielles (autre que one hot encoding) connaissez-vous ?
</div>

<div class="alert alert-block alert-success">
  <p><b>R√©ponse :</b></p>
  <table>
    <thead>
      <tr>
        <th>M√©thode</th>
        <th>D√©tail</th>
      </tr>
    </thead>
    <tbody>
      <tr>
        <td>Target Encoding</td>
        <td>Remplace chaque cat√©gorie par une statistique (souvent la moyenne) de la variable cible pour cette cat√©gorie. Cela permet d'introduire des informations sur la relation entre la cat√©gorie et la cible, mais n√©cessite des pr√©cautions (ex. : validation crois√©e) pour √©viter le surapprentissage.</td>
      </tr>
      <tr>
        <td>Frequency Encoding</td>
        <td>Remplace chaque cat√©gorie par sa fr√©quence (ou le pourcentage) d'apparition dans le dataset.</td>
      </tr>
      <tr>
        <td>Leave-One-Out Encoding</td>
        <td>Variante du target encoding, cette m√©thode calcule la statistique pour une observation donn√©e en excluant cette observation. Elle permet de r√©duire le risque de surapprentissage tout en tirant profit de l'information de la cible.</td>
      </tr>
    </tbody>
  </table>
</div>
