In [1]:
from sklearn.model_selection import train_test_split
import pandas as pd
from pathlib import Path
import os
import sys
sys.path.insert(0, str(Path(os.getcwd()).resolve().parent.parent))
from src.utils.tools import create_dummies

list_var_num: list = ['Duree_credit', 'Montant_credit', 'Age']
list_var_cat: list = ['Objet_credit', 'Historique_credit', 'Epargne', 'Anciennete_emploi', 
           'Situation_familiale', 'Anciennete_domicile', 'Nb_credits', 'Biens', 
           'Type_emploi', 'Comptes', 'Taux_effort', 'Autres_credits', 'Statut_domicile', 
           'Garanties', 'Telephone', 'Nb_pers_charge', 'Etranger']
target: str = "Cible"

path = Path("../../data/processed/credit_scoring_with_labels.parquet").resolve() # chemin vers fichier csv
df = pd.read_parquet(path)
df[list_var_cat] = df[list_var_cat].astype("category")

### 4. Discrétisation des variables continues  _(bonus)_

<div class="alert alert-block alert-warning">
<b> Question 23:</b> Pourquoi discrétiser ? 
</div>

<div class="alert alert-block alert-warning">
<b> Question 24:</b> Pour quel(s) type(s) de modélisations la discrétisation est-t-elle le plus utile ? Le moins utile ?
</div>

<div class="alert alert-block alert-info">
  <b>Méthodes de discrétisation des variables continues :</b>
  <a href="https://eric.univ-lyon2.fr/ricco/cours/slides/discretisation.pdf">
    https://eric.univ-lyon2.fr/

### 5. Préparation à la modélisation

<div class="alert alert-block alert-info">
  <b>⚠️ Remarque très importante :</b>
  pensez à utiliser la même séparation apprentissage/test pour TOUS vos modèles afin de les rendre comparables entre eux.
</div>


#### 5.1 Séparation Apprentissage/Test

<div class="alert alert-block alert-warning">
<b> Question 26:</b> Construisez nos deux paires d'échantillons en respectant les proportions suivantes :
<br>- 80% pour l'échantillon d'apprentissage
<br>- 20% pour l'échantillon de test
</div>

<div class="alert alert-block alert-info">
<b>ℹ️ Aide :</b> utilisez la fonction <code>train_test_split</code> de la library <code>sklearn.model_selection</code>
</div>

#### 5.2 Gestion des valeurs manquantes

<div class="alert alert-block alert-warning">
<b> Question 24:</b> Etudier le nombre de valeurs manquantes pour tous les champs. Puis faites un print des champs contenant des valeurs manquantes.
</div>

<div class="alert alert-block alert-warning">
<b> Question 24:</b> Citez quelques méthodes pour traiter les valeurs manquantes (pour les variables explicatives)
</div>

#### 5.2 Encoding des variables catégorielles

<div class="alert alert-block alert-warning">
<b> Question 25:</b> Citez au moins 2 raisons pour lesquelles il est important de réaliser un encoding des variables catégorielles
</div>

#### 5.2.1 One hot encoding

<div class="alert alert-block alert-info">
<b>🔔 Rappel :</b> Le One hot encoding consiste à transformer une variable catégorielle en plusieurs colonnes binaires, chacune indiquant la présence (1) ou l'absence (0) d'une catégorie donnée pour chaque observation
</div>

<div class="alert alert-block alert-warning">
<b> Question 26:</b> Que faire si ma variable à dummiser a un grand nombre de modalités distinctes ?
</div>

<div class="alert alert-block alert-warning">
<b> Question 27:</b> Appliquer le One Hot Encoding aux variables catégorielles du dataset
</div>

<div class="alert alert-block alert-info">
<b>ℹ️ Aide :</b> utilisez la fonction <code>create_dummies</code>
</div>

In [5]:
# Rappel du nombre de modalités pour chaque variable catégorielle
print("Jeu de données train:")
print(X_train[list_var_cat].nunique())

Jeu de données train:
Objet_credit           10
Historique_credit       5
Epargne                 5
Anciennete_emploi       5
Situation_familiale     4
Anciennete_domicile     4
Nb_credits              4
Biens                   4
Type_emploi             4
Comptes                 4
Taux_effort             4
Autres_credits          3
Statut_domicile         3
Garanties               3
Telephone               2
Nb_pers_charge          2
Etranger                2
dtype: int64


In [6]:
print("Jeu de données test:")
print(X_test[list_var_cat].nunique())

Jeu de données test:
Objet_credit           10
Historique_credit       5
Epargne                 5
Anciennete_emploi       5
Situation_familiale     4
Anciennete_domicile     4
Nb_credits              4
Biens                   4
Type_emploi             4
Comptes                 4
Taux_effort             4
Autres_credits          3
Statut_domicile         3
Garanties               3
Telephone               2
Nb_pers_charge          2
Etranger                2
dtype: int64


In [None]:
# A compléter #
# X_train_with_dummies = ?
# X_test_with_dummies = ?

In [8]:
# On vérifie que les mêmes DUMMY ont été créés pour les deux jeux de données (sinon il faudra traiter les différences)
dummies_train = [field for field in X_train_with_dummies.columns if field.startswith("DUMMY_")]
dummies_test = [field for field in X_train_with_dummies.columns if field.startswith("DUMMY_")]
not_in_train = list(set(dummies_test)-set(dummies_train))
not_in_test = list(set(dummies_test)-set(dummies_train))
if not_in_train:
    print("Champs présents dans X_test mais pas dans X_train: {not_in_train}")
if not_in_test:
    print("Champs présents dans X_test mais pas dans X_train: {not_in_test}")

In [None]:
# Export des données
path = Path(f"../../data/processed").resolve()
X_train_with_dummies.to_parquet(f"{path}/X_train.parquet")
X_test_with_dummies.to_parquet(f"{path}/X_test.parquet")
y_train.to_frame().to_parquet(f"{path}/y_train.parquet")
y_test.to_frame().to_parquet(f"{path}/y_test.parquet")

#### 5.2.2 Autres méthode d'encoding

<div class="alert alert-block alert-warning">
<b> Question 26:</b> Quelle(s) méthode(s) adopteriez-vous pour réduire le nombre de modalités ?
</div>

<div class="alert alert-block alert-warning">
<b> Question 27:</b> Quelles autres méthodes d'encoding des variables catégorielles (autre que one hot encoding) connaissez-vous ?
</div>