In [19]:
import pickle

with open('dataframe.pkl', 'rb') as file:
    df = pickle.load(file)

### On définit la partie Train et Test

In [20]:
# Définition des dates limites pour les ensembles d'apprentissage et de test
train_inf = '2017-02-01'
train_sup = '2017-08-31'
test_inf = '2017-09-01'
test_sup = '2017-11-30'

In [21]:
train = df.loc[(df['DateTransaction'] >= train_inf) & (df['DateTransaction'] <= train_sup)]
X_train = train.drop(columns=['FlagImpaye','CodeDecision','DateTransaction'])
y_train = train['FlagImpaye']

In [22]:
test = df.loc[(df['DateTransaction'] >= test_inf) & (df['DateTransaction'] <= test_sup)]
X_test = test.drop(columns=['FlagImpaye','CodeDecision','DateTransaction'])
y_test = test['FlagImpaye']

In [23]:
len(X_train)

3888468

In [24]:
len(X_test)

737068

## Test de chaque méthode d'échantillonage par modeles

In [25]:
from sklearn import metrics
from sklearn.metrics import f1_score

In [26]:
#!pip install 'imblearn'
from imblearn.under_sampling import RandomUnderSampler, NearMiss
from imblearn.over_sampling import RandomOverSampler, SMOTE, ADASYN, BorderlineSMOTE

In [26]:
#!pip install xgboost




[notice] A new release of pip is available: 23.1.2 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip


On fait tourner DecisionTreeClassifier, RandomForestClassifier, GradientBoostingClassifier,KNeighborsClassifier, SVC, adaboost et xgboost

In [27]:
import pandas as pd
from sklearn.metrics import f1_score
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from xgboost import XGBClassifier
from imblearn.over_sampling import RandomOverSampler, SMOTE, BorderlineSMOTE, ADASYN
from imblearn.under_sampling import RandomUnderSampler, NearMiss
from tqdm import tqdm

In [11]:
# Définir les stratégies d'échantillonnage
sampling_strategies = [0.05, 0.1]  # Ajoutez les valeurs que vous souhaitez tester
#on garde deux oversampling et deux undersampling
samplers = [RandomOverSampler, SMOTE, RandomUnderSampler, NearMiss]

# Précalculer les échantillons resamplés pour chaque méthode d'échantillonnage
resampled_data = {}
for sampler in tqdm(samplers, desc="Resampling Progress"):
    for strategy in tqdm(sampling_strategies, desc=f"{sampler.__name__} Progress", leave=False):
        key = (sampler, strategy)
        X_resampled, y_resampled = sampler(sampling_strategy=strategy).fit_resample(X_train, y_train)
        resampled_data[key] = (X_resampled, y_resampled)

Resampling Progress:   0%|          | 0/4 [00:00<?, ?it/s]

Resampling Progress: 100%|██████████| 4/4 [14:03<00:00, 210.99s/it]


In [None]:
# Définir les modèles à tester
models = [
    DecisionTreeClassifier()
]

# Initialiser un DataFrame pour stocker les résultats
results_df_1 = pd.DataFrame(columns=['Model', 'Sampler', 'Sampling Strategy', 'F1 Score'])

# Parcourir chaque modèle
for model in models:
    # Parcourir chaque échantillonneur
    for sampler in samplers:
        # Parcourir chaque valeur de sampling_strategy
        for strategy in sampling_strategies:
            # Récupérer les échantillons resamplés précalculés
            X_resampled, y_resampled = resampled_data[(sampler, strategy)]

            # Initialiser et entraîner le modèle
            model.fit(X_resampled, y_resampled)

            # Faire des prédictions sur l'ensemble de test
            y_pred = model.predict(X_test)

            # Évaluer les performances du modèle
            f1 = f1_score(y_test, y_pred)

            # Ajouter les résultats au DataFrame
            results_df_1 = pd.concat([results_df_1, pd.DataFrame({
                'Model': [model.__class__.__name__],
                'Sampler': [sampler.__name__],
                'Sampling Strategy': [strategy],
                'F1 Score': [f1]
            })], ignore_index=True)

            # Afficher le message de progression
            tqdm.write(f"Model: {model.__class__.__name__}, Sampler: {sampler.__name__}, Strategy: {strategy}, F1 Score: {f1}")

# Afficher le tableau récapitulatif
print(results_df_1)
results_df_1.to_pickle('dataframe_recap_sampling_1.pkl')

Resampling Progress:  75%|███████▌  | 3/4 [01:43<00:34, 34.42s/it]


KeyboardInterrupt: 

In [None]:

# Définir les modèles à tester
models = [
    RandomForestClassifier()
]

# Initialiser un DataFrame pour stocker les résultats
results_df_2 = pd.DataFrame(columns=['Model', 'Sampler', 'Sampling Strategy', 'F1 Score'])

# Parcourir chaque modèle
for model in models:
    # Parcourir chaque échantillonneur
    for sampler in samplers:
        # Parcourir chaque valeur de sampling_strategy
        for strategy in sampling_strategies:
            # Récupérer les échantillons resamplés précalculés
            X_resampled, y_resampled = resampled_data[(sampler, strategy)]

            # Initialiser et entraîner le modèle
            model.fit(X_resampled, y_resampled)

            # Faire des prédictions sur l'ensemble de test
            y_pred = model.predict(X_test)

            # Évaluer les performances du modèle
            f1 = f1_score(y_test, y_pred)

            # Ajouter les résultats au DataFrame
            results_df_2 = pd.concat([results_df_2, pd.DataFrame({
                'Model': [model.__class__.__name__],
                'Sampler': [sampler.__name__],
                'Sampling Strategy': [strategy],
                'F1 Score': [f1]
            })], ignore_index=True)

            # Afficher le message de progression
            tqdm.write(f"Model: {model.__class__.__name__}, Sampler: {sampler.__name__}, Strategy: {strategy}, F1 Score: {f1}")

# Afficher le tableau récapitulatif
print(results_df_2)
results_df_2.to_pickle('dataframe_recap_sampling_2.pkl')

In [16]:

# Définir les modèles à tester
models = [
    SVC()
]

# Initialiser un DataFrame pour stocker les résultats
results_df_3 = pd.DataFrame(columns=['Model', 'Sampler', 'Sampling Strategy', 'F1 Score'])

# Parcourir chaque modèle
for model in models:
    # Parcourir chaque échantillonneur
    for sampler in samplers:
        # Parcourir chaque valeur de sampling_strategy
        for strategy in sampling_strategies:
            # Récupérer les échantillons resamplés précalculés
            X_resampled, y_resampled = resampled_data[(sampler, strategy)]

            # Initialiser et entraîner le modèle
            model.fit(X_resampled, y_resampled)

            # Faire des prédictions sur l'ensemble de test
            y_pred = model.predict(X_test)

            # Évaluer les performances du modèle
            f1 = f1_score(y_test, y_pred)

            # Ajouter les résultats au DataFrame
            results_df_3 = pd.concat([results_df_3, pd.DataFrame({
                'Model': [model.__class__.__name__],
                'Sampler': [sampler.__name__],
                'Sampling Strategy': [strategy],
                'F1 Score': [f1]
            })], ignore_index=True)

            # Afficher le message de progression
            tqdm.write(f"Model: {model.__class__.__name__}, Sampler: {sampler.__name__}, Strategy: {strategy}, F1 Score: {f1}")

# Afficher le tableau récapitulatif
print(results_df_3)
results_df_3.to_pickle('dataframe_recap_sampling_3.pkl')

In [15]:
# Définir les modèles à tester
models = [
    AdaBoostClassifier()
]

# Initialiser un DataFrame pour stocker les résultats
results_df_4 = pd.DataFrame(columns=['Model', 'Sampler', 'Sampling Strategy', 'F1 Score'])

# Parcourir chaque modèle
for model in models:
    # Parcourir chaque échantillonneur
    for sampler in samplers:
        # Parcourir chaque valeur de sampling_strategy
        for strategy in sampling_strategies:
            # Récupérer les échantillons resamplés précalculés
            X_resampled, y_resampled = resampled_data[(sampler, strategy)]

            # Initialiser et entraîner le modèle
            model.fit(X_resampled, y_resampled)

            # Faire des prédictions sur l'ensemble de test
            y_pred = model.predict(X_test)

            # Évaluer les performances du modèle
            f1 = f1_score(y_test, y_pred)

            # Ajouter les résultats au DataFrame
            results_df_4 = pd.concat([results_df_4, pd.DataFrame({
                'Model': [model.__class__.__name__],
                'Sampler': [sampler.__name__],
                'Sampling Strategy': [strategy],
                'F1 Score': [f1]
            })], ignore_index=True)

            # Afficher le message de progression
            tqdm.write(f"Model: {model.__class__.__name__}, Sampler: {sampler.__name__}, Strategy: {strategy}, F1 Score: {f1}")

# Afficher le tableau récapitulatif
print(results_df_4)
results_df_4.to_pickle('dataframe_recap_sampling_4.pkl')

  results_df_4 = pd.concat([results_df_4, pd.DataFrame({


Model: AdaBoostClassifier, Sampler: RandomOverSampler, Strategy: 0.05, F1 Score: 0.11692036179130819




Model: AdaBoostClassifier, Sampler: RandomOverSampler, Strategy: 0.1, F1 Score: 0.13142780820088154




Model: AdaBoostClassifier, Sampler: SMOTE, Strategy: 0.05, F1 Score: 0.015575857420997454




Model: AdaBoostClassifier, Sampler: SMOTE, Strategy: 0.1, F1 Score: 0.022629149918118208




Model: AdaBoostClassifier, Sampler: RandomUnderSampler, Strategy: 0.05, F1 Score: 0.10746336476201294




Model: AdaBoostClassifier, Sampler: RandomUnderSampler, Strategy: 0.1, F1 Score: 0.12748484650980904




Model: AdaBoostClassifier, Sampler: NearMiss, Strategy: 0.05, F1 Score: 0.03958164977932492




Model: AdaBoostClassifier, Sampler: NearMiss, Strategy: 0.1, F1 Score: 0.03174043378592841
                Model             Sampler  Sampling Strategy  F1 Score
0  AdaBoostClassifier   RandomOverSampler               0.05  0.116920
1  AdaBoostClassifier   RandomOverSampler               0.10  0.131428
2  AdaBoostClassifier               SMOTE               0.05  0.015576
3  AdaBoostClassifier               SMOTE               0.10  0.022629
4  AdaBoostClassifier  RandomUnderSampler               0.05  0.107463
5  AdaBoostClassifier  RandomUnderSampler               0.10  0.127485
6  AdaBoostClassifier            NearMiss               0.05  0.039582
7  AdaBoostClassifier            NearMiss               0.10  0.031740


In [14]:
# Définir les modèles à tester
models = [
    XGBClassifier()
]

# Initialiser un DataFrame pour stocker les résultats
results_df_5 = pd.DataFrame(columns=['Model', 'Sampler', 'Sampling Strategy', 'F1 Score'])

# Parcourir chaque modèle
for model in models:
    # Parcourir chaque échantillonneur
    for sampler in samplers:
        # Parcourir chaque valeur de sampling_strategy
        for strategy in sampling_strategies:
            # Récupérer les échantillons resamplés précalculés
            X_resampled, y_resampled = resampled_data[(sampler, strategy)]

            # Initialiser et entraîner le modèle
            model.fit(X_resampled, y_resampled)

            # Faire des prédictions sur l'ensemble de test
            y_pred = model.predict(X_test)

            # Évaluer les performances du modèle
            f1 = f1_score(y_test, y_pred)

            # Ajouter les résultats au DataFrame
            results_df_5 = pd.concat([results_df_5, pd.DataFrame({
                'Model': [model.__class__.__name__],
                'Sampler': [sampler.__name__],
                'Sampling Strategy': [strategy],
                'F1 Score': [f1]
            })], ignore_index=True)

            # Afficher le message de progression
            tqdm.write(f"Model: {model.__class__.__name__}, Sampler: {sampler.__name__}, Strategy: {strategy}, F1 Score: {f1}")

# Afficher le tableau récapitulatif
print(results_df_5)
results_df_5.to_pickle('dataframe_recap_sampling_5.pkl')

  results_df_5 = pd.concat([results_df_5, pd.DataFrame({


Model: XGBClassifier, Sampler: RandomOverSampler, Strategy: 0.05, F1 Score: 0.0715716151501959
Model: XGBClassifier, Sampler: RandomOverSampler, Strategy: 0.1, F1 Score: 0.058997050147492625
Model: XGBClassifier, Sampler: SMOTE, Strategy: 0.05, F1 Score: 0.06164853474468294
Model: XGBClassifier, Sampler: SMOTE, Strategy: 0.1, F1 Score: 0.07784960871044573
Model: XGBClassifier, Sampler: RandomUnderSampler, Strategy: 0.05, F1 Score: 0.07633948494474051
Model: XGBClassifier, Sampler: RandomUnderSampler, Strategy: 0.1, F1 Score: 0.0656522313176657
Model: XGBClassifier, Sampler: NearMiss, Strategy: 0.05, F1 Score: 0.03485663082437276
Model: XGBClassifier, Sampler: NearMiss, Strategy: 0.1, F1 Score: 0.029324231670471584
           Model             Sampler  Sampling Strategy  F1 Score
0  XGBClassifier   RandomOverSampler               0.05  0.071572
1  XGBClassifier   RandomOverSampler               0.10  0.058997
2  XGBClassifier               SMOTE               0.05  0.061649
3  XGBClassi

In [17]:
from sklearn.linear_model import LogisticRegression

# Définir les modèles à tester
models = [
    LogisticRegression(max_iter= 1000) 
]

# Initialiser un DataFrame pour stocker les résultats
results_df_6 = pd.DataFrame(columns=['Model', 'Sampler', 'Sampling Strategy', 'F1 Score'])

# Parcourir chaque modèle
for model in models:
    # Parcourir chaque échantillonneur
    for sampler in samplers:
        # Parcourir chaque valeur de sampling_strategy
        for strategy in sampling_strategies:
            # Récupérer les échantillons resamplés précalculés
            X_resampled, y_resampled = resampled_data[(sampler, strategy)]

            # Initialiser et entraîner le modèle de régression logistique
            model.fit(X_resampled, y_resampled)

            # Faire des prédictions sur l'ensemble de test
            y_pred = model.predict(X_test)

            # Évaluer les performances du modèle
            f1 = f1_score(y_test, y_pred)

            # Ajouter les résultats au DataFrame
            results_df_6 = pd.concat([results_df_6, pd.DataFrame({
                'Model': [model.__class__.__name__],
                'Sampler': [sampler.__name__],
                'Sampling Strategy': [strategy],
                'F1 Score': [f1]
            })], ignore_index=True)

            # Afficher le message de progression
            tqdm.write(f"Model: {model.__class__.__name__}, Sampler: {sampler.__name__}, Strategy: {strategy}, F1 Score: {f1}")

# Afficher le tableau récapitulatif
print(results_df_6)
results_df_6.to_pickle('dataframe_recap_sampling_6_1000.pkl')


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
  results_df_6 = pd.concat([results_df_6, pd.DataFrame({


Model: LogisticRegression, Sampler: RandomOverSampler, Strategy: 0.05, F1 Score: 0.05769485245467778


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Model: LogisticRegression, Sampler: RandomOverSampler, Strategy: 0.1, F1 Score: 0.10608451692091882


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Model: LogisticRegression, Sampler: SMOTE, Strategy: 0.05, F1 Score: 0.05425239156073909


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Model: LogisticRegression, Sampler: SMOTE, Strategy: 0.1, F1 Score: 0.10243039389142378


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Model: LogisticRegression, Sampler: RandomUnderSampler, Strategy: 0.05, F1 Score: 0.06666666666666667


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Model: LogisticRegression, Sampler: RandomUnderSampler, Strategy: 0.1, F1 Score: 0.10295805739514349


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Model: LogisticRegression, Sampler: NearMiss, Strategy: 0.05, F1 Score: 0.04350021884785024


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Model: LogisticRegression, Sampler: NearMiss, Strategy: 0.1, F1 Score: 0.03685105463396325
                Model             Sampler  Sampling Strategy  F1 Score
0  LogisticRegression   RandomOverSampler               0.05  0.057695
1  LogisticRegression   RandomOverSampler               0.10  0.106085
2  LogisticRegression               SMOTE               0.05  0.054252
3  LogisticRegression               SMOTE               0.10  0.102430
4  LogisticRegression  RandomUnderSampler               0.05  0.066667
5  LogisticRegression  RandomUnderSampler               0.10  0.102958
6  LogisticRegression            NearMiss               0.05  0.043500
7  LogisticRegression            NearMiss               0.10  0.036851


On réunit les résultats dans un seul tableau recapitulatif

In [28]:
results_df_1 = pd.read_pickle('dataframe_recap_sampling_1.pkl')
results_df_2 = pd.read_pickle('dataframe_recap_sampling_2.pkl')
#results_df_3 = pd.read_pickle('dataframe_recap_sampling_3.pkl')
results_df_4 = pd.read_pickle('dataframe_recap_sampling_4.pkl')
results_df_5 = pd.read_pickle('dataframe_recap_sampling_5.pkl')
results_df_6 = pd.read_pickle('dataframe_recap_sampling_6_1000.pkl')

In [29]:
results= pd.concat([results_df_1, results_df_2, results_df_4, results_df_5, results_df_6], ignore_index=True)
results.to_pickle('dataframe_recap_sampling1.pkl')

In [30]:
result_sampling = pd.read_pickle('dataframe_recap_sampling1.pkl')
result_no_sampling = pd.read_pickle('dataframe_recap_no_sampling.pkl')

In [31]:
results_df = pd.concat([result_sampling, result_no_sampling])
results_df.to_pickle('dataframe_recap_sampling_no_sampling.pkl')

In [32]:
results_df.reset_index(drop=True, inplace=True)

In [33]:
results_df.describe(include='all')

Unnamed: 0,Model,Sampler,Sampling Strategy,F1 Score
count,45,40,40.0,45.0
unique,5,4,,
top,DecisionTreeClassifier,RandomOverSampler,,
freq,9,10,,
mean,,,0.075,0.055962
std,,,0.025318,0.032489
min,,,0.05,0.007539
25%,,,0.05,0.03174
50%,,,0.075,0.043478
75%,,,0.1,0.071572


In [34]:
# Grouper les résultats par modèle
grouped_results = results_df.groupby('Model')

# Initialiser un DataFrame pour stocker les meilleurs résultats par modèle
best_results_df = pd.DataFrame(columns=['Model', 'Sampler', 'Sampling Strategy', 'F1 Score'])

# Parcourir chaque groupe
for model, group_df in grouped_results:
    # Trouver la ligne avec le plus grand F1 score pour chaque modèle
    best_result = group_df.sort_values(by='F1 Score', ascending=False).iloc[0]
    
    # Ajouter le meilleur résultat au DataFrame final
    # Remplacez la ligne best_results_df = best_results_df.append(...) par ceci
    best_results_df = pd.concat([best_results_df, pd.DataFrame({
        'Model': [best_result['Model']],
        'Sampler': [best_result['Sampler']],
        'Sampling Strategy': [best_result['Sampling Strategy']],
        'F1 Score': [best_result['F1 Score']]
    })], ignore_index=True)

# Afficher le tableau récapitulatif des meilleurs résultats pour chaque modèle
print(best_results_df)
best_results_df.to_pickle('best_results_df.pkl')

                    Model             Sampler  Sampling Strategy  F1 Score
0      AdaBoostClassifier   RandomOverSampler               0.10  0.131428
1  DecisionTreeClassifier               SMOTE               0.05  0.037149
2      LogisticRegression   RandomOverSampler               0.10  0.106085
3  RandomForestClassifier  RandomUnderSampler               0.05  0.102525
4           XGBClassifier               SMOTE               0.10  0.077850


  best_results_df = pd.concat([best_results_df, pd.DataFrame({


In [35]:
best_results_df

Unnamed: 0,Model,Sampler,Sampling Strategy,F1 Score
0,AdaBoostClassifier,RandomOverSampler,0.1,0.131428
1,DecisionTreeClassifier,SMOTE,0.05,0.037149
2,LogisticRegression,RandomOverSampler,0.1,0.106085
3,RandomForestClassifier,RandomUnderSampler,0.05,0.102525
4,XGBClassifier,SMOTE,0.1,0.07785


## Maintenant qu'on a une vue d'ensemble claire sur les méthodes de re-échantillonage qui marchent le mieux en fonction des modèles, on va reprendre ces combinaisons pour réaliser une optimisation cette fois-ci des hyper-paramètres des modèles à l'aide d'un greedsearch.

### Model: GradientBoostingClassifier - Sampler: RandomUnderSampler - Sampling Strategy: 0.1

In [43]:
from sklearn.model_selection import TimeSeriesSplit, GridSearchCV
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.pipeline import Pipeline
import pickle
from imblearn.over_sampling import RandomOverSampler
from tqdm import tqdm

# Sous-échantillonnage
ros = RandomOverSampler(sampling_strategy=0.10)
X_train_ros, y_train_ros = ros.fit_resample(X_train, y_train)

# Modèle de l'AdaBoostClassifier
adab_classifier = AdaBoostClassifier(DecisionTreeClassifier()) # Utilise un arbre de décision faible par défaut

# Pipeline
pipeline = Pipeline([
    ('classifier', adab_classifier)
])

# Créer un objet TimeSeriesSplit pour la cross-validation
tscv = TimeSeriesSplit(n_splits=5)

# Paramètres pour la recherche sur la grille
param_grid = {
    'classifier__n_estimators': [50, 100],
    'classifier__estimator__max_depth': [2, 3],  # Ajustez ici pour le paramètre de l'arbre faible
    #'classifier__learning_rate': [0.1, 0.5],
}

# Recherche sur la grille
grid_search = GridSearchCV(pipeline, param_grid, scoring='f1', cv=tscv)

# Progress bar for grid search
for train_index, test_index in tqdm(tscv.split(X_train, y_train), desc="Grid Search Progress"):
    X_train_fold, X_test_fold = X_train.iloc[train_index], X_train.iloc[test_index]
    y_train_fold, y_test_fold = y_train.iloc[train_index], y_train.iloc[test_index]

    grid_search.fit(X_train_fold, y_train_fold)

# Afficher les meilleurs paramètres et le meilleur score F1
print("Meilleurs paramètres (Adaboost):", grid_search.best_params_)
print("Meilleur score F1 (Adaboost):", grid_search.best_score_)

# Enregistrement du modèle
with open('modele_adaboost.pkl', 'wb') as file:
    pickle.dump(grid_search, file)



In [17]:
from sklearn.ensemble import RandomForestClassifier

# Sous-échantillonnage
rus = RandomUnderSampler(sampling_strategy=0.05)
X_train_rus, y_train_rus = rus.fit_resample(X_train, y_train)

# Modèle du RandomForestClassifier
rf_classifier = RandomForestClassifier()

# Pipeline
pipeline_rf = Pipeline([
    ('classifier', rf_classifier)
])

tscv = TimeSeriesSplit(n_splits=5)

# Paramètres pour la recherche sur la grille
param_grid_rf = {
    'classifier__n_estimators': [50, 100],
    'classifier__max_depth': [None, 10, 20],  # Ajustez ici pour le paramètre de profondeur
    'classifier__min_samples_split': [2, 5, 10],
    'classifier__min_samples_leaf': [1, 2, 4],
}

# Recherche sur la grille
grid_search_rf = GridSearchCV(pipeline_rf, param_grid_rf, scoring='f1', cv=tscv)
grid_search_rf.fit(X_train, y_train)

# Afficher les meilleurs paramètres et le meilleur score F1
print("Meilleurs paramètres (Random Forest):", grid_search_rf.best_params_)
print("Meilleur score F1 (Random Forest):", grid_search_rf.best_score_)

with open('modele_random_forest.pkl', 'wb') as file_rf:
    pickle.dump(grid_search_rf, file_rf)

In [None]:
from xgboost import XGBClassifier
from sklearn.model_selection import TimeSeriesSplit, GridSearchCV
from sklearn.pipeline import Pipeline
from imblearn.over_sampling import RandomOverSampler
import pickle

# Sous-échantillonnage
ros = RandomOverSampler(sampling_strategy=0.10)
X_train_ros, y_train_ros = ros.fit_resample(X_train, y_train)

# Modèle du XGBClassifier
xgb_classifier = XGBClassifier()

# Pipeline
pipeline_xgb = Pipeline([
    ('classifier', xgb_classifier)
])

tscv = TimeSeriesSplit(n_splits=5)

# Paramètres pour la recherche sur la grille
param_grid_xgb = {
    'classifier__n_estimators': [50, 100],
    'classifier__max_depth': [3, 7],  # Ajustez ici pour le paramètre de profondeur
    'classifier__learning_rate': [0.1, 0.01],
    'classifier__subsample': [0.8, 1.0],
    'classifier__colsample_bytree': [0.8, 1.0],
}

# Recherche sur la grille
grid_search_xgb = GridSearchCV(pipeline_xgb, param_grid_xgb, scoring='f1', cv=tscv)
grid_search_xgb.fit(X_train, y_train)

# Afficher les meilleurs paramètres et le meilleur score F1
print("Meilleurs paramètres (XGBoost):", grid_search_xgb.best_params_)
print("Meilleur score F1 (XGBoost):", grid_search_xgb.best_score_)

# Afficher les résultats détaillés de la recherche sur la grille
results = grid_search_xgb.cv_results_
for mean_score, params in zip(results["mean_test_score"], results["params"]):
    print(f"Score moyen: {mean_score}, Paramètres: {params}")

# Enregistrement du modèle
with open('modele_xgboost.pkl', 'wb') as file_xgb:
    pickle.dump(grid_search_xgb, file_xgb)

In [None]:
from sklearn.model_selection import TimeSeriesSplit, GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.pipeline import Pipeline

# Sous-échantillonnage
rus = RandomUnderSampler(sampling_strategy=0.1)
X_train_rus, y_train_rus = rus.fit_resample(X_train, y_train)

# Modèle de l'arbre de décision
gb_classifier = GradientBoostingClassifier()

# Pipeline
pipeline = Pipeline([
    ('classifier', gb_classifier)
])

# Créer un objet TimeSeriesSplit pour la cross-validation
tscv = TimeSeriesSplit(n_splits = 5)

# Paramètres pour la recherche sur la grille
param_grid = {
    'classifier__n_estimators': [50, 100],
    'classifier__max_depth': [10, 15],
    'classifier__min_samples_split': [2, 5, 10],
    'classifier__min_samples_leaf': [2, 4]
}

# Recherche sur la grille
grid_search = GridSearchCV(pipeline, param_grid, scoring='f1', cv=tscv)
grid_search.fit(X_train, y_train)

 
# Afficher les meilleurs paramètres et le meilleur score F1
print("Meilleurs paramètres:", grid_search.best_params_)
print("Meilleur score F1:", grid_search.best_score_)

# Enregistrement du modèle
with open('modele_gboost.pkl', 'wb') as file_gb:
    pickle.dump(gb_classifier, file_gb)


In [None]:
from sklearn.model_selection import TimeSeriesSplit, GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.pipeline import Pipeline

# Sous-échantillonnage
ros = RandomOverSampler(sampling_strategy=0.1)
X_train_ros, y_train_ros = ros.fit_resample(X_train, y_train)

# Modèle de l'arbre de décision
gb_classifier = GradientBoostingClassifier()

# Pipeline
pipeline = Pipeline([
    ('classifier', gb_classifier)
])

# Créer un objet TimeSeriesSplit pour la cross-validation
tscv = TimeSeriesSplit(n_splits = 5)

# Paramètres pour la recherche sur la grille
param_grid = {
    'classifier__n_estimators': [50, 100],
    'classifier__max_depth': [5, 10, 15],
    'classifier__min_samples_split': [2, 5, 10],
    'classifier__min_samples_leaf': [2, 4]
}

# Recherche sur la grille
grid_search = GridSearchCV(pipeline, param_grid, scoring='f1', cv=tscv)
grid_search.fit(X_train_ros, y_train_ros)

 
# Afficher les meilleurs paramètres et le meilleur score F1
print("Meilleurs paramètres:", grid_search.best_params_)
print("Meilleur score F1:", grid_search.best_score_)

In [None]:
import numpy as np

# Compter le nombre d'éléments uniques dans y_train_rus
unique_classes, counts = np.unique(y_train_rus, return_counts=True)

# Afficher le nombre d'éléments uniques et leurs occurrences
for cls, count in zip(unique_classes, counts):
    print(f"Classe {cls}: {count} occurrences")

In [None]:
len(y_train)

In [None]:
len(y_train_rus)

In [None]:
# Utiliser le meilleur modèle trouvé par la recherche sur la grille
best_model = grid_search.best_estimator_

# Faire des prédictions sur l'ensemble de test
y_pred = best_model.predict(X_test)

# Calculer le F1-score sur l'ensemble de test
f1_test = f1_score(y_test, y_pred)

# Afficher le F1-score sur l'ensemble de test
print("F1 Score sur l'ensemble de test:", f1_test)