In [1]:
import pandas as pd
import numpy as np
from supervised.automl import AutoML
from dateutil.relativedelta import relativedelta
from sklearn.metrics import roc_auc_score

Using `tqdm.autonotebook.tqdm` in notebook mode. Use `tqdm.tqdm` instead to force console mode (e.g. in jupyter console)


## DF Original

In [2]:
df_canada = pd.read_csv('canada_updated.csv')
df_canada["date"] = pd.to_datetime(df_canada["date"])
df_canada.head()

Unnamed: 0,date,QUALITY_FLAG,cid,industry_raw,E_TTM_period_date,E_TTM_ammor_intangibles,E_TTM_asset_writedown,E_TTM_assets_gro_five,E_TTM_capex,E_TTM_cash_acquisitions,...,E_G_ebitda_cov,E_G_ret_on_asset,E_G_ret_on_inv_cap,E_G_net_to_cash,E_G_perm_assets_ratio,return_1q,target_net_income,target_cash_operations,binary_target_net_income,binary_target_cash_operations
0,2002-01-03,True,SP-065996,,2001-10-31,0.0,0.0,0.0,-12.738,-3.336,...,-165.453488,0.130018,0.101871,-0.068216,0.41423,,,,0,0
1,2002-01-08,True,SP-002396,,2001-09-30,3.078,0.0,0.0,-20.889,-68.22,...,-2.685925,0.071119,0.06743,-0.004881,0.595752,,,,0,0
2,2002-01-08,True,SP-006704,,2001-09-30,0.0,0.0,0.0,-17.971623,0.0,...,2.26246,-0.069781,-0.039238,-0.045993,0.775432,,,,0,0
3,2002-01-08,True,SP-008644,,2001-09-30,0.0,0.0,0.0,-34.7,0.0,...,-4.852273,-0.169833,-0.155712,-0.316372,0.773996,,,,0,0
4,2002-01-08,True,SP-013994,,2001-09-30,0.0,0.0,0.0,-1403.0,-133.0,...,-14.569697,0.109798,0.078497,-0.157934,0.921832,,,,0,0


## Copie pour modification

In [3]:
df_model = df_canada.copy()

df_model['date'] = pd.to_datetime(df_model['date'], errors='coerce')
df_model.sort_values(by=['cid', 'date'], inplace=True)

# Retirer les lignes où Quality_Flag est False
df_model = df_model[df_model['QUALITY_FLAG'] == True]

# (FACULTATIF) Exclure les banques
# df_model = df_model[df_model['industry'] != 'Banks']

## Selection de features

In [4]:
def select_features(
    df,
    include_agro=False,
    include_rgro=False,
    include_tcgro=False,
    include_ratios_assets=False,
    include_ratios_rev=False,
    include_ratios_totcap=False,
    mandatory_cols=None
):
    """
    Sélectionne dynamiquement les colonnes d'un DataFrame en fonction
    des familles de variables explicatives demandées,
    en plaçant d'abord les colonnes obligatoires (mandatory_cols).
    """
    
    # 1) Gérer la liste mandatory_cols (par défaut : vide ou ['cid','date'] selon besoin)
    if mandatory_cols is None:
        mandatory_cols = []
    
    # 2) Définir les "familles" de motifs
    family_patterns = {
        'agro': ['_agro_1q', '_agro_4q'],
        'rgro': ['_rgro_1q', '_rgro_4q'],
        'tcgro': ['_tcgro_1q', '_tcgro_4q'],
        'ratios_assets': ['_on_assets_ratio'],
        'ratios_rev': ['_on_rev_ratio'],
        'ratios_totcap': ['_on_tot_cap_ratio']
    }
    
    # 3) Construire la liste des motifs à inclure
    patterns_to_keep = []
    if include_agro:
        patterns_to_keep += family_patterns['agro']
    if include_rgro:
        patterns_to_keep += family_patterns['rgro']
    if include_tcgro:
        patterns_to_keep += family_patterns['tcgro']
    
    if include_ratios_assets:
        patterns_to_keep += family_patterns['ratios_assets']
    if include_ratios_rev:
        patterns_to_keep += family_patterns['ratios_rev']
    if include_ratios_totcap:
        patterns_to_keep += family_patterns['ratios_totcap']
    
    # 4) Retrouver toutes les colonnes du df qui matchent nos motifs
    matched_cols = set()
    for pat in patterns_to_keep:
        for col in df.columns:
            if pat in col:
                matched_cols.add(col)
    # => matched_cols est un set() de colonnes
    
    # 5) Conserver l'ordre original des colonnes matched, 
    #    en filtrant df.columns dans l'ordre d'origine
    matched_cols_in_order = [c for c in df.columns if c in matched_cols]
    
    # 6) Construire l'ordre final :
    #    - d'abord mandatory_cols (dans l'ordre donné),
    #    - puis les matched_cols (dans l'ordre d'origine)
    #    - attention aux colonnes obligatoires qui n'existent pas, 
    #      ou aux duplications
    #    - on fait donc une intersection + un set() pour éviter 
    #      les collisions.
    
    # Intersection pour ne pas inclure des mandatory inexistantes
    mandatory_cols_in_df = [c for c in mandatory_cols if c in df.columns]
    
    # Puis on concatène en évitant toute duplication
    columns_to_keep_ordered = mandatory_cols_in_df + [
        c for c in matched_cols_in_order if c not in mandatory_cols_in_df
    ]
    
    # 7) Extraire le sous-DataFrame
    df_filtered = df[columns_to_keep_ordered].copy()
    
    # 8) (Optionnel) trier par cid/date si elles sont présentes
    if 'cid' in df_filtered.columns and 'date' in df_filtered.columns:
        df_filtered.sort_values(by=['cid', 'date'], inplace=True)
    
    return df_filtered

## Appel de fonction - Features

### ALL

In [5]:
DF_ALL = select_features(
    df_model,
    include_agro=True,
    include_rgro=True,
    include_tcgro=True,
    include_ratios_assets=True,
    include_ratios_rev=True,
    include_ratios_totcap=True,
    mandatory_cols=['cid', 'date', 'binary_target_net_income']  # je garde la target
)

# Compter le nombre total de NaN dans tout le DataFrame
total_nan = DF_ALL.isna().sum().sum()
print(f"Nombre total de valeurs NaN dans DF_ALL : {total_nan}")

# Retirer les lignes qui contiennent AU MOINS un NaN
DF_ALL.dropna(inplace=True)

# Vérifier à nouveau qu’il n’y a plus de NaN
total_nan_apres = DF_ALL.isna().sum().sum()
print(f"Nombre total de valeurs NaN après suppression : {total_nan_apres}")

print(DF_ALL.shape)

Nombre total de valeurs NaN dans DF_ALL : 1360861
Nombre total de valeurs NaN après suppression : 0
(36154, 579)


### Assets

In [6]:
DF_Assets = select_features(
    df_model,
    include_agro=True,
    include_rgro=False,
    include_tcgro=False,
    include_ratios_assets=True,
    include_ratios_rev=False,
    include_ratios_totcap=False,
    mandatory_cols=['cid', 'date', 'binary_target_net_income']  # je garde la target
)

# Compter le nombre total de NaN dans tout le DataFrame
total_nan = DF_Assets.isna().sum().sum()
print(f"Nombre total de valeurs NaN dans DF_Assets : {total_nan}")

# Retirer les lignes qui contiennent AU MOINS un NaN
DF_Assets.dropna(inplace=True)

# Vérifier à nouveau qu’il n’y a plus de NaN
total_nan_apres = DF_Assets.isna().sum().sum()
print(f"Nombre total de valeurs NaN après suppression : {total_nan_apres}")

print(DF_Assets.shape)

Nombre total de valeurs NaN dans DF_Assets : 443777
Nombre total de valeurs NaN après suppression : 0
(37311, 195)


### Revenues

In [7]:
DF_Revenues = select_features(
    df_model,
    include_agro=False,
    include_rgro=True,
    include_tcgro=False,
    include_ratios_assets=False,
    include_ratios_rev=True,
    include_ratios_totcap=False,
    mandatory_cols=['cid', 'date', 'binary_target_net_income']  # je garde la target
)

# Compter le nombre total de NaN dans tout le DataFrame
total_nan = DF_Revenues.isna().sum().sum()
print(f"Nombre total de valeurs NaN dans DF_Revenues : {total_nan}")

# Retirer les lignes qui contiennent AU MOINS un NaN
DF_Revenues.dropna(inplace=True)

# Vérifier à nouveau qu’il n’y a plus de NaN
total_nan_apres = DF_Revenues.isna().sum().sum()
print(f"Nombre total de valeurs NaN après suppression : {total_nan_apres}")

print(DF_Revenues.shape)

Nombre total de valeurs NaN dans DF_Revenues : 360337
Nombre total de valeurs NaN après suppression : 0
(37254, 195)


### Capital Moyen

In [8]:
DF_Capital = select_features(
    df_model,
    include_agro=False,
    include_rgro=False,
    include_tcgro=True,
    include_ratios_assets=False,
    include_ratios_rev=False,
    include_ratios_totcap=True,
    mandatory_cols=['cid', 'date', 'binary_target_net_income']  # je garde la target
)

# Compter le nombre total de NaN dans tout le DataFrame
total_nan = DF_Capital.isna().sum().sum()
print(f"Nombre total de valeurs NaN dans DF_Capital : {total_nan}")

# Retirer les lignes qui contiennent AU MOINS un NaN
DF_Capital.dropna(inplace=True)

# Vérifier à nouveau qu’il n’y a plus de NaN
total_nan_apres = DF_Capital.isna().sum().sum()
print(f"Nombre total de valeurs NaN après suppression : {total_nan_apres}")

print(DF_Capital.shape)

Nombre total de valeurs NaN dans DF_Capital : 556747
Nombre total de valeurs NaN après suppression : 0
(36211, 195)


## DF 15 ans

### ALL

In [6]:
# Date la plus récente du DataFrame
max_date = DF_ALL['date'].max()

# Date de coupure (5 ans avant)
cutoff_date = max_date - pd.DateOffset(years=15)

# Filtrer pour ne garder que les 5 dernières années
DF_15Y_all = DF_ALL[DF_ALL['date'] >= cutoff_date].copy()

print(DF_15Y_all['date'].min(), DF_15Y_all['date'].max())
print(DF_15Y_all.shape)

2009-12-14 00:00:00 2024-12-12 00:00:00
(23539, 579)


### Assets

In [10]:
# Date la plus récente du DataFrame
max_date = DF_Assets['date'].max()

# Date de coupure (5 ans avant)
cutoff_date = max_date - pd.DateOffset(years=15)

# Filtrer pour ne garder que les 5 dernières années
DF_15Y_Assets = DF_Assets[DF_Assets['date'] >= cutoff_date].copy()

print(DF_15Y_Assets['date'].min(), DF_15Y_Assets['date'].max())
print(DF_15Y_Assets.shape)

2009-12-14 00:00:00 2024-12-12 00:00:00
(24309, 195)


### Revenues

In [11]:
# Date la plus récente du DataFrame
max_date = DF_Revenues['date'].max()

# Date de coupure (5 ans avant)
cutoff_date = max_date - pd.DateOffset(years=15)

# Filtrer pour ne garder que les 5 dernières années
DF_15Y_Revenues = DF_Revenues[DF_Revenues['date'] >= cutoff_date].copy()

print(DF_15Y_Revenues['date'].min(), DF_15Y_Revenues['date'].max())
print(DF_15Y_Revenues.shape)

2009-12-14 00:00:00 2024-12-12 00:00:00
(24275, 195)


#### Capital Moyen

In [12]:
# Date la plus récente du DataFrame
max_date = DF_Capital['date'].max()

# Date de coupure (5 ans avant)
cutoff_date = max_date - pd.DateOffset(years=15)

# Filtrer pour ne garder que les 5 dernières années
DF_15Y_Capital = DF_Capital[DF_Capital['date'] >= cutoff_date].copy()

print(DF_15Y_Capital['date'].min(), DF_15Y_Capital['date'].max())
print(DF_15Y_Capital.shape)

2009-12-14 00:00:00 2024-12-12 00:00:00
(23573, 195)


## Rolling Window + AutoML

In [7]:
def pipeline_rolling_windows(data, date_col, target_col, train_years, val_years, test_years, label, buffer_months=0):
    """
    Pipeline direct pour la rolling window avec AutoML et cross-validation personnalisée.
    Ajoute les périodes dans le DataFrame final pour validation.
    """
    
    # Conversion de la colonne date
    data[date_col] = pd.to_datetime(data[date_col])
    start_date = data[date_col].min()
    end_date = data[date_col].max()

    predictions_all = []  # Liste pour stocker toutes les prédictions

    while start_date + relativedelta(years=train_years + val_years + test_years) <= end_date:
        # Définir les périodes
        train_end = start_date + relativedelta(years=train_years) - pd.Timedelta(days=1)
        tampon_1_end = train_end + relativedelta(months=buffer_months)
        val_start = tampon_1_end + pd.Timedelta(days=1)
        val_end = val_start + relativedelta(years=val_years) - pd.Timedelta(days=1)
        tampon_2_end = val_end + relativedelta(months=buffer_months)
        test_start = tampon_2_end + pd.Timedelta(days=1)
        test_end = test_start + relativedelta(years=test_years) - pd.Timedelta(days=1)

        # Filtrer les données
        train_data = data.loc[(data[date_col] >= start_date) & (data[date_col] <= train_end)]
        val_data = data.loc[(data[date_col] >= val_start) & (data[date_col] <= val_end)]
        test_data = data.loc[(data[date_col] >= test_start) & (data[date_col] <= test_end)]

        if len(train_data) == 0 or len(val_data) == 0 or len(test_data) == 0:
            print(f"Fenêtre {start_date.year}-{test_end.year} : données insuffisantes, sautée.")
            start_date += relativedelta(years=1)
            continue

        # Configurer et entraîner AutoML
        print(f"Fenêtre {start_date.year}-{test_end.year} : entraînement de AutoML...")
        automl = AutoML(results_path=f"AutoML_{start_date.year}-{test_end.year}_{label}", mode="Perform", algorithms=["Xgboost"], eval_metric="auc")
        custom_cv = [(train_data.index, val_data.index)]
        automl.fit(
            train_data.drop(columns=[target_col, date_col, 'cid']),
            train_data[target_col], cv=custom_cv
        )

        # Prédire sur le test set
        test_preds = test_data[[date_col, target_col]].copy()
        #test_preds["predicted"] = automl.predict_proba(test_data.drop(columns=[target_col, date_col, 'cid']))
        proba = automl.predict_proba(test_data.drop(columns=[target_col, date_col, 'cid']))
        test_preds["prob_down"] = proba[:, 0]  # Probabilité pour la classe 0 (diminution des bénéfices)
        test_preds["prob_up"] = proba[:, 1]  # Probabilité pour la classe 1 (augmentation des bénéfices)
        test_preds["net_prob_score"] = test_preds["prob_up"] - test_preds["prob_down"]
        test_preds["window"] = f"{start_date.year}-{test_end.year}"
        test_preds["cid"] = test_data["cid"].values

        # Ajouter les périodes pour validation
        #test_preds["train_start"] = start_date
        #test_preds["train_end"] = train_end
        #test_preds["tampon_1"] = tampon_1_end
        #test_preds["val_start"] = val_start
        #test_preds["val_end"] = val_end
        #test_preds["tampon_2"] = tampon_2_end
        #test_preds["test_start"] = test_start
        #test_preds["test_end"] = test_end

        # Sauvegarder les prédictions
        predictions_all.append(test_preds)

        # Avancer la fenêtre
        start_date += relativedelta(years=1)

    predictions_df = pd.concat(predictions_all, ignore_index=True)
    return predictions_df

## Appel de fonction - Prédictions

### ALL

In [8]:
predictions_df_all = pipeline_rolling_windows(
    data=DF_15Y_all,
    date_col="date", 
    target_col="binary_target_net_income", 
    train_years=2, 
    val_years=1, 
    test_years=1,
    label="all", 
    buffer_months=1
)

predictions_df_all.to_csv("dfOriginal_NetInc_Pred_all.csv", index=False)

Fenêtre 2009-2014 : entraînement de AutoML...
AutoML directory: AutoML_2009-2014_all
The task is binary_classification with evaluation metric auc
AutoML will use algorithms: ['Xgboost']
AutoML will ensemble available models
AutoML steps: ['simple_algorithms', 'default_algorithms', 'not_so_random', 'golden_features', 'insert_random_feature', 'features_selection', 'hill_climbing_1', 'hill_climbing_2', 'ensemble']
Skip simple_algorithms because no parameters were generated.
* Step default_algorithms will try to check up to 1 model
1_Default_Xgboost auc 0.924225 trained in 63.36 seconds (1-sample predict time 0.1447 seconds)
* Step not_so_random will try to check up to 4 models
2_Xgboost auc 0.917937 trained in 46.24 seconds (1-sample predict time 0.1556 seconds)
3_Xgboost auc 0.926501 trained in 49.38 seconds (1-sample predict time 0.162 seconds)
4_Xgboost auc 0.900173 trained in 43.72 seconds (1-sample predict time 0.0922 seconds)
5_Xgboost auc 0.849419 trained in 36.45 seconds (1-sample

### Assets

In [None]:
predictions_df_assets = pipeline_rolling_windows(
    data=DF_15Y_Assets,
    date_col="date", 
    target_col="binary_target_net_income", 
    train_years=2, 
    val_years=1, 
    test_years=1,
    label="assets", 
    buffer_months=1
)

predictions_df_assets.to_csv("dfOriginal_NetInc_Pred_assets.csv", index=False)

### Revenues

In [None]:
predictions_df_revenues = pipeline_rolling_windows(
    data=DF_15Y_Revenues,
    date_col="date", 
    target_col="binary_target_net_income", 
    train_years=2, 
    val_years=1, 
    test_years=1,
    label="Revenue", 
    buffer_months=1
)

predictions_df_revenues.to_csv("dfOriginal_NetInc_Pred_revenues.csv", index=False)

### Capital

In [None]:
predictions_df_capital = pipeline_rolling_windows(
    data=DF_15Y_Capital,
    date_col="date", 
    target_col="binary_target_net_income", 
    train_years=2, 
    val_years=1, 
    test_years=1,
    label="capital", 
    buffer_months=1
)

predictions_df_capital.to_csv("dfOriginal_NetInc_Pred_capital.csv", index=False)

## Appel DF de Prédiction [Évite d'avoir à rouler le code au complet]

### ALL

In [None]:
predictions_df_all = pd.read_csv('df15Y_NetInc_Pred_all.csv')
predictions_df_all["date"] = pd.to_datetime(predictions_df_all["date"])
#predictions_df_all.head()

### Assets

In [8]:
predictions_df_assets = pd.read_csv('dfOriginal_NetInc_Pred_assets.csv')
predictions_df_assets["date"] = pd.to_datetime(predictions_df_assets["date"])
#predictions_df_assets.head()

### Revenues

In [11]:
predictions_df_revenues = pd.read_csv('dfOriginal_NetInc_Pred_revenues.csv')
predictions_df_revenues["date"] = pd.to_datetime(predictions_df_revenues["date"])
#predictions_df_revenues.head()

### Capital

In [12]:
predictions_df_capital = pd.read_csv('dfOriginal_NetInc_Pred_capital.csv')
predictions_df_capital["date"] = pd.to_datetime(predictions_df_capital["date"])
#predictions_df_capital.head()

## Grouped AUCs

In [9]:
def compute_auc_by_groups(
    predictions_df: pd.DataFrame, 
    df_canada: pd.DataFrame,
    group_cols: list,
    cid_col: str = "cid",
    date_col: str = "date",
    target_col: str = "binary_target_net_income",
    prob_col: str = "prob_up",
    out_csv: str = None
):
    """
    Calcule l'AUC par groupes (selon group_cols) et le nombre de lignes dans chaque groupe.
    
    Arguments :
    -----------
    - predictions_df : DataFrame contenant au moins [cid_col, date_col, target_col, prob_col]
    - df_canada : DataFrame contenant au moins [cid_col, date_col, 'return_1q', 'industry_raw', etc.]
    - group_cols : liste des colonnes sur lesquelles faire le groupby (ex: ["year", "industry_raw"])
    - cid_col : nom de la colonne identifiant l'entreprise (défaut: "cid")
    - date_col : nom de la colonne date (défaut: "date")
    - target_col : nom de la colonne cible binaire (ex: 0/1) (défaut: "binary_target_net_income")
    - prob_col : nom de la colonne contenant la probabilité pour la classe positive (défaut: "prob_up")
    - out_csv : chemin vers le fichier CSV de sortie (défaut: None, ne pas exporter)

    Retour :
    --------
    - final_df : DataFrame avec AUC et Count pour chaque groupe
    """

    # 1) Fusionner les dataframes (left merge pour conserver toutes les prédictions)
    df_merged = predictions_df.merge(
        df_canada[[cid_col, date_col, 'return_1q', 'industry_raw']],  # adapt si tu veux plus/moins de colonnes
        on=[cid_col, date_col],
        how='left'
    )

    # 2) Si "year" est dans group_cols et pas encore créée, on l'extrait du date_col
    if "year" in group_cols and "year" not in df_merged.columns:
        df_merged["year"] = pd.to_datetime(df_merged[date_col]).dt.year

    # -- Fonction interne pour calculer l’AUC sur un sous-groupe
    def group_auc(sub_df):
        unique_targets = sub_df[target_col].unique()
        # Gérer le cas où il n’y a qu’une seule classe (roc_auc_score plantait sinon)
        if len(unique_targets) < 2:
            return float("nan")
        return roc_auc_score(sub_df[target_col], sub_df[prob_col])

    # 3) Calculer l’AUC par groupe
    grouped_aucs = (
        df_merged
        .groupby(group_cols)
        .apply(group_auc)
        .reset_index(name="AUC")
    )

    # 4) Calculer le nombre d’observations par groupe (ou nombre de cid uniques, selon besoin)
    #    Ici : on compte simplement le nombre de lignes
    grouped_counts = (
        df_merged
        .groupby(group_cols)[target_col]  # ou [cid_col] si tu veux le nombre d'entreprises distinctes
        .count()
        .reset_index(name="Count")
    )

    # 5) Fusionner AUC et Count
    final_df = pd.merge(grouped_aucs, grouped_counts, on=group_cols, how="left")

    # Optionnel : trier le résultat
    final_df = final_df.sort_values(group_cols)

    # Optionnel : exporter en CSV
    if out_csv is not None:
        final_df.to_csv(out_csv, index=False)

    return final_df

## Appel de Fonction - Grouped AUCs

### ALL

In [10]:
compute_auc_by_groups(
    predictions_df=predictions_df_all,
    df_canada=df_canada,
    group_cols=["year"],
    out_csv="DFOriginal_NetInc_AUC_Year_all.csv"
)



Unnamed: 0,year,AUC,Count
0,2013,0.617027,1571
1,2014,0.700094,1594
2,2015,0.65483,1561
3,2016,0.658144,1570
4,2017,0.60987,1532
5,2018,0.654546,1553
6,2019,0.676663,1540
7,2020,0.639099,1494
8,2021,0.690448,1512
9,2022,0.633538,1491


### Assets

In [10]:
compute_auc_by_groups(
    predictions_df=predictions_df_assets,
    df_canada=df_canada,
    group_cols=["year"],
    out_csv="DFOriginal_NetInc_AUC_Year_assets.csv"
)



Unnamed: 0,year,AUC,Count
0,2013,0.599175,1634
1,2014,0.677705,1673
2,2015,0.661609,1622
3,2016,0.67465,1616
4,2017,0.603739,1576
5,2018,0.646437,1594
6,2019,0.693827,1584
7,2020,0.653454,1539
8,2021,0.673213,1552
9,2022,0.641685,1537


### Revenues

In [13]:
compute_auc_by_groups(
    predictions_df=predictions_df_revenues,
    df_canada=df_canada,
    group_cols=["year"],
    out_csv="DFOriginal_NetInc_AUC_Year_revenues.csv"
)



Unnamed: 0,year,AUC,Count
0,2013,0.595335,1634
1,2014,0.699535,1673
2,2015,0.667681,1621
3,2016,0.650719,1610
4,2017,0.608307,1572
5,2018,0.653066,1593
6,2019,0.673414,1579
7,2020,0.628183,1534
8,2021,0.677305,1551
9,2022,0.624116,1531


### Capital

In [14]:
compute_auc_by_groups(
    predictions_df=predictions_df_capital,
    df_canada=df_canada,
    group_cols=["year"],
    out_csv="DFOriginal_NetInc_AUC_Year_capital.csv"
)



Unnamed: 0,year,AUC,Count
0,2013,0.612555,1571
1,2014,0.696427,1594
2,2015,0.658151,1562
3,2016,0.680318,1576
4,2017,0.594348,1536
5,2018,0.633986,1554
6,2019,0.690972,1545
7,2020,0.644296,1499
8,2021,0.6852,1513
9,2022,0.650816,1497


## Rendement par Décile

In [11]:
def compute_decile_returns(
    predictions_df: pd.DataFrame,
    df_canada: pd.DataFrame,
    proba_col: str,
    return_col: str,
    aggregator: str = "mean",        # "mean" ou "median"
    decile_weights: list = None,     # liste de 10 poids ou None
    csv_path: str = None             # chemin CSV ou None
) -> pd.DataFrame:
    """
    Calcule le rendement par décile (du plus faible au plus élevé) pour chaque année.
    - Découpage en déciles via pd.qcut (q=10).
    - Agrégation des rendements par décile via un 'aggregator' (mean ou median).
    - Optionnellement, applique un vecteur de poids (decile_weights) pour calculer
      un rendement global (somme pondérée des déciles).

    Paramètres
    ----------
    predictions_df : pd.DataFrame
        Contient les prédictions (probabilités) et les colonnes 'cid', 'date'.
        Doit inclure la colonne `proba_col`.
    df_canada : pd.DataFrame
        Contient la colonne `return_col` ainsi que 'cid', 'date'.
    proba_col : str
        Nom de la colonne dans predictions_df représentant la probabilité ou le score.
    return_col : str
        Nom de la colonne dans df_canada qui contient le rendement (ou variation).
    aggregator : {"mean", "median"}, défaut = "mean"
        Choix entre la moyenne ou la médiane comme statistique de rendement pour le décile.
    decile_weights : list of float (length 10) ou None
        Si fourni, liste de 10 poids (un pour chaque décile de 0 à 9).
        Permet de calculer une colonne "portfolio_return" = somme(décile_i * poids_i).
    csv_path : str ou None
        Si un chemin est fourni, le DataFrame final sera sauvegardé en CSV.

    Retour
    ------
    df_final : pd.DataFrame
        DataFrame pivoté avec:
        - 1 ligne par année
        - 10 colonnes (D1 à D10) indiquant le rendement agrégé de chaque décile
        - Si decile_weights est fourni, une colonne supplémentaire 'portfolio_return'
          représentant la somme pondérée des rendements déciles.
    """

    # --- 1) Merge sur cid + date
    merged_df = predictions_df.merge(
        df_canada[['cid', 'date', return_col]],
        on=['cid', 'date'],
        how='left'
    )
    
    # --- 2) Extraire l'année
    merged_df['year'] = merged_df['date'].dt.year
    
    # --- 3) Nettoyage éventuel
    merged_df.dropna(subset=[proba_col, return_col, 'year'], inplace=True)
    
    # --- 4) Choix de la fonction d'agrégation
    if aggregator == "mean":
        aggregator_func = np.mean
    elif aggregator == "median":
        aggregator_func = np.median
    else:
        raise ValueError("aggregator must be 'mean' or 'median'.")
    
    # --- 5) Préparer une liste pour stocker (year, decile_bin, agg_return)
    decile_results = []
    
    for year, group in merged_df.groupby('year'):
        # On doit découper en 10 déciles
        group = group.copy()
        
        # Astuce: labels=False renvoie des labels 0..9
        group['decile_bin'] = pd.qcut(group[proba_col], q=10, labels=False)
        
        # Calculer l'agrégat (mean ou median) du rendement dans chaque décile
        for decile_id, subdf in group.groupby('decile_bin'):
            if pd.isnull(decile_id):
                continue
            
            decile_id = int(decile_id)
            # Rendement agrégé (en % si on veut)
            decile_value = aggregator_func(subdf[return_col]) * 100.0
            
            decile_results.append({
                'year': year,
                'decile': decile_id,
                'decile_return': decile_value
            })
    
    # --- 6) On transforme la liste en DataFrame + pivot
    decile_df = pd.DataFrame(decile_results)
    df_pivot = decile_df.pivot(index='year', columns='decile', values='decile_return')
    
    # Renommer les colonnes pour D1..D10
    # Attention : decile_id = 0 correspond au 1er décile => D1
    df_pivot.columns = [f"D{i+1}" for i in df_pivot.columns]
    
    # --- 7) Si on a des poids, on calcule la somme pondérée
    if decile_weights is not None:
        if len(decile_weights) != 10:
            raise ValueError("decile_weights must be a list of length 10.")
        
        # Multiplier chaque colonne D1..D10 par le poids correspondant, puis sommer
        # Astuce : df_pivot.iloc[:, 0:10] prend les 10 premières colonnes => D1..D10
        # On peut ensuite .mul(decile_weights, axis='columns') pour multiplier par le vecteur
        # et .sum(axis=1) pour obtenir la somme par année
        # (on suppose que l'ordre des colonnes est D1..D10).
        
        weighted_sum = df_pivot.iloc[:, 0:10].mul(decile_weights, axis='columns').sum(axis=1)
        
        # On l'ajoute comme nouvelle colonne
        df_pivot['portfolio_return'] = weighted_sum
    
    # --- 8) On remet l'index 'year' comme colonne
    df_final = df_pivot.reset_index()
    
    # --- 9) Sauvegarde CSV si demandé
    if csv_path is not None:
        df_final.to_csv(csv_path, index=False)
    
    return df_final

## Appel de fonction - Rendement par Décile

### ALL

In [12]:
df_deciles_all = compute_decile_returns(
    predictions_df=predictions_df_all,
    df_canada=df_canada,
    proba_col='prob_up',
    return_col='return_1q',
    aggregator='mean',
    decile_weights=[-0.25, -0.25, -0.25, -0.25, 0, 0, 0.25, 0.25, 0.25, 0.25],
    csv_path='DFOriginal_NetInc_decile_returns_all.csv'
)

df_deciles_all.head()

Unnamed: 0,year,D1,D2,D3,D4,D5,D6,D7,D8,D9,D10,portfolio_return
0,2013,41.73451,3.043898,3.209282,0.457386,4.895438,5.109219,1.306376,0.848589,0.092257,-0.863408,-11.765316
1,2014,-0.621815,-1.677863,-0.062558,-1.380067,-2.952916,-0.646094,-1.07235,0.628742,-0.586767,-0.129978,0.645488
2,2015,-3.660169,-6.309304,-5.036015,-4.360806,-7.868569,-6.980948,-7.718709,-7.472414,-8.914647,-12.491448,-4.307731
3,2016,4.561911,6.840145,11.138441,7.303475,7.176469,6.571416,10.083677,7.727115,7.851381,13.409071,2.306818
4,2017,24.545572,1.160505,3.886728,0.519844,4.225669,5.167525,4.820546,3.400649,4.290884,7.08406,-2.629127


### Assets

In [16]:
df_deciles_assets = compute_decile_returns(
    predictions_df=predictions_df_assets,
    df_canada=df_canada,
    proba_col='prob_up',
    return_col='return_1q',
    aggregator='mean',
    decile_weights=[-0.25, -0.25, -0.25, -0.25, 0, 0, 0.25, 0.25, 0.25, 0.25],
    csv_path='DFOriginal_NetInc_decile_returns_assets.csv'
)

df_deciles_assets.head()

Unnamed: 0,year,D1,D2,D3,D4,D5,D6,D7,D8,D9,D10,portfolio_return
0,2013,39.940508,4.890649,2.208126,3.00361,3.097269,2.506946,4.340014,0.080078,-0.016328,-2.158443,-11.949393
1,2014,-0.195459,-0.990762,-2.805114,0.248192,-0.20505,-1.249294,-0.734901,-1.823901,-1.006892,0.177941,0.088848
2,2015,-3.32992,-6.130646,-6.297601,-7.756232,-4.765908,-8.85746,-5.137689,-7.894095,-7.421675,-12.346826,-2.321471
3,2016,7.533939,5.819191,7.456716,6.625679,7.578786,7.656798,5.485509,6.434564,14.431407,13.451729,3.091921
4,2017,24.503383,4.796819,3.155326,2.260339,3.217703,1.874226,2.772641,2.857064,4.395177,8.372974,-4.079503


### Revenues

In [17]:
df_deciles_revenues = compute_decile_returns(
    predictions_df=predictions_df_revenues,
    df_canada=df_canada,
    proba_col='prob_up',
    return_col='return_1q',
    aggregator='mean',
    decile_weights=[-0.25, -0.25, -0.25, -0.25, 0, 0, 0.25, 0.25, 0.25, 0.25],
    csv_path='DFOriginal_NetInc_decile_returns_revenues.csv'
)

df_deciles_revenues.head()

Unnamed: 0,year,D1,D2,D3,D4,D5,D6,D7,D8,D9,D10,portfolio_return
0,2013,39.254088,3.489797,4.42136,4.726098,2.183168,2.897411,0.349388,1.712688,-1.152311,-0.003346,-12.746231
1,2014,0.31313,-1.109615,-2.465324,-1.16449,-0.580991,-1.202922,0.555763,-0.981408,-2.691705,0.742323,0.512818
2,2015,-2.920726,-6.247679,-6.760107,-5.496576,-8.108657,-5.197961,-8.34194,-7.224932,-7.629866,-11.967397,-3.434762
3,2016,6.212963,7.990902,8.621097,3.924409,4.161488,9.993441,8.43445,11.243152,10.83645,11.510556,3.818809
4,2017,24.646078,2.497469,1.983927,3.658014,2.517461,4.076533,3.69923,3.424426,1.744007,9.899551,-3.504568


### Capital

In [18]:
df_deciles_capital = compute_decile_returns(
    predictions_df=predictions_df_capital,
    df_canada=df_canada,
    proba_col='prob_up',
    return_col='return_1q',
    aggregator='mean',
    decile_weights=[-0.25, -0.25, -0.25, -0.25, 0, 0, 0.25, 0.25, 0.25, 0.25],
    csv_path='DFOriginal_NetInc_decile_returns_capital.csv'
)

df_deciles_revenues.head()

Unnamed: 0,year,D1,D2,D3,D4,D5,D6,D7,D8,D9,D10,portfolio_return
0,2013,39.254088,3.489797,4.42136,4.726098,2.183168,2.897411,0.349388,1.712688,-1.152311,-0.003346,-12.746231
1,2014,0.31313,-1.109615,-2.465324,-1.16449,-0.580991,-1.202922,0.555763,-0.981408,-2.691705,0.742323,0.512818
2,2015,-2.920726,-6.247679,-6.760107,-5.496576,-8.108657,-5.197961,-8.34194,-7.224932,-7.629866,-11.967397,-3.434762
3,2016,6.212963,7.990902,8.621097,3.924409,4.161488,9.993441,8.43445,11.243152,10.83645,11.510556,3.818809
4,2017,24.646078,2.497469,1.983927,3.658014,2.517461,4.076533,3.69923,3.424426,1.744007,9.899551,-3.504568


## Secteur Par Décile

In [13]:
def compute_decile_sector_counts(
    predictions_df: pd.DataFrame,
    df_canada: pd.DataFrame,
    proba_col: str,
    sector_col: str,
    csv_path: str = None
) -> pd.DataFrame:
    """
    Calcule le nombre d'actions par secteur et par décile pour chaque année.
    
    Paramètres
    ----------
    predictions_df : pd.DataFrame
        Contient les prédictions (probabilités) et les colonnes 'cid', 'date'.
        Doit inclure la colonne `proba_col`.
    df_canada : pd.DataFrame
        Contient les colonnes `return_col`, `sector_col`, 'cid', 'date'.
    proba_col : str
        Nom de la colonne dans predictions_df représentant la probabilité ou le score.
    sector_col : str
        Nom de la colonne dans df_canada qui contient le secteur d'activité.
    csv_path : str, optionnel
        Chemin du fichier CSV où les résultats seront sauvegardés. Si None, aucun CSV n'est exporté.
    
    Retour
    ------
    sector_counts_df : pd.DataFrame
        DataFrame avec les colonnes 'year', 'decile', 'sector', 'count'.
    """
    
    # --- 1) Fusionner les DataFrames sur 'cid' et 'date', inclure 'sector_col' ---
    merged_df = predictions_df.merge(
        df_canada[['cid', 'date', sector_col]],
        on=['cid', 'date'],
        how='left'
    )
    
    # --- 2) Extraire l'année à partir de la colonne 'date' ---
    merged_df['year'] = merged_df['date'].dt.year
    
    # --- 3) Nettoyer les données en supprimant les valeurs manquantes ---
    merged_df.dropna(subset=[proba_col, sector_col, 'year'], inplace=True)
    
    # --- 4) Attribuer les déciles par année ---
    # Utiliser pd.qcut pour créer 10 déciles (labels 0 à 9)
    merged_df['decile_bin'] = merged_df.groupby('year')[proba_col].transform(
        lambda x: pd.qcut(x, q=10, labels=False)
    )
    
    # --- 5) Compter les actions par année, décile et secteur ---
    sector_counts = merged_df.groupby(['year', 'decile_bin', sector_col]).size().reset_index(name='count')
    
    # --- 6) Renommer les déciles de 1 à 10 pour une meilleure lisibilité ---
    sector_counts['decile'] = sector_counts['decile_bin'] + 1  # D1 = 1, D10 = 10
    sector_counts.drop('decile_bin', axis=1, inplace=True)
    
    # --- 7) Optionnel : Exporter le résultat en CSV ---
    if csv_path is not None:
        sector_counts.to_csv(csv_path, index=False)
        print(f"Les comptes par secteur et par décile ont été sauvegardés dans {csv_path}")
    
    return sector_counts

## Appel de fonction

### ALL

In [14]:
sector_counts_df_all = compute_decile_sector_counts(
    predictions_df=predictions_df_all,
    df_canada=df_canada,
    proba_col='prob_up',
    sector_col='industry_raw',
    csv_path='decile_sector_counts_all.csv'  # Chemin du fichier CSV de sortie
)

# Afficher les premières lignes pour vérification
print(sector_counts_df_all.head())

Les comptes par secteur et par décile ont été sauvegardés dans decile_sector_counts_all.csv
   year           industry_raw  count  decile
0  2013    Aerospace & Defense      7       1
1  2013  Automobile Components      2       1
2  2013          Biotechnology      1       1
3  2013       Broadline Retail      6       1
4  2013        Capital Markets      6       1


### Assets

In [20]:
sector_counts_df_assets = compute_decile_sector_counts(
    predictions_df=predictions_df_assets,
    df_canada=df_canada,
    proba_col='prob_up',
    sector_col='industry_raw',
    csv_path='decile_sector_counts_assets.csv'  # Chemin du fichier CSV de sortie
)

# Afficher les premières lignes pour vérification
print(sector_counts_df_assets.head())

Les comptes par secteur et par décile ont été sauvegardés dans decile_sector_counts_assets.csv
   year           industry_raw  count  decile
0  2013    Aerospace & Defense      6       1
1  2013  Automobile Components      2       1
2  2013          Biotechnology      1       1
3  2013       Broadline Retail      2       1
4  2013        Capital Markets      5       1


### Revenues

In [21]:
sector_counts_df_revenues = compute_decile_sector_counts(
    predictions_df=predictions_df_revenues,
    df_canada=df_canada,
    proba_col='prob_up',
    sector_col='industry_raw',
    csv_path='decile_sector_counts_revenues.csv'  # Chemin du fichier CSV de sortie
)

# Afficher les premières lignes pour vérification
print(sector_counts_df_revenues.head())

Les comptes par secteur et par décile ont été sauvegardés dans decile_sector_counts_revenues.csv
   year         industry_raw  count  decile
0  2013  Aerospace & Defense      4       1
1  2013        Biotechnology      1       1
2  2013     Broadline Retail      3       1
3  2013      Capital Markets      6       1
4  2013            Chemicals      1       1


### Capital

In [22]:
sector_counts_df_capital = compute_decile_sector_counts(
    predictions_df=predictions_df_capital,
    df_canada=df_canada,
    proba_col='prob_up',
    sector_col='industry_raw',
    csv_path='decile_sector_counts_capital.csv'  # Chemin du fichier CSV de sortie
)

# Afficher les premières lignes pour vérification
print(sector_counts_df_capital.head())

Les comptes par secteur et par décile ont été sauvegardés dans decile_sector_counts_capital.csv
   year                    industry_raw  count  decile
0  2013             Aerospace & Defense      7       1
1  2013           Automobile Components      7       1
2  2013                Broadline Retail      6       1
3  2013                 Capital Markets      4       1
4  2013  Commercial Services & Supplies      4       1
