In [1]:
import pandas as pd
import numpy as np
from supervised.automl import AutoML
from dateutil.relativedelta import relativedelta
from sklearn.metrics import roc_auc_score

Using `tqdm.autonotebook.tqdm` in notebook mode. Use `tqdm.tqdm` instead to force console mode (e.g. in jupyter console)


## DF Original

In [3]:
df_canada = pd.read_csv('canada_updated.csv')
df_canada["date"] = pd.to_datetime(df_canada["date"])
df_canada.head()

Unnamed: 0,date,QUALITY_FLAG,cid,industry_raw,E_TTM_period_date,E_TTM_ammor_intangibles,E_TTM_asset_writedown,E_TTM_assets_gro_five,E_TTM_capex,E_TTM_cash_acquisitions,...,E_G_ebitda_cov,E_G_ret_on_asset,E_G_ret_on_inv_cap,E_G_net_to_cash,E_G_perm_assets_ratio,return_1q,target_net_income,target_cash_operations,binary_target_net_income,binary_target_cash_operations
0,2002-01-03,True,SP-065996,,2001-10-31,0.0,0.0,0.0,-12.738,-3.336,...,-165.453488,0.130018,0.101871,-0.068216,0.41423,,,,0,0
1,2002-01-08,True,SP-002396,,2001-09-30,3.078,0.0,0.0,-20.889,-68.22,...,-2.685925,0.071119,0.06743,-0.004881,0.595752,,,,0,0
2,2002-01-08,True,SP-006704,,2001-09-30,0.0,0.0,0.0,-17.971623,0.0,...,2.26246,-0.069781,-0.039238,-0.045993,0.775432,,,,0,0
3,2002-01-08,True,SP-008644,,2001-09-30,0.0,0.0,0.0,-34.7,0.0,...,-4.852273,-0.169833,-0.155712,-0.316372,0.773996,,,,0,0
4,2002-01-08,True,SP-013994,,2001-09-30,0.0,0.0,0.0,-1403.0,-133.0,...,-14.569697,0.109798,0.078497,-0.157934,0.921832,,,,0,0


## Copie pour modification

In [4]:
df_model = df_canada.copy()

df_model['date'] = pd.to_datetime(df_model['date'], errors='coerce')
df_model.sort_values(by=['cid', 'date'], inplace=True)

# Retirer les lignes où Quality_Flag est False
df_model = df_model[df_model['QUALITY_FLAG'] == True]

# (FACULTATIF) Exclure les banques
# df_model = df_model[df_model['industry'] != 'Banks']

## Selection de features

In [5]:
def select_features(
    df,
    include_agro=False,
    include_rgro=False,
    include_tcgro=False,
    include_ratios_assets=False,
    include_ratios_rev=False,
    include_ratios_totcap=False,
    mandatory_cols=None
):
    """
    Sélectionne dynamiquement les colonnes d'un DataFrame en fonction
    des familles de variables explicatives demandées,
    en plaçant d'abord les colonnes obligatoires (mandatory_cols).
    """
    
    # 1) Gérer la liste mandatory_cols (par défaut : vide ou ['cid','date'] selon besoin)
    if mandatory_cols is None:
        mandatory_cols = []
    
    # 2) Définir les "familles" de motifs
    family_patterns = {
        'agro': ['_agro_1q', '_agro_4q'],
        'rgro': ['_rgro_1q', '_rgro_4q'],
        'tcgro': ['_tcgro_1q', '_tcgro_4q'],
        'ratios_assets': ['_on_assets_ratio'],
        'ratios_rev': ['_on_rev_ratio'],
        'ratios_totcap': ['_on_tot_cap_ratio']
    }
    
    # 3) Construire la liste des motifs à inclure
    patterns_to_keep = []
    if include_agro:
        patterns_to_keep += family_patterns['agro']
    if include_rgro:
        patterns_to_keep += family_patterns['rgro']
    if include_tcgro:
        patterns_to_keep += family_patterns['tcgro']
    
    if include_ratios_assets:
        patterns_to_keep += family_patterns['ratios_assets']
    if include_ratios_rev:
        patterns_to_keep += family_patterns['ratios_rev']
    if include_ratios_totcap:
        patterns_to_keep += family_patterns['ratios_totcap']
    
    # 4) Retrouver toutes les colonnes du df qui matchent nos motifs
    matched_cols = set()
    for pat in patterns_to_keep:
        for col in df.columns:
            if pat in col:
                matched_cols.add(col)
    # => matched_cols est un set() de colonnes
    
    # 5) Conserver l'ordre original des colonnes matched, 
    #    en filtrant df.columns dans l'ordre d'origine
    matched_cols_in_order = [c for c in df.columns if c in matched_cols]
    
    # 6) Construire l'ordre final :
    #    - d'abord mandatory_cols (dans l'ordre donné),
    #    - puis les matched_cols (dans l'ordre d'origine)
    #    - attention aux colonnes obligatoires qui n'existent pas, 
    #      ou aux duplications
    #    - on fait donc une intersection + un set() pour éviter 
    #      les collisions.
    
    # Intersection pour ne pas inclure des mandatory inexistantes
    mandatory_cols_in_df = [c for c in mandatory_cols if c in df.columns]
    
    # Puis on concatène en évitant toute duplication
    columns_to_keep_ordered = mandatory_cols_in_df + [
        c for c in matched_cols_in_order if c not in mandatory_cols_in_df
    ]
    
    # 7) Extraire le sous-DataFrame
    df_filtered = df[columns_to_keep_ordered].copy()
    
    # 8) (Optionnel) trier par cid/date si elles sont présentes
    if 'cid' in df_filtered.columns and 'date' in df_filtered.columns:
        df_filtered.sort_values(by=['cid', 'date'], inplace=True)
    
    return df_filtered

## Appel de fonction - Features

### ALL

In [7]:
DF_ALL = select_features(
    df_model,
    include_agro=True,
    include_rgro=True,
    include_tcgro=True,
    include_ratios_assets=True,
    include_ratios_rev=True,
    include_ratios_totcap=True,
    mandatory_cols=['cid', 'date', 'binary_target_cash_operations']  # je garde la target
)

# Compter le nombre total de NaN dans tout le DataFrame
total_nan = DF_ALL.isna().sum().sum()
print(f"Nombre total de valeurs NaN dans DF_ALL : {total_nan}")

# Retirer les lignes qui contiennent AU MOINS un NaN
DF_ALL.dropna(inplace=True)

# Vérifier à nouveau qu’il n’y a plus de NaN
total_nan_apres = DF_ALL.isna().sum().sum()
print(f"Nombre total de valeurs NaN après suppression : {total_nan_apres}")

print(DF_ALL.shape)

Nombre total de valeurs NaN dans DF_ALL : 1360861
Nombre total de valeurs NaN après suppression : 0
(36154, 579)


### Assets

In [8]:
DF_Assets = select_features(
    df_model,
    include_agro=True,
    include_rgro=False,
    include_tcgro=False,
    include_ratios_assets=True,
    include_ratios_rev=False,
    include_ratios_totcap=False,
    mandatory_cols=['cid', 'date', 'binary_target_cash_operations']  # je garde la target
)

# Compter le nombre total de NaN dans tout le DataFrame
total_nan = DF_Assets.isna().sum().sum()
print(f"Nombre total de valeurs NaN dans DF_Assets : {total_nan}")

# Retirer les lignes qui contiennent AU MOINS un NaN
DF_Assets.dropna(inplace=True)

# Vérifier à nouveau qu’il n’y a plus de NaN
total_nan_apres = DF_Assets.isna().sum().sum()
print(f"Nombre total de valeurs NaN après suppression : {total_nan_apres}")

print(DF_Assets.shape)

Nombre total de valeurs NaN dans DF_Assets : 443777
Nombre total de valeurs NaN après suppression : 0
(37311, 195)


### Revenues

In [6]:
DF_Revenues = select_features(
    df_model,
    include_agro=False,
    include_rgro=True,
    include_tcgro=False,
    include_ratios_assets=False,
    include_ratios_rev=True,
    include_ratios_totcap=False,
    mandatory_cols=['cid', 'date', 'binary_target_cash_operations']  # je garde la target
)

# Compter le nombre total de NaN dans tout le DataFrame
total_nan = DF_Revenues.isna().sum().sum()
print(f"Nombre total de valeurs NaN dans DF_Revenues : {total_nan}")

# Retirer les lignes qui contiennent AU MOINS un NaN
DF_Revenues.dropna(inplace=True)

# Vérifier à nouveau qu’il n’y a plus de NaN
total_nan_apres = DF_Revenues.isna().sum().sum()
print(f"Nombre total de valeurs NaN après suppression : {total_nan_apres}")

print(DF_Revenues.shape)

Nombre total de valeurs NaN dans DF_Revenues : 360337
Nombre total de valeurs NaN après suppression : 0
(37254, 195)


### Capital Moyen

In [7]:
DF_Capital = select_features(
    df_model,
    include_agro=False,
    include_rgro=False,
    include_tcgro=True,
    include_ratios_assets=False,
    include_ratios_rev=False,
    include_ratios_totcap=True,
    mandatory_cols=['cid', 'date', 'binary_target_cash_operations']  # je garde la target
)

# Compter le nombre total de NaN dans tout le DataFrame
total_nan = DF_Capital.isna().sum().sum()
print(f"Nombre total de valeurs NaN dans DF_Capital : {total_nan}")

# Retirer les lignes qui contiennent AU MOINS un NaN
DF_Capital.dropna(inplace=True)

# Vérifier à nouveau qu’il n’y a plus de NaN
total_nan_apres = DF_Capital.isna().sum().sum()
print(f"Nombre total de valeurs NaN après suppression : {total_nan_apres}")

print(DF_Capital.shape)

Nombre total de valeurs NaN dans DF_Capital : 556747
Nombre total de valeurs NaN après suppression : 0
(36211, 195)


## DF 10 ans

### ALL

In [9]:
# Date la plus récente du DataFrame
max_date = DF_ALL['date'].max()

# Date de coupure (5 ans avant)
cutoff_date = max_date - pd.DateOffset(years=15)

# Filtrer pour ne garder que les 5 dernières années
DF_10Y_all = DF_ALL[DF_ALL['date'] >= cutoff_date].copy()

print(DF_10Y_all['date'].min(), DF_10Y_all['date'].max())
print(DF_10Y_all.shape)

2009-12-14 00:00:00 2024-12-12 00:00:00
(23539, 579)


### Assets

In [10]:
# Date la plus récente du DataFrame
max_date = DF_Assets['date'].max()

# Date de coupure (5 ans avant)
cutoff_date = max_date - pd.DateOffset(years=15)

# Filtrer pour ne garder que les 5 dernières années
DF_10Y_Assets = DF_Assets[DF_Assets['date'] >= cutoff_date].copy()

print(DF_10Y_Assets['date'].min(), DF_10Y_Assets['date'].max())
print(DF_10Y_Assets.shape)

2009-12-14 00:00:00 2024-12-12 00:00:00
(24309, 195)


### Revenues

In [8]:
# Date la plus récente du DataFrame
max_date = DF_Revenues['date'].max()

# Date de coupure (5 ans avant)
cutoff_date = max_date - pd.DateOffset(years=15)

# Filtrer pour ne garder que les 5 dernières années
DF_15Y_Revenues = DF_Revenues[DF_Revenues['date'] >= cutoff_date].copy()

print(DF_15Y_Revenues['date'].min(), DF_15Y_Revenues['date'].max())
print(DF_15Y_Revenues.shape)

2009-12-14 00:00:00 2024-12-12 00:00:00
(24275, 195)


#### Capital Moyen

In [9]:
# Date la plus récente du DataFrame
max_date = DF_Capital['date'].max()

# Date de coupure (5 ans avant)
cutoff_date = max_date - pd.DateOffset(years=15)

# Filtrer pour ne garder que les 5 dernières années
DF_15Y_Capital = DF_Capital[DF_Capital['date'] >= cutoff_date].copy()

print(DF_15Y_Capital['date'].min(), DF_15Y_Capital['date'].max())
print(DF_15Y_Capital.shape)

2009-12-14 00:00:00 2024-12-12 00:00:00
(23573, 195)


## Rolling Window + AutoML

In [10]:
def pipeline_rolling_windows(data, date_col, target_col, train_years, val_years, test_years, label, buffer_months=0):
    """
    Pipeline direct pour la rolling window avec AutoML et cross-validation personnalisée.
    Ajoute les périodes dans le DataFrame final pour validation.
    """
    
    # Conversion de la colonne date
    data[date_col] = pd.to_datetime(data[date_col])
    start_date = data[date_col].min()
    end_date = data[date_col].max()

    predictions_all = []  # Liste pour stocker toutes les prédictions

    while start_date + relativedelta(years=train_years + val_years + test_years) <= end_date:
        # Définir les périodes
        train_end = start_date + relativedelta(years=train_years) - pd.Timedelta(days=1)
        tampon_1_end = train_end + relativedelta(months=buffer_months)
        val_start = tampon_1_end + pd.Timedelta(days=1)
        val_end = val_start + relativedelta(years=val_years) - pd.Timedelta(days=1)
        tampon_2_end = val_end + relativedelta(months=buffer_months)
        test_start = tampon_2_end + pd.Timedelta(days=1)
        test_end = test_start + relativedelta(years=test_years) - pd.Timedelta(days=1)

        # Filtrer les données
        train_data = data.loc[(data[date_col] >= start_date) & (data[date_col] <= train_end)]
        val_data = data.loc[(data[date_col] >= val_start) & (data[date_col] <= val_end)]
        test_data = data.loc[(data[date_col] >= test_start) & (data[date_col] <= test_end)]

        if len(train_data) == 0 or len(val_data) == 0 or len(test_data) == 0:
            print(f"Fenêtre {start_date.year}-{test_end.year} : données insuffisantes, sautée.")
            start_date += relativedelta(years=1)
            continue

        # Configurer et entraîner AutoML
        print(f"Fenêtre {start_date.year}-{test_end.year} : entraînement de AutoML...")
        automl = AutoML(results_path=f"AutoML_{start_date.year}-{test_end.year}_{label}_CFO", mode="Perform", algorithms=["Xgboost"], eval_metric="auc")
        custom_cv = [(train_data.index, val_data.index)]
        automl.fit(
            train_data.drop(columns=[target_col, date_col, 'cid']),
            train_data[target_col], cv=custom_cv
        )

        # Prédire sur le test set
        test_preds = test_data[[date_col, target_col]].copy()
        #test_preds["predicted"] = automl.predict_proba(test_data.drop(columns=[target_col, date_col, 'cid']))
        proba = automl.predict_proba(test_data.drop(columns=[target_col, date_col, 'cid']))
        test_preds["prob_down"] = proba[:, 0]  # Probabilité pour la classe 0 (diminution des bénéfices)
        test_preds["prob_up"] = proba[:, 1]  # Probabilité pour la classe 1 (augmentation des bénéfices)
        test_preds["net_prob_score"] = test_preds["prob_up"] - test_preds["prob_down"]
        test_preds["window"] = f"{start_date.year}-{test_end.year}"
        test_preds["cid"] = test_data["cid"].values

        # Ajouter les périodes pour validation
        #test_preds["train_start"] = start_date
        #test_preds["train_end"] = train_end
        #test_preds["tampon_1"] = tampon_1_end
        #test_preds["val_start"] = val_start
        #test_preds["val_end"] = val_end
        #test_preds["tampon_2"] = tampon_2_end
        #test_preds["test_start"] = test_start
        #test_preds["test_end"] = test_end

        # Sauvegarder les prédictions
        predictions_all.append(test_preds)

        # Avancer la fenêtre
        start_date += relativedelta(years=1)

    predictions_df = pd.concat(predictions_all, ignore_index=True)
    return predictions_df

## Appel de fonction - Prédictions

### 10Y ALL

In [13]:
predictions_df_all = pipeline_rolling_windows(
    data=DF_10Y_all,
    date_col="date", 
    target_col="binary_target_cash_operations", 
    train_years=5, 
    val_years=1, 
    test_years=1,
    label="all", 
    buffer_months=1
)

predictions_df_all.to_csv("df15Y_CashFromOps_Pred_all.csv", index=False)

Fenêtre 2009-2017 : entraînement de AutoML...
AutoML directory: AutoML_2009-2017_all_CFO
The task is binary_classification with evaluation metric auc
AutoML will use algorithms: ['Xgboost']
AutoML will ensemble available models
AutoML steps: ['simple_algorithms', 'default_algorithms', 'not_so_random', 'golden_features', 'insert_random_feature', 'features_selection', 'hill_climbing_1', 'hill_climbing_2', 'ensemble']
Skip simple_algorithms because no parameters were generated.
* Step default_algorithms will try to check up to 1 model
1_Default_Xgboost auc 0.909105 trained in 126.23 seconds (1-sample predict time 0.1722 seconds)
* Step not_so_random will try to check up to 4 models
2_Xgboost auc 0.904925 trained in 118.72 seconds (1-sample predict time 0.1734 seconds)
3_Xgboost auc 0.908877 trained in 115.24 seconds (1-sample predict time 0.1911 seconds)
4_Xgboost auc 0.887921 trained in 96.07 seconds (1-sample predict time 0.0977 seconds)
5_Xgboost auc 0.862292 trained in 85.27 seconds (

### 10Y Assets

In [12]:
predictions_df_assets = pipeline_rolling_windows(
    data=DF_10Y_Assets,
    date_col="date", 
    target_col="binary_target_cash_operations", 
    train_years=5, 
    val_years=1, 
    test_years=1,
    label="assets", 
    buffer_months=1
)

predictions_df_assets.to_csv("df15Y_CashFromOps_Pred_assets.csv", index=False)

Fenêtre 2009-2017 : entraînement de AutoML...
AutoML directory: AutoML_2009-2017_assets_CFO
The task is binary_classification with evaluation metric auc
AutoML will use algorithms: ['Xgboost']
AutoML will ensemble available models
AutoML steps: ['simple_algorithms', 'default_algorithms', 'not_so_random', 'golden_features', 'insert_random_feature', 'features_selection', 'hill_climbing_1', 'hill_climbing_2', 'ensemble']
Skip simple_algorithms because no parameters were generated.
* Step default_algorithms will try to check up to 1 model
1_Default_Xgboost auc 0.906405 trained in 47.98 seconds (1-sample predict time 0.0338 seconds)
* Step not_so_random will try to check up to 4 models
2_Xgboost auc 0.900513 trained in 33.33 seconds (1-sample predict time 0.0343 seconds)
3_Xgboost auc 0.906767 trained in 32.23 seconds (1-sample predict time 0.0334 seconds)
4_Xgboost auc 0.883906 trained in 33.74 seconds (1-sample predict time 0.0362 seconds)
5_Xgboost auc 0.851473 trained in 29.12 seconds (

### 10Y Revenues

In [11]:
predictions_df_revenues = pipeline_rolling_windows(
    data=DF_15Y_Revenues,
    date_col="date", 
    target_col="binary_target_cash_operations", 
    train_years=5, 
    val_years=1, 
    test_years=1,
    label="Revenue", 
    buffer_months=1
)

predictions_df_revenues.to_csv("df15Y_CashFromOps_Pred_revenues.csv", index=False)

Fenêtre 2009-2017 : entraînement de AutoML...
AutoML directory: AutoML_2009-2017_Revenue_CFO
The task is binary_classification with evaluation metric auc
AutoML will use algorithms: ['Xgboost']
AutoML will ensemble available models
AutoML steps: ['simple_algorithms', 'default_algorithms', 'not_so_random', 'golden_features', 'insert_random_feature', 'features_selection', 'hill_climbing_1', 'hill_climbing_2', 'ensemble']
Skip simple_algorithms because no parameters were generated.
* Step default_algorithms will try to check up to 1 model
1_Default_Xgboost auc 0.900697 trained in 44.42 seconds (1-sample predict time 0.0332 seconds)
* Step not_so_random will try to check up to 4 models
2_Xgboost auc 0.897905 trained in 34.31 seconds (1-sample predict time 0.034 seconds)
3_Xgboost auc 0.904824 trained in 41.8 seconds (1-sample predict time 0.0357 seconds)
4_Xgboost auc 0.877939 trained in 32.98 seconds (1-sample predict time 0.0355 seconds)
5_Xgboost auc 0.844123 trained in 25.82 seconds (1

### 10Y Capital

In [12]:
predictions_df_capital = pipeline_rolling_windows(
    data=DF_15Y_Capital,
    date_col="date", 
    target_col="binary_target_cash_operations", 
    train_years=5, 
    val_years=1, 
    test_years=1,
    label="capital", 
    buffer_months=1
)

predictions_df_capital.to_csv("df15Y_CashFromOps_Pred_capital.csv", index=False)

Fenêtre 2009-2017 : entraînement de AutoML...
AutoML directory: AutoML_2009-2017_capital_CFO
The task is binary_classification with evaluation metric auc
AutoML will use algorithms: ['Xgboost']
AutoML will ensemble available models
AutoML steps: ['simple_algorithms', 'default_algorithms', 'not_so_random', 'golden_features', 'insert_random_feature', 'features_selection', 'hill_climbing_1', 'hill_climbing_2', 'ensemble']
Skip simple_algorithms because no parameters were generated.
* Step default_algorithms will try to check up to 1 model
1_Default_Xgboost auc 0.899417 trained in 79.55 seconds (1-sample predict time 0.0449 seconds)
* Step not_so_random will try to check up to 4 models
2_Xgboost auc 0.896081 trained in 59.56 seconds (1-sample predict time 0.0357 seconds)
3_Xgboost auc 0.902697 trained in 36.8 seconds (1-sample predict time 0.0385 seconds)
4_Xgboost auc 0.879921 trained in 36.7 seconds (1-sample predict time 0.0372 seconds)
5_Xgboost auc 0.851058 trained in 31.87 seconds (1

## AUC - Overall

In [18]:
#test_auc_net = roc_auc_score(predictions_df["binary_target_cash_operations"], predictions_df["net_prob_score"])
#test_auc_up = roc_auc_score(predictions_df["binary_target_cash_operations"], predictions_df["prob_up"])
#test_auc_down = roc_auc_score(predictions_df["binary_target_cash_operations"], predictions_df["prob_down"])
#test_auc_net, test_auc_up, test_auc_down

## Grouped AUCs

In [13]:
def compute_auc_by_groups(
    predictions_df: pd.DataFrame, 
    df_canada: pd.DataFrame,
    group_cols: list,
    cid_col: str = "cid",
    date_col: str = "date",
    target_col: str = "binary_target_cash_operations",
    prob_col: str = "prob_up",
    out_csv: str = None
):
    """
    Calcule l'AUC par groupes (selon group_cols) et le nombre de lignes dans chaque groupe.
    
    Arguments :
    -----------
    - predictions_df : DataFrame contenant au moins [cid_col, date_col, target_col, prob_col]
    - df_canada : DataFrame contenant au moins [cid_col, date_col, 'return_1q', 'industry_raw', etc.]
    - group_cols : liste des colonnes sur lesquelles faire le groupby (ex: ["year", "industry_raw"])
    - cid_col : nom de la colonne identifiant l'entreprise (défaut: "cid")
    - date_col : nom de la colonne date (défaut: "date")
    - target_col : nom de la colonne cible binaire (ex: 0/1) (défaut: "binary_target_cash_operations")
    - prob_col : nom de la colonne contenant la probabilité pour la classe positive (défaut: "prob_up")
    - out_csv : chemin vers le fichier CSV de sortie (défaut: None, ne pas exporter)

    Retour :
    --------
    - final_df : DataFrame avec AUC et Count pour chaque groupe
    """

    # 1) Fusionner les dataframes (left merge pour conserver toutes les prédictions)
    df_merged = predictions_df.merge(
        df_canada[[cid_col, date_col, 'return_1q', 'industry_raw']],  # adapt si tu veux plus/moins de colonnes
        on=[cid_col, date_col],
        how='left'
    )

    # 2) Si "year" est dans group_cols et pas encore créée, on l'extrait du date_col
    if "year" in group_cols and "year" not in df_merged.columns:
        df_merged["year"] = pd.to_datetime(df_merged[date_col]).dt.year

    # -- Fonction interne pour calculer l’AUC sur un sous-groupe
    def group_auc(sub_df):
        unique_targets = sub_df[target_col].unique()
        # Gérer le cas où il n’y a qu’une seule classe (roc_auc_score plantait sinon)
        if len(unique_targets) < 2:
            return float("nan")
        return roc_auc_score(sub_df[target_col], sub_df[prob_col])

    # 3) Calculer l’AUC par groupe
    grouped_aucs = (
        df_merged
        .groupby(group_cols)
        .apply(group_auc)
        .reset_index(name="AUC")
    )

    # 4) Calculer le nombre d’observations par groupe (ou nombre de cid uniques, selon besoin)
    #    Ici : on compte simplement le nombre de lignes
    grouped_counts = (
        df_merged
        .groupby(group_cols)[target_col]  # ou [cid_col] si tu veux le nombre d'entreprises distinctes
        .count()
        .reset_index(name="Count")
    )

    # 5) Fusionner AUC et Count
    final_df = pd.merge(grouped_aucs, grouped_counts, on=group_cols, how="left")

    # Optionnel : trier le résultat
    final_df = final_df.sort_values(group_cols)

    # Optionnel : exporter en CSV
    if out_csv is not None:
        final_df.to_csv(out_csv, index=False)

    return final_df

## Appel de Fonction - Grouped AUCs

### ALL

In [15]:
compute_auc_by_groups(
    predictions_df=predictions_df_all,
    df_canada=df_canada,
    group_cols=["year"],
    out_csv="DF15Y_CashFromOps_AUC_Year_all.csv"
)



Unnamed: 0,year,AUC,Count
0,2016,0.727787,1467
1,2017,0.705037,1532
2,2018,0.672442,1553
3,2019,0.697981,1540
4,2020,0.689486,1494
5,2021,0.711688,1512
6,2022,0.714861,1491
7,2023,0.755051,1457
8,2024,,86


### Assets

In [16]:
compute_auc_by_groups(
    predictions_df=predictions_df_assets,
    df_canada=df_canada,
    group_cols=["year"],
    out_csv="DF15Y_CashFromOps_AUC_Year_assets.csv"
)



Unnamed: 0,year,AUC,Count
0,2016,0.732321,1512
1,2017,0.704291,1576
2,2018,0.666849,1594
3,2019,0.698542,1584
4,2020,0.686981,1539
5,2021,0.7008,1552
6,2022,0.731097,1537
7,2023,0.748298,1499
8,2024,,86


### Revenues

In [14]:
compute_auc_by_groups(
    predictions_df=predictions_df_revenues,
    df_canada=df_canada,
    group_cols=["year"],
    out_csv="DF15Y_CashFromOps_AUC_Year_revenues.csv"
)



Unnamed: 0,year,AUC,Count
0,2016,0.733779,1506
1,2017,0.712589,1572
2,2018,0.667857,1593
3,2019,0.683885,1579
4,2020,0.680718,1534
5,2021,0.707321,1551
6,2022,0.72448,1531
7,2023,0.752563,1496
8,2024,,86


### Capital

In [15]:
compute_auc_by_groups(
    predictions_df=predictions_df_capital,
    df_canada=df_canada,
    group_cols=["year"],
    out_csv="DF15Y_CashFromOps_AUC_Year_capital.csv"
)



Unnamed: 0,year,AUC,Count
0,2016,0.730515,1473
1,2017,0.700676,1536
2,2018,0.67073,1554
3,2019,0.69153,1545
4,2020,0.678422,1499
5,2021,0.705133,1513
6,2022,0.720531,1497
7,2023,0.759597,1460
8,2024,,86


## Création de Portefeuille + Annual Weighted Returns

In [24]:
def create_weighted_portfolios(predictions_df, df_canada, proba_col, return_col, lower_threshold=0.4, upper_threshold=0.6):
    """
    Crée un portefeuille pondéré basé sur les prédictions et calcule les rendements pondérés par année,
    en attribuant des poids positifs aux positions longues et négatifs aux positions courtes, avec une somme neutre.
    
    Args:
    - predictions_df (pd.DataFrame): DataFrame contenant les prédictions et les identifiants 'cid'.
    - df_canada (pd.DataFrame): DataFrame contenant les rendements futurs et les identifiants 'cid'.
    - return_col (str): Nom de la colonne des rendements futurs dans df_canada.
    - lower_threshold (float): Seuil inférieur pour les positions courtes.
    - upper_threshold (float): Seuil supérieur pour les positions longues.
    
    Returns:
    - result_df (pd.DataFrame): DataFrame contenant les rendements pondérés des portefeuilles par année.
    """
    # Assure que les colonnes 'date' sont au bon format datetime dans les deux DataFrames
    predictions_df['date'] = pd.to_datetime(predictions_df['date'])
    df_canada['date'] = pd.to_datetime(df_canada['date'])
        
    
    # Joindre les deux DataFrames sur 'cid' et 'date'
    merged_df = predictions_df.merge(df_canada[['cid', 'date', return_col]], on=['cid', 'date'], how='left')
    
    # Extraire l'année à partir de la colonne 'date'
    merged_df['year'] = merged_df['date'].dt.year
    
    # Retirer les lignes avec des valeurs manquantes
    merged_df.dropna(inplace=True)
    
    # Initialiser une liste pour stocker les résultats
    results = []

    # Grouper par année
    for year, group in merged_df.groupby('year'):
        # Sélectionner les positions longues et courtes selon les seuils
        selected_long = group[group[proba_col] > upper_threshold]  # Positions longues
        selected_short = group[group[proba_col] < lower_threshold]  # Positions courtes
        
        n_long = len(selected_long)
        n_short = len(selected_short)
        
        if n_long > 0 or n_short > 0:
            # Attribuer des poids aux positions longues et courtes
            if n_long > 0:
                selected_long.loc[:, 'weight'] = 1 / n_long  # Poids positifs pour les positions longues
            if n_short > 0:
                selected_short.loc[:, 'weight'] = -1 / n_short  # Poids négatifs pour les positions courtes
            
            # Combiner les deux DataFrames
            selected = pd.concat([selected_long, selected_short], ignore_index=True)
            
            # Calculer le rendement pondéré du portefeuille (somme des rendements pondérés)
            weighted_return = (selected['weight'] * selected[return_col] * 100).sum()
            
            # Ajouter le résultat à la liste
            results.append({'year': year, 'weighted_return': weighted_return})
        else:
            # Si aucune action ne respecte les seuils, le rendement est NaN
            results.append({'year': year, 'weighted_return': float('nan')})

    # Convertir les résultats en DataFrame
    result_df = pd.DataFrame(results)
    
    return result_df

## Appel de fonction rendement annuel

### ALL

In [25]:
#ret_net_income_all = create_weighted_portfolios(predictions_df_all, df_canada, 'prob_up', 'return_1q', lower_threshold=0.5, upper_threshold=0.5)

#ret_net_income.to_csv("returns_net_income_0.5_0.5.csv", index=False)

#ret_net_income_all

In [26]:
#returns_net_income_all = create_weighted_portfolios(predictions_df_all, df_canada, 'prob_up', 'return_1q', lower_threshold=0.4, upper_threshold=0.6)

#returns_net_income.to_csv("returns_net_income_0.4_0.6.csv", index=False)

#returns_net_income_all

## Appel DF de Prédiction [Évite d'avoir à rouler le code au complet]

### ALL

In [8]:
predictions_df_all = pd.read_csv('df15Y_CashFromOps_Pred_all.csv')
predictions_df_all["date"] = pd.to_datetime(predictions_df_all["date"])
#predictions_df_all.head()

### Assets

In [9]:
predictions_df_assets = pd.read_csv('df15Y_CashFromOps_Pred_assets.csv')
predictions_df_assets["date"] = pd.to_datetime(predictions_df_assets["date"])
#predictions_df_assets.head()

### Revenues

In [12]:
predictions_df_revenues = pd.read_csv('df15Y_CashFromOps_Pred_revenues.csv')
predictions_df_revenues["date"] = pd.to_datetime(predictions_df_revenues["date"])
#predictions_df_revenues.head()

### Capital

In [14]:
predictions_df_capital = pd.read_csv('df15Y_CashFromOps_Pred_capital.csv')
predictions_df_capital["date"] = pd.to_datetime(predictions_df_capital["date"])
#predictions_df_capital.head()

## Rendement par Décile

In [6]:
def compute_decile_returns(
    predictions_df: pd.DataFrame,
    df_canada: pd.DataFrame,
    proba_col: str,
    return_col: str,
    aggregator: str = "mean",        # "mean" ou "median"
    decile_weights: list = None,     # liste de 10 poids ou None
    csv_path: str = None             # chemin CSV ou None
) -> pd.DataFrame:
    """
    Calcule le rendement par décile (du plus faible au plus élevé) pour chaque année.
    - Découpage en déciles via pd.qcut (q=10).
    - Agrégation des rendements par décile via un 'aggregator' (mean ou median).
    - Optionnellement, applique un vecteur de poids (decile_weights) pour calculer
      un rendement global (somme pondérée des déciles).

    Paramètres
    ----------
    predictions_df : pd.DataFrame
        Contient les prédictions (probabilités) et les colonnes 'cid', 'date'.
        Doit inclure la colonne `proba_col`.
    df_canada : pd.DataFrame
        Contient la colonne `return_col` ainsi que 'cid', 'date'.
    proba_col : str
        Nom de la colonne dans predictions_df représentant la probabilité ou le score.
    return_col : str
        Nom de la colonne dans df_canada qui contient le rendement (ou variation).
    aggregator : {"mean", "median"}, défaut = "mean"
        Choix entre la moyenne ou la médiane comme statistique de rendement pour le décile.
    decile_weights : list of float (length 10) ou None
        Si fourni, liste de 10 poids (un pour chaque décile de 0 à 9).
        Permet de calculer une colonne "portfolio_return" = somme(décile_i * poids_i).
    csv_path : str ou None
        Si un chemin est fourni, le DataFrame final sera sauvegardé en CSV.

    Retour
    ------
    df_final : pd.DataFrame
        DataFrame pivoté avec:
        - 1 ligne par année
        - 10 colonnes (D1 à D10) indiquant le rendement agrégé de chaque décile
        - Si decile_weights est fourni, une colonne supplémentaire 'portfolio_return'
          représentant la somme pondérée des rendements déciles.
    """

    # --- 1) Merge sur cid + date
    merged_df = predictions_df.merge(
        df_canada[['cid', 'date', return_col]],
        on=['cid', 'date'],
        how='left'
    )
    
    # --- 2) Extraire l'année
    merged_df['year'] = merged_df['date'].dt.year
    
    # --- 3) Nettoyage éventuel
    merged_df.dropna(subset=[proba_col, return_col, 'year'], inplace=True)
    
    # --- 4) Choix de la fonction d'agrégation
    if aggregator == "mean":
        aggregator_func = np.mean
    elif aggregator == "median":
        aggregator_func = np.median
    else:
        raise ValueError("aggregator must be 'mean' or 'median'.")
    
    # --- 5) Préparer une liste pour stocker (year, decile_bin, agg_return)
    decile_results = []
    
    for year, group in merged_df.groupby('year'):
        # On doit découper en 10 déciles
        group = group.copy()
        
        # Astuce: labels=False renvoie des labels 0..9
        group['decile_bin'] = pd.qcut(group[proba_col], q=10, labels=False)
        
        # Calculer l'agrégat (mean ou median) du rendement dans chaque décile
        for decile_id, subdf in group.groupby('decile_bin'):
            if pd.isnull(decile_id):
                continue
            
            decile_id = int(decile_id)
            # Rendement agrégé (en % si on veut)
            decile_value = aggregator_func(subdf[return_col]) * 100.0
            
            decile_results.append({
                'year': year,
                'decile': decile_id,
                'decile_return': decile_value
            })
    
    # --- 6) On transforme la liste en DataFrame + pivot
    decile_df = pd.DataFrame(decile_results)
    df_pivot = decile_df.pivot(index='year', columns='decile', values='decile_return')
    
    # Renommer les colonnes pour D1..D10
    # Attention : decile_id = 0 correspond au 1er décile => D1
    df_pivot.columns = [f"D{i+1}" for i in df_pivot.columns]
    
    # --- 7) Si on a des poids, on calcule la somme pondérée
    if decile_weights is not None:
        if len(decile_weights) != 10:
            raise ValueError("decile_weights must be a list of length 10.")
        
        # Multiplier chaque colonne D1..D10 par le poids correspondant, puis sommer
        # Astuce : df_pivot.iloc[:, 0:10] prend les 10 premières colonnes => D1..D10
        # On peut ensuite .mul(decile_weights, axis='columns') pour multiplier par le vecteur
        # et .sum(axis=1) pour obtenir la somme par année
        # (on suppose que l'ordre des colonnes est D1..D10).
        
        weighted_sum = df_pivot.iloc[:, 0:10].mul(decile_weights, axis='columns').sum(axis=1)
        
        # On l'ajoute comme nouvelle colonne
        df_pivot['portfolio_return'] = weighted_sum
    
    # --- 8) On remet l'index 'year' comme colonne
    df_final = df_pivot.reset_index()
    
    # --- 9) Sauvegarde CSV si demandé
    if csv_path is not None:
        df_final.to_csv(csv_path, index=False)
    
    return df_final

## Appel de fonction - Rendement par Décile

## Decile Weights : [-0.25, -0.25, -0.25, -0.25, 0, 0, 0.25, 0.25, 0.25, 0.25]

### ALL

In [7]:
df_deciles_all = compute_decile_returns(
    predictions_df=predictions_df_all,
    df_canada=df_canada,
    proba_col='prob_up',
    return_col='return_1q',
    aggregator='mean',
    decile_weights=[-0.25, -0.25, -0.25, -0.25, 0, 0, 0.25, 0.25, 0.25, 0.25],
    #csv_path='DF15Y_CashFromOps_decile_returns_all.csv'
)

df_deciles_all.head()

Unnamed: 0,year,D1,D2,D3,D4,D5,D6,D7,D8,D9,D10,portfolio_return
0,2016,8.294489,10.114756,6.832634,10.413428,6.636512,11.096656,8.150002,4.721622,8.844033,5.354551,-2.146274
1,2017,6.10565,5.465295,7.867372,5.441411,2.360857,23.110038,5.808223,3.098385,-2.948279,2.765459,-4.038985
2,2018,-2.411638,-3.776012,-2.373673,-5.125814,-4.926277,-7.660566,-7.56333,-6.534566,-8.363103,-8.088834,-4.215674
3,2019,6.150751,6.431171,6.26894,2.834059,5.492538,2.427364,4.548237,8.091974,6.226077,4.427417,0.402196
4,2020,20.926641,12.066235,12.183562,12.245379,8.072355,12.175028,6.235117,3.336993,4.95127,5.575985,-9.330613


### Assets

In [10]:
df_deciles_assets = compute_decile_returns(
    predictions_df=predictions_df_assets,
    df_canada=df_canada,
    proba_col='prob_up',
    return_col='return_1q',
    aggregator='mean',
    decile_weights=[-0.25, -0.25, -0.25, -0.25, 0, 0, 0.25, 0.25, 0.25, 0.25],
    #csv_path='DF15Y_CashFromOps_decile_returns_assets.csv'
)

df_deciles_assets.head()

Unnamed: 0,year,D1,D2,D3,D4,D5,D6,D7,D8,D9,D10,portfolio_return
0,2016,8.229703,13.236687,7.277292,10.38599,6.432426,5.630853,8.173216,6.121006,9.149067,5.463785,-2.55565
1,2017,6.205107,6.34195,6.280235,4.831106,2.379801,4.60049,2.429297,23.532961,-0.962082,2.566788,0.977141
2,2018,-1.744383,-3.670935,-4.466722,-2.777862,-6.837774,-5.428249,-8.918412,-6.856215,-7.43747,-8.188488,-4.685171
3,2019,5.607981,7.649215,4.367482,3.296441,4.829742,5.319809,8.666324,4.918581,3.342207,4.56607,0.143015
4,2020,17.282571,13.015379,9.600299,15.538637,7.652017,11.862101,1.682708,9.27079,4.049267,5.181133,-8.813247


### Revenues

In [13]:
df_deciles_revenues = compute_decile_returns(
    predictions_df=predictions_df_revenues,
    df_canada=df_canada,
    proba_col='prob_up',
    return_col='return_1q',
    aggregator='mean',
    decile_weights=[-0.25, -0.25, -0.25, -0.25, 0, 0, 0.25, 0.25, 0.25, 0.25],
    #csv_path='DF15Y_CashFromOps_decile_returns_revenues.csv'
)

df_deciles_revenues.head()

Unnamed: 0,year,D1,D2,D3,D4,D5,D6,D7,D8,D9,D10,portfolio_return
0,2016,8.479198,10.998629,12.45746,7.102925,6.938754,6.083941,7.596613,5.203965,11.378461,4.320716,-2.634614
1,2017,6.154696,6.354686,3.07695,5.343999,5.018848,2.51047,6.359494,22.647145,-0.384845,1.092043,2.195877
2,2018,-1.921053,-5.325734,-2.718574,-3.980838,-6.673269,-7.26242,-5.013766,-6.226062,-8.798363,-8.430587,-3.630645
3,2019,4.905377,5.728128,7.027894,4.633767,5.260481,4.891185,8.575492,2.593676,4.612073,4.487464,-0.506615
4,2020,14.866948,13.520666,11.912456,14.494389,9.767497,8.442457,7.93851,-0.921503,11.359117,3.556798,-8.215384


### Capital

In [15]:
df_deciles_capital = compute_decile_returns(
    predictions_df=predictions_df_capital,
    df_canada=df_canada,
    proba_col='prob_up',
    return_col='return_1q',
    aggregator='mean',
    decile_weights=[-0.25, -0.25, -0.25, -0.25, 0, 0, 0.25, 0.25, 0.25, 0.25],
    #csv_path='DF15Y_CashFromOps_decile_returns_capital.csv'
)

df_deciles_revenues.head()

Unnamed: 0,year,D1,D2,D3,D4,D5,D6,D7,D8,D9,D10,portfolio_return
0,2016,8.479198,10.998629,12.45746,7.102925,6.938754,6.083941,7.596613,5.203965,11.378461,4.320716,-2.634614
1,2017,6.154696,6.354686,3.07695,5.343999,5.018848,2.51047,6.359494,22.647145,-0.384845,1.092043,2.195877
2,2018,-1.921053,-5.325734,-2.718574,-3.980838,-6.673269,-7.26242,-5.013766,-6.226062,-8.798363,-8.430587,-3.630645
3,2019,4.905377,5.728128,7.027894,4.633767,5.260481,4.891185,8.575492,2.593676,4.612073,4.487464,-0.506615
4,2020,14.866948,13.520666,11.912456,14.494389,9.767497,8.442457,7.93851,-0.921503,11.359117,3.556798,-8.215384


## Decile Weights : [-0.20, -0.20, -0.20, -0.20, -0.20, 0.20, 0.20, 0.20, 0.20, 0.20]

## Preuve CSV Rendement par Décile

# --- 1) Merge sur cid + date
merged_df = predictions_df.merge(
    df_canada[['cid', 'date', 'return_1q']],
    on=['cid', 'date'],
    how='left'
    )

# --- 2) Extraire l'année
merged_df['year'] = merged_df['date'].dt.year

# Filtrer pour l'année 2023
year = 2023
year_df = merged_df[merged_df['year'] == year].copy()

# Attribuer les déciles pour cette année
year_df['decile_bin'] = pd.qcut(year_df['prob_up'], q=10, labels=False)

# Liste pour stocker chaque subdf avec une colonne indiquant le décile
list_of_subdfs = []

# Itérer sur chaque décile et collecter les sous-ensembles
for decile_id, subdf in year_df.groupby('decile_bin'):
    # Ajouter une colonne indiquant le décile courant
    subdf = subdf.copy()
    subdf['decile_id'] = decile_id
    list_of_subdfs.append(subdf)

# Concaténer tous les subdf en un seul DataFrame
all_subdfs_df = pd.concat(list_of_subdfs, ignore_index=True)

# Exporter vers CSV
#all_subdfs_df.to_csv("subdfs_2023.csv", index=False)