# Econometrics
Project made by Mohamed Jad Kabbaj, Matteo Nobile, Leo Weiss, Yacine Lassouani

# Initialization

In [12]:
%pip install plotly pandas nbformat statsmodels

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


# Data cleaning

In [13]:
import pandas as pd


def clean_dataset():
    with open(r'data_initial\dataset2_emplois.csv',encoding='UTF-8') as f:
        dataset2 = pd.read_csv(f)

    def remove_space(dataframe):
        for column in dataframe.columns[2::]:
            dataframe[column] = dataframe[column].astype(str).str.replace(' ', '').str.replace(',', '.').astype(float)
        return dataframe

    df_final = remove_space(dataset2)

    # Calculate the sum of each column from the 2nd column (that contains the numbers of employees) to the last column
    sum_column = df_final.columns[2::]
    for column in sum_column:
        print(f"Number of employees in the year {column}: {df_final[column].sum()}")

    # Rename the columns with the years to remove decimals
    rename_dict = {f'{year},00': str(year) for year in range(2008, 2022)}
    df_final.rename(columns=rename_dict, inplace=True)

    # Remove 'Total Général rows' and values in % rows
    df_final.drop(df_final[(df_final['Domaine'] == 'Total général') | (df_final['Domaine'] == 'Évolution annuelle en %')].index, inplace=True)

    # Save the dataset to a csv file to make tests and have a final working file. This data will be used and put in dataset_gdp.csv that will include our cleaned data and some parameters that we will use in our model
    with open(r'data_output\data_emplois_cleaned.csv', 'w', newline='', encoding='UTF-8') as f:
        df_final.to_csv(f, index=False)
    
    return df_final

clean_dataset()

Number of employees in the year 2008,00: 2196252.0
Number of employees in the year 2009,00: 2307256.0
Number of employees in the year 2010,00: 2458245.0
Number of employees in the year 2011,00: 2477509.0
Number of employees in the year 2012,00: 2482368.0
Number of employees in the year 2013,00: 2521493.0
Number of employees in the year 2014,00: 2522294.0
Number of employees in the year 2015,00: 2542158.0
Number of employees in the year 2016,00: 2562945.0
Number of employees in the year 2017,00: 2621063.0
Number of employees in the year 2018,00: 2696311.0
Number of employees in the year 2019,00: 2777256.0
Number of employees in the year 2020,00: 2795754.0
Number of employees in the year 2021,00: 3081161.0


Unnamed: 0,Mesure (Unité de mesure combinée),Domaine,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
0,Emploi dans les activités de l'économie verte,Eco-activités,483281.0,515193.0,567175.0,569919.0,565869.0,569774.0,569289.0,577332.0,579211.0,599790.0,622177.0,646391.0,666845.0,745641.0
1,Emploi dans les activités de l'économie verte,Protection de l'environnement,225531.0,237707.0,249466.0,255730.0,264786.0,268265.0,273149.0,278378.0,281655.0,291438.0,310348.0,328633.0,343500.0,366318.0
2,Emploi dans les activités de l'économie verte,Air,8372.0,7188.0,6843.0,6362.0,6791.0,7204.0,7369.0,7994.0,7848.0,8237.0,9049.0,9342.0,11502.0,12464.0
3,Emploi dans les activités de l'économie verte,Eaux_usées,59768.0,60562.0,60121.0,58061.0,55643.0,57256.0,57462.0,55285.0,53488.0,54444.0,54147.0,54721.0,53489.0,57741.0
4,Emploi dans les activités de l'économie verte,Déchets,85417.0,88199.0,92250.0,95733.0,100457.0,100009.0,103170.0,103537.0,99012.0,95985.0,99297.0,101353.0,100253.0,101973.0
5,Emploi dans les activités de l'économie verte,Déchets_radio,3546.0,3756.0,3621.0,4078.0,3707.0,3416.0,3575.0,3443.0,3452.0,3110.0,2797.0,3072.0,3275.0,3541.0
6,Emploi dans les activités de l'économie verte,Sols et masses d'eau,38919.0,47294.0,56588.0,61946.0,67328.0,69385.0,71145.0,77476.0,86643.0,98334.0,111749.0,126342.0,139586.0,151839.0
7,Emploi dans les activités de l'économie verte,Bruit,6873.0,6614.0,5523.0,5061.0,5656.0,5229.0,4955.0,4667.0,4790.0,4866.0,4591.0,4234.0,4389.0,5438.0
8,Emploi dans les activités de l'économie verte,"Nature, biodiversité, paysages",22635.0,24095.0,24518.0,24490.0,25204.0,25765.0,25473.0,25977.0,26421.0,26461.0,28719.0,29570.0,31007.0,33323.0
9,Emploi dans les activités de l'économie verte,Gestion des ressources naturelles,182238.0,200281.0,230652.0,224234.0,213997.0,213502.0,208710.0,214739.0,215915.0,227918.0,233015.0,236637.0,241882.0,285898.0


# Our Model

In [14]:
import pandas as pd
import statsmodels.api as sm
import numpy as np
from statsmodels.stats.outliers_influence import variance_inflation_factor
import plotly.express as px
import plotly.graph_objects as go

# Charger les données
data = pd.read_csv('data_output/dataset_gdp.csv')

# Restructurer les données d'emploi
data_long = data.melt(
    id_vars=["Mesure (Unité de mesure combinée)", "Domaine"],
    var_name="Année",
    value_name="Nombre d'emplois"
)
data_long["Année"] = pd.to_numeric(data_long["Année"], errors="coerce")

# Enlever les lignes avec des valeurs manquantes
data_long = data_long.dropna()

# Filtrer les lignes où Domaine est "Tout", lignes qui combinent les domaines
data_long = data_long[data_long["Domaine"] != "Tout"]

# Supprimer les doublons dans data_long
data_long = data_long.drop_duplicates(subset=["Année", "Domaine"])

# Extraire et restructurer les paramètres
param_data = data.iloc[42:64]
params_long = param_data.melt(
    id_vars=["Mesure (Unité de mesure combinée)", "Domaine"],
    var_name="Année",
    value_name="Valeur"
)
params_long["Année"] = pd.to_numeric(params_long["Année"], errors="coerce")

# Filtrer les lignes où Domaine est "Tout" dans params_long
params_long = params_long[params_long["Domaine"] != "Tout"]

# Renommer la colonne Domaine dans params_long pour éviter les confusions
params_long = params_long.rename(columns={"Domaine": "Paramètre"})

# Fusionner les données
merged_data = pd.merge(
    data_long,
    params_long,
    on="Année",
    how="inner"
)

# Renommer les colonnes pour clarification
merged_data = merged_data.rename(columns={
    "Domaine": "Domaine_emploi",  # Domaine réel des emplois
    "Paramètre": "Nom_paramètre"  # Nom des paramètres fusionnés
})

# Filtrer les lignes où Domaine_emploi est "Tout" après la fusion
merged_data = merged_data[merged_data["Domaine_emploi"] != "Tout"]

# Supprimer les doublons si nécessaire
merged_data = merged_data.drop_duplicates(subset=["Année", "Domaine_emploi"])

# Liste des domaines uniques
domaines = merged_data["Domaine_emploi"].unique()

# Années futures pour les prédictions
future_years = np.arange(2022, 2051)

# Stocker les projections et les métriques
final_projections = []
model_metrics = []
augmentation_data = []

# Ajuster et prédire pour chaque domaine
for domaine in domaines:
    # Filtrer les données pour un domaine spécifique
    domaine_data = merged_data[merged_data["Domaine_emploi"] == domaine]
    
    # Extraire les variables indépendantes (X) et dépendantes (y)
    X = domaine_data[["Année", "Valeur"]].dropna()
    y = domaine_data.loc[X.index, "Nombre d'emplois"]
    
    if X.empty or y.empty:
        continue  # Passer si pas assez de données pour ce domaine
    
    # Ajouter une constante pour le modèle
    X = sm.add_constant(X)
    
    # Calcul du VIF
    vif_data = pd.DataFrame()
    vif_data["Variable"] = X.columns
    vif_data["VIF"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
    
    # Ajuster le modèle de régression
    model = sm.OLS(y, X).fit()
    
    # Stocker les métriques
    model_metrics.append({
        "Domaine": domaine,
        "R2": model.rsquared,
        "R2 ajusté": model.rsquared_adj,
        "P-valeur (F-stat)": model.f_pvalue,
        "VIF": vif_data.to_dict(orient="records")
    })
    
    # Préparer les prédicteurs pour les années futures
    future_data = pd.DataFrame({
        "Année": future_years,
        "Valeur": [X["Valeur"].mean()] * len(future_years)  # Moyenne des paramètres
    })
    future_X = sm.add_constant(future_data, has_constant="add")
    
    # Effectuer les prédictions
    future_predictions = model.predict(future_X)
    
    # Stocker les résultats dans la liste
    for year, pred in zip(future_years, future_predictions):
        final_projections.append({
            "Domaine": domaine,
            "Année": year,
            "Nombre d'emplois (prédit)": pred
        })
    
    # Calculer l'augmentation prévue pour ce domaine
    augmentation = future_predictions.iloc[-1] - future_predictions.iloc[0]
    augmentation_data.append({"Domaine": domaine, "Augmentation": augmentation})

# Convertir les résultats en DataFrame
final_projections_df = pd.DataFrame(final_projections)

# Sauvegarder les prédictions dans un fichier CSV
final_projections_df.to_csv("data_output/projections_emplois_2050.csv", index=False)



# Resultats sur tous les domaines 

In [15]:
# Extract individual metrics for each domain
r2_values = [item["R2"] for item in model_metrics]
adjusted_r2_values = [item["R2 ajusté"] for item in model_metrics]
p_values = [item["P-valeur (F-stat)"] for item in model_metrics]

# Calculate combined metrics
combined_r2 = sum(r2_values) / len(r2_values)
combined_adjusted_r2 = sum(adjusted_r2_values) / len(adjusted_r2_values)
combined_p_value = sum(p_values) / len(p_values)
augmentation_values = [item["Augmentation"] for item in augmentation_data]
total_evolution_emploi = sum(augmentation_values)

# Print combined metrics
print("\n--- Valeur totale de l'évolution de l'emploi pour tous les domaines ---")
print(f"Total de l'évolution de l'emploi: {total_evolution_emploi}")
print("\n--- Métriques combinées pour tous les domaines ---")
print(f"R2 combiné: {combined_r2}")
print(f"R2 ajusté combiné: {combined_adjusted_r2}")
print(f"P-valeur combinée (F-stat): {combined_p_value}")


# Visualisation des prédictions futures pour tous les domaines
fig = px.line(final_projections_df, x="Année", y="Nombre d'emplois (prédit)", color="Domaine",
              title="Prédictions du nombre d'emplois par domaine jusqu'en 2050")
fig.show()




--- Valeur totale de l'évolution de l'emploi pour tous les domaines ---
Total de l'évolution de l'emploi: 744915.9487693491

--- Métriques combinées pour tous les domaines ---
R2 combiné: 0.5812357030540485
R2 ajusté combiné: 0.5050967399729663
P-valeur combinée (F-stat): 0.12329596294967453


# Top 5 des domaines avec la plus forte augmentation de l'emploi

In [16]:
# Identifier les 5 domaines avec la plus grande augmentation
augmentation_df = pd.DataFrame(augmentation_data)
top_5 = augmentation_df.nlargest(5, "Augmentation")

# Afficher les métriques et le VIF pour les 5 domaines
print("\n--- Top 5 des domaines avec la plus grande augmentation ---")
print(top_5)

for domaine in top_5["Domaine"]:
    metrics = next(item for item in model_metrics if item["Domaine"] == domaine)
    print(f"\n--- Métriques pour le domaine {domaine} ---")
    print(f"R2: {metrics['R2']}, R2 ajusté: {metrics['R2 ajusté']}, P-valeur (F-stat): {metrics['P-valeur (F-stat)']}")
    print("\n--- VIF ---")
    vif = pd.DataFrame(metrics["VIF"])
    print(vif)


# Filtrer les prédictions pour inclure uniquement les 5 domaines avec la plus grande augmentation
top_5_domains = top_5["Domaine"].tolist()
filtered_projections_df = final_projections_df[final_projections_df["Domaine"].isin(top_5_domains)]

# Visualisation des prédictions futures pour les 5 domaines avec la plus grande augmentation en line chart
fig = px.line(filtered_projections_df, x="Année", y="Nombre d'emplois (prédit)", color="Domaine",
              title="Top 5 Secteur entre 2022 et 2050")
fig.show()

# Visualisation des prédictions futures pour les 5 domaines avec la plus grande augmentation en bar chart
fig2 = px.bar(top_5, x="Domaine", y="Augmentation", title="Top 5 Secteur entre 2022 et 2050")
fig2.show()


--- Top 5 des domaines avec la plus grande augmentation ---
                          Domaine   Augmentation
1   Protection de l'environnement  219481.459029
6            Sols et masses d'eau  198275.670365
0                   Eco-activités  155952.736601
19        Activités périphériques  138533.842273
21     Transports longue distance   81266.588513

--- Métriques pour le domaine Protection de l'environnement ---
R2: 0.9396539741173658, R2 ajusté: 0.9286819694114323, P-valeur (F-stat): 1.9659284645150886e-07

--- VIF ---
  Variable           VIF
0    const  2.150732e+06
1    Année  7.697711e+00
2   Valeur  7.697711e+00

--- Métriques pour le domaine Sols et masses d'eau ---
R2: 0.9447093283747505, R2 ajusté: 0.9346564789883415, P-valeur (F-stat): 1.215025128325e-07

--- VIF ---
  Variable           VIF
0    const  2.150732e+06
1    Année  7.697711e+00
2   Valeur  7.697711e+00

--- Métriques pour le domaine Eco-activités ---
R2: 0.868239199094899, R2 ajusté: 0.8442826898394261, P-val

# Bottom 5 des domaines avec la plus forte augmentation de l'emploi

In [17]:
# Identifier les 5 domaines avec la plus grande augmentation
augmentation_df = pd.DataFrame(augmentation_data)
bottom_5 = augmentation_df.nsmallest(5, "Augmentation")

# Afficher les métriques et le VIF pour les 5 bottom domaines
print("\n--- Bottom 5 des domaines avec la plus grande augmentation ---")
print(bottom_5)

for domaine in bottom_5["Domaine"]:
    metrics = next(item for item in model_metrics if item["Domaine"] == domaine)
    print(f"\n--- Métriques pour le domaine {domaine} ---")
    print(f"R2: {metrics['R2']}, R2 ajusté: {metrics['R2 ajusté']}, P-valeur (F-stat): {metrics['P-valeur (F-stat)']}")
    print("\n--- VIF ---")
    vif = pd.DataFrame(metrics["VIF"])
    print(vif)


# Filtrer les prédictions pour inclure uniquement les bottom 5 domaines avec la plus grande augmentation
bottom_5_domains = bottom_5["Domaine"].tolist()
filtered_projections_df = final_projections_df[final_projections_df["Domaine"].isin(bottom_5_domains)]

# Visualisation des prédictions futures pour les bottom 5 domaines avec la plus grande augmentation en line chart
fig = px.line(filtered_projections_df, x="Année", y="Nombre d'emplois (prédit)", color="Domaine",
              title="Bottom 5 Secteur entre 2022 et 2050")
fig.show()

# Visualisation des prédictions futures pour les 5 domaines avec la plus grande augmentation en bar chart
fig2 = px.bar(bottom_5, x="Domaine", y="Augmentation", title="Bottom 5 Secteur entre 2022 et 2050")
fig2.show()


--- Bottom 5 des domaines avec la plus grande augmentation ---
                              Domaine  Augmentation
15            Activités transversales -35045.792494
13                                EnR -29090.831762
9   Gestion des ressources naturelles -28488.787499
18                          Serv gaux -23923.508373
3                          Eaux_usées -16641.572517

--- Métriques pour le domaine Activités transversales ---
R2: 0.2334381877195717, R2 ajusté: 0.09406331275949376, P-valeur (F-stat): 0.23174452967807793

--- VIF ---
  Variable           VIF
0    const  2.150732e+06
1    Année  7.697711e+00
2   Valeur  7.697711e+00

--- Métriques pour le domaine EnR ---
R2: 0.5689943126711543, R2 ajusté: 0.49062964224772776, P-valeur (F-stat): 0.009764646039477609

--- VIF ---
  Variable           VIF
0    const  2.150732e+06
1    Année  7.697711e+00
2   Valeur  7.697711e+00

--- Métriques pour le domaine Gestion des ressources naturelles ---
R2: 0.7357906884459771, R2 ajusté: 0.687