In [1]:
import numpy as np
import pandas as pd

# Fixer la graine pour la reproductibilité
np.random.seed(42)

# Définir les valeurs possibles pour les variables catégorielles
annees = np.arange(2017, 2023)
age_groups = ["15-24", "25-39", "40-54", "55-64"]
sexes = ["F", "M"]

# Définir des paramètres (moyennes) pour les indicateurs en fonction de la tranche d'âge
# (Ces valeurs sont choisies à titre d'exemple)
employed_means = {
    "15-24": 50000,
    "25-39": 150000,
    "40-54": 200000,
    "55-64": 100000
}
employed_std = 0.15  # coefficient de variation

# Pour le chômage, on prend un pourcentage aléatoire entre 0.5% et 10% de la population active
def generate_employment(age_group):
    # Générer l'emploi à partir d'une distribution normale
    mean = employed_means[age_group]
    employed = np.random.normal(mean, mean * employed_std)
    employed = max(employed, 1000)  # éviter des valeurs trop faibles
    # Un taux de chômage aléatoire entre 0.5% et 10%
    taux_chom = np.random.uniform(0.005, 0.10)
    unemployed = employed * taux_chom / (1 - taux_chom)
    population_active = employed + unemployed
    computed_chom_rate = (unemployed / population_active) * 100
    return employed, unemployed, population_active, computed_chom_rate

# Pour les indicateurs liés aux entreprises, on définit des valeurs de base par année
company_base = {
    2017: 1200,
    2018: 1250,
    2019: 1100,
    2020: 1190,
    2021: 1340,
    2022: 1225
}
cre_measure_base = {
    2017: 50,
    2018: 47,
    2019: 51,
    2020: 53,
    2021: 49,
    2022: 54
}

# On va générer 1000 lignes
n_rows = 1000
data = []

for _ in range(n_rows):
    year = np.random.choice(annees)
    age = np.random.choice(age_groups)
    sexe = np.random.choice(sexes)
    
    # Générer les indicateurs d'emploi pour le groupe
    employed, unemployed, pop_active, chom_rate = generate_employment(age)
    
    # Ajouter un bruit aux indicateurs liés aux entreprises (pour rendre les données légèrement différentes par ligne,
    # même si en réalité ces valeurs pourraient être constantes par année)
    comp_count = company_base[year] + np.random.randint(-50, 51)
    cre_measure = cre_measure_base[year] + np.random.uniform(-5, 5)
    
    data.append({
        "TIME_PERIOD": year,
        "age": age,
        "Sexe": sexe,
        "Employed_Total": round(employed, 2),
        "Unemployed_Total": round(unemployed, 2),
        "Population_Active": round(pop_active, 2),
        "Taux_Chomage (%)": round(chom_rate, 2),
        "company_count": comp_count,
        "avg_CRE_Measure": round(cre_measure, 2)
    })

# Créer le DataFrame
df = pd.DataFrame(data)

# Trier les données pour une meilleure lisibilité
df = df.sort_values(["TIME_PERIOD", "age", "Sexe"]).reset_index(drop=True)

# Afficher quelques lignes
print(df.head(10))

# Enregistrer le dataset dans un fichier CSV
df.to_csv("merged_data.csv", index=False)



   TIME_PERIOD    age Sexe  Employed_Total  Unemployed_Total  \
0         2017  15-24    F        41769.91           2176.48   
1         2017  15-24    F        48206.16           2894.20   
2         2017  15-24    F        67030.20           1973.97   
3         2017  15-24    F        58896.34           2673.11   
4         2017  15-24    F        55307.87           5154.70   
5         2017  15-24    F        57075.98           6297.20   
6         2017  15-24    F        43326.90           1526.12   
7         2017  15-24    F        47607.10           2675.23   
8         2017  15-24    F        48200.76           4674.64   
9         2017  15-24    F        50290.45           2891.61   

   Population_Active  Taux_Chomage (%)  company_count  avg_CRE_Measure  
0           43946.39              4.95           1248            46.34  
1           51100.36              5.66           1200            50.43  
2           69004.16              2.86           1204            46.43  
3  