In [3]:
import pandas as pd
import os

# === 1. Dossier contenant les fichiers ===
repertoire = r"C:\Users\fares\OneDrive\Desktop\Mémoire\Revenu"

# === 2. Liste des fichiers FiLoSoFi avec leur année associée ===
fichiers = {
    "base-cc-filosofi-2018-geo2021.xlsx": 2018,
    "base-cc-filosofi-2019-geo2022.xlsx": 2019,
    "base-cc-filosofi-2020-geo2023.xlsx": 2020,
    "base-cc-filosofi-2021-geo2024.xlsx": 2021
}

# === 3. Variables utiles par suffixe (année) ===
base_vars = {
    "CODGEO": "INSEE_COM",
    "NBPERSMENFISC": "pop_fiscale",
    "MED": "med_nivvie",
    "PIMP": "part_imposés",
    "TP60": "pauvrete",
    "PTSA": "part_salaires",
    "PCHO": "part_chomage",
    "PPEN": "part_pensions",
    "PPAT": "part_patrimoine",
    "PPSOC": "part_social",
    "PIMPOT": "part_impots",
    "D1": "d1_nivvie",
    "D9": "d9_nivvie",
    "RD": "ratio_d9_d1"
}

# === 4. Import et transformation de tous les fichiers ===
df_filo_total = pd.DataFrame()

for nom_fichier, annee in fichiers.items():
    print(f"Traitement du fichier {nom_fichier}...")

    # Lire le fichier
    chemin = os.path.join(repertoire, nom_fichier)
    df = pd.read_excel(chemin, sheet_name="COM", skiprows=5)

    # Suffixe à utiliser selon l’année (ex: '18' pour 2018)
    suffixe = str(annee)[-2:]

    # Générer les vrais noms de colonnes à extraire
    colonnes_renommees = {}
    for var_code, nom_final in base_vars.items():
        code_complet = var_code + suffixe if var_code != "CODGEO" else var_code
        colonnes_renommees[code_complet] = nom_final

    # Extraire et renommer les colonnes
    df = df[list(colonnes_renommees.keys())].rename(columns=colonnes_renommees)
    df["annee"] = annee

    # Ajouter au dataframe principal
    df_filo_total = pd.concat([df_filo_total, df], axis=0)

# === 5. Nettoyage final ===
df_filo_total = df_filo_total.reset_index(drop=True)
df_filo_total["INSEE_COM"] = df_filo_total["INSEE_COM"].astype(str).str.zfill(5)

# === 6. Vérification ===
print(df_filo_total.head())
print("Dimensions finales :", df_filo_total.shape)



Traitement du fichier base-cc-filosofi-2018-geo2021.xlsx...
Traitement du fichier base-cc-filosofi-2019-geo2022.xlsx...
Traitement du fichier base-cc-filosofi-2020-geo2023.xlsx...
Traitement du fichier base-cc-filosofi-2021-geo2024.xlsx...
  INSEE_COM pop_fiscale med_nivvie part_imposés pauvrete part_salaires  \
0     01001       808.0    25350.0          NaN      NaN           NaN   
1     01002       255.0    23890.0          NaN      NaN           NaN   
2     01004     14660.0    20420.0         48.0     18.0          64.5   
3     01005      1761.0    24270.0          NaN      NaN           NaN   
4     01006         NaN        NaN          NaN      NaN           NaN   

  part_chomage part_pensions part_patrimoine part_social part_impots  \
0          NaN           NaN             NaN         NaN         NaN   
1          NaN           NaN             NaN         NaN         NaN   
2          3.0          26.0            13.1         7.2       -17.1   
3          NaN           Na

In [4]:
df_filo_total.to_csv(r"C:\Users\fares\OneDrive\Desktop\Mémoire\filo_total_2018_2021.csv", index=False)
