# Agr√©gation des Donn√©es √âconomie & D√©mographie pour ML

---

**Objectif** : Pr√©parer un dataset propre avec les features √©conomiques et d√©mographiques pertinentes pour un mod√®le de pr√©diction des prix immobiliers.

**Niveaux d'agr√©gation** :
- **D√©partement** : toutes les features disponibles
- **Commune** : revenus + population (granularit√© fine)

**Ann√©e de r√©f√©rence** : 2021 (meilleure couverture des donn√©es)

## 1. Configuration

In [None]:
import os
import pandas as pd
import numpy as np
import warnings
from datetime import datetime

warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)

# Chemins
PROJECT_ROOT = os.path.dirname(os.getcwd())
CLEAN_DIR = os.path.join(PROJECT_ROOT, 'data', 'clean')
OUTPUT_DIR = os.getcwd()  # Agregation_Donnees

print(f"Source : {CLEAN_DIR}")
print(f"Output : {OUTPUT_DIR}")
print(f"Date : {datetime.now().strftime('%Y-%m-%d %H:%M')}")

## 2. Inventaire des Features Pertinentes pour le ML

### Features s√©lectionn√©es pour pr√©dire les prix immobiliers :

| Feature | Source | Granularit√© | Impact attendu |
|---------|--------|-------------|----------------|
| `revenu_median` | FILOSOFI 2021 | Commune | Fort (+) |
| `taux_chomage` | INSEE | D√©partement | Moyen (-) |
| `taux_pauvrete` | FILOSOFI 2021 | Commune/Dept | Fort (-) |
| `population` | INSEE | Commune/Dept | Moyen (+) |
| `nb_menages` | FILOSOFI 2021 | Commune | Faible |
| `nb_etablissements` | Flores | D√©partement | Moyen (+) |
| `nb_creations_entreprises` | REE | D√©partement | Moyen (+) |
| `inflation` | IPC | National | Contexte |

In [None]:
# Fonction de chargement
def load(name):
    return pd.read_csv(os.path.join(CLEAN_DIR, name))

# Chargement des donn√©es
print("Chargement des donn√©es...\n")

# Niveau COMMUNE (2021)
df_revenus_communes = load('revenus_communes_2021_clean.csv')
df_pauvrete_communes = load('pauvrete_communes_2021_clean.csv')

# Niveau DEPARTEMENT
df_chomage = load('chomage_departements_clean.csv')
df_emploi = load('emploi_clean.csv')
df_entreprises = load('entreprises_clean.csv')
df_population = load('population_series_clean.csv')
df_revenus_dept = load('revenus_menages_clean.csv')
df_pauvrete_dept = load('pauvrete_clean.csv')

# Niveau NATIONAL (contexte)
df_ipc = load('ipc_clean.csv')

print("Donn√©es charg√©es :")
print(f"  - Revenus communes : {len(df_revenus_communes):,} lignes")
print(f"  - Pauvret√© communes : {len(df_pauvrete_communes):,} lignes")
print(f"  - Ch√¥mage dept : {len(df_chomage):,} lignes")
print(f"  - Emploi dept : {len(df_emploi):,} lignes")
print(f"  - Entreprises dept : {len(df_entreprises):,} lignes")

---

## 3. Agr√©gation Niveau COMMUNE

Dataset avec granularit√© communale (pour jointure avec DVF g√©olocalis√©).

In [None]:
# === REVENUS PAR COMMUNE ===
# S√©lection des colonnes pertinentes
df_comm = df_revenus_communes[['code_commune', 'code_dept', 'nb_menages', 'nb_personnes', 'revenu_median']].copy()
df_comm.columns = ['code_commune', 'code_dept', 'nb_menages', 'population', 'revenu_median']

print(f"Revenus communes : {len(df_comm):,} communes")
df_comm.head()

In [None]:
# === PAUVRETE PAR COMMUNE ===
df_pauv_comm = df_pauvrete_communes[['code_commune', 'taux_pauvrete']].copy()

print(f"Pauvret√© communes : {len(df_pauv_comm):,} communes (beaucoup sous secret statistique)")
df_pauv_comm.head()

In [None]:
# === FUSION NIVEAU COMMUNE ===
df_communes = df_comm.merge(df_pauv_comm, on='code_commune', how='left')

# Ajout du code d√©partement si manquant
df_communes['code_dept'] = df_communes['code_commune'].str[:2]

print(f"\nDataset COMMUNE : {len(df_communes):,} lignes")
print(f"Colonnes : {list(df_communes.columns)}")
print(f"\nValeurs manquantes :")
print(df_communes.isnull().sum())

In [None]:
# Statistiques descriptives
print("\n=== STATISTIQUES NIVEAU COMMUNE ===")
df_communes.describe()

---

## 4. Agr√©gation Niveau D√âPARTEMENT

Dataset plus riche avec toutes les features disponibles.

In [None]:
# === CHOMAGE (derni√®re ann√©e disponible) ===
# Filtrer 2021 ou la derni√®re ann√©e disponible
annee_ref = 2021

df_chom_2021 = df_chomage[df_chomage['annee'] == annee_ref].copy()
if len(df_chom_2021) == 0:
    annee_ref = df_chomage['annee'].max()
    df_chom_2021 = df_chomage[df_chomage['annee'] == annee_ref].copy()

# Moyenne annuelle par d√©partement
df_chom_dept = df_chom_2021.groupby('zone')['taux_chomage'].mean().reset_index()
df_chom_dept['code_dept'] = df_chom_dept['zone'].str.replace('D', '')
df_chom_dept = df_chom_dept[['code_dept', 'taux_chomage']]

print(f"Ch√¥mage {annee_ref} : {len(df_chom_dept)} d√©partements")
df_chom_dept.head()

In [None]:
# === EMPLOI (nombre d'√©tablissements) ===
df_empl_dept = df_emploi.groupby('code_dept')['nb_etablissements'].sum().reset_index()
df_empl_dept.columns = ['code_dept', 'nb_etablissements']

print(f"Emploi : {len(df_empl_dept)} d√©partements")
df_empl_dept.head()

In [None]:
# === ENTREPRISES (cr√©ations) ===
df_entrep_dept = df_entreprises.groupby('code_dept')['nb_creations'].sum().reset_index()
df_entrep_dept.columns = ['code_dept', 'nb_creations_entreprises']

print(f"Entreprises : {len(df_entrep_dept)} d√©partements")
df_entrep_dept.head()

In [None]:
# === REVENUS PAR DEPARTEMENT (agr√©g√© depuis communes) ===
df_rev_dept = df_revenus_communes.groupby('code_dept').agg({
    'revenu_median': 'median',
    'nb_menages': 'sum',
    'nb_personnes': 'sum'
}).reset_index()
df_rev_dept.columns = ['code_dept', 'revenu_median', 'nb_menages', 'population']

print(f"Revenus dept (agr√©g√©) : {len(df_rev_dept)} d√©partements")
df_rev_dept.head()

In [None]:
# === PAUVRETE PAR DEPARTEMENT ===
# Essayer d'abord les donn√©es d√©partementales directes
df_pauv_dept_direct = df_pauvrete_dept[df_pauvrete_dept['annee'] == df_pauvrete_dept['annee'].max()].copy()
df_pauv_dept_agg = df_pauv_dept_direct.groupby('zone')['taux_pauvrete'].mean().reset_index()
df_pauv_dept_agg['code_dept'] = df_pauv_dept_agg['zone'].str.replace('D', '')
df_pauv_dept_agg = df_pauv_dept_agg[['code_dept', 'taux_pauvrete']]

# Si peu de donn√©es, agr√©ger depuis les communes
if len(df_pauv_dept_agg) < 50:
    df_pauv_dept_agg = df_pauvrete_communes.groupby('code_dept')['taux_pauvrete'].mean().reset_index()

print(f"Pauvret√© dept : {len(df_pauv_dept_agg)} d√©partements")
df_pauv_dept_agg.head()

In [None]:
# === FUSION NIVEAU DEPARTEMENT ===
df_departements = df_rev_dept.copy()

# Jointures successives
df_departements = df_departements.merge(df_chom_dept, on='code_dept', how='left')
df_departements = df_departements.merge(df_pauv_dept_agg, on='code_dept', how='left')
df_departements = df_departements.merge(df_empl_dept, on='code_dept', how='left')
df_departements = df_departements.merge(df_entrep_dept, on='code_dept', how='left')

# Calcul de features d√©riv√©es
df_departements['densite_etablissements'] = (
    df_departements['nb_etablissements'] / df_departements['population'] * 1000
)
df_departements['dynamisme_entrepreneurial'] = (
    df_departements['nb_creations_entreprises'] / df_departements['population'] * 1000
)

print(f"\nDataset DEPARTEMENT : {len(df_departements)} lignes")
print(f"Colonnes : {list(df_departements.columns)}")
df_departements.head()

In [None]:
# Valeurs manquantes
print("\n=== VALEURS MANQUANTES NIVEAU DEPARTEMENT ===")
missing = df_departements.isnull().sum()
missing_pct = (missing / len(df_departements) * 100).round(1)
pd.DataFrame({'Manquantes': missing, '%': missing_pct})

In [None]:
# Statistiques descriptives
print("\n=== STATISTIQUES NIVEAU DEPARTEMENT ===")
df_departements.describe().round(2)

---

## 5. Enrichissement avec Features D√©riv√©es

In [None]:
# === NIVEAU COMMUNE : ajout des features d√©partementales ===
# Permet d'avoir les features dept m√™me au niveau commune

cols_dept_to_add = ['code_dept', 'taux_chomage', 'nb_etablissements', 
                    'nb_creations_entreprises', 'densite_etablissements', 
                    'dynamisme_entrepreneurial']

df_communes_enrichi = df_communes.merge(
    df_departements[cols_dept_to_add], 
    on='code_dept', 
    how='left'
)

print(f"Dataset COMMUNE enrichi : {len(df_communes_enrichi):,} lignes")
print(f"Colonnes : {list(df_communes_enrichi.columns)}")

In [None]:
# === INFLATION NATIONALE (contexte) ===
# Derni√®re valeur d'inflation disponible
inflation_2021 = df_ipc[df_ipc['annee'] == 2021]['inflation_12m'].mean()
ipc_2021 = df_ipc[df_ipc['annee'] == 2021]['indice_prix'].mean()

print(f"Contexte national 2021 :")
print(f"  - Inflation moyenne : {inflation_2021:.2f}%")
print(f"  - IPC moyen : {ipc_2021:.2f}")

# Ajout au dataset d√©partement
df_departements['inflation_nationale'] = inflation_2021
df_departements['ipc_national'] = ipc_2021

# Ajout au dataset commune
df_communes_enrichi['inflation_nationale'] = inflation_2021
df_communes_enrichi['ipc_national'] = ipc_2021

---

## 6. Nettoyage Final et Export

In [None]:
# === DATASET COMMUNE FINAL ===
# Renommage pour clart√©
df_communes_final = df_communes_enrichi.copy()
df_communes_final = df_communes_final.rename(columns={
    'population': 'pop_commune'
})

# Ordre des colonnes
cols_ordre_comm = [
    'code_commune', 'code_dept',
    # Features communales
    'pop_commune', 'nb_menages', 'revenu_median', 'taux_pauvrete',
    # Features d√©partementales
    'taux_chomage', 'nb_etablissements', 'nb_creations_entreprises',
    'densite_etablissements', 'dynamisme_entrepreneurial',
    # Contexte national
    'inflation_nationale', 'ipc_national'
]
df_communes_final = df_communes_final[[c for c in cols_ordre_comm if c in df_communes_final.columns]]

print("=== DATASET COMMUNE FINAL ===")
print(f"Dimensions : {df_communes_final.shape}")
print(f"Colonnes : {list(df_communes_final.columns)}")
df_communes_final.head()

In [None]:
# === DATASET DEPARTEMENT FINAL ===
df_departements_final = df_departements.copy()
df_departements_final = df_departements_final.rename(columns={
    'population': 'pop_departement'
})

# Ordre des colonnes
cols_ordre_dept = [
    'code_dept',
    # Features d√©mographiques
    'pop_departement', 'nb_menages',
    # Features √©conomiques
    'revenu_median', 'taux_chomage', 'taux_pauvrete',
    # Features emploi/entreprises
    'nb_etablissements', 'nb_creations_entreprises',
    'densite_etablissements', 'dynamisme_entrepreneurial',
    # Contexte national
    'inflation_nationale', 'ipc_national'
]
df_departements_final = df_departements_final[[c for c in cols_ordre_dept if c in df_departements_final.columns]]

print("\n=== DATASET DEPARTEMENT FINAL ===")
print(f"Dimensions : {df_departements_final.shape}")
print(f"Colonnes : {list(df_departements_final.columns)}")
df_departements_final.head()

In [None]:
# === EXPORT DES DATASETS ===
# Niveau commune
path_communes = os.path.join(OUTPUT_DIR, 'features_eco_demo_COMMUNE.csv')
df_communes_final.to_csv(path_communes, index=False)
print(f"Export√© : {path_communes}")
print(f"  -> {len(df_communes_final):,} communes, {df_communes_final.shape[1]} colonnes")

# Niveau d√©partement
path_dept = os.path.join(OUTPUT_DIR, 'features_eco_demo_DEPARTEMENT.csv')
df_departements_final.to_csv(path_dept, index=False)
print(f"\nExport√© : {path_dept}")
print(f"  -> {len(df_departements_final)} d√©partements, {df_departements_final.shape[1]} colonnes")

---

## 7. Documentation pour les Coll√®gues

In [None]:
# === DICTIONNAIRE DES VARIABLES ===
dictionnaire = """
============================================================
DICTIONNAIRE DES VARIABLES - √âCONOMIE & D√âMOGRAPHIE
============================================================

FICHIER : features_eco_demo_COMMUNE.csv
CL√â DE JOINTURE : code_commune (5 caract√®res, ex: 01001, 75056)

FICHIER : features_eco_demo_DEPARTEMENT.csv  
CL√â DE JOINTURE : code_dept (2-3 caract√®res, ex: 01, 75, 2A)

------------------------------------------------------------
VARIABLES DISPONIBLES :
------------------------------------------------------------

IDENTIFIANTS :
  - code_commune    : Code INSEE commune (5 car.)
  - code_dept       : Code d√©partement (2-3 car.)

D√âMOGRAPHIE :
  - pop_commune     : Population de la commune (nb personnes)
  - pop_departement : Population du d√©partement
  - nb_menages      : Nombre de m√©nages fiscaux

√âCONOMIE - REVENUS :
  - revenu_median   : Revenu disponible m√©dian (‚Ç¨/an)
  - taux_pauvrete   : Taux de pauvret√© √† 60% du revenu m√©dian (%)

√âCONOMIE - EMPLOI :
  - taux_chomage    : Taux de ch√¥mage d√©partemental (%)
  - nb_etablissements : Nombre d'√©tablissements (dept)
  - nb_creations_entreprises : Cr√©ations d'entreprises (dept)

INDICATEURS D√âRIV√âS :
  - densite_etablissements : √âtablissements pour 1000 hab.
  - dynamisme_entrepreneurial : Cr√©ations pour 1000 hab.

CONTEXTE NATIONAL :
  - inflation_nationale : Taux d'inflation annuel (%)
  - ipc_national : Indice des prix √† la consommation

------------------------------------------------------------
ANN√âE DE R√âF√âRENCE : 2021
SOURCE : INSEE (API pynsee) + FILOSOFI 2021
------------------------------------------------------------
"""
print(dictionnaire)

# Sauvegarder le dictionnaire
with open(os.path.join(OUTPUT_DIR, 'DICTIONNAIRE_VARIABLES.txt'), 'w') as f:
    f.write(dictionnaire)

In [None]:
# === R√âSUM√â STATISTIQUE POUR LES COLL√àGUES ===
print("\n" + "="*60)
print("R√âSUM√â - DONN√âES √âCONOMIE & D√âMOGRAPHIE POUR ML")
print("="*60)

print("\nüìÅ FICHIERS G√âN√âR√âS :")
print(f"   1. features_eco_demo_COMMUNE.csv")
print(f"      -> {len(df_communes_final):,} communes")
print(f"      -> Cl√© : code_commune")
print(f"   2. features_eco_demo_DEPARTEMENT.csv")
print(f"      -> {len(df_departements_final)} d√©partements")
print(f"      -> Cl√© : code_dept")

print("\nüìä FEATURES POUR LE ML :")
print("   Variables num√©riques pr√™tes √† utiliser :")
for col in df_departements_final.select_dtypes(include=[np.number]).columns:
    print(f"     - {col}")

print("\nüîó JOINTURES POSSIBLES :")
print("   - Avec DVF : sur code_commune (5 car.)")
print("   - Avec S√©curit√© : sur code_commune (CODGEO_2025)")
print("   - Avec √âducation : sur code_commune ou GPS")
print("   - Conversion : code_dept = code_commune[:2]")

print("\n‚ö†Ô∏è  VALEURS MANQUANTES :")
print(f"   - taux_pauvrete : {df_communes_final['taux_pauvrete'].isnull().sum():,} communes (secret stat.)")
print(f"   - Autres features : compl√®tes")

print("\n" + "="*60)

---

## 8. Aper√ßu Final des Donn√©es

In [None]:
# Aper√ßu niveau commune
print("=== √âCHANTILLON NIVEAU COMMUNE ===")
display(df_communes_final.sample(10))

In [None]:
# Aper√ßu niveau d√©partement
print("=== √âCHANTILLON NIVEAU D√âPARTEMENT ===")
display(df_departements_final.sample(10))

In [None]:
# Corr√©lations entre features (niveau dept)
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10, 8))
cols_num = df_departements_final.select_dtypes(include=[np.number]).columns
corr = df_departements_final[cols_num].corr()

mask = np.triu(np.ones_like(corr, dtype=bool))
sns.heatmap(corr, mask=mask, annot=True, fmt='.2f', cmap='RdYlGn', center=0)
plt.title('Corr√©lations entre Features √âconomiques & D√©mographiques')
plt.tight_layout()
plt.show()

---

## Conclusion

**Deux datasets pr√™ts pour le ML** :

1. **`features_eco_demo_COMMUNE.csv`** (~31k lignes)
   - Granularit√© fine pour jointure avec DVF g√©olocalis√©
   - Cl√© : `code_commune`

2. **`features_eco_demo_DEPARTEMENT.csv`** (~100 lignes)
   - Toutes les features agr√©g√©es
   - Cl√© : `code_dept`

**Prochaines √©tapes** :
- Fusionner avec les donn√©es S√©curit√© (coll√®gue)
- Fusionner avec les donn√©es √âducation (coll√®gue)
- Fusionner avec DVF (prix immobiliers) ‚Üí variable cible

---

*Notebook cr√©√© pour le projet Compagnon Immobilier - DataScientest*