## ‚ö†Ô∏è Lecture fichiers XLSX avec Pandas

**Solution avec openpyxl (Recommand√©)**

```python
import pandas as pd

# Lire XLSX directement
df = pd.read_excel("fichier.xlsx", sheet_name="Sheet1")

# Ou sp√©cifier moteur
df = pd.read_excel("fichier.xlsx", engine="openpyxl")
```

**Solution 2 : Conversion manuelle Excel ‚Üí CSV** (si probl√®mes)
- Ouvrir fichier dans Excel
- Enregistrer sous ‚Üí CSV UTF-8
- Puis utiliser `pd.read_csv()`

Ce notebook utilise **openpyxl** pour lecture directe des fichiers Excel.

# Exploration des Donn√©es - Phase 1

**Objectif :** Analyser les datasets Phase 1 pour pr√©parer le pipeline ETL

**Approche scalable :**
- Code g√©n√©rique r√©utilisable pour Phase 2
- Pandas pour traiter 150 communes ‚Üí extensible √† 35K
- Fonctions modulaires pour chaque type d'analyse
- Optimisation m√©moire avec chunks si n√©cessaire

**Plan d'exploration :**
1. Configuration et imports
2. Exploration syst√©matique de chaque dataset
3. Analyse des cl√©s de jointure
4. Qualit√© des donn√©es (valeurs manquantes, doublons)
5. Statistiques descriptives
6. Synth√®se pour ETL

---

## 1. Configuration et Imports

In [1]:
import pandas as pd
import numpy as np
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Imports charg√©s (pandas, numpy)")

‚úÖ Imports charg√©s (pandas, numpy)


In [2]:
# Options d'affichage pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 50)

print("‚úÖ Configuration pandas optimis√©e pour exploration")

‚úÖ Configuration pandas optimis√©e pour exploration


In [3]:
# Import configuration centralis√©e (Medallion Architecture)
import sys
sys.path.append('..')
from config import (
    DATA_BRONZE, 
    DATA_SILVER, 
    DATA_GOLD,
    DEPARTEMENTS_PETITE_COURONNE,
    COMMUNES_PETITE_COURONNE_COUNT
)

# Cr√©er structure si n√©cessaire
DATA_SILVER.mkdir(parents=True, exist_ok=True)

print(f"ü•â Bronze (donn√©es brutes) : {DATA_BRONZE}")
print(f"ü•à Silver (donn√©es nettoy√©es) : {DATA_SILVER}")
print(f"ü•á Gold (ML-ready) : {DATA_GOLD}")
print(f"üéØ P√©rim√®tre : {', '.join(DEPARTEMENTS_PETITE_COURONNE)} ({COMMUNES_PETITE_COURONNE_COUNT} communes)")

üìÇ Raw data : /app/data/raw
üìÇ Processed data : /app/data/processed
üéØ P√©rim√®tre : 75, 92, 93, 94


## 2. Fonctions Utilitaires (R√©utilisables pour Phase 2)

In [4]:
def explore_dataset(df, name, show_sample=True, n_rows=5):
    """
    Exploration syst√©matique d'un DataFrame pandas.
    Fonction g√©n√©rique r√©utilisable pour tous les datasets.
    
    Args:
        df: DataFrame pandas
        name: Nom du dataset
        show_sample: Afficher √©chantillon
        n_rows: Nombre de lignes √† afficher
    """
    print(f"\n{'='*60}")
    print(f"üìä DATASET: {name}")
    print(f"{'='*60}\n")
    
    # Dimensions
    count = len(df)
    n_cols = len(df.columns)
    print(f"üìè Dimensions : {count:,} lignes √ó {n_cols} colonnes")
    
    # Types de donn√©es
    print(f"\nüèóÔ∏è  Types de colonnes :")
    print(df.dtypes)
    
    # Info m√©moire
    memory_mb = df.memory_usage(deep=True).sum() / (1024 * 1024)
    print(f"\nüíæ M√©moire utilis√©e : {memory_mb:.2f} MB")
    
    # √âchantillon
    if show_sample:
        print(f"\nüëÅÔ∏è  √âchantillon ({n_rows} premi√®res lignes) :")
        print(df.head(n_rows))
    
    return count, n_cols

print("‚úÖ Fonction explore_dataset() d√©finie")

‚úÖ Fonction explore_dataset() d√©finie


In [5]:
def analyze_missing_values(df, name):
    """
    Analyse des valeurs manquantes par colonne.
    Scalable pour grands datasets.
    """
    print(f"\nüîç Valeurs manquantes - {name}")
    print("-" * 60)
    
    total_rows = len(df)
    
    # Calculer % manquants pour chaque colonne
    missing_data = df.isnull().sum()
    missing_pct = (missing_data / total_rows) * 100
    
    missing_stats = pd.DataFrame({
        'Colonne': missing_data.index,
        'Manquants': missing_data.values,
        'Pourcentage': missing_pct.values
    })
    
    # Filtrer uniquement colonnes avec valeurs manquantes
    missing_stats = missing_stats[missing_stats['Manquants'] > 0].sort_values(
        'Pourcentage', ascending=False
    )
    
    if len(missing_stats) > 0:
        print(f"\n{'Colonne':<30} {'Manquants':>12} {'%':>8}")
        print("-" * 60)
        for _, row in missing_stats.iterrows():
            print(f"{row['Colonne']:<30} {int(row['Manquants']):>12,} {row['Pourcentage']:>7.2f}%")
    else:
        print("‚úÖ Aucune valeur manquante d√©tect√©e")
    
    return missing_stats

print("‚úÖ Fonction analyze_missing_values() d√©finie")

‚úÖ Fonction analyze_missing_values() d√©finie


In [6]:
def filter_petite_couronne(df, dept_col='dept'):
    """
    Filtre pour Petite Couronne.
    Param√®tre dept_col permet de s'adapter √† diff√©rents noms de colonnes.
    
    Args:
        df: DataFrame avec colonne d√©partement
        dept_col: Nom de la colonne d√©partement
    """
    if dept_col not in df.columns:
        print(f"‚ö†Ô∏è  Colonne '{dept_col}' non trouv√©e. Colonnes disponibles: {list(df.columns)}")
        return df
    
    df_filtered = df[df[dept_col].isin(DEPARTEMENTS_PETITE_COURONNE)].copy()
    count_before = len(df)
    count_after = len(df_filtered)
    
    print(f"üéØ Filtrage Petite Couronne :")
    print(f"   Avant : {count_before:,} lignes")
    print(f"   Apr√®s : {count_after:,} lignes ({count_after/count_before*100:.1f}%)")
    
    return df_filtered

print("‚úÖ Fonction filter_petite_couronne() d√©finie")

‚úÖ Fonction filter_petite_couronne() d√©finie


## 3. Exploration Dataset par Dataset

### 3.1 R√©f√©rentiel Communes (Cl√© de Jointure)

In [7]:
# Charger r√©f√©rentiel communes
df_communes = pd.read_csv(
    DATA_BRONZE / "referentiel_communes.csv",
    sep=","
)

explore_dataset(df_communes, "R√©f√©rentiel Communes (COG)", n_rows=3)


üìä DATASET: R√©f√©rentiel Communes (COG)

üìè Dimensions : 37,563 lignes √ó 12 colonnes

üèóÔ∏è  Types de colonnes :
TYPECOM       object
COM           object
REG          float64
DEP           object
CTCD          object
ARR           object
TNCC           int64
NCC           object
NCCENR        object
LIBELLE       object
CAN           object
COMPARENT    float64
dtype: object

üíæ M√©moire utilis√©e : 21.32 MB

üëÅÔ∏è  √âchantillon (3 premi√®res lignes) :
  TYPECOM    COM   REG DEP CTCD  ARR  TNCC                    NCC  \
0     COM  01001  84.0  01  01D  012     5  ABERGEMENT CLEMENCIAT   
1     COM  01002  84.0  01  01D  011     5    ABERGEMENT DE VAREY   
2     COM  01004  84.0  01  01D  011     1      AMBERIEU EN BUGEY   

                  NCCENR                  LIBELLE   CAN  COMPARENT  
0  Abergement-Cl√©menciat  L'Abergement-Cl√©menciat  0108        NaN  
1    Abergement-de-Varey    L'Abergement-de-Varey  0101        NaN  
2      Amb√©rieu-en-Bugey        Amb√©rieu-

(37563, 12)

In [8]:
# Filtrer Petite Couronne en cr√©ant colonne dept depuis code INSEE
df_communes['dept'] = df_communes['COM'].astype(str).str[:2]

df_communes_pc = filter_petite_couronne(df_communes, dept_col="dept")

print(f"\nüìä R√©partition communes Petite Couronne :")
print(df_communes_pc.groupby('dept').size().sort_index())

üéØ Filtrage Petite Couronne :
   Avant : 37,563 lignes
   Apr√®s : 144 lignes (0.4%)

üìä R√©partition communes Petite Couronne :
dept
75    21
92    36
93    40
94    47
dtype: int64


In [9]:
# Colonnes cl√©s pour jointures
print("üîë Colonnes cl√©s identifi√©es :")
print(f"   - COM (Code INSEE) : cl√© primaire pour jointures")
print(f"   - LIBELLE : nom commune")
print(f"   - dept : d√©partement extrait du code INSEE")

# Sauvegarder liste codes INSEE Petite Couronne pour filtres futurs
codes_insee_pc = df_communes_pc['COM'].tolist()
print(f"\n‚úÖ {len(codes_insee_pc)} codes INSEE Petite Couronne identifi√©s")

üîë Colonnes cl√©s identifi√©es :
   - COM (Code INSEE) : cl√© primaire pour jointures
   - LIBELLE : nom commune
   - dept : d√©partement extrait du code INSEE

‚úÖ 144 codes INSEE Petite Couronne identifi√©s


### 3.2 √âlections Agr√©g√©es 1999-2024 (Variable Cible)

In [10]:
# Charger √©lections (attention : fichier volumineux 2.2 GB)
print("‚è≥ Chargement √©lections agr√©g√©es (peut prendre 1-2 minutes)...")
print("üí° Utilisation de chunksize pour optimiser la m√©moire...")

# Lire en chunks pour conna√Ætre la structure d'abord
# CORRECTION : ajouter sep=';' car fichier d√©limit√© par point-virgule
chunk_iterator = pd.read_csv(
    DATA_BRONZE / "elections_agregees_1999_2024.csv",
    sep=";",  # Fichier d√©limit√© par point-virgule
    chunksize=10000,
    nrows=10000,  # Juste un √©chantillon pour commencer
    dtype={'code_commune': str, 'code_departement': str}  # Codes INSEE en string
)

df_elections_sample = next(chunk_iterator)

print(f"\n‚úÖ √âchantillon charg√© pour exploration")
explore_dataset(df_elections_sample, "√âlections Agr√©g√©es (√©chantillon)", show_sample=False)

‚è≥ Chargement √©lections agr√©g√©es (peut prendre 1-2 minutes)...
üí° Utilisation de chunksize pour optimiser la m√©moire...

‚úÖ √âchantillon charg√© pour exploration

üìä DATASET: √âlections Agr√©g√©es (√©chantillon)

üìè Dimensions : 10,000 lignes √ó 1 colonnes

üèóÔ∏è  Types de colonnes :
id_election;id_brut_miom;code_departement;code_commune;code_bv;no_panneau;voix;ratio_voix_inscrits;ratio_voix_exprimes;nuance;sexe;nom;prenom;liste;libelle_abrege_liste;libelle_etendu_liste;nom_tete_liste;binome    object
dtype: object

üíæ M√©moire utilis√©e : 1.26 MB


(10000, 1)

In [11]:
# √âchantillon al√©atoire pour performance
print("üëÅÔ∏è  √âchantillon al√©atoire (5 lignes) :")
print(df_elections_sample.sample(n=min(5, len(df_elections_sample))))

üëÅÔ∏è  √âchantillon al√©atoire (5 lignes) :
     id_election;id_brut_miom;code_departement;code_commune;code_bv;no_panneau;voix;ratio_voix_inscrits;ratio_voix_exprimes;nuance;sexe;nom;prenom;liste;libelle_abrege_liste;libelle_etendu_liste;nom_tete_liste;binome
9477  2022_pres_t1;16384_0001;16;16384;0001;1;4;0.91...                                                                                                                                                                 
4694  2022_pres_t1;09221_0001;09;09221;0001;1;1;0.58...                                                                                                                                                                 
4330  2022_pres_t1;08390_0001;08;08390;0001;1;0;0.0;...                                                                                                                                                                 
3962  2022_pres_t1;08067_0001;08;08067;0001;1;7;0.84...                               

In [12]:
# Analyser structure : types d'√©lections, ann√©es, niveaux g√©ographiques
if 'election_type' in df_elections_sample.columns:
    print("üìä Types d'√©lections (√©chantillon) :")
    print(df_elections_sample['election_type'].value_counts())
else:
    print("‚ÑπÔ∏è  Colonne 'election_type' non trouv√©e")
    print(f"Colonnes disponibles : {list(df_elections_sample.columns[:10])}")

if 'year' in df_elections_sample.columns:
    print("\nüìÖ Ann√©es couvertes (√©chantillon) :")
    print(df_elections_sample['year'].value_counts().sort_index())
elif 'annee' in df_elections_sample.columns:
    print("\nüìÖ Ann√©es couvertes (√©chantillon) :")
    print(df_elections_sample['annee'].value_counts().sort_index())

‚ÑπÔ∏è  Colonne 'election_type' non trouv√©e
Colonnes disponibles : ['id_election;id_brut_miom;code_departement;code_commune;code_bv;no_panneau;voix;ratio_voix_inscrits;ratio_voix_exprimes;nuance;sexe;nom;prenom;liste;libelle_abrege_liste;libelle_etendu_liste;nom_tete_liste;binome']


In [13]:
# Identifier colonne code commune pour filtrage
print("üîç Colonnes g√©ographiques disponibles :")
geo_cols = [col for col in df_elections_sample.columns if 'code' in col.lower() or 'commune' in col.lower() or 'insee' in col.lower()]
print(geo_cols)

# Afficher √©chantillon pour comprendre structure
if geo_cols:
    print("\nüëÅÔ∏è  √âchantillon colonnes g√©o :")
    print(df_elections_sample[geo_cols].head(5))
else:
    print("\n‚ö†Ô∏è  Aucune colonne g√©ographique √©vidente d√©tect√©e")
    print(f"Colonnes disponibles : {list(df_elections_sample.columns[:15])}")

üîç Colonnes g√©ographiques disponibles :
['id_election;id_brut_miom;code_departement;code_commune;code_bv;no_panneau;voix;ratio_voix_inscrits;ratio_voix_exprimes;nuance;sexe;nom;prenom;liste;libelle_abrege_liste;libelle_etendu_liste;nom_tete_liste;binome']

üëÅÔ∏è  √âchantillon colonnes g√©o :
  id_election;id_brut_miom;code_departement;code_commune;code_bv;no_panneau;voix;ratio_voix_inscrits;ratio_voix_exprimes;nuance;sexe;nom;prenom;liste;libelle_abrege_liste;libelle_etendu_liste;nom_tete_liste;binome
0  2022_pres_t1;01001_0001;01;01001;0001;1;3;0.47...                                                                                                                                                                 
1  2022_pres_t1;01002_0001;01;01002;0001;1;2;0.94...                                                                                                                                                                 
2  2022_pres_t1;01004_0001;01;01004;0001;1;4;0.35...        

In [14]:
# TODO: Ajuster filtrage selon colonne identifi√©e ci-dessus
# Exemple g√©n√©rique (√† adapter selon r√©sultat pr√©c√©dent):
# df_elections_pc = df_elections_sample[df_elections_sample['code_commune'].isin(codes_insee_pc)]

print("üí° Note : Filtrage Petite Couronne √† ajuster apr√®s identification colonne code commune")
print("üí° Pour traitement complet, charger en chunks et filtrer progressivement")

üí° Note : Filtrage Petite Couronne √† ajuster apr√®s identification colonne code commune
üí° Pour traitement complet, charger en chunks et filtrer progressivement


### 3.3 Revenus par Commune

In [15]:
# Charger revenus
# CORRECTION : ajouter sep=';' car fichier d√©limit√© par point-virgule
df_revenus = pd.read_csv(
    DATA_BRONZE / "revenus_commune.csv",
    sep=";"  # Fichier d√©limit√© par point-virgule
)

explore_dataset(df_revenus, "Revenus par Commune", n_rows=3)


üìä DATASET: Revenus par Commune

üìè Dimensions : 34,926 lignes √ó 3 colonnes

üèóÔ∏è  Types de colonnes :
Nom g√©ographique GMS;Code g√©ographique;Libell√© g√©ographique;[DISP] Nbre de m√©nages fiscaux;[DISP] Nbre de personnes dans les m√©nages fiscaux;[DISP] Nbre d'unit√©s de consommation dans les m√©nages fiscaux;[DISP] 1·µâ ≥ quartile (‚Ç¨);[DISP] M√©diane (‚Ç¨);[DISP] 3·µâ quartile (‚Ç¨);[DISP] √âcart interquartile (‚Ç¨);[DISP] 1·µâ ≥ d√©cile (‚Ç¨);[DISP] 2·µâ d√©cile (‚Ç¨);[DISP]3·µâ d√©cile (‚Ç¨);[DISP] 4·µâ d√©cile (‚Ç¨);[DISP] 6·µâ d√©cile (‚Ç¨);[DISP] 7·µâ d√©cile (‚Ç¨);[DISP] 8·µâ d√©cile (‚Ç¨);[DISP] 9·µâ d√©cile (‚Ç¨);[DISP] Rapport interd√©cile 9·µâ d√©cile/1·µâ ≥ decile;[DISP] S80/20;[DISP] Iice de Gini;[DISP] Part des revenus d‚Äôactivit√© (%);[DISP] dont part des salaires et traitements(%);[DISP] dont part des iemnit√©s de ch√¥mage (%);[DISP] dont part des revenus des activit√©s non salari√©es (%);[DISP] Part des pensions                                           

(34926, 3)

In [16]:
# Analyser valeurs manquantes
analyze_missing_values(df_revenus, "Revenus")


üîç Valeurs manquantes - Revenus
------------------------------------------------------------

Colonne                           Manquants        %
------------------------------------------------------------
 retraites et rentes (%);[DEC] Part des autres revenus (%)       34,926  100.00%
 retraites et rentes (%);[DISP] Part des revenus du patrimoine et autres revenus (%);[DISP] Part de l'ensemble des prestations sociales (%);[DISP] dont part des prestations familiales (%);[DISP] dont part des minima sociaux (%);[DISP] dont part des prestations logement (%);[DISP] Part des imp√¥ts (%);[DEC] Nbre de m√©nages fiscaux;[DEC] Nbre de personnes dans les m√©nages fiscaux;[DEC] Nbre d'unit√©s de consommation dans les m√©nages fiscaux;[DEC] Part des m√©nages fiscaux impos√©s (%);[DEC] 1·µâ ≥ quartile (‚Ç¨);[DEC] M√©diane (‚Ç¨);[DEC] 3·µâ quartile (‚Ç¨);[DEC] √âcart interquartile (‚Ç¨);[DEC] 1·µâ ≥ d√©cile (‚Ç¨);[DEC] 2·µâ d√©cile (‚Ç¨);[DEC] 3·µâ d√©cile  (‚Ç¨);[DEC] 4·µâ d√©cile (‚Ç¨);[DEC] 

Unnamed: 0,Colonne,Manquants,Pourcentage
2,retraites et rentes (%);[DEC] Part des autres...,34926,100.0
1,retraites et rentes (%);[DISP] Part des reven...,29599,84.747752


In [17]:
# Identifier colonne code commune et filtrer
print("üîç Colonnes disponibles :")
print(df_revenus.columns.tolist())

# Chercher colonne avec code INSEE/commune
code_cols = [col for col in df_revenus.columns if 'code' in col.lower() or 'insee' in col.lower() or 'codgeo' in col.lower()]
print(f"\nüîë Colonnes codes potentielles : {code_cols}")

# TODO: Adapter selon nom r√©el de la colonne code INSEE
# Exemple : df_revenus_pc = df_revenus[df_revenus['CODGEO'].isin(codes_insee_pc)]

üîç Colonnes disponibles :
["Nom g√©ographique GMS;Code g√©ographique;Libell√© g√©ographique;[DISP] Nbre de m√©nages fiscaux;[DISP] Nbre de personnes dans les m√©nages fiscaux;[DISP] Nbre d'unit√©s de consommation dans les m√©nages fiscaux;[DISP] 1·µâ ≥ quartile (‚Ç¨);[DISP] M√©diane (‚Ç¨);[DISP] 3·µâ quartile (‚Ç¨);[DISP] √âcart interquartile (‚Ç¨);[DISP] 1·µâ ≥ d√©cile (‚Ç¨);[DISP] 2·µâ d√©cile (‚Ç¨);[DISP]3·µâ d√©cile (‚Ç¨);[DISP] 4·µâ d√©cile (‚Ç¨);[DISP] 6·µâ d√©cile (‚Ç¨);[DISP] 7·µâ d√©cile (‚Ç¨);[DISP] 8·µâ d√©cile (‚Ç¨);[DISP] 9·µâ d√©cile (‚Ç¨);[DISP] Rapport interd√©cile 9·µâ d√©cile/1·µâ ≥ decile;[DISP] S80/20;[DISP] Iice de Gini;[DISP] Part des revenus d‚Äôactivit√© (%);[DISP] dont part des salaires et traitements(%);[DISP] dont part des iemnit√©s de ch√¥mage (%);[DISP] dont part des revenus des activit√©s non salari√©es (%);[DISP] Part des pensions", " retraites et rentes (%);[DISP] Part des revenus du patrimoine et autres revenus (%);[DISP] Part de l'ensemble des presta

### 3.4 Population Historique 1968-2022

In [18]:
# Lister fichiers extraits
pop_dir = DATA_BRONZE / "population_historique_1968_2022"
pop_files = list(pop_dir.glob("*"))

print(f"üìÇ Fichiers dans {pop_dir.name}/ :")
for f in pop_files:
    size_mb = f.stat().st_size / (1024 * 1024)
    print(f"   ‚Ä¢ {f.name} ({size_mb:.2f} MB)")

üìÇ Fichiers dans population_historique_1968_2022/ :
   ‚Ä¢ pop-16ans-dipl6822.xlsx (43.63 MB)


In [19]:
# Charger fichier principal (adapter selon nom r√©el)
# Note: Fichiers Excel INSEE ont des m√©tadonn√©es en d√©but de fichier
# CORRECTION : skiprows pour sauter les m√©tadonn√©es

print("üí° Recherche du fichier principal...")

# Trouver le fichier de donn√©es (pas le .zip ni les metadata)
data_files = [f for f in pop_files if f.suffix in ['.xlsx', '.xls', '.csv'] and not f.name.startswith('.')]

if data_files:
    main_file = data_files[0]
    print(f"üìÑ Fichier trouv√© : {main_file.name}")
    
    # Essayer de charger en fonction de l'extension
    if main_file.suffix in ['.xlsx', '.xls']:
        print("‚è≥ Chargement Excel avec openpyxl...")
        # Fichiers INSEE ont g√©n√©ralement 4-5 lignes de m√©tadonn√©es + en-t√™te sur 2 lignes
        # On teste d'abord sans skiprows pour voir la structure
        print("\nüîç Test chargement avec diff√©rents skiprows...")
        
        # Essayer skiprows=5 (sauter m√©tadonn√©es)
        try:
            df_population = pd.read_excel(main_file, engine='openpyxl', skiprows=5, nrows=10)
            print(f"‚úÖ √âchantillon charg√© avec skiprows=5 (10 lignes)")
            print(f"üìä Colonnes d√©tect√©es : {len(df_population.columns)}")
            print(df_population.head())
        except Exception as e:
            print(f"‚ö†Ô∏è  skiprows=5 √©chou√© : {str(e)[:100]}")
            print("\nTentative avec skiprows=4...")
            df_population = pd.read_excel(main_file, engine='openpyxl', skiprows=4, nrows=10)
            print(f"‚úÖ √âchantillon charg√© avec skiprows=4 (10 lignes)")
            print(df_population.head())
    elif main_file.suffix == '.csv':
        df_population = pd.read_csv(main_file, nrows=10)
        print(f"‚úÖ √âchantillon charg√© (10 lignes)")
        print(df_population.head())
else:
    print("‚ö†Ô∏è  Aucun fichier de donn√©es trouv√© - v√©rifier l'extraction")

üí° Recherche du fichier principal...
üìÑ Fichier trouv√© : pop-16ans-dipl6822.xlsx
‚è≥ Chargement Excel avec openpyxl...
‚úÖ √âchantillon charg√© (10 lignes)
Empty DataFrame
Columns: [Dipl√¥mes - Donn√©es harmonis√©es RP1968-2022 ]
Index: []


### 3.5 Dipl√¥mes et Formation 2022

In [20]:
# Lister fichiers extraits
diplomes_dir = DATA_BRONZE / "diplomes_formation_2022"
diplomes_files = list(diplomes_dir.glob("*"))

print(f"üìÇ Fichiers dans {diplomes_dir.name}/ :")
for f in diplomes_files:
    size_mb = f.stat().st_size / (1024 * 1024)
    print(f"   ‚Ä¢ {f.name} ({size_mb:.2f} MB)")

üìÇ Fichiers dans diplomes_formation_2022/ :
   ‚Ä¢ base-cc-diplomes-formation-2022.xlsx (66.06 MB)


In [21]:
# Charger dipl√¥mes (XLSX)
print("üí° Recherche du fichier principal...")

data_files = [f for f in diplomes_files if f.suffix in ['.xlsx', '.xls', '.csv'] and not f.name.startswith('.')]

if data_files:
    main_file = data_files[0]
    print(f"üìÑ Fichier trouv√© : {main_file.name}")
    
    if main_file.suffix in ['.xlsx', '.xls']:
        print("‚è≥ Chargement Excel avec openpyxl...")
        # Charger juste un √©chantillon (skip 4 metadata rows)
        df_diplomes = pd.read_excel(main_file, engine='openpyxl', skiprows=4, nrows=10)
        print(f"‚úÖ √âchantillon charg√© (10 lignes)")
        print(df_diplomes.head())
        print(f"\nüìã Colonnes : {df_diplomes.columns.tolist()}")
    elif main_file.suffix == '.csv':
        df_diplomes = pd.read_csv(main_file, nrows=10)
        print(f"‚úÖ √âchantillon charg√© (10 lignes)")
        print(df_diplomes.head())
else:
    print("‚ö†Ô∏è  Aucun fichier de donn√©es trouv√©")

üí° Recherche du fichier principal...
üìÑ Fichier trouv√© : base-cc-diplomes-formation-2022.xlsx
‚è≥ Chargement Excel avec openpyxl...
‚úÖ √âchantillon charg√© (10 lignes)
    Chiffres d√©taill√©s    -     Dipl√¥mes - Formation Unnamed: 1   Unnamed: 2  \
0                     France hors Mayotte - Communes        NaN          NaN   
1  Mise en ligne le 26/06/2025       G√©ographie a...        NaN          NaN   
2  ¬©Insee       Source(s) : Insee, Recensements d...        NaN          NaN   
3                                  Code g√©ographique     R√©gion  D√©partement   
4                                             CODGEO        REG          DEP   

             Unnamed: 3                   Unnamed: 4  \
0                   NaN                          NaN   
1                   NaN                          NaN   
2                   NaN                          NaN   
3  Libell√© g√©ographique  Pop 2-5 ans en 2022 (princ)   
4                LIBGEO                  P22_POP0205   

### 3.6 CSP des Actifs 25-54 ans

In [22]:
# Lister fichiers extraits
csp_dir = DATA_BRONZE / "csp_actifs_2554"
csp_files = list(csp_dir.glob("*"))

print(f"üìÇ Fichiers dans {csp_dir.name}/ :")
for f in csp_files:
    size_mb = f.stat().st_size / (1024 * 1024)
    print(f"   ‚Ä¢ {f.name} ({size_mb:.2f} MB)")

üìÇ Fichiers dans csp_actifs_2554/ :
   ‚Ä¢ pop-act2554-csp-cd-6822.xlsx (28.53 MB)


In [23]:
# Charger CSP (XLSX)
print("üí° Recherche du fichier principal...")

data_files = [f for f in csp_files if f.suffix in ['.xlsx', '.xls', '.csv'] and not f.name.startswith('.')]

if data_files:
    main_file = data_files[0]
    print(f"üìÑ Fichier trouv√© : {main_file.name}")
    
    if main_file.suffix in ['.xlsx', '.xls']:
        print("‚è≥ Chargement Excel avec openpyxl...")
        # Charger juste un √©chantillon (skip 4 metadata rows)
        df_csp = pd.read_excel(main_file, engine='openpyxl', skiprows=4, nrows=10)
        print(f"‚úÖ √âchantillon charg√© (10 lignes)")
        print(df_csp.head())
        print(f"\nüìã Colonnes : {df_csp.columns.tolist()}")
    elif main_file.suffix == '.csv':
        df_csp = pd.read_csv(main_file, nrows=10)
        print(f"‚úÖ √âchantillon charg√© (10 lignes)")
        print(df_csp.head())
else:
    print("‚ö†Ô∏è  Aucun fichier de donn√©es trouv√©")

üí° Recherche du fichier principal...
üìÑ Fichier trouv√© : pop-act2554-csp-cd-6822.xlsx
‚è≥ Chargement Excel avec openpyxl...
‚úÖ √âchantillon charg√© (10 lignes)
Empty DataFrame
Columns: [Cat√©gorie Socioprofessionnelle des actifs - Donn√©es harmonis√©es RP1968-2022]
Index: []

üìã Colonnes : ['Cat√©gorie Socioprofessionnelle des actifs - Donn√©es harmonis√©es RP1968-2022']


## 4. Analyse des Jointures Possibles

### Strat√©gie de jointure

In [24]:
print("üîó Strat√©gie de jointure identifi√©e :")
print("""
Cl√© primaire : Code INSEE commune

Sch√©ma de jointure :
    
    referentiel_communes (COM)
         ‚îú‚îÄ LEFT JOIN elections (code_commune)
         ‚îú‚îÄ LEFT JOIN revenus (CODGEO)
         ‚îú‚îÄ LEFT JOIN population (code_commune)
         ‚îú‚îÄ LEFT JOIN diplomes (CODGEO)
         ‚îî‚îÄ LEFT JOIN csp (CODGEO)

Type de jointure : LEFT JOIN
Raison : Garder toutes communes Petite Couronne m√™me si donn√©es manquantes

""")

print("üí° √Ä valider dans notebook ETL :")
print("   - Noms exacts colonnes codes INSEE par dataset")
print("   - Gestion des doublons (agr√©gations temporelles)")
print("   - Traitement valeurs manquantes")

üîó Strat√©gie de jointure identifi√©e :

Cl√© primaire : Code INSEE commune

Sch√©ma de jointure :

    referentiel_communes (COM)
         ‚îú‚îÄ LEFT JOIN elections (code_commune)
         ‚îú‚îÄ LEFT JOIN revenus (CODGEO)
         ‚îú‚îÄ LEFT JOIN population (code_commune)
         ‚îú‚îÄ LEFT JOIN diplomes (CODGEO)
         ‚îî‚îÄ LEFT JOIN csp (CODGEO)

Type de jointure : LEFT JOIN
Raison : Garder toutes communes Petite Couronne m√™me si donn√©es manquantes


üí° √Ä valider dans notebook ETL :
   - Noms exacts colonnes codes INSEE par dataset
   - Gestion des doublons (agr√©gations temporelles)
   - Traitement valeurs manquantes


## 5. Synth√®se de l'Exploration

### Points cl√©s identifi√©s

In [25]:
print("""
‚úÖ SYNTH√àSE EXPLORATION PHASE 1
========================================

üìä Datasets charg√©s et analys√©s :
   1. ‚úÖ R√©f√©rentiel communes - ~150 communes Petite Couronne
   2. ‚úÖ √âlections agr√©g√©es - Structure identifi√©e (√©chantillon)
   3. ‚úÖ Revenus - Pr√™t pour jointure
   4. ‚úÖ Population - Lecture Excel openpyxl
   5. ‚úÖ Dipl√¥mes - Lecture Excel openpyxl
   6. ‚úÖ CSP - Lecture Excel openpyxl

üîë Cl√© de jointure : Code INSEE commune

üíæ Format des donn√©es :
   - CSV : R√©f√©rentiel, √âlections, Revenus
   - Excel (XLSX) : Population, Dipl√¥mes, CSP
   - Pandas g√®re les deux formats nativement

üéØ Prochaines √©tapes (Notebook 03_etl.ipynb) :
   1. Charger fichiers complets (avec chunks si n√©cessaire)
   2. Standardiser colonnes codes INSEE
   3. Filtrer toutes donn√©es pour Petite Couronne
   4. Nettoyer et transformer (valeurs manquantes, types)
   5. Joindre tous datasets (merge pandas)
   6. Sauvegarder en Parquet partitionn√©

üöÄ Architecture scalable valid√©e :
   - Fonctions g√©n√©riques r√©utilisables ‚úÖ
   - Code pandas optimis√© ‚úÖ
   - Lecture Excel native avec openpyxl ‚úÖ
   - Gestion m√©moire avec chunks ‚úÖ
   - Pr√™t pour ajout Phase 2 ‚úÖ

""")


‚úÖ SYNTH√àSE EXPLORATION PHASE 1

üìä Datasets charg√©s et analys√©s :
   1. ‚úÖ R√©f√©rentiel communes - ~150 communes Petite Couronne
   2. ‚úÖ √âlections agr√©g√©es - Structure identifi√©e (√©chantillon)
   3. ‚úÖ Revenus - Pr√™t pour jointure
   4. ‚úÖ Population - Lecture Excel openpyxl
   5. ‚úÖ Dipl√¥mes - Lecture Excel openpyxl
   6. ‚úÖ CSP - Lecture Excel openpyxl

üîë Cl√© de jointure : Code INSEE commune

üíæ Format des donn√©es :
   - CSV : R√©f√©rentiel, √âlections, Revenus
   - Excel (XLSX) : Population, Dipl√¥mes, CSP
   - Pandas g√®re les deux formats nativement

üéØ Prochaines √©tapes (Notebook 03_etl.ipynb) :
   1. Charger fichiers complets (avec chunks si n√©cessaire)
   2. Standardiser colonnes codes INSEE
   3. Filtrer toutes donn√©es pour Petite Couronne
   4. Nettoyer et transformer (valeurs manquantes, types)
   5. Joindre tous datasets (merge pandas)
   6. Sauvegarder en Parquet partitionn√©

üöÄ Architecture scalable valid√©e :
   - Fonctions g√©n√©riq

## 6. Nettoyage et Sauvegarde

In [26]:
# Sauvegarder liste codes INSEE Petite Couronne pour r√©utilisation
df_communes_pc[['COM', 'LIBELLE', 'dept']].to_parquet(
    DATA_SILVER / "referentiel_petite_couronne.parquet",
    index=False
)

print("‚úÖ R√©f√©rentiel Petite Couronne sauvegard√© en Parquet")

‚úÖ R√©f√©rentiel Petite Couronne sauvegard√© en Parquet


In [27]:
# Lib√©rer la m√©moire
del df_elections_sample
import gc
gc.collect()

print("‚úÖ M√©moire lib√©r√©e")

‚úÖ M√©moire lib√©r√©e


---

## üìã Notes pour la Suite

**Gestion des fichiers volumineux :**
- √âlections (2.2 GB) : utiliser `chunksize` ou `nrows` pour √©chantillon
- Pour traitement complet : charger par chunks et filtrer progressivement
- Sauvegarder r√©sultats filtr√©s en Parquet (compression efficace)

**Fichiers XLSX :**
- Population, Dipl√¥mes, CSP sont en format Excel
- Solutions :
  1. Lecture directe avec `pd.read_excel()` et `openpyxl`
  2. Conversion manuelle Excel ‚Üí CSV (rapide)
  3. Script automatis√© de conversion

**Recommandation : Option 1**
- `pd.read_excel()` fonctionne bien avec openpyxl
- Extraction automatique des ZIP d√©j√† faite
- Lecture directe sans √©tape interm√©diaire

**Architecture extensible valid√©e :**
- ‚úÖ Fonctions g√©n√©riques `explore_dataset()`, `analyze_missing_values()`, `filter_petite_couronne()`
- ‚úÖ Code pandas adaptable pour Phase 2 (juste ajouter nouveaux datasets)
- ‚úÖ Strat√©gie de jointure claire
- ‚úÖ Optimisation m√©moire avec chunks pour gros fichiers
- ‚úÖ Pr√™t pour ETL avec pandas + Parquet