# T√©l√©chargement des Datasets - Approche Progressive

**Objectif :** T√©l√©charger les datasets pour mod√®le pr√©dictif √©lectoral **√©volutif**

**Strat√©gie d'extensibilit√© :**
- **Phase 1** : POC Petite Couronne (150 communes) - Datasets socio-√©conomiques (~2.4 GB)
- **Phase 2** : Extension France enti√®re (35K communes) - Enrichissement territorial (~140 MB)

**P√©rim√®tre initial :** Petite Couronne (75, 92, 93, 94)  
**P√©rim√®tre cible :** France enti√®re - Architecture Big Data scalable

---

## Configuration

In [54]:
import requests
import os
from pathlib import Path

# Configuration des chemins
DATA_RAW = Path("/app/data/raw")
DATA_RAW.mkdir(parents=True, exist_ok=True)

# D√©partements cibles
DEPARTEMENTS = ['75', '92', '93', '94']

print(f"‚úÖ Dossier de destination : {DATA_RAW}")
print(f"üìç P√©rim√®tre : {', '.join(DEPARTEMENTS)}")

‚úÖ Dossier de destination : /app/data/raw
üìç P√©rim√®tre : 75, 92, 93, 94


## Fonction utilitaire de t√©l√©chargement

In [55]:
def download_file(url, filename, force=False):
    """
    T√©l√©charge un fichier depuis une URL
    
    Args:
        url: URL du fichier
        filename: Nom du fichier de destination
        force: Forcer le t√©l√©chargement m√™me si le fichier existe
    """
    filepath = DATA_RAW / filename
    
    if filepath.exists() and not force:
        print(f"‚è≠Ô∏è  {filename} existe d√©j√†")
        return filepath
    
    print(f"‚¨áÔ∏è  T√©l√©chargement de {filename}...")
    try:
        response = requests.get(url, timeout=60)
        response.raise_for_status()
        
        with open(filepath, 'wb') as f:
            f.write(response.content)
        
        size_mb = filepath.stat().st_size / (1024 * 1024)
        print(f"‚úÖ {filename} t√©l√©charg√© ({size_mb:.2f} MB)")
        return filepath
        
    except Exception as e:
        print(f"‚ùå Erreur lors du t√©l√©chargement de {filename}: {e}")
        return None

print("‚úÖ Fonction de t√©l√©chargement pr√™te")

‚úÖ Fonction de t√©l√©chargement pr√™te


## üéØ PHASE 1 - POC Petite Couronne (Datasets Essentiels)

**Objectif** : Mod√®le de base avec indicateurs socio-√©conomiques classiques  
**P√©rim√®tre** : 150 communes (75, 92, 93, 94)  
**Taille totale** : ~2.4 GB

### 1.1 √âlections agr√©g√©es 1999-2024 ‚ú® VARIABLE CIBLE

In [56]:
# √âlections agr√©g√©es - Toutes √©lections 1999-2024 (2.2 Go)
# Contient : Pr√©sidentielles, L√©gislatives, Europ√©ennes, R√©gionales, D√©partementales, Municipales
# URL directe pour t√©l√©chargement
url_elections_agregees = "https://object.files.data.gouv.fr/data-pipeline-open/elections/candidats_results.csv"
download_file(url_elections_agregees, "elections_agregees_1999_2024.csv")

print("\n‚ö†Ô∏è  Ce fichier est volumineux (2.2 Go) - Le t√©l√©chargement peut prendre plusieurs minutes")

‚è≠Ô∏è  elections_agregees_1999_2024.csv existe d√©j√†

‚ö†Ô∏è  Ce fichier est volumineux (2.2 Go) - Le t√©l√©chargement peut prendre plusieurs minutes


### 1.2 Revenus par commune

In [57]:
# Revenus des Fran√ßais par commune (4.8 MB)
url_revenus = "https://static.data.gouv.fr/resources/revenu-des-francais-a-la-commune/20251210-134014/revenu-des-francais-a-la-commune-1765372688826.csv"
download_file(url_revenus, "revenus_commune.csv")

‚è≠Ô∏è  revenus_commune.csv existe d√©j√†


PosixPath('/app/data/raw/revenus_commune.csv')

### 1.3 Population historique 1968-2022

*Dynamique d√©mographique - Croissance/d√©clin urbain*

In [None]:
# Population des 16 ans ou plus de 1968 √† 2022 (40 Mo)
url_pop_historique = "https://www.insee.fr/fr/statistiques/fichier/1893149/pop-16ans-dipl6822.zip"
download_file(url_pop_historique, "population_historique_1968_2022.zip")

print("\n‚ö†Ô∏è  Fichier ZIP t√©l√©charg√© - L'extraction automatique sera faite plus bas")

‚è≠Ô∏è  population_historique_1968_2022.zip existe d√©j√†

‚ö†Ô∏è  Fichier ZIP t√©l√©charg√© - L'extraction automatique sera faite plus bas
‚úÖ Phase 1 termin√©e - Vous avez les datasets essentiels pour un mod√®le de base


### 1.4 Dipl√¥mes et Formation 2022

*Niveau d'√©ducation - Pr√©dicteur majeur du vote (recherches sociologie √©lectorale)*

In [59]:
# Dipl√¥mes et formation par commune (ZIP contenant CSV 81 MB)
url_diplomes = "https://www.insee.fr/fr/statistiques/fichier/8581488/base-cc-diplomes-formation-2022.zip"
download_file(url_diplomes, "diplomes_formation_2022.zip")

print("\n‚ö†Ô∏è  Fichier ZIP - Extraction automatique plus bas")

‚¨áÔ∏è  T√©l√©chargement de diplomes_formation_2022.zip...
‚ùå Erreur lors du t√©l√©chargement de diplomes_formation_2022.zip: 500 Server Error:  for url: https://www.insee.fr/fr/statistiques/fichier/8581488/base-cc-diplomes-formation-2022.zip

‚ö†Ô∏è  Fichier ZIP - Extraction automatique plus bas


### 1.5 CSP des actifs 25-54 ans

*Cat√©gories socio-professionnelles - Vote de classe (ouvriers ‚â† cadres)*

In [60]:
# CSP des actifs par commune (ZIP contenant XLSX 28.5 MB)
url_csp = "https://www.insee.fr/fr/statistiques/fichier/2012713/pop-act2554-csp-cd-6822.zip"
download_file(url_csp, "csp_actifs_2554.zip")

print("\n‚úÖ Phase 1 termin√©e - Mod√®le de base pr√™t pour Petite Couronne")
print("üí° Ces 5 datasets permettent un mod√®le robuste avec les 3 variables socio-√©co de r√©f√©rence")

‚¨áÔ∏è  T√©l√©chargement de csp_actifs_2554.zip...
‚ùå Erreur lors du t√©l√©chargement de csp_actifs_2554.zip: 500 Server Error:  for url: https://www.insee.fr/fr/statistiques/fichier/2012713/pop-act2554-csp-cd-6822.zip

‚úÖ Phase 1 termin√©e - Mod√®le de base pr√™t pour Petite Couronne
üí° Ces 5 datasets permettent un mod√®le robuste avec les 3 variables socio-√©co de r√©f√©rence


## üìä PHASE 2 - Extension France Enti√®re (Enrichissement Territorial)

**Objectif** : Capturer la diversit√© territoriale fran√ßaise (urbain/rural, littoral/montagne)  
**P√©rim√®tre** : 35 000 communes  
**Taille totale** : ~140 MB  
**Apport** : Contexte local (finances, environnement, d√©mographie fine)

### 2.1 Comptes individuels des communes 2022

*Sant√© financi√®re locale - Investissements publics, endettement*  
*Pertinent pour communes rurales (diversit√© financi√®re) vs Petite Couronne (homog√®ne)*

In [61]:
# Comptes communaux 2022 (50 MB)
print("‚ö†Ô∏è  Comptes communaux : T√©l√©chargement manuel requis")
print("   Lien : https://data.economie.gouv.fr/explore/dataset/comptes-individuels-des-communes")
print("   Rechercher 'comptes individuels communes 2022' et exporter CSV")
print("\nüí° Surtout utile pour extension France enti√®re (diversit√© finances locales)")

‚ö†Ô∏è  Comptes communaux : T√©l√©chargement manuel requis
   Lien : https://data.economie.gouv.fr/explore/dataset/comptes-individuels-des-communes
   Rechercher 'comptes individuels communes 2022' et exporter CSV

üí° Surtout utile pour extension France enti√®re (diversit√© finances locales)


### 2.2 Catastrophes naturelles et Risques (GASPAR)

*Exposition aux risques environnementaux - Impact sur vote √©cologique/local*  
*Peu pertinent Petite Couronne, TR√àS pertinent France enti√®re (littoral, montagne, zones rurales)*

In [62]:
# Catastrophes naturelles par commune (34.5 MB)
url_catnat = "https://www.data.gouv.fr/fr/datasets/r/4c176fa2-b0cd-4780-b644-f34cecab89fb"
download_file(url_catnat, "catastrophes_naturelles_gaspar.csv")

# Risques connus par commune
url_risques = "https://www.data.gouv.fr/fr/datasets/r/696f89e0-5d1d-4005-afd8-b42c9e2b5a5e"
download_file(url_risques, "risques_gaspar.csv")

print("\nüí° Capture diversit√© territoriale : inondations, s√©cheresses, √©rosion c√¥ti√®re, avalanches")

‚¨áÔ∏è  T√©l√©chargement de catastrophes_naturelles_gaspar.csv...
‚ùå Erreur lors du t√©l√©chargement de catastrophes_naturelles_gaspar.csv: 404 Client Error: NOT FOUND for url: https://www.data.gouv.fr/api/1/datasets/r/4c176fa2-b0cd-4780-b644-f34cecab89fb
‚¨áÔ∏è  T√©l√©chargement de risques_gaspar.csv...
‚ùå Erreur lors du t√©l√©chargement de risques_gaspar.csv: 404 Client Error: NOT FOUND for url: https://www.data.gouv.fr/api/1/datasets/r/696f89e0-5d1d-4005-afd8-b42c9e2b5a5e

üí° Capture diversit√© territoriale : inondations, s√©cheresses, √©rosion c√¥ti√®re, avalanches


### 2.3 D√©mographie dynamique fine (Naissances/D√©c√®s)

*Vieillissement vs rajeunissement - Solde naturel*  
*Enrichit donn√©es population : communes retrait√©s ‚â† communes jeunes familles*

In [63]:
# Naissances par commune 2008-2024 (24.4 MB)
print("‚ÑπÔ∏è  Naissances : https://www.insee.fr/fr/statistiques/1893255")

# D√©c√®s par commune 2008-2024 (24.4 MB)
print("‚ÑπÔ∏è  D√©c√®s : https://www.insee.fr/fr/statistiques/1893253")

print("\nüí° Optionnel mais affine mod√®le France enti√®re (diversit√© d√©mographique)")
print("‚úÖ Phase 2 termin√©e - Enrichissement territorial pour extension scalable")

‚ÑπÔ∏è  Naissances : https://www.insee.fr/fr/statistiques/1893255
‚ÑπÔ∏è  D√©c√®s : https://www.insee.fr/fr/statistiques/1893253

üí° Optionnel mais affine mod√®le France enti√®re (diversit√© d√©mographique)
‚úÖ Phase 2 termin√©e - Enrichissement territorial pour extension scalable


## üó∫Ô∏è R√©f√©rentiel G√©ographique (Transversal)

In [64]:
# Code Officiel G√©ographique (COG) - Liste des communes
url_communes = "https://www.insee.fr/fr/statistiques/fichier/6800675/v_commune_2023.csv"
download_file(url_communes, "referentiel_communes.csv")

print("\nüí° Cl√© de jointure pour TOUS les datasets - Codes INSEE, d√©partements, r√©gions")

‚è≠Ô∏è  referentiel_communes.csv existe d√©j√†

üí° Cl√© de jointure pour TOUS les datasets - Codes INSEE, d√©partements, r√©gions


In [65]:
import zipfile

def extract_zip_files():
    """
    Extrait automatiquement tous les fichiers ZIP dans data/raw/
    """
    zip_files = list(DATA_RAW.glob('*.zip'))
    
    if not zip_files:
        print("‚ÑπÔ∏è  Aucun fichier ZIP √† extraire")
        return
    
    print(f"\nüì¶ Extraction de {len(zip_files)} fichier(s) ZIP...\n")
    
    for zip_path in zip_files:
        try:
            # Cr√©er un dossier avec le nom du fichier (sans .zip)
            extract_dir = DATA_RAW / zip_path.stem
            extract_dir.mkdir(exist_ok=True)
            
            print(f"‚¨áÔ∏è  Extraction de {zip_path.name}...")
            
            with zipfile.ZipFile(zip_path, 'r') as zip_ref:
                zip_ref.extractall(extract_dir)
            
            # Lister les fichiers extraits
            extracted_files = list(extract_dir.glob('*'))
            print(f"   ‚úÖ {len(extracted_files)} fichier(s) extrait(s) dans {extract_dir.name}/")
            
            for extracted_file in extracted_files[:3]:  # Afficher les 3 premiers
                size_mb = extracted_file.stat().st_size / (1024 * 1024)
                print(f"      ‚Ä¢ {extracted_file.name} ({size_mb:.2f} MB)")
            
            if len(extracted_files) > 3:
                print(f"      ... et {len(extracted_files) - 3} autre(s) fichier(s)")
                
        except Exception as e:
            print(f"   ‚ùå Erreur lors de l'extraction de {zip_path.name}: {e}")
    
    print("\n‚úÖ Extraction termin√©e !")

# Lancer l'extraction
extract_zip_files()


üì¶ Extraction de 2 fichier(s) ZIP...

‚¨áÔ∏è  Extraction de population_communes.zip...
   ‚úÖ 9 fichier(s) extrait(s) dans population_communes/
      ‚Ä¢ metadonnees.csv (1.48 MB)
      ‚Ä¢ donnees_communes.csv (2.07 MB)
      ‚Ä¢ donnees_collectivites.csv (0.00 MB)
      ... et 6 autre(s) fichier(s)
‚¨áÔ∏è  Extraction de population_historique_1968_2022.zip...
   ‚úÖ 1 fichier(s) extrait(s) dans population_historique_1968_2022/
      ‚Ä¢ pop-16ans-dipl6822.xlsx (43.63 MB)

‚úÖ Extraction termin√©e !


## üì¶ Extraction automatique des fichiers ZIP

## 6. V√©rification des fichiers t√©l√©charg√©s

In [66]:
# Liste tous les fichiers t√©l√©charg√©s
print("\nüì¶ Fichiers t√©l√©charg√©s dans data/raw/ :\n")

files = sorted(DATA_RAW.glob('*'))
total_size = 0

for file in files:
    if file.is_file():
        size_mb = file.stat().st_size / (1024 * 1024)
        total_size += size_mb
        print(f"  ‚Ä¢ {file.name:<40} {size_mb:>8.2f} MB")

print(f"\n‚úÖ Total : {len(files)} fichiers, {total_size:.2f} MB")


üì¶ Fichiers t√©l√©charg√©s dans data/raw/ :

  ‚Ä¢ .gitkeep                                     0.00 MB
  ‚Ä¢ elections_agregees_1999_2024.csv          2244.21 MB
  ‚Ä¢ legislatives_2024_t1.csv                    73.45 MB
  ‚Ä¢ population_communes.zip                      1.07 MB
  ‚Ä¢ population_historique_1968_2022.zip         40.65 MB
  ‚Ä¢ presidentielle_2022_t1.txt                  16.87 MB
  ‚Ä¢ presidentielle_2022_t2.txt                   5.81 MB
  ‚Ä¢ referentiel_communes.csv                     2.55 MB
  ‚Ä¢ revenus_commune.csv                          4.80 MB

‚úÖ Total : 11 fichiers, 2389.41 MB


## 7. Aper√ßu rapide avec Spark

Testons la lecture d'un fichier avec PySpark

In [67]:
from pyspark.sql import SparkSession

# Initialisation Spark
spark = SparkSession.builder \
    .appName("Data Download Check") \
    .config("spark.driver.memory", "2g") \
    .getOrCreate()

print("‚úÖ Spark Session cr√©√©e")

‚úÖ Spark Session cr√©√©e


In [68]:
# Test de lecture du r√©f√©rentiel communes
try:
    df_communes = spark.read.csv(
        str(DATA_RAW / "referentiel_communes.csv"),
        header=True,
        inferSchema=True,
        sep=","
    )
    
    print(f"\nüìä R√©f√©rentiel communes :")
    print(f"   Lignes : {df_communes.count()}")
    print(f"   Colonnes : {len(df_communes.columns)}")
    print(f"\nAper√ßu :")
    df_communes.show(5, truncate=False)
    
except Exception as e:
    print(f"‚ö†Ô∏è  Fichier non disponible ou erreur : {e}")


üìä R√©f√©rentiel communes :
   Lignes : 37563
   Colonnes : 12

Aper√ßu :
+-------+-----+---+---+----+---+----+---------------------+---------------------+-----------------------+----+---------+
|TYPECOM|COM  |REG|DEP|CTCD|ARR|TNCC|NCC                  |NCCENR               |LIBELLE                |CAN |COMPARENT|
+-------+-----+---+---+----+---+----+---------------------+---------------------+-----------------------+----+---------+
|COM    |01001|84 |01 |01D |012|5   |ABERGEMENT CLEMENCIAT|Abergement-Cl√©menciat|L'Abergement-Cl√©menciat|0108|NULL     |
|COM    |01002|84 |01 |01D |011|5   |ABERGEMENT DE VAREY  |Abergement-de-Varey  |L'Abergement-de-Varey  |0101|NULL     |
|COM    |01004|84 |01 |01D |011|1   |AMBERIEU EN BUGEY    |Amb√©rieu-en-Bugey    |Amb√©rieu-en-Bugey      |0101|NULL     |
|COM    |01005|84 |01 |01D |012|1   |AMBERIEUX EN DOMBES  |Amb√©rieux-en-Dombes  |Amb√©rieux-en-Dombes    |0122|NULL     |
|COM    |01006|84 |01 |01D |011|1   |AMBLEON              |Ambl√©on   

In [69]:
# Fermeture Spark
spark.stop()
print("‚úÖ Spark Session ferm√©e")

‚úÖ Spark Session ferm√©e


---

## ‚úÖ T√©l√©chargement termin√© !

### üéØ Strat√©gie de d√©veloppement recommand√©e

1. **POC Petite Couronne** (Phase 1 uniquement)
   - D√©velopper pipeline ETL Spark avec 5 datasets essentiels
   - Cr√©er features socio-√©conomiques (revenus, CSP, dipl√¥mes)
   - Entra√Æner mod√®le pr√©dictif sur 150 communes
   - Valider approche et architecture Big Data

2. **Extension France enti√®re** (Phase 1 + Phase 2)
   - Ajouter features territoriales (finances, environnement, d√©mographie)
   - Tester scalabilit√© sur 35 000 communes
   - Comparer performance mod√®le enrichi vs mod√®le de base
   - D√©montrer capacit√© Big Data dans soutenance

### üìä Prochaine √©tape

Passez au notebook **02_exploration.ipynb** pour :
- Explorer les donn√©es Phase 1 (socio-√©conomiques)
- Filtrer pour la Petite Couronne
- Analyser qualit√© et compl√©tude
- Identifier features pertinentes
- Pr√©parer strat√©gie ETL Spark

### üí° Notes techniques

- Tous les fichiers sont dans `data/raw/`
- Les ZIP sont extraits automatiquement
- Les URLs peuvent √©voluer - v√©rifier sur data.gouv.fr si erreur
- Architecture pens√©e pour scalabilit√© (Spark + Parquet)