In [2]:
import pandas as pd
import numpy as np
from pathlib import Path

print(" INGESTION DES DONNÉES DÉPARTEMENTALES SURSAUD")
print("=" * 60)
# Chemin vers les données
base_path = Path("/Users/mawensalignat-moandal/Documents/Engineering/school/S3/hackaton/vaccination-predictive-lab/data/raw/sursaud")

 INGESTION DES DONNÉES DÉPARTEMENTALES SURSAUD


In [3]:
# Cell 1: Chargement des données départementales
print("📂 Chargement des données départementales...")

df_departement = pd.read_csv(base_path / "grippe-departement.csv", sep=",", encoding="utf-8")

print(f"✅ Données départementales chargées : {df_departement.shape}")

📂 Chargement des données départementales...
✅ Données départementales chargées : (157040, 10)


In [4]:
# Cell 2: Analyse de la structure des données
print("\n🔍 ANALYSE DE LA STRUCTURE")
print("=" * 35)

print(f"📊 Volume total : {df_departement.shape[0]:,} observations")
print(f"📅 Période : {df_departement['1er jour de la semaine'].min()} à {df_departement['1er jour de la semaine'].max()}")

# Analyse des départements
departements = df_departement['Département'].nunique()
print(f"📍 Départements : {departements}")

# Analyse des régions
regions = df_departement['Région'].nunique()
print(f"🗺️ Régions : {regions}")

# Analyse des classes d'âge
classes_age = df_departement['Classe d\'âge'].nunique()
print(f"👥 Classes d'âge : {classes_age}")

print(f"\n📍 Top 10 départements par nombre d'observations :")
dept_counts = df_departement['Département'].value_counts().head(10)
for i, (dept, count) in enumerate(dept_counts.items(), 1):
    print(f"{i:2d}. {dept}: {count:,} observations")



🔍 ANALYSE DE LA STRUCTURE
📊 Volume total : 157,040 observations
📅 Période : 2019-12-30 à 2025-10-06
📍 Départements : 104
🗺️ Régions : 21
👥 Classes d'âge : 5

📍 Top 10 départements par nombre d'observations :
 1. Orne: 1,510 observations
 2. Pas-de-Calais: 1,510 observations
 3. Jura: 1,510 observations
 4. Isère: 1,510 observations
 5. Meuse: 1,510 observations
 6. Meurthe-et-Moselle: 1,510 observations
 7. Mayenne: 1,510 observations
 8. Haute-Marne: 1,510 observations
 9. Marne: 1,510 observations
10. Lot-et-Garonne: 1,510 observations


In [5]:
# Cell 3: Nettoyage des colonnes
print("\n🧹 Nettoyage des colonnes...")

# Renommage des colonnes pour cohérence
df_departement.columns = [
    'date_debut_semaine', 'semaine', 'code_departement', 'departement', 'classe_age',
    'taux_urgences_grippe', 'taux_hospitalisations_grippe', 'taux_sos_medecins_grippe',
    'region', 'code_region'
]

# Conversion des dates
df_departement['date_debut_semaine'] = pd.to_datetime(df_departement['date_debut_semaine'])

print("✅ Colonnes nettoyées")


🧹 Nettoyage des colonnes...
✅ Colonnes nettoyées


In [6]:
# Cell 4: Ajout des composants temporels
print("\n📅 Ajout des composants temporels...")

df_departement['annee'] = df_departement['date_debut_semaine'].dt.year
df_departement['mois'] = df_departement['date_debut_semaine'].dt.month
df_departement['semaine_annee'] = df_departement['date_debut_semaine'].dt.isocalendar().week
df_departement['jour_semaine'] = df_departement['date_debut_semaine'].dt.dayofweek
df_departement['trimestre'] = df_departement['date_debut_semaine'].dt.quarter

print("✅ Composants temporels ajoutés")


📅 Ajout des composants temporels...
✅ Composants temporels ajoutés


In [7]:
# Cell 5: Gestion des valeurs manquantes
print("\n🔍 Gestion des valeurs manquantes...")

# Analyse des valeurs manquantes
missing_data = df_departement.isnull().sum()
print("Valeurs manquantes par colonne :")
for col, missing in missing_data.items():
    if missing > 0:
        print(f"   ⚠️ {col}: {missing:,} ({missing/len(df_departement)*100:.1f}%)")
    else:
        print(f"   ✅ {col}: Aucune valeur manquante")

# Remplacement des valeurs manquantes par 0 (logique pour les taux)
df_departement['taux_sos_medecins_grippe'] = df_departement['taux_sos_medecins_grippe'].fillna(0)

print("✅ Valeurs manquantes traitées")


🔍 Gestion des valeurs manquantes...
Valeurs manquantes par colonne :
   ✅ date_debut_semaine: Aucune valeur manquante
   ✅ semaine: Aucune valeur manquante
   ✅ code_departement: Aucune valeur manquante
   ✅ departement: Aucune valeur manquante
   ✅ classe_age: Aucune valeur manquante
   ⚠️ taux_urgences_grippe: 5,422 (3.5%)
   ⚠️ taux_hospitalisations_grippe: 7,357 (4.7%)
   ⚠️ taux_sos_medecins_grippe: 88,242 (56.2%)
   ✅ region: Aucune valeur manquante
   ✅ code_region: Aucune valeur manquante
   ✅ annee: Aucune valeur manquante
   ✅ mois: Aucune valeur manquante
   ✅ semaine_annee: Aucune valeur manquante
   ✅ jour_semaine: Aucune valeur manquante
   ✅ trimestre: Aucune valeur manquante
✅ Valeurs manquantes traitées


In [8]:
# Cell 6: Validation de la qualité des données
print("\n📊 VALIDATION DE LA QUALITÉ")
print("=" * 35)

# Vérification des codes département
print(f"📍 Codes département uniques : {df_departement['code_departement'].nunique()}")
print(f"📍 Noms département uniques : {df_departement['departement'].nunique()}")

# Vérification des codes région
print(f"🗺️ Codes région uniques : {df_departement['code_region'].nunique()}")
print(f"🗺️ Noms région uniques : {df_departement['region'].nunique()}")

# Vérification des classes d'âge
print(f"👥 Classes d'âge : {sorted(df_departement['classe_age'].unique())}")

# Vérification des valeurs négatives (anormales pour des taux)
negative_urgences = (df_departement['taux_urgences_grippe'] < 0).sum()
negative_hosp = (df_departement['taux_hospitalisations_grippe'] < 0).sum()

if negative_urgences > 0:
    print(f"⚠️ Valeurs négatives dans taux_urgences_grippe : {negative_urgences}")
else:
    print(f"✅ Aucune valeur négative dans taux_urgences_grippe")

if negative_hosp > 0:
    print(f"⚠️ Valeurs négatives dans taux_hospitalisations_grippe : {negative_hosp}")
else:
    print(f"✅ Aucune valeur négative dans taux_hospitalisations_grippe")


📊 VALIDATION DE LA QUALITÉ
📍 Codes département uniques : 104
📍 Noms département uniques : 104
🗺️ Codes région uniques : 21
🗺️ Noms région uniques : 21
👥 Classes d'âge : ['00-04 ans', '05-14 ans', '15-64 ans', '65 ans ou plus', 'Tous âges']
✅ Aucune valeur négative dans taux_urgences_grippe
✅ Aucune valeur négative dans taux_hospitalisations_grippe


In [9]:
# Cell 7: Statistiques par niveau géographique
print("\n📊 STATISTIQUES PAR NIVEAU GÉOGRAPHIQUE")
print("=" * 50)

# Statistiques par région
print("🗺️ Statistiques par région :")
region_stats = df_departement.groupby('region').agg({
    'taux_urgences_grippe': ['count', 'mean', 'std', 'max'],
    'departement': 'nunique'
}).round(2)

print("Top 5 régions par nombre d'observations :")
top_regions = df_departement['region'].value_counts().head(5)
for i, (region, count) in enumerate(top_regions.items(), 1):
    print(f"{i}. {region}: {count:,} observations")

# Statistiques par département
print(f"\n📍 Statistiques par département :")
dept_stats = df_departement.groupby('departement').agg({
    'taux_urgences_grippe': ['count', 'mean', 'std', 'max']
}).round(2)

print("Top 5 départements par nombre d'observations :")
top_depts = df_departement['departement'].value_counts().head(5)
for i, (dept, count) in enumerate(top_depts.items(), 1):
    print(f"{i}. {dept}: {count:,} observations")



📊 STATISTIQUES PAR NIVEAU GÉOGRAPHIQUE
🗺️ Statistiques par région :
Top 5 régions par nombre d'observations :
1. Occitanie: 19,630 observations
2. Auvergne et Rhône-Alpes: 18,120 observations
3. Nouvelle Aquitaine: 18,120 observations
4. Grand Est: 15,100 observations
5. Île-de-France: 12,080 observations

📍 Statistiques par département :
Top 5 départements par nombre d'observations :
1. Orne: 1,510 observations
2. Pas-de-Calais: 1,510 observations
3. Jura: 1,510 observations
4. Isère: 1,510 observations
5. Meuse: 1,510 observations


In [10]:
# Cell 8: Sauvegarde des données nettoyées
print("\n💾 Sauvegarde...")

df_departement.to_csv("../../data/cleaned/sursaud_departement_cleaned.csv", index=False)

print("✅ Données départementales sauvegardées : sursaud_departement_cleaned.csv")

# Cell 9: Aperçu des données nettoyées
print("\n🔍 APERÇU DES DONNÉES NETTOYÉES")
print("=" * 40)

print("📊 Shape final :", df_departement.shape)
print("📅 Période :", df_departement['date_debut_semaine'].min(), "à", df_departement['date_debut_semaine'].max())


💾 Sauvegarde...
✅ Données départementales sauvegardées : sursaud_departement_cleaned.csv

🔍 APERÇU DES DONNÉES NETTOYÉES
📊 Shape final : (157040, 15)
📅 Période : 2019-12-30 00:00:00 à 2025-10-06 00:00:00


In [11]:
# Cell 9: Aperçu des données nettoyées
print("\n🔍 APERÇU DES DONNÉES NETTOYÉES")
print("=" * 40)

print("📊 Shape final :", df_departement.shape)
print("📅 Période :", df_departement['date_debut_semaine'].min(), "à", df_departement['date_debut_semaine'].max())

print("\n📊 Aperçu des données :")
display(df_departement.head())

print("\n📊 Statistiques descriptives :")
display(df_departement.describe())


🔍 APERÇU DES DONNÉES NETTOYÉES
📊 Shape final : (157040, 15)
📅 Période : 2019-12-30 00:00:00 à 2025-10-06 00:00:00

📊 Aperçu des données :


Unnamed: 0,date_debut_semaine,semaine,code_departement,departement,classe_age,taux_urgences_grippe,taux_hospitalisations_grippe,taux_sos_medecins_grippe,region,code_region,annee,mois,semaine_annee,jour_semaine,trimestre
0,2020-12-21,2020-S52,61,Orne,05-14 ans,0.0,0.0,0.0,Normandie,28,2020,12,52,0,4
1,2020-12-21,2020-S52,61,Orne,65 ans ou plus,0.0,0.0,0.0,Normandie,28,2020,12,52,0,4
2,2020-12-28,2020-S53,61,Orne,00-04 ans,500.0,0.0,0.0,Normandie,28,2020,12,53,0,4
3,2020-12-28,2020-S53,61,Orne,65 ans ou plus,257.069409,526.315789,0.0,Normandie,28,2020,12,53,0,4
4,2020-12-28,2020-S53,61,Orne,Tous âges,145.87892,270.27027,0.0,Normandie,28,2020,12,53,0,4



📊 Statistiques descriptives :


Unnamed: 0,date_debut_semaine,taux_urgences_grippe,taux_hospitalisations_grippe,taux_sos_medecins_grippe,code_region,annee,mois,semaine_annee,jour_semaine,trimestre
count,157040,151618.0,149683.0,157040.0,157040.0,157040.0,157040.0,157040.0,157040.0,157040.0
mean,2022-11-17 12:00:00,657.284538,509.498379,1525.382818,79.307692,2022.39404,6.34106,25.84106,0.0,2.44702
min,2019-12-30 00:00:00,0.0,0.0,0.0,1.0,2019.0,1.0,1.0,0.0,1.0
25%,2021-06-07 00:00:00,0.0,0.0,0.0,27.0,2021.0,3.0,13.0,0.0,1.0
50%,2022-11-17 12:00:00,56.785917,0.0,0.0,52.5,2022.0,6.0,26.0,0.0,2.0
75%,2024-04-29 00:00:00,447.09389,0.0,680.272109,76.0,2024.0,9.0,38.0,0.0,3.0
max,2025-10-06 00:00:00,28865.979381,100000.0,100000.0,978.0,2025.0,12.0,53.0,0.0,4.0
std,,1664.844144,1945.876379,4234.323151,157.132615,1.673829,3.390624,14.796276,0.0,1.098847


In [15]:
# Cell 10: Rapport de synthèse
print("\n📋 RAPPORT DE SYNTHÈSE DÉPARTEMENTAL")
print("=" * 50)

total_obs = len(df_departement)
total_depts = df_departement['departement'].nunique()
total_regions = df_departement['region'].nunique()
total_classes = df_departement['classe_age'].nunique()

print(f"✅ DONNÉES DÉPARTEMENTALES TRAITÉES")
print(f"   📊 Observations totales : {total_obs:,}")
print(f"   📍 Départements : {total_depts}")
print(f"   🗺️ Régions : {total_regions}")
print(f"   👥 Classes d'âge : {total_classes}")

print(f"\n🎯 AVANTAGES DE LA GRANULARITÉ DÉPARTEMENTALE")
print(f"   📊 Volume de données : {total_obs:,} observations")
print(f"   🎯 Précision géographique : Prédiction par département")
print(f"   📈 Robustesse du modèle : Données 100x plus nombreuses")
print(f"   🗺️ Applications locales : Allocation départementale")

print(f"\n🚀 PROCHAINES ÉTAPES")
print(f"   🔗 Fusion avec données IQVIA régionales")
print(f"   ⚙️ Feature Engineering géolocalisé")
print(f"   🤖 Modèle prédictif départemental")
print(f"   📊 Dashboard géographique")

print(f"\n🎉 INGESTION DÉPARTEMENTALE TERMINÉE !")


📋 RAPPORT DE SYNTHÈSE DÉPARTEMENTAL
✅ DONNÉES DÉPARTEMENTALES TRAITÉES
   📊 Observations totales : 157,040
   📍 Départements : 104
   🗺️ Régions : 21
   👥 Classes d'âge : 5

🎯 AVANTAGES DE LA GRANULARITÉ DÉPARTEMENTALE
   📊 Volume de données : 157,040 observations
   🎯 Précision géographique : Prédiction par département
   📈 Robustesse du modèle : Données 100x plus nombreuses
   🗺️ Applications locales : Allocation départementale

🚀 PROCHAINES ÉTAPES
   🔗 Fusion avec données IQVIA régionales
   ⚙️ Feature Engineering géolocalisé
   🤖 Modèle prédictif départemental
   📊 Dashboard géographique

🎉 INGESTION DÉPARTEMENTALE TERMINÉE !
