In [4]:
# Notebook : notebooks/ingestion/01_ingestion_sursaud_regional.ipynb
import pandas as pd
import numpy as np
from pathlib import Path

print("üó∫Ô∏è INGESTION DES DONN√âES R√âGIONALES SURSAUD")
print("=" * 50)
base_path = Path("/Users/mawensalignat-moandal/Documents/Engineering/school/S3/hackaton/vaccination-predictive-lab/data/raw/sursaud")

üó∫Ô∏è INGESTION DES DONN√âES R√âGIONALES SURSAUD


In [5]:
# Cell 1: Chargement des donn√©es r√©gionales
print("üìÇ Chargement des donn√©es r√©gionales...")

df_regional = pd.read_csv(base_path / "grippe-regionales.csv", sep=",", encoding="utf-8")

print(f"‚úÖ Donn√©es r√©gionales charg√©es : {df_regional.shape}")

üìÇ Chargement des donn√©es r√©gionales...
‚úÖ Donn√©es r√©gionales charg√©es : (27180, 8)


In [6]:
# Cell 2: Analyse de la structure des donn√©es
print("\nüîç ANALYSE DE LA STRUCTURE")
print("=" * 35)

print(f"üìä Volume total : {df_regional.shape[0]:,} observations")
print(f"üìÖ P√©riode : {df_regional['1er jour de la semaine'].min()} √† {df_regional['1er jour de la semaine'].max()}")

# Analyse des r√©gions
regions = df_regional['R√©gion'].nunique()
print(f"üó∫Ô∏è R√©gions : {regions}")

# Analyse des classes d'√¢ge
classes_age = df_regional['Classe d\'√¢ge'].nunique()
print(f"üë• Classes d'√¢ge : {classes_age}")

print(f"\nüó∫Ô∏è Top 10 r√©gions par nombre d'observations :")
region_counts = df_regional['R√©gion'].value_counts().head(10)
for i, (region, count) in enumerate(region_counts.items(), 1):
    print(f"{i:2d}. {region}: {count:,} observations")


üîç ANALYSE DE LA STRUCTURE
üìä Volume total : 27,180 observations
üìÖ P√©riode : 2019-12-30 √† 2025-10-06
üó∫Ô∏è R√©gions : 18
üë• Classes d'√¢ge : 5

üó∫Ô∏è Top 10 r√©gions par nombre d'observations :
 1. Mayotte: 1,510 observations
 2. √éle-de-France: 1,510 observations
 3. Guadeloupe: 1,510 observations
 4. Auvergne et Rh√¥ne-Alpes: 1,510 observations
 5. Occitanie: 1,510 observations
 6. Provence-Alpes-C√¥te d'Azur: 1,510 observations
 7. Nouvelle Aquitaine: 1,510 observations
 8. Bretagne: 1,510 observations
 9. Centre-Val de Loire: 1,510 observations
10. Bourgogne et Franche-Comt√©: 1,510 observations


In [7]:
# Cell 3: Nettoyage des colonnes
print("\nüßπ Nettoyage des colonnes...")

# Renommage des colonnes pour coh√©rence
df_regional.columns = [
    'date_debut_semaine', 'semaine', 'code_region', 'region', 'classe_age',
    'taux_urgences_grippe', 'taux_hospitalisations_grippe', 'taux_sos_medecins_grippe'
]

# Conversion des dates
df_regional['date_debut_semaine'] = pd.to_datetime(df_regional['date_debut_semaine'])

print("‚úÖ Colonnes nettoy√©es")


üßπ Nettoyage des colonnes...
‚úÖ Colonnes nettoy√©es


In [8]:
# Cell 4: Ajout des composants temporels
print("\nüìÖ Ajout des composants temporels...")

df_regional['annee'] = df_regional['date_debut_semaine'].dt.year
df_regional['mois'] = df_regional['date_debut_semaine'].dt.month
df_regional['semaine_annee'] = df_regional['date_debut_semaine'].dt.isocalendar().week
df_regional['jour_semaine'] = df_regional['date_debut_semaine'].dt.dayofweek
df_regional['trimestre'] = df_regional['date_debut_semaine'].dt.quarter

print("‚úÖ Composants temporels ajout√©s")



üìÖ Ajout des composants temporels...
‚úÖ Composants temporels ajout√©s


In [9]:
# Cell 5: Gestion des valeurs manquantes
print("\nüîç Gestion des valeurs manquantes...")

# Analyse des valeurs manquantes
missing_data = df_regional.isnull().sum()
print("Valeurs manquantes par colonne :")
for col, missing in missing_data.items():
    if missing > 0:
        print(f"   ‚ö†Ô∏è {col}: {missing:,} ({missing/len(df_regional)*100:.1f}%)")
    else:
        print(f"   ‚úÖ {col}: Aucune valeur manquante")

# Remplacement des valeurs manquantes par 0 (logique pour les taux)
df_regional['taux_sos_medecins_grippe'] = df_regional['taux_sos_medecins_grippe'].fillna(0)

print("‚úÖ Valeurs manquantes trait√©es")


üîç Gestion des valeurs manquantes...
Valeurs manquantes par colonne :
   ‚úÖ date_debut_semaine: Aucune valeur manquante
   ‚úÖ semaine: Aucune valeur manquante
   ‚úÖ code_region: Aucune valeur manquante
   ‚úÖ region: Aucune valeur manquante
   ‚úÖ classe_age: Aucune valeur manquante
   ‚ö†Ô∏è taux_urgences_grippe: 890 (3.3%)
   ‚ö†Ô∏è taux_hospitalisations_grippe: 897 (3.3%)
   ‚ö†Ô∏è taux_sos_medecins_grippe: 6,045 (22.2%)
   ‚úÖ annee: Aucune valeur manquante
   ‚úÖ mois: Aucune valeur manquante
   ‚úÖ semaine_annee: Aucune valeur manquante
   ‚úÖ jour_semaine: Aucune valeur manquante
   ‚úÖ trimestre: Aucune valeur manquante
‚úÖ Valeurs manquantes trait√©es


In [10]:
# Cell 6: Validation de la qualit√© des donn√©es
print("\nüìä VALIDATION DE LA QUALIT√â")
print("=" * 35)

# V√©rification des codes r√©gion
print(f"üó∫Ô∏è Codes r√©gion uniques : {df_regional['code_region'].nunique()}")
print(f"üó∫Ô∏è Noms r√©gion uniques : {df_regional['region'].nunique()}")

# V√©rification des classes d'√¢ge
print(f"üë• Classes d'√¢ge : {sorted(df_regional['classe_age'].unique())}")

# V√©rification des valeurs n√©gatives (anormales pour des taux)
negative_urgences = (df_regional['taux_urgences_grippe'] < 0).sum()
negative_hosp = (df_regional['taux_hospitalisations_grippe'] < 0).sum()

if negative_urgences > 0:
    print(f"‚ö†Ô∏è Valeurs n√©gatives dans taux_urgences_grippe : {negative_urgences}")
else:
    print(f"‚úÖ Aucune valeur n√©gative dans taux_urgences_grippe")

if negative_hosp > 0:
    print(f"‚ö†Ô∏è Valeurs n√©gatives dans taux_hospitalisations_grippe : {negative_hosp}")
else:
    print(f"‚úÖ Aucune valeur n√©gative dans taux_hospitalisations_grippe")



üìä VALIDATION DE LA QUALIT√â
üó∫Ô∏è Codes r√©gion uniques : 18
üó∫Ô∏è Noms r√©gion uniques : 18
üë• Classes d'√¢ge : ['00-04 ans', '05-14 ans', '15-64 ans', '65 ans ou plus', 'Tous √¢ges']
‚úÖ Aucune valeur n√©gative dans taux_urgences_grippe
‚úÖ Aucune valeur n√©gative dans taux_hospitalisations_grippe


In [None]:
# Cell 7: Statistiques par r√©gion
print("\n STATISTIQUES PAR R√âGION")
print("=" * 35)

# Statistiques par r√©gion
region_stats = df_regional.groupby('region').agg({
    'taux_urgences_grippe': ['count', 'mean', 'std', 'max'],
    'taux_hospitalisations_grippe': ['mean', 'std', 'max'],
    'taux_sos_medecins_grippe': ['mean', 'std', 'max']
}).round(2)

print("üìä Statistiques par r√©gion :")
for region in df_regional['region'].unique():
    region_data = df_regional[df_regional['region'] == region]
    count = len(region_data)
    avg_urgences = region_data['taux_urgences_grippe'].mean()
    print(f"   {region}: {count:,} observations, {avg_urgences:.1f} urgences moy.")


üìä STATISTIQUES PAR R√âGION
üìä Statistiques par r√©gion :
   Mayotte: 1,510 observations, 375.0 urgences moy.
   √éle-de-France: 1,510 observations, 870.4 urgences moy.
   Hauts-de-France: 1,510 observations, 710.7 urgences moy.
   Normandie: 1,510 observations, 620.0 urgences moy.
   Pays de la Loire: 1,510 observations, 581.8 urgences moy.
   Martinique: 1,510 observations, 480.9 urgences moy.
   Guyane: 1,510 observations, 1053.9 urgences moy.
   R√©union: 1,510 observations, 685.4 urgences moy.
   Grand Est: 1,510 observations, 697.1 urgences moy.
   Bourgogne et Franche-Comt√©: 1,510 observations, 700.2 urgences moy.
   Centre-Val de Loire: 1,510 observations, 630.0 urgences moy.
   Bretagne: 1,510 observations, 499.6 urgences moy.
   Nouvelle Aquitaine: 1,510 observations, 644.2 urgences moy.
   Provence-Alpes-C√¥te d'Azur: 1,510 observations, 916.7 urgences moy.
   Occitanie: 1,510 observations, 562.6 urgences moy.
   Auvergne et Rh√¥ne-Alpes: 1,510 observations, 694.3 urge

In [14]:
# Cell 8: Sauvegarde des donn√©es nettoy√©es
print("\n Sauvegarde...")

df_regional.to_csv("../../data/cleaned/sursaud_regional_cleaned.csv", index=False)

print("‚úÖ Donn√©es r√©gionales sauvegard√©es : sursaud_regional_cleaned.csv")




 Sauvegarde...
‚úÖ Donn√©es r√©gionales sauvegard√©es : sursaud_regional_cleaned.csv


In [15]:
# Cell 9: Aper√ßu des donn√©es nettoy√©es
print("\nüîç APER√áU DES DONN√âES NETTOY√âES")
print("=" * 40)

print("üìä Shape final :", df_regional.shape)
print("üìÖ P√©riode :", df_regional['date_debut_semaine'].min(), "√†", df_regional['date_debut_semaine'].max())

print("\nüìä Aper√ßu des donn√©es :")
display(df_regional.head())

print("\nüìä Statistiques descriptives :")
display(df_regional.describe())


üîç APER√áU DES DONN√âES NETTOY√âES
üìä Shape final : (27180, 13)
üìÖ P√©riode : 2019-12-30 00:00:00 √† 2025-10-06 00:00:00

üìä Aper√ßu des donn√©es :


Unnamed: 0,date_debut_semaine,semaine,code_region,region,classe_age,taux_urgences_grippe,taux_hospitalisations_grippe,taux_sos_medecins_grippe,annee,mois,semaine_annee,jour_semaine,trimestre
0,2023-02-20,2023-S08,6,Mayotte,00-04 ans,383.141762,1562.5,0.0,2023,2,8,0,1
1,2023-02-20,2023-S08,6,Mayotte,15-64 ans,728.59745,0.0,0.0,2023,2,8,0,1
2,2023-02-20,2023-S08,6,Mayotte,65 ans ou plus,2127.659574,0.0,0.0,2023,2,8,0,1
3,2023-02-27,2023-S09,6,Mayotte,05-14 ans,714.285714,0.0,0.0,2023,2,9,0,1
4,2023-02-27,2023-S09,6,Mayotte,65 ans ou plus,4166.666667,14285.714286,0.0,2023,2,9,0,1



üìä Statistiques descriptives :


Unnamed: 0,date_debut_semaine,code_region,taux_urgences_grippe,taux_hospitalisations_grippe,taux_sos_medecins_grippe,annee,mois,semaine_annee,jour_semaine,trimestre
count,27180,27180.0,26290.0,26283.0,27180.0,27180.0,27180.0,27180.0,27180.0,27180.0
mean,2022-11-17 12:00:00.000000256,39.388889,681.709809,518.062581,2728.560887,2022.39404,6.34106,25.84106,0.0,2.44702
min,2019-12-30 00:00:00,1.0,0.0,0.0,0.0,2019.0,1.0,1.0,0.0,1.0
25%,2021-06-07 00:00:00,6.0,23.984064,0.0,0.0,2021.0,3.0,13.0,0.0,1.0
50%,2022-11-17 12:00:00,30.0,119.608809,0.0,566.572238,2022.0,6.0,26.0,0.0,2.0
75%,2024-04-29 00:00:00,75.0,578.073841,285.578361,2731.646146,2024.0,9.0,38.0,0.0,3.0
max,2025-10-06 00:00:00,94.0,22580.645161,33333.333333,60975.609756,2025.0,12.0,53.0,0.0,4.0
std,,32.287741,1502.111519,1471.596994,5207.647104,1.673855,3.390676,14.796501,0.0,1.098864


In [17]:
# Cell 10: Comparaison avec les donn√©es d√©partementales
print("\nüîç COMPARAISON AVEC LES DONN√âES D√âPARTEMENTALES")
print("=" * 55)

# Chargement des donn√©es d√©partementales pour comparaison
df_departement = pd.read_csv("../../data/cleaned/sursaud_departement_cleaned.csv")
df_departement['date_debut_semaine'] = pd.to_datetime(df_departement['date_debut_semaine'])

print(f"üìä Donn√©es r√©gionales : {df_regional.shape}")
print(f"üìä Donn√©es d√©partementales : {df_departement.shape}")

print(f"\nüìÖ P√©riodes :")
print(f"   R√©gional : {df_regional['date_debut_semaine'].min()} √† {df_regional['date_debut_semaine'].max()}")
print(f"   D√©partement : {df_departement['date_debut_semaine'].min()} √† {df_departement['date_debut_semaine'].max()}")

print(f"\nüó∫Ô∏è R√©gions :")
print(f"   R√©gional : {df_regional['region'].nunique()}")
print(f"   D√©partement : {df_departement['region'].nunique()}")

# V√©rification de la coh√©rence
regions_regional = set(df_regional['region'].unique())
regions_departement = set(df_departement['region'].unique())

if regions_regional == regions_departement:
    print(f"\n‚úÖ Coh√©rence parfaite : M√™mes r√©gions dans les deux datasets")
else:
    print(f"\n‚ö†Ô∏è Diff√©rences r√©gionales :")
    print(f"   R√©gional uniquement : {regions_regional - regions_departement}")
    print(f"   D√©partement uniquement : {regions_departement - regions_regional}")



üîç COMPARAISON AVEC LES DONN√âES D√âPARTEMENTALES
üìä Donn√©es r√©gionales : (27180, 13)
üìä Donn√©es d√©partementales : (157040, 15)

üìÖ P√©riodes :
   R√©gional : 2019-12-30 00:00:00 √† 2025-10-06 00:00:00
   D√©partement : 2019-12-30 00:00:00 √† 2025-10-06 00:00:00

üó∫Ô∏è R√©gions :
   R√©gional : 18
   D√©partement : 21

‚ö†Ô∏è Diff√©rences r√©gionales :
   R√©gional uniquement : set()
   D√©partement uniquement : {'Saint-Barth√©lemy', 'Saint-Martin', 'Miquelon-Langlade et Saint Pierre'}


In [18]:
# Cell 11: Rapport de synth√®se
print("\nüìã RAPPORT DE SYNTH√àSE R√âGIONAL")
print("=" * 45)

total_obs = len(df_regional)
total_regions = df_regional['region'].nunique()
total_classes = df_regional['classe_age'].nunique()

print(f"‚úÖ DONN√âES R√âGIONALES TRAIT√âES")
print(f"   üìä Observations totales : {total_obs:,}")
print(f"   üó∫Ô∏è R√©gions : {total_regions}")
print(f"   üë• Classes d'√¢ge : {total_classes}")

print(f"\nüéØ AVANTAGES DES DONN√âES R√âGIONALES")
print(f"   üìä Granularit√© interm√©diaire : Entre national et d√©partemental")
print(f"   üîó Fusion directe : Avec IQVIA r√©gional")
print(f"   üìà Volume suffisant : {total_obs:,} observations")
print(f"   üó∫Ô∏è Couverture compl√®te : Toutes les r√©gions fran√ßaises")

print(f"\nüöÄ PROCHAINES √âTAPES")
print(f"   üîó Fusion avec IQVIA r√©gional")
print(f"   ‚öôÔ∏è Feature Engineering r√©gional")
print(f"   ü§ñ Mod√®le pr√©dictif r√©gional")
print(f"   üìä Dashboard r√©gional")

print(f"\nüéâ INGESTION R√âGIONALE TERMIN√âE !")


üìã RAPPORT DE SYNTH√àSE R√âGIONAL
‚úÖ DONN√âES R√âGIONALES TRAIT√âES
   üìä Observations totales : 27,180
   üó∫Ô∏è R√©gions : 18
   üë• Classes d'√¢ge : 5

üéØ AVANTAGES DES DONN√âES R√âGIONALES
   üìä Granularit√© interm√©diaire : Entre national et d√©partemental
   üîó Fusion directe : Avec IQVIA r√©gional
   üìà Volume suffisant : 27,180 observations
   üó∫Ô∏è Couverture compl√®te : Toutes les r√©gions fran√ßaises

üöÄ PROCHAINES √âTAPES
   üîó Fusion avec IQVIA r√©gional
   ‚öôÔ∏è Feature Engineering r√©gional
   ü§ñ Mod√®le pr√©dictif r√©gional
   üìä Dashboard r√©gional

üéâ INGESTION R√âGIONALE TERMIN√âE !
