# üìö Comprendre les donn√©es SAE (Statistique Annuelle des √âtablissements)

Ce notebook explique la structure et le contenu des fichiers SAE utilis√©s dans ce projet.

**Source:** DREES (Direction de la Recherche, des √âtudes, de l'√âvaluation et des Statistiques)  
**Donn√©es:** 2019 √† 2024  
**√âtablissement cible:** Piti√©-Salp√™tri√®re (FINESS: 750100125)

## 1. Qu'est-ce que la SAE ?

La **Statistique Annuelle des √âtablissements de sant√© (SAE)** est une enqu√™te administrative exhaustive, collect√©e chaque ann√©e par la DREES.

### Caract√©ristiques:
- **Exhaustive**: Couvre TOUS les √©tablissements de sant√© en France
- **Obligatoire**: Chaque √©tablissement doit d√©clarer ses donn√©es
- **Annuelle**: Collecte au 1er semestre de l'ann√©e N+1 pour les donn√©es de l'ann√©e N

### Contenu:
- Capacit√©s d'accueil (lits, places)
- Activit√© (s√©jours, journ√©es, passages)
- √âquipements
- Personnel

In [1]:
import pandas as pd
from pathlib import Path

DATA_DIR = Path('../data')
FINESS_PITIE = '750100125'

print("‚úÖ Configuration charg√©e")

‚úÖ Configuration charg√©e


## 2. Structure des fichiers SAE

Chaque ann√©e contient environ **50-54 fichiers CSV**, organis√©s par th√©matique.

In [2]:
# Liste des fichiers SAE par cat√©gorie
SAE_MODULES = {
    'üè• Identification': {
        'ID': 'Identification de l\'√©tablissement (FINESS, nom, adresse, cat√©gorie)',
        'GHT': 'Groupement Hospitalier de Territoire',
        'ORG': 'Organisation g√©n√©rale',
    },
    'üõèÔ∏è Capacit√©s MCO': {
        'MCO': 'M√©decine-Chirurgie-Obst√©trique (lits, places, s√©jours, journ√©es)',
        'MCOPED': 'MCO P√©diatrie',
        'MCOGER': 'MCO G√©riatrie',
        'MCOAVC': 'MCO - Unit√©s neurovasculaires (AVC)',
        'MCOSURV': 'MCO Surveillance continue',
    },
    'üö® Soins Critiques': {
        'REA': 'R√©animation, Soins Intensifs, USC (lits, journ√©es, s√©jours par type unit√©)',
    },
    'üöë Urgences': {
        'URGENCES': 'Autorisations et organisation des urgences',
        'URGENCES2': 'Activit√© des urgences (passages, hospitalisations, dur√©es)',
        'SMURSAMU': 'SMUR/SAMU (sorties, r√©gulation)',
    },
    'üß† Psychiatrie': {
        'PSY': 'Psychiatrie (lits, places, files actives, actes)',
        'PSY2': 'Psychiatrie d√©taill√©e',
    },
    'üèãÔ∏è SSR': {
        'SSR': 'Soins de Suite et R√©adaptation (lits, places, s√©jours)',
        'SSR2': 'SSR d√©taill√© par sp√©cialit√©',
    },
    'üè† HAD': {
        'HAD': 'Hospitalisation √† Domicile',
    },
    'üë∂ P√©rinatalit√©': {
        'PERINAT': 'Maternit√© (accouchements, lits obst√©trique/n√©onatologie)',
        'SYGEN': 'Gyn√©cologie',
    },
    'üîß √âquipements': {
        'BLOCS': 'Blocs op√©ratoires (salles, postes SSPI)',
        'IMAGES': 'Imagerie (scanners, IRM, gamma-cam√©ras)',
    },
    'üíä Activit√©s sp√©cialis√©es': {
        'CANCERO': 'Canc√©rologie (chimioth√©rapie, radioth√©rapie)',
        'DIALYSE': 'Dialyse',
        'CHIRCAR': 'Chirurgie cardiaque',
        'NEUROCHIR': 'Neurochirurgie',
        'BRULES': 'Grands br√ªl√©s',
    },
    'üë• Personnel': {
        'PN': 'Personnel non m√©dical (ETP par cat√©gorie)',
        '*_P': 'Fichiers _P = Personnel par service (ex: REA_P, BLOCS_P)',
    },
}

print("üìÅ STRUCTURE DES FICHIERS SAE")
print("="*60)
for category, modules in SAE_MODULES.items():
    print(f"\n{category}")
    for code, desc in modules.items():
        print(f"   {code:12} ‚Üí {desc}")

üìÅ STRUCTURE DES FICHIERS SAE

üè• Identification
   ID           ‚Üí Identification de l'√©tablissement (FINESS, nom, adresse, cat√©gorie)
   GHT          ‚Üí Groupement Hospitalier de Territoire
   ORG          ‚Üí Organisation g√©n√©rale

üõèÔ∏è Capacit√©s MCO
   MCO          ‚Üí M√©decine-Chirurgie-Obst√©trique (lits, places, s√©jours, journ√©es)
   MCOPED       ‚Üí MCO P√©diatrie
   MCOGER       ‚Üí MCO G√©riatrie
   MCOAVC       ‚Üí MCO - Unit√©s neurovasculaires (AVC)
   MCOSURV      ‚Üí MCO Surveillance continue

üö® Soins Critiques
   REA          ‚Üí R√©animation, Soins Intensifs, USC (lits, journ√©es, s√©jours par type unit√©)

üöë Urgences
   URGENCES     ‚Üí Autorisations et organisation des urgences
   URGENCES2    ‚Üí Activit√© des urgences (passages, hospitalisations, dur√©es)
   SMURSAMU     ‚Üí SMUR/SAMU (sorties, r√©gulation)

üß† Psychiatrie
   PSY          ‚Üí Psychiatrie (lits, places, files actives, actes)
   PSY2         ‚Üí Psychiatrie d√©taill√©e

üèãÔ

## 3. Colonnes cl√©s par fichier

In [3]:
# Colonnes communes √† tous les fichiers
COLONNES_COMMUNES = {
    'BOR': 'Identifiant du bordereau (ex: MCO, REA)',
    'AN': 'Ann√©e des donn√©es',
    'FI': 'FINESS de l\'√©tablissement (identifiant unique)',
    'RS': 'Raison sociale (nom de l\'√©tablissement)',
    'FI_EJ': 'FINESS de l\'entit√© juridique (ex: AP-HP)',
}

# Colonnes sp√©cifiques MCO
COLONNES_MCO = {
    'LIT_MED': 'Lits m√©decine (hospitalisation compl√®te)',
    'LIT_CHI': 'Lits chirurgie',
    'LIT_OBS': 'Lits obst√©trique',
    'LIT_MCO': 'Total lits MCO',
    'PLA_MED': 'Places ambulatoire m√©decine',
    'PLA_CHI': 'Places ambulatoire chirurgie',
    'PLA_MCO': 'Total places ambulatoire',
    'SEJHC_MED': 'S√©jours hospitalisation compl√®te m√©decine',
    'SEJHC_CHI': 'S√©jours hospitalisation compl√®te chirurgie',
    'SEJHP_MED': 'S√©jours hospitalisation partielle m√©decine',
    'JOU_MED': 'Journ√©es m√©decine',
    'JOU_CHI': 'Journ√©es chirurgie',
    'JLI_MED': 'Journ√©es-lits disponibles m√©decine',
}

# Colonnes REA
COLONNES_REA = {
    'UNI': 'Type d\'unit√© (REAADU=R√©a adulte, SIADU=SI adulte, USICADU=USC cardio...)',
    'LIT': 'Nombre de lits dans l\'unit√©',
    'JLI': 'Journ√©es-lits disponibles',
    'SEJ': 'Nombre de s√©jours',
    'JOU': 'Journ√©es r√©alis√©es',
    'PAS': 'Passages (entr√©es)',
}

print("üìã COLONNES COMMUNES (tous fichiers):")
for col, desc in COLONNES_COMMUNES.items():
    print(f"   {col:10} ‚Üí {desc}")

print("\nüìã COLONNES MCO:")
for col, desc in list(COLONNES_MCO.items())[:8]:
    print(f"   {col:12} ‚Üí {desc}")
    
print("\nüìã COLONNES REA:")
for col, desc in COLONNES_REA.items():
    print(f"   {col:10} ‚Üí {desc}")

üìã COLONNES COMMUNES (tous fichiers):
   BOR        ‚Üí Identifiant du bordereau (ex: MCO, REA)
   AN         ‚Üí Ann√©e des donn√©es
   FI         ‚Üí FINESS de l'√©tablissement (identifiant unique)
   RS         ‚Üí Raison sociale (nom de l'√©tablissement)
   FI_EJ      ‚Üí FINESS de l'entit√© juridique (ex: AP-HP)

üìã COLONNES MCO:
   LIT_MED      ‚Üí Lits m√©decine (hospitalisation compl√®te)
   LIT_CHI      ‚Üí Lits chirurgie
   LIT_OBS      ‚Üí Lits obst√©trique
   LIT_MCO      ‚Üí Total lits MCO
   PLA_MED      ‚Üí Places ambulatoire m√©decine
   PLA_CHI      ‚Üí Places ambulatoire chirurgie
   PLA_MCO      ‚Üí Total places ambulatoire
   SEJHC_MED    ‚Üí S√©jours hospitalisation compl√®te m√©decine

üìã COLONNES REA:
   UNI        ‚Üí Type d'unit√© (REAADU=R√©a adulte, SIADU=SI adulte, USICADU=USC cardio...)
   LIT        ‚Üí Nombre de lits dans l'unit√©
   JLI        ‚Üí Journ√©es-lits disponibles
   SEJ        ‚Üí Nombre de s√©jours
   JOU        ‚Üí Journ√©es r√©alis√©e

## 4. Exemple concret: Lire les donn√©es Piti√©-Salp√™tri√®re

In [4]:
def load_pitie_sae(year, module):
    """Charge les donn√©es SAE de Piti√© pour une ann√©e et un module."""
    base_dir = DATA_DIR / f"Bases CSV {year}"
    
    for suffix in ['r', 'a']:
        filepath = base_dir / f"{module}_{year}{suffix}.csv"
        if filepath.exists():
            df = pd.read_csv(filepath, sep=';', encoding='latin-1', low_memory=False)
            df['FI'] = df['FI'].astype(str)
            pitie = df[df['FI'] == FINESS_PITIE]
            return pitie
    return None

# Exemple: Charger MCO 2024
mco_2024 = load_pitie_sae(2024, 'MCO')

if mco_2024 is not None and not mco_2024.empty:
    print("üìä DONN√âES MCO 2024 - PITI√â-SALP√äTRI√àRE")
    print("="*50)
    print(f"\nüè• √âtablissement: {mco_2024['RS'].values[0]}")
    print(f"\nüìä Capacit√©s:")
    print(f"   Lits M√©decine:    {int(mco_2024['LIT_MED'].values[0])}")
    print(f"   Lits Chirurgie:   {int(mco_2024['LIT_CHI'].values[0])}")
    print(f"   Lits Obst√©trique: {int(mco_2024['LIT_OBS'].values[0])}")
    print(f"   TOTAL MCO:        {int(mco_2024['LIT_MCO'].values[0])}")
    print(f"\n   Places ambulatoire: {int(mco_2024['PLA_MCO'].values[0])}")
    print(f"\nüìà Activit√© annuelle:")
    print(f"   S√©jours m√©decine:  {int(mco_2024['SEJHC_MED'].values[0]):,}")
    print(f"   S√©jours chirurgie: {int(mco_2024['SEJHC_CHI'].values[0]):,}")
    print(f"   Journ√©es totales:  {int(mco_2024['JOU_MED'].values[0] + mco_2024['JOU_CHI'].values[0]):,}")
else:
    print("‚ö†Ô∏è Fichier MCO 2024 non trouv√©")

üìä DONN√âES MCO 2024 - PITI√â-SALP√äTRI√àRE

üè• √âtablissement: GHU APHP SUN SITE PITIE SALPETRIERE

üìä Capacit√©s:
   Lits M√©decine:    732
   Lits Chirurgie:   390
   Lits Obst√©trique: 46
   TOTAL MCO:        1168

   Places ambulatoire: 292

üìà Activit√© annuelle:
   S√©jours m√©decine:  38,495
   S√©jours chirurgie: 17,406
   Journ√©es totales:  344,522


In [14]:
# Exemple: R√©animation
rea_2024 = load_pitie_sae(2024, 'REA')

if rea_2024 is not None and not rea_2024.empty:
    print("üö® DONN√âES R√âANIMATION 2024 - PITI√â-SALP√äTRI√àRE")
    print("="*50)
    print(f"\n{'Unit√©':<15} {'Lits':>8} {'Journ√©es':>10} {'S√©jours':>10}")
    print("-"*45)
    
    total_lits = 0
    for _, row in rea_2024.iterrows():
        uni = row.get('UNI', 'N/A')
        lits = int(row.get('LIT', 0)) if pd.notna(row.get('LIT')) else 0
        jou = int(row.get('JOU', 0)) if pd.notna(row.get('JOU')) else 0
        sej = int(row.get('SEJ', 0)) if pd.notna(row.get('SEJ')) else 0
        print(f"{uni:<15} {lits:>8} {jou:>10,} {sej:>10,}")
        total_lits += lits
    
    print("-"*45)
    print(f"{'TOTAL':<15} {total_lits:>8}")

üö® DONN√âES R√âANIMATION 2024 - PITI√â-SALP√äTRI√àRE

Unit√©               Lits   Journ√©es    S√©jours
---------------------------------------------
AUTSIADU               8      7,723      2,072
REAADU               104     36,060      4,918
SIADU                120     36,553      8,532
SITOT                120     36,553      8,532
USICADU               31     11,821      4,162
USIHADU               38     10,313        593
USINVADU              16      4,645        916
USIPADU               27      2,051        789
---------------------------------------------
TOTAL                464


## 5. Types d'unit√©s de R√©animation (UNI)

Le fichier REA contient **plusieurs lignes par √©tablissement**, une par type d'unit√©.

In [6]:
TYPES_UNITES_REA = {
    'REAADU': 'R√©animation adulte',
    'REAPED': 'R√©animation p√©diatrique',
    'REANEO': 'R√©animation n√©onatale',
    'SIADU': 'Soins intensifs adulte (total)',
    'SITOT': 'Soins intensifs total',
    'USICADU': 'USC cardiologie adulte',
    'USIHADU': 'USC hospitalisation adulte',
    'USINVADU': 'USC neurovasculaire adulte',
    'USIPADU': 'USC pneumologie adulte',
    'AUTSIADU': 'Autres SI adulte',
}

print("üìã TYPES D'UNIT√âS DE SOINS CRITIQUES:")
print("="*50)
for code, desc in TYPES_UNITES_REA.items():
    print(f"   {code:12} ‚Üí {desc}")

üìã TYPES D'UNIT√âS DE SOINS CRITIQUES:
   REAADU       ‚Üí R√©animation adulte
   REAPED       ‚Üí R√©animation p√©diatrique
   REANEO       ‚Üí R√©animation n√©onatale
   SIADU        ‚Üí Soins intensifs adulte (total)
   SITOT        ‚Üí Soins intensifs total
   USICADU      ‚Üí USC cardiologie adulte
   USIHADU      ‚Üí USC hospitalisation adulte
   USINVADU     ‚Üí USC neurovasculaire adulte
   USIPADU      ‚Üí USC pneumologie adulte
   AUTSIADU     ‚Üí Autres SI adulte


## 6. Calcul du taux d'occupation

Le taux d'occupation se calcule ainsi:

$$\text{Taux d'occupation} = \frac{\text{Journ√©es r√©alis√©es}}{\text{Lits} \times 365} \times 100$$

In [7]:
# Calcul taux d'occupation MCO
if mco_2024 is not None and not mco_2024.empty:
    lits = int(mco_2024['LIT_MCO'].values[0])
    journees = int(mco_2024['JOU_MED'].values[0]) + int(mco_2024['JOU_CHI'].values[0]) + int(mco_2024['JOU_OBS'].values[0])
    
    taux = (journees / (lits * 365)) * 100
    
    print("üìä CALCUL TAUX D'OCCUPATION MCO 2024")
    print("="*50)
    print(f"   Lits MCO:              {lits:,}")
    print(f"   Journ√©es-lits dispo:   {lits * 365:,} (lits √ó 365)")
    print(f"   Journ√©es r√©alis√©es:    {journees:,}")
    print(f"")
    print(f"   üìà TAUX D'OCCUPATION:  {taux:.1f}%")
    print(f"")
    print(f"   Interpr√©tation:")
    if taux > 90:
        print(f"   ‚ö†Ô∏è Tr√®s √©lev√© - Risque de tension")
    elif taux > 80:
        print(f"   ‚úÖ Normal pour un CHU")
    else:
        print(f"   üìâ Sous-utilisation potentielle")

üìä CALCUL TAUX D'OCCUPATION MCO 2024
   Lits MCO:              1,168
   Journ√©es-lits dispo:   426,320 (lits √ó 365)
   Journ√©es r√©alis√©es:    359,599

   üìà TAUX D'OCCUPATION:  84.3%

   Interpr√©tation:
   ‚úÖ Normal pour un CHU


## 7. √âvolution des fichiers SAE (2019-2024)

Les fichiers SAE √©voluent l√©g√®rement chaque ann√©e. Voici les changements notables.

In [8]:
# Comparer le nombre de fichiers par ann√©e
import os

years_files = {}
for year in [2019, 2020, 2021, 2022, 2023, 2024]:
    dir_path = DATA_DIR / f"Bases CSV {year}"
    if dir_path.exists():
        files = list(dir_path.glob("*.csv"))
        years_files[year] = {
            'count': len(files),
            'files': [f.stem for f in files]
        }

print("üìÅ NOMBRE DE FICHIERS SAE PAR ANN√âE:")
print("="*40)
for year, data in years_files.items():
    print(f"   {year}: {data['count']} fichiers")

üìÅ NOMBRE DE FICHIERS SAE PAR ANN√âE:
   2019: 53 fichiers
   2020: 49 fichiers
   2021: 53 fichiers
   2022: 53 fichiers
   2023: 53 fichiers
   2024: 54 fichiers


In [9]:
# V√©rifier la pr√©sence de Piti√© dans chaque ann√©e
print("\nüîç PR√âSENCE PITI√â-SALP√äTRI√àRE PAR ANN√âE:")
print("="*50)

for year in [2019, 2020, 2021, 2022, 2023, 2024]:
    mco = load_pitie_sae(year, 'MCO')
    if mco is not None and not mco.empty:
        lits = int(mco['LIT_MCO'].values[0]) if 'LIT_MCO' in mco.columns else 0
        print(f"   {year}: ‚úÖ Pr√©sent - {lits} lits MCO")
    else:
        print(f"   {year}: ‚ùå Non trouv√©")


üîç PR√âSENCE PITI√â-SALP√äTRI√àRE PAR ANN√âE:
   2019: ‚úÖ Pr√©sent - 1449 lits MCO
   2020: ‚úÖ Pr√©sent - 1447 lits MCO
   2021: ‚úÖ Pr√©sent - 1451 lits MCO
   2022: ‚úÖ Pr√©sent - 1219 lits MCO
   2023: ‚úÖ Pr√©sent - 1175 lits MCO
   2024: ‚úÖ Pr√©sent - 1168 lits MCO


## 8. R√©sum√©: Comment utiliser ces donn√©es

### Pour analyser l'√©volution des capacit√©s:
1. Charger le fichier `MCO_XXXXr.csv` pour chaque ann√©e
2. Filtrer sur le FINESS de Piti√© (750100125)
3. Extraire les colonnes `LIT_*` et `PLA_*`

### Pour analyser les soins critiques:
1. Charger le fichier `REA_XXXXr.csv`
2. Noter qu'il y a **plusieurs lignes** par √©tablissement (une par type d'unit√© UNI)
3. Agr√©ger les lits par cat√©gorie (R√©a, SI, USC)

### Pour calculer des indicateurs:
- Taux d'occupation = Journ√©es / (Lits √ó 365)
- DMS (Dur√©e Moyenne de S√©jour) = Journ√©es / S√©jours
- Taux de rotation = S√©jours / Lits

In [10]:
print("\nüìö RESSOURCES COMPL√âMENTAIRES:")
print("="*50)
print("   ‚Ä¢ Documentation SAE: https://drees.solidarites-sante.gouv.fr/sources-outils-et-enquetes/00-la-statistique-annuelle-des-etablissements-sae")
print("   ‚Ä¢ Donn√©es ouvertes: https://data.drees.solidarites-sante.gouv.fr")
print("   ‚Ä¢ FINESS: https://finess.sante.gouv.fr")


üìö RESSOURCES COMPL√âMENTAIRES:
   ‚Ä¢ Documentation SAE: https://drees.solidarites-sante.gouv.fr/sources-outils-et-enquetes/00-la-statistique-annuelle-des-etablissements-sae
   ‚Ä¢ Donn√©es ouvertes: https://data.drees.solidarites-sante.gouv.fr
   ‚Ä¢ FINESS: https://finess.sante.gouv.fr
