# Capacité par activités ET SAN

In [None]:
import pandas as pd
from sqlalchemy.engine import create_engine

In [None]:
ann_sae = pd.read_csv(
  '../../data_test/diamant/ANN_SAE_2022_07_13.CSV',
  sep=';',
  encoding='latin1',
  usecols=[
    "Année",
    "Finess",
    "Nombre de places de chirurgie",
    "Nombre de places d'obstétrique",
    "Nombre de places de médecine",
    "Nombre de places de SSR",
    "Nombre de lits de chirurgie",
    "Nombre de lits d'obstétrique",
    "Nombre de lits de médecine",
    "Nombre de lits de SSR",
    "Nombre de lits USLD"
  ]
)
ann_sae

## Cohérence des données

In [None]:
nombre_de_capacité_par_activité = ann_sae['Finess'].nunique()
nombre_de_capacité_par_activité

### Nombre de places/lits trouvés

In [None]:
ann_sae.describe()

### Données dupliquées (0)

In [None]:
ann_sae.duplicated(subset=['Finess', 'Année'], keep=False).sum()

### Numéros FINESS non renseignés (0)

In [None]:
ann_sae['Finess'].isna().sum()

### Années non renseignées (0)

In [None]:
ann_sae['Année'].isna().sum()

## Description des données

### Combien d'années a-t-on ? (2020, 2019, 2018, 2017, 2016)

In [None]:
ann_sae['Année'].value_counts().sort_index()

In [None]:
ann_sae.groupby('Année')['Finess'].count().plot(kind='bar')

### Combien d'établissements sont-ils connus ?

In [None]:
connection = create_engine('postgresql://helios:h3li0s@localhost:5432/helios')
établissements_sanitaires_en_base = pd.read_sql_query(
    '''
    SELECT numero_finess_etablissement_territorial
    FROM etablissement_territorial
    WHERE etablissement_territorial.domaine = 'Sanitaire'
    ''',
    connection
)
nombre_et_san_bdd = len(établissements_sanitaires_en_base)
nombre_et_san_bdd

In [None]:
connection = create_engine('postgresql://helios:h3li0s@localhost:5432/helios')
établissements_médico_sociaux_en_base = pd.read_sql_query(
    '''
    SELECT numero_finess_etablissement_territorial
    FROM etablissement_territorial
    WHERE etablissement_territorial.domaine = 'Médico-social'
    ''',
    connection
)
nombre_et_ms_bdd = len(établissements_médico_sociaux_en_base)
nombre_et_ms_bdd

In [None]:
numéros_finess_sanitaires_en_base = set(établissements_sanitaires_en_base['numero_finess_etablissement_territorial'])
numéros_finess_médico_sociaux_en_base = set(établissements_médico_sociaux_en_base['numero_finess_etablissement_territorial'])
numéros_finess_ann_sae = set(ann_sae['Finess'])

In [None]:
nombre_et_san_xml = len(numéros_finess_ann_sae.intersection(numéros_finess_sanitaires_en_base))
print(f"{nombre_et_san_xml} établissements sanitaires ont au moins une capacité par activité soit {nombre_et_san_xml / nombre_et_san_bdd * 100} %")

In [None]:
diff = len(numéros_finess_ann_sae.difference(numéros_finess_sanitaires_en_base))
print(f"{diff} ayant une capacité par activité mais pas d'établissement en base de données")

In [None]:
nombre_et_ms_xml = len(numéros_finess_ann_sae.intersection(numéros_finess_médico_sociaux_en_base))
print(f"{nombre_et_ms_xml} établissements médico-sociaux ont au moins une capacité par activité soit {nombre_et_ms_xml / nombre_et_ms_bdd * 100} %")

In [None]:
if nombre_et_san_xml + diff + nombre_et_ms_xml == nombre_de_capacité_par_activité:
  print(f"Le compte est bon")
else:
  print(f"⚠ Il y a une incohérence")

### Proportion de valeurs manquantes

In [None]:
description_ann_rpu = ann_sae.describe()
description_ann_rpu.loc['count'] / ann_sae.shape[0] * 100