# Autorisations ET SAN

In [None]:
import pandas as pd
import numpy as np
from sqlalchemy.engine import create_engine

In [None]:
df = pd.read_xml(
  path_or_buffer='../../data_test/finess/enrichi/finess_cs1400103_stock_20211214-0343.xml',
  xpath='./activiteoffresoin'
)
autorisations = df[[
  'nofinessej', 'nofinesset', 'activite', 'libactivite', 'modalite', 'libmodalite', 'forme',
  'libforme', 'dateautor', 'datemeo', 'datefin', 'noautorarhgos', 'noimplarhgos'
]]
autorisations

## Combien d'autorisations a-t-on ?

In [None]:
nombre_d_autorisations = autorisations['nofinesset'].nunique()
print(f"Il y a {nombre_d_autorisations} autorisations dans le fichier XML")

### Par établissement et activité

In [None]:
activites_par_etablissement = autorisations.groupby(['nofinesset'])['activite'].nunique()
activites_par_etablissement.describe()

In [None]:
activites_par_etablissement.quantile(np.linspace(0.1, 0.9, 9))

Plus de 40% de nos établissements ont 1 activité. La médiane est à 2, et 10% seulement ont 11 ou plus

In [None]:
activites_par_etablissement.hist(bins=50)

### Par établissement, activité et modalité

In [None]:
modalites_par_activite_et_etablissement = autorisations.groupby(['nofinesset', 'activite'])['modalite'].nunique()
modalites_par_activite_et_etablissement.describe()

In [None]:
modalites_par_activite_et_etablissement.quantile(np.linspace(0.1, 0.9, 9))

In [None]:
modalites_par_activite_et_etablissement.hist(bins=50)

### Par établissement, activité, modalité et forme

In [None]:
formes_par_modalite_activite_et_etablissement = autorisations.groupby(['nofinesset', 'activite', 'modalite'])['forme'].nunique()
formes_par_modalite_activite_et_etablissement.describe()

In [None]:
formes_par_modalite_activite_et_etablissement.quantile(np.linspace(0.1, 0.9, 9))

In [None]:
formes_par_modalite_activite_et_etablissement.hist(bins=10)

### Par établissement, activité, modalité, forme et autorisation ARHGOS

In [None]:
autorisations_par_forme_modalite_activite_et_etablissement = autorisations.groupby(['nofinesset', 'activite', 'modalite', 'forme'])['noautorarhgos'].nunique()
autorisations_par_forme_modalite_activite_et_etablissement.describe()

In [None]:
autorisations_par_forme_modalite_activite_et_etablissement.quantile(np.linspace(0.1, 0.9, 9))

In [None]:
autorisations_par_forme_modalite_activite_et_etablissement.hist(bins=10)

### Doublons d'autorisation ARHGOS

In [None]:
doublon = autorisations.duplicated('noautorarhgos').sum()
if doublon == 0:
  print(f"Il n'y a pas de doublon")
else:
  print(f"Il y a des doublons")

## Comparaison avec notre référentiel d'établissements

In [None]:
connection = create_engine('postgresql://helios:h3li0s@localhost:5432/helios')
établissements_sanitaires_en_base = pd.read_sql_query(
    '''
    SELECT numero_finess_etablissement_territorial
    FROM etablissement_territorial
    WHERE etablissement_territorial.domaine = 'Sanitaire'
    ''',
    connection
)
nombre_et_san_bdd = len(établissements_sanitaires_en_base)
nombre_et_san_bdd

In [None]:
connection = create_engine('postgresql://helios:h3li0s@localhost:5432/helios')
établissements_médico_sociaux_en_base = pd.read_sql_query(
    '''
    SELECT numero_finess_etablissement_territorial
    FROM etablissement_territorial
    WHERE etablissement_territorial.domaine = 'Médico-social'
    ''',
    connection
)
nombre_et_ms_bdd = len(établissements_médico_sociaux_en_base)
nombre_et_ms_bdd

In [None]:
numéros_finess_sanitaires_en_base = set(établissements_sanitaires_en_base['numero_finess_etablissement_territorial'])
numéros_finess_médico_sociaux_en_base = set(établissements_médico_sociaux_en_base['numero_finess_etablissement_territorial'])
numéros_finess_autorisations = set(autorisations['nofinesset'])

In [None]:
nombre_et_san_xml = len(numéros_finess_autorisations.intersection(numéros_finess_sanitaires_en_base))
print(f"{nombre_et_san_xml} établissements sanitaires ont au moins une autorisation soit {nombre_et_san_xml / nombre_et_san_bdd * 100} %")

In [None]:
diff = len(numéros_finess_autorisations.difference(numéros_finess_sanitaires_en_base))
print(f"{diff} ayant un autorisation mais pas d'établissement en base de données")

In [None]:
nombre_et_ms_xml = len(numéros_finess_autorisations.intersection(numéros_finess_médico_sociaux_en_base))
print(f"{nombre_et_ms_xml} établissements médico-sociaux ont au moins une autorisation soit {nombre_et_ms_xml / nombre_et_ms_bdd * 100} %")

In [None]:
if nombre_et_san_xml + diff + nombre_et_ms_xml == nombre_d_autorisations:
  print(f"Le compte est bon")
else:
  print(f"⚠ Il y a une incohérence")

## Vérification que les numéros d'implémentation et numéros d'autorisation ARGHOS sont toujours les mêmes

In [None]:
diff = (~(autorisations['noautorarhgos'] == autorisations['noimplarhgos'])).sum()
if diff == 0:
  print(f"Aucune différence")
else:
  print(f"⚠ Il y a des différences")

## Vérification des valeurs manquantes

In [None]:
autorisations.isna().sum()

In [None]:
numéro_finess = autorisations.loc[autorisations['datefin'].isna(), 'nofinessej']
print(f"⚠ Nous nous apercevons qu'il ne manque aucune donnée sauf la date de fin pour le numéro FINESS {numéro_finess[31]}")