# Autorisations ET MS

In [None]:
import pandas as pd
import numpy as np
from sqlalchemy.engine import create_engine

In [None]:
df = pd.read_xml(
  path_or_buffer='../../data_test/finess/enrichi/finess_cs1400105_stock_20211214-0346.xml',
  xpath='./equipementsocial'
)
autorisations = df[[
  'nofinessej', 'nofinesset', 'de', 'libde', 'ta', 'libta', 'client', 'libclient', 'capinstot',
  'datederinst', 'datepremautor', 'capautot', 'dateautor', 'datemajaut', 'datemajinst'
]]
autorisations

## Combien d'autorisations a-t-on ?

In [None]:
nombre_d_autorisations = autorisations['nofinesset'].nunique()
nombre_d_autorisations

### Par établissement et discipline d'équipement

In [None]:
equipement_social_par_numero_finess = autorisations.groupby(['nofinesset'])['de'].nunique()
equipement_social_par_numero_finess.describe()

In [None]:
equipement_social_par_numero_finess.quantile(np.linspace(0.1, 0.9, 9))

In [None]:
equipement_social_par_numero_finess.hist()

### Par établissement, discipline d'équipement et code d'activité

In [None]:
modalites_par_activite_et_etablissement = autorisations.groupby(['nofinesset', 'de'])['ta'].nunique()
modalites_par_activite_et_etablissement.describe()

In [None]:
modalites_par_activite_et_etablissement.quantile(np.linspace(0.1, 0.9, 9))

In [None]:
modalites_par_activite_et_etablissement.hist(bins=50)

### Par établissement, discipline d'équipement, code d'activité et code client

In [None]:
formes_par_modalite_activite_et_etablissement = autorisations.groupby(['nofinesset', 'de', 'ta'])['client'].nunique()
formes_par_modalite_activite_et_etablissement.describe()

In [None]:
formes_par_modalite_activite_et_etablissement.quantile(np.linspace(0.1, 0.9, 9))

In [None]:
formes_par_modalite_activite_et_etablissement.hist(bins=10)

### Nombre d'autorisation ARHGOS pour une même forme

In [None]:
autorisations_par_forme_modalite_activite_et_etablissement = autorisations.groupby(['nofinesset', 'de', 'ta', 'client'])['capautot'].count()
autorisations_par_forme_modalite_activite_et_etablissement.describe()

In [None]:
autorisations_par_forme_modalite_activite_et_etablissement.quantile(np.linspace(0.1, 0.9, 9))

In [None]:
autorisations_par_forme_modalite_activite_et_etablissement.hist(bins=10)

## Comparaison avec notre référentiel d'établissements

In [None]:
connection = create_engine('postgresql://helios:h3li0s@localhost:5432/helios')
établissements_médico_sociaux_en_base = pd.read_sql_query(
    '''
    SELECT numero_finess_etablissement_territorial
    FROM etablissement_territorial
    WHERE etablissement_territorial.domaine = 'Médico-social'
    ''',
    connection
)
nombre_et_ms_bdd = len(établissements_médico_sociaux_en_base)
nombre_et_ms_bdd

In [None]:
connection = create_engine('postgresql://helios:h3li0s@localhost:5432/helios')
établissements_sanitaires_en_base = pd.read_sql_query(
    '''
    SELECT numero_finess_etablissement_territorial
    FROM etablissement_territorial
    WHERE etablissement_territorial.domaine = 'Sanitaire'
    ''',
    connection
)
nombre_et_san_bdd = len(établissements_sanitaires_en_base)
nombre_et_san_bdd

In [None]:
numéros_finess_médico_sociaux_en_base = set(établissements_médico_sociaux_en_base['numero_finess_etablissement_territorial'])
numéros_finess_sanitaires_en_base = set(établissements_sanitaires_en_base['numero_finess_etablissement_territorial'])
numéros_finess_autorisations = set(autorisations['nofinesset'])

In [None]:
nombre_et_ms_xml = len(numéros_finess_autorisations.intersection(numéros_finess_médico_sociaux_en_base))
print(f"{nombre_et_ms_xml} établissements médico-sociaux ont au moins une autorisation soit {nombre_et_ms_xml / nombre_et_ms_bdd * 100} %")

In [None]:
diff = len(numéros_finess_autorisations.difference(numéros_finess_sanitaires_en_base))
print(f"{diff} ayant un autorisation mais pas d'établissement en base de données")

In [None]:
nombre_et_san_xml = len(numéros_finess_autorisations.intersection(numéros_finess_sanitaires_en_base))
print(f"{nombre_et_san_xml} établissements sanitaires ont au moins une autorisation soit {nombre_et_san_xml / nombre_et_san_bdd * 100} %")

In [None]:
if nombre_et_san_xml + diff + nombre_et_ms_xml == nombre_d_autorisations:
  print(f"Le compte est bon")
else:
  print(f"⚠ Il y a une incohérence")

## Vérification des valeurs manquantes

In [None]:
autorisations.isna().sum()

In [None]:
capinstot = autorisations.loc[autorisations['capinstot'].isna(), 'nofinessej']
datepremautor = autorisations.loc[autorisations['datepremautor'].isna(), 'nofinessej']
capautot = autorisations.loc[autorisations['capautot'].isna(), 'nofinessej']
dateautor = autorisations.loc[autorisations['dateautor'].isna(), 'nofinessej']
datemajaut = autorisations.loc[autorisations['datemajaut'].isna(), 'nofinessej']
print(f"⚠ Il manque {len(capinstot)} capacités installées totales")
print(f"⚠ Il manque {len(datepremautor)} dates de première autorisation")
print(f"⚠ Il manque {len(capautot)} capacités autorisées totales")
print(f"⚠ Il manque {len(dateautor)} dates d'autorisation")
print(f"⚠ Il manque {len(datemajaut)} dates de mise à jour autorisation")