## PMSI Medical Targets Analysis to Inpatient Diagnosis Workflow

### Import the dataset

In [1]:
import pandas as pd

X = pd.read_csv("dataset/patients_features.txt")
y = pd.read_csv("dataset/medical_targets.txt")

X.shape, y.shape

((1535, 14637), (1535, 381))

### Some documentation

#### About CMC ( Catégories Majeures de Diagnostic)

In [2]:
cmc = pd.read_csv("../../docs/PMSI_documentation//libCMC10.csv", sep=";")
cmc.head(1)

Unnamed: 0,"CMC,Libellé catégorie majeure clinique,Compléments"
0,"1,Troubles mentaux organiques, y compris les t..."


#### About GHJ (Groupe Homogène de Journée avec leur Catégorie Majeure de Diagnostic d'appartenance)

In [3]:
ghj = pd.read_csv("../../docs/PMSI_documentation//libGHJ10.csv", sep=";")
ghj.head(1)

Unnamed: 0,GHJ,CMC,Libellé des groupes homogènes de journée
0,C001,1,"Troubles mentaux organiques, avec isolement, E..."


#### CIM10 ( classification internationale des maladies, 10e révision, version française de la codification ICD10)

Les codes utilisés dans le dataset sont ceux qui commencent à la lettre Z. Ils représentent les facteurs influant sur l'état de santé et motifs de recours aux services de santé et sont décrits en particulier dans la page [CIM10 - chapitre 21](https://fr.wikipedia.org/wiki/CIM-10_Chapitre_21_:_Facteurs_influant_sur_l%27%C3%A9tat_de_sant%C3%A9_et_motifs_de_recours_aux_services_de_sant%C3%A9).

In [4]:
cim10 = pd.read_csv("../../docs/PMSI_documentation//CIM10.csv", header=None, names=['CIM10 Code', 'Libellé'], sep=";")
cim10.head(1)

Unnamed: 0,CIM10 Code,Libellé
0,A009,"Choléra, sans précision"


#### Chargement des dictionnaires utilisés pour convertir "un code original" dans sa "représentation pour l'apprentissage"

In [67]:
import json

# Target 1.1: predire la CMC (Catégorie Majeure Clinique)
with open("dataset/vocabulary_mt1.txt") as json_data:
    CMC_dict = json.load(json_data)
# Target 1.2: predire le GHJ (Groupe Homogène Journée)    
with open("dataset/vocabulary_mt2.txt") as json_data:
    GHJ_dict = json.load(json_data)
# Target 1.3: predire l'objet de la prise en charge en SSR (finalité principale de prise en charge - grain fin)
with open("dataset/vocabulary_mt3.txt") as json_data:
    ICD10Long_dict = json.load(json_data)
# Target 1.4: predire l'objet de la prise en charge en SSR (finalité principale de prise en charge - gros grain)
with open("dataset/vocabulary_mt4.txt") as json_data:
    ICD10short_dict = json.load(json_data)