In [1]:
import pandas as pd
import numpy as np
import sys
import os
from scripts.parser import Parser
from scripts.config import *

pd.set_option('display.max_columns', None)

On a reçu suite à la réunion du 24 Octobre 2018 de nouvelle données (cf Slack). Ce notebook à pour but d'analyser ces données.

## Notebook de travail et d'analyse dans la lecture des fichier de type BlocxD4G 

- La première partie est le travail finalisé
- La seconde partie est l'analyse et le code pour arrivé à la première partie.

### 1. Lecture des fichiers :

In [2]:
root_path = os.path.dirname(os.path.dirname(os.path.dirname(os.getcwd())))
scripts_path = os.path.join(root_path, 'scripts')
data_path = os.path.join(root_path, 'data/original_data')


In [3]:
sys.path.append(scripts_path)
sys.path.append(root_path)

parser = Parser()
path_to_clean_file = parser.data_clean_path
path_to_data_model = parser.data_model_path

print(path_to_clean_file)
print(path_to_data_model)

/Users/yanni-benoit-iyeze/Documents/Data For Good/batch_5_transplant/data/clean_data/
/Users/yanni-benoit-iyeze/Documents/Data For Good/batch_5_transplant/data/clean_data/model/


In [None]:
df1 = parser.read_xls_files('../../../data/original_data/machines/Bloc1D4G.xls')
df2 = parser.read_xls_files('../../../data/original_data/machines/Bloc2D4G.xls')
df3 = parser.read_xls_files('../../../data/original_data/machines/Bloc3D4G.xls')
df4 = parser.read_xls_files('../../../data/original_data/machines/Bloc4D4G.xls')

In [None]:
df1.head()

In [None]:
df2.head()

In [None]:
df_full = pd.concat([df1, df2, df3, df4])

In [None]:
df_full.tail()

In [None]:
df_full.shape

#### Export clean data :

In [None]:
df_full.to_csv('../../../data/clean_data/clean_bloc_files.csv', index=False, encoding='utf-8')

### Analyse des fichiers originales

In [None]:
# Bloc1D4G
df1 = pd.read_excel('../../../data/original_data/machines/Bloc1D4G.xls')
#df1 = df1.dropna(subset=['Unnamed: 0'])
# Bloc2D4G
df2 = pd.read_excel('../../../data/original_data/machines/Bloc2D4G.xls')
#df2 = df2.dropna(subset=['Unnamed: 0'])
# Bloc3D4G
df3 = pd.read_excel('../../../data/original_data/machines/Bloc3D4G.xls')
#df3 = df3.dropna(subset=['Unnamed: 0'])
# Bloc4D4G
df4 = pd.read_excel('../../../data/original_data/machines/Bloc4D4G.xls')

In [None]:
df1.head(2)

In [None]:
df2.head(2)

In [None]:
df3.head(2)

In [None]:
df4.head(2)

### Analyse des fichiers de type BlocxD4G approfondie : 

In [None]:
# Renaming columns
df1.rename(columns={'Unnamed: 0':'id_patient'}, inplace=True)
df1.rename(columns={'Unnamed: 1':'time'}, inplace=True)

In [None]:
df1.shape

In [None]:
df1.head()

In [None]:
df1.id_patient.unique()

In [None]:
df1.id_patient.nunique()

Dans le fichier ```Bloc1D4G.xls``` il y a 23 patient différents. Par contre certaines lignes de ```id_patient``` ne sont pas renseignés (NaN)

In [None]:
# OK
df1[df1['id_patient'] == 329.0].head(2)

**Problèmes :**
    
   - A chaque nouveau patient dans le fichiers, un header est collé.
   - Un patient n'a pas forcement les même header

In [None]:
# Header pour le patient 316
df1[~pd.isnull(df1['Unnamed: 34'])].head()

On remarque les colonnes ```Temp``` et ```VT``` ont été ajouté pour ce patient (nom original des colonnes ```Unnamed: 34``` et ```Unnamed: 35```.

**Certaines colonnes ne corresponde pas au header du 1er patient** (colonne du DataFrame), ainsi ```Temp``` (colonne du DataFrame), devient ```SpO2``` (header du patient 316)

In [None]:
# La colonne Temp [DataFrame] ne correspond pas au header du patient 316 -> SpO2
df1[~pd.isnull(df1['Unnamed: 34'])]['Temp'].head(2)

In [None]:
# Header pour le patient 328
df1[~pd.isnull(df1['Unnamed: 37'])].head()

#### Conclusion : 

Il faut lire par patient et adapté le header selon celui-ci

In [None]:
headers = df1[pd.isnull(df1['id_patient']) & 
                (pd.isnull(df1['time'])) & 
                (~pd.isnull(df1['B.I.S']))].dropna(how='all')
headers

In [None]:
for idx, rows in headers.iterrows():
    patient_id = df1.loc[idx+2]['id_patient']
    print("Header pour le patient : " + str(patient_id))
    print(rows.values)

## Création d'une function qui permet de lire les fichiers et de structurer les données par patients

In [None]:
FULL_HEADER = ['id_patient', 'time', 'B.I.S', 'BIS SR', 'DC', 'ET Des.', 'ET Sevo.', 'ETCO2', 'ETCO2 (mmHg)',
 'ETO2', 'FC', 'FICO2', 'FICO2 (mmHg)', 'FIN2O', 'FiO2', 'FR', 'FR(ecg)', 'MAC',
 'NMT TOF', 'NMTratio', 'PAPdia', 'PAPmoy', 'PAPsys', 'PASd', 'PASm', 'PASs',
 'PEEPtotal', 'Pmax', 'Pmean', 'PNId', 'PNIm', 'PNIs', 'Pplat', 'RR(co2)', 'SpO2',
 'SvO2 (m)', 'Temp', 'VT']

In [None]:
df1 = pd.read_excel('../../../data/original_data/machines/Bloc1D4G.xls')
# Renaming columns
df1.rename(columns={'Unnamed: 0':'id_patient'}, inplace=True)
df1.rename(columns={'Unnamed: 1':'time'}, inplace=True)

In [None]:
# List des id_patient dans le fichiers (on enlève les NaN)
list_patient_in_file = list(df1[~pd.isnull(df1['id_patient'])]['id_patient'].unique())

In [None]:
list_patient_in_file

In [None]:
# New DF
data = pd.DataFrame(columns=FULL_HEADER)

In [None]:
def fill_unknow_col_in_df(data):
    """
    
    """
    for unknow_col in [col for col in FULL_HEADER if col not in data.columns]:
        data[unknow_col] = 0
    
    return data

In [None]:
for id_patient in list_patient_in_file:
    try:
        patient_df = df1[df1['id_patient'] == id_patient].copy()

        # Cas spécifique
        if patient_df[0:1].index.values[0] == 1: # On regarde si premier patient dans le fichier
            patient_header = patient_df.columns
            # Drop `Unnamed:`columns
            patient_header_fix = [col for col in patient_df.columns if not col.startswith('Unnamed:')]
            data = pd.concat([data, patient_df[patient_header_fix]], axis=0, sort=True)
        # Cas générique
        else:
            patient_header_fix = [col for col in patient_df.columns if not col.startswith('Unnamed:')]
            first_idx_patient = patient_df[0:1].index.values[0]

            # On recherche le header de notre patient spécifique
            patient_header = df1.loc[first_idx_patient-2].values
            patient_df.columns = patient_header

            patient_header[0] = 'id_patient' # NaN -> 'id_patient'
            patient_header[1] = 'time' # NaN -> 'time'
            # Drop NaN columns
            patient_header = [col for col in patient_header if str(col) != 'nan']
            patient_df = patient_df[patient_header]
            
            # 
            patient_df = fill_unknow_col_in_df(patient_df)
            
            data = pd.concat([data, patient_df[patient_header_fix]], axis=0, sort=True)
    except Exception as e:
        print('Error during id_patient ' + str(id_patient))
        print(e)
        
data.fillna(0, inplace=True) 

In [None]:
data.head()

Test du DataFrame final (```data```)

In [None]:
## patient = 301.0
data[data.id_patient == 301.0].tail()
# PEEPtotal = 7
# Pmax = 33
# Pmean = 15
# PNIs = 0

In [None]:
# Patient Header
df1[2865-2:2865-1] # faire un head() pour trouver l'index de départ

In [None]:
df1[df1.id_patient == 301.0].tail()
# PASs -> PEEPtotal = 7 OK
# PEEPtotal -> Pmax = 33 OK
# Pmax -> Pmean = 15 OK
# PNIm -> PNIs = 0 OK

In [None]:
## Patient = 305.0
# ok
data[data.id_patient == 305.0].tail()
# RR(co2) = 18.0
# SpO2 = 0.0
# Temp = 79.0

In [None]:
# Patient Header
df1[10316-2:10316-1] # faire un head() pour trouver l'index de départ

In [None]:
# ok
df1[df1.id_patient == 305.0].tail()
# PNIs -> RR(co2) = 18.0 #OK
# RR(co2) -> SpO2 = 0.0 #OK
# SpO2 -> Temp = 79.0 #OK