In [10]:
import sys
import os
sys.path.append(os.getcwd()+"/../..")
from src import paths
import pandas as pd
import importlib
from src.data import data_loader

## Kisim Diagnosis

There are multiple subdirectotires relating to imports from different dates in the data/seantis directory. There seem to be two files of interest for the MS task: diagnoses.csv and kisim_diagnoses.csv

In [69]:
def get_nested_csv(dir_name: str, file_name: str):
    """
    Returns a joint pandas dataframe from the files matching file_name
    in all the different import dates subdirectories of the directory
    specified by dir_name
    
    :param dir_name: The name of the directory (e.g. "seantis")
    :param file_name: The name of the csv file to be read. (e.g. "diagnoses.csv")
    """
    list_dfs = []

    for root, dirs, files in os.walk(os.path.join(paths.DATA_PATH, dir_name)):
        if "imported_" in root:
            try:
                _df = pd.read_csv(os.path.join(root, file_name))
                list_dfs.append(_df)
            except FileNotFoundError:
                print(f"File not found in: {root}")
                continue
            except UnicodeDecodeError:
                print(f"UnicodeDecodeError in: {root}")
                continue

    df = pd.concat(list_dfs)
    return df

In [70]:
# Diagnoses.csv files
diagnoses = get_nested_csv("seantis", "diagnoses.csv")
display(diagnoses.head())

# Count duplicate research ids
print("Duplicate research_ids: ", diagnoses.research_id.duplicated().sum())

# List unique diseases:
print("Unique Diseases:\n", diagnoses.disease.unique())

UnicodeDecodeError in: /cluster/dataset/midatams/data/seantis/imported_20200925
UnicodeDecodeError in: /cluster/dataset/midatams/data/seantis/imported_20200624


Unnamed: 0,research_id,disease,disease_onset_date,diagnosis_date,diagnosis_reliability
0,A0684D32-19C0-4538-AFDE-52959CCD8B63,Progressive multifokale Leukencephalopathie (PML),2011-10,2011-10,confirmed
1,A0684D32-19C0-4538-AFDE-52959CCD8B63,relapsing_remitting_multiple_sclerosis,2002-06,2002-08,confirmed
2,A0684D32-19C0-4538-AFDE-52959CCD8B63,St.n. symptomatischer Epilepsie mit einfach fo...,2011-11,2011-11,confirmed
3,088B7604-2F11-459A-8C8C-8E1A19943333,relapsing_remitting_multiple_sclerosis,2013-01,2015-10,confirmed
4,C36F69FD-ED93-4F53-8BA6-EA155501A965,relapsing_remitting_multiple_sclerosis,,2013-11-07,


Duplicate research_ids:  555
Unique Diseases:
 ['Progressive multifokale Leukencephalopathie (PML)'
 'relapsing_remitting_multiple_sclerosis'
 'St.n. symptomatischer Epilepsie mit einfach fokalen und komplex fokalen Anfällen'
 'clinically_isolated_syndrome' 'secondary_progressive_multiple_sclerosis'
 'Schubförmig remittierende Multiple Sklerose (RRMS)'
 'Schubförmige Multiple Sklerose'
 'Multiple Sklerose mit am ehesten progredientem Verlauf'
 'primary_progressive_multiple_sclerosis'
 'Multiple Sklerose a.e. primär progredient' 'Multiple Sklerose'
 'Multiple Sklerose mit V.a. sekundär chronisch-progredienten Verlauf'
 'Multiple Sklerose mit a.e. primär-progredientem Verlauf'
 'Schubförmig remittierende Multiple Sklerose ']


In [71]:
# Kisim Diagnoses 
kisim_diagnoses = get_nested_csv("seantis", "kisim_diagnoses.csv")
display(kisim_diagnoses.head())

#Count duplicate diagnosis ids
print("Duplicate diagnosis_id: ", kisim_diagnoses.diagnosis_id.duplicated().sum())

UnicodeDecodeError in: /cluster/dataset/midatams/data/seantis/imported_20200925
UnicodeDecodeError in: /cluster/dataset/midatams/data/seantis/imported_20200624


Unnamed: 0,research_id,data_provider_code,LastUpdateDateTime,diagnosis_id,diagnosis_encoded,diagnosis_code,diagnosis_code_system,diagnosis_code_system_version,diagnosis_date,diagnosis_role,diagnosis_ranking,diagnosis_label
0,E9C0656D-2A3F-4538-8A8F-F6DC09871E87,CHE-108.904.325,2019-10-29 09:17:59.233,6391589|1,no,,,,,discharge,primary,"Schubförmige Multiple Sklerose EM 15.08.2019, ..."
1,E9C0656D-2A3F-4538-8A8F-F6DC09871E87,CHE-108.904.325,2019-09-16 00:53:09.617,6398911|2,no,,,,,discharge,secondary,Neuritis nervi optici rechts ED 19.08.019\r\n·...
2,E9C0656D-2A3F-4538-8A8F-F6DC09871E87,CHE-108.904.325,2019-09-16 00:53:09.617,6398911|1,no,,,,,discharge,primary,Mittelgradige depressive Episode\r\n··i.R. Dia...
3,E9C0656D-2A3F-4538-8A8F-F6DC09871E87,CHE-108.904.325,2019-09-05 06:30:45.030,6376986|1,no,,,,,discharge,primary,Neuritis nervi optici rechts ED 19.08.019\r\n·...
4,A2ABB322-AF69-412C-B293-A6154DC8446B,CHE-108.904.325,2014-04-02 08:58:46.837,4043704|2,no,,,,,discharge,secondary,Familiäre Schwerhörigkeit\r\n


Duplicate diagnosis_id:  8074


In [68]:
# Example for a kisim_diagnosis
kisim_diagnoses.diagnosis_label.iloc[0]

'Schubförmige Multiple Sklerose EM 15.08.2019, ED 19.08.019\r\n··anamnestisch: Seit 2 Wochen Kopfschmerzen und Augenbewegungschmerzen rechts. Seit dem 15.08.19 verschwommen sehen auf dem Auge rechts, mit akuter starker rascher Visusminderung. Nach Kortisonstoss unvollständige Besserung der Symptome.\r\n·klinisch:  \r\n·19.08: Visusminderung rechts 0,5, Farbsehstörung und Bulbusbewegungsschmerz rechts. Superior betonter Gesichtsfelddefekt rechts. Ansonsten fokal-neurologisch unauffällig. \r\n·05.09: Visus re 0.6, li 0.8c, keine Farbsehstörung und keine Bulbusbewegungsschmerzen. Kopfschmerzen.\r\n·2.10.2019: Visus rechts 0,8, links 1,0 keine Farbsehstörung und keine Bulbusbewegungsschmerzen.\r\n·diagnostisch: \r\nLabor: keine Hinweise auf Infekt\r\nRx-Thorax: unauffällig.\r\n··Liquor: 1 Zelle/mcl, leichte Schrankenfunktionstörung, OKBs im Liquor positiv\r\n·immunologisches Screening (inkl. Markern für Kollagenosen, Hep. B/C, Sarkoidose, NMO-, MOG-Ak) unauffällig bis auf leicht erhöhten R

In [83]:
# Reports diagnosis
reports_kisim_diagnoses = get_nested_csv("reports_with_struct_data",
                                         "reports_kisim_diagnoses.csv")
reports_kisim_diagnoses.head()

File not found in: /cluster/dataset/midatams/data/reports_with_struct_data/imported_20201126/reports
File not found in: /cluster/dataset/midatams/data/reports_with_struct_data/imported_20201120/reports
File not found in: /cluster/dataset/midatams/data/reports_with_struct_data/imported_20210302/reports
File not found in: /cluster/dataset/midatams/data/reports_with_struct_data/imported_20210507/content


Unnamed: 0,research_id,data_provider_code,LastUpdateDateTime,diagnosis_id,diagnosis_encoded,diagnosis_code,diagnosis_code_system,diagnosis_code_system_version,diagnosis_date,diagnosis_role,diagnosis_ranking,diagnosis_label
0,79C01C3B-7872-4C02-9B0B-0D7EDC8347B0,CHE-108.904.325,2014-04-02 08:47:17.240,3934507|9,no,,,,,discharge,secondary,Raumforderung apikoposteriorer Oberlappen link...
1,79C01C3B-7872-4C02-9B0B-0D7EDC8347B0,CHE-108.904.325,2014-04-02 08:47:17.240,3934507|8,no,,,,,discharge,secondary,St.n. dislozierter proximaler Humerusfraktur l...
2,79C01C3B-7872-4C02-9B0B-0D7EDC8347B0,CHE-108.904.325,2014-04-02 08:47:17.240,3934507|7,no,,,,,discharge,secondary,St.n. pertrochantärer Femurfraktur links (Typ ...
3,79C01C3B-7872-4C02-9B0B-0D7EDC8347B0,CHE-108.904.325,2014-04-02 08:47:17.240,3934507|6,no,,,,,discharge,secondary,Politoxikomanie\r\n··i.v. Drogenkonsum (Heroin...
4,79C01C3B-7872-4C02-9B0B-0D7EDC8347B0,CHE-108.904.325,2014-04-02 08:47:17.240,3934507|5,no,,,,,discharge,secondary,HIV-Infektion CDC-Stadium B2-3 (ED 1989)\r\n··...


In [127]:
# Checking if these are identical to kisim_diagnoses
pd.set_option("max_colwidth", None)
reports_kisim_diagnoses[reports_kisim_diagnoses.diagnosis_id == kisim_diagnoses.diagnosis_id.iloc[0]].diagnosis_label

27600    Schubförmige Multiple Sklerose EM 15.08.2019, ED 19.08.019\r\n··anamnestisch: Seit 2 Wochen Kopfschmerzen und Augenbewegungschmerzen rechts. Seit dem 15.08.19 verschwommen sehen auf dem Auge rechts, mit akuter starker rascher Visusminderung. Nach Kortisonstoss unvollständige Besserung der Symptome.\r\n·klinisch:  \r\n·19.08: Visusminderung rechts 0,5, Farbsehstörung und Bulbusbewegungsschmerz rechts. Superior betonter Gesichtsfelddefekt rechts. Ansonsten fokal-neurologisch unauffällig. \r\n·05.09: Visus re 0.6, li 0.8c, keine Farbsehstörung und keine Bulbusbewegungsschmerzen. Kopfschmerzen.\r\n·2.10.2019: Visus rechts 0,8, links 1,0 keine Farbsehstörung und keine Bulbusbewegungsschmerzen.\r\n·diagnostisch: \r\nLabor: keine Hinweise auf Infekt\r\nRx-Thorax: unauffällig.\r\n··Liquor: 1 Zelle/mcl, leichte Schrankenfunktionstörung, OKBs im Liquor positiv\r\n·immunologisches Screening (inkl. Markern für Kollagenosen, Hep. B/C, Sarkoidose, NMO-, MOG-Ak) unauffällig bis auf leicht er

## Questions
### diagnoses.csv
- What is the purpose of diagnoses.csv? 
- Is the diagnosis the disease in? How does it differ from the diagnosis_label in kisim_diagnosis?
- Why are there duplicate research_ids? Are there multiple diagnoses per patient?
- Are the unique labels all different diseases, or are they maybe coded differently for different imports?

### kisim_diagnoses
- What is the purpose of kisim_diagnosis? 
- Why are there duplicate diagnosis_ids (shouldn't they be unique)?

### reports_with_struct_data/reports_kisim_diagnoses
- Are these identical to the kisim_diagnoses? From the example it seems so

### Goal
- Do you want me to map from kisim_diagnosis.diagnosis_label (input) to a class in diagnoses.disease (output)? 
- How would I know which input corresponds to which output if there are multiple diagnoses_ids and research_ids?