Dieser Quellcode ist Bestandteil der Dissertation von Ines Reinecke
vorgelegt am 11.07.2023 der Technischen Universität Dresden, Medizinische Fakultät

Dieser Code enthält 

1. laden des Datensatzes DS-Med und des ATC-DE nach ATC-WHO Mappings basierend auf dem Datensatz DS-Katalog (das Mapping wurde basierend auf diesem Datensatz bereitgestellt)
2. ersetzen mit dem ATC-WHO Code aller ATC-DE Codes wo möglich und wo der ATC-WHO Code im Mapping vorhanden und anders als der ATC-DE Code ist
3. laden von ATC Vokabulars aus OMOP (WHO und DE Version)
4. Zusammenführen von DS-Med mit dem ATC Vokabular basierend auf dem ATC Code - hinzufügen von der validen concept_id
5. generierten eines OMOP konformen Datenformats des Datensatzes DS-Med für die OMOP Tabelle "drug_exposure" -> Datenbasis für den Schritt 1 der Bewertung mit dem OHDSI DQD Dashboard
6. Speicherung des OMOP konformen Datenformats von Datensatz DS-Med

In [18]:
import pandas as pd
import numpy as np
import os
import datetime
from fuzzywuzzy import fuzz, process
import re
from typing import List
from tqdm import tqdm
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib_venn import venn2, venn3, venn3_circles
from pandas_profiling import ProfileReport
# remove later
import warnings
import psycopg2
from sqlalchemy import create_engine
from sqlalchemy import text
warnings.filterwarnings('ignore')

In [19]:
# Laden des Datensatzes DS-Med - initial, vor der Bearbeitung der Daten
medication_orders = pd.read_csv('../data_in/DS-Med-initial.csv', skipinitialspace=True, low_memory=False, lineterminator='\n').fillna(str())
  
# Änderung der Datentypen der Spalten
medication_orders['MEDICATION'] = medication_orders['MEDICATION'].astype(str)
medication_orders["START_DATE"] = pd.to_datetime(medication_orders["START_DATE"])  

# Laden von ATC WHO nach ATC DE Mappings

pairs_german_who_atc_unique_mapping = pd.read_csv('../data_in/ATC-DE-WHO-mapping-extended.csv').fillna(str())

In [20]:
#Änderungen an Spalte "ATC-DIM" zu "ATC_CODE", Vorbeitung auf die Zusammenführung der Dataframes DS-Med und eben die ATC Codes nach WHO wo möglich
pairs_german_who_atc_unique_mapping.rename(columns = {'ATC-DIM': 'ATC_CODE'}, inplace=True)
    
# Zusammenführen (Merge) DS-Med mit ATC WHO
medication_orders = pd.merge(medication_orders, pairs_german_who_atc_unique_mapping, on="ATC_CODE", how="left")

# Füllen der nan Werte der ATC-WHO Spalte mit 0 
medication_orders["ATC-WHO"] = medication_orders["ATC-WHO"].fillna(0)

In [21]:

# Ersetzen des Wertes in der Spalte ATC_CODE mit dem Wert der Spalte ATC-WHO, im Falle die Spalte ATC-WHO ist nicht "0"
medication_orders.loc[medication_orders['ATC-WHO'] != 0, 'ATC_CODE'] = medication_orders.loc[medication_orders['ATC-WHO'] != 0, 'ATC-WHO']


In [22]:

# Entfernen der Spalte "ATC-WHO" aus dem Datensatz DS-Med - das war nur eine Hilfsspalte
medication_orders = medication_orders.drop(['ATC-WHO'], axis=1)


In [23]:
# Lesen des OMOP Vokabulars und der Tabelle drug_exposure aus einer lokalen OMOP Datenbank
    
engine = create_engine('postgresql://ohdsi_admin_user:admin1@localhost:5432/ohdsi')
dbConnection    = engine.connect()

# es werden die Vokabulare ATC und ATC-GM, welches zusätzlich hinzugeüfgt wurde, geladen
my_atc = ('ATC', 'ATC-GM')
query_atc = text("SELECT * FROM cds_cdm.concept WHERE vocabulary_id IN :my_atc;")
omop_atc = pd.read_sql_query(query_atc, engine, params={'my_atc': my_atc})

query_drug_exposure = text("SELECT * FROM cds_cdm.drug_exposure;")
drug_expsosure_dataframe = pd.read_sql_query(query_drug_exposure, engine)


In [26]:
   
# kopieren des Dataframes in ein neues - welches dann in das OMOP Format umgewandelt wird
medication_order_omop = medication_orders.copy()

# Umbenennung der Spalte ATC_Code in concept_code
medication_order_omop = medication_order_omop.rename(columns={'ATC_CODE': 'concept_code'})

In [27]:

# Zusammenführung der Dataframes DS-Med und ATC Vokabular basierend auf der Spalte concept_code - Anreicherung mit den notwendigen concept_ids
medication_order_omop = pd.merge(medication_order_omop, omop_atc, on="concept_code", how="left")

In [28]:

# Alle Zeilen des Datensatzes DS-Med wo keine concept_id existiert, wird die concept_id = 0 gesetzt (das sind alle verbleibenden unstrukturierten Medikationsverordnungen, bei denen das Ergebnis von Algorithmus 3 nicht validiert wurde, 14,82%)

medication_order_omop['concept_id'] = medication_order_omop['concept_id'].fillna(0).astype(int)
   

 # Generierung neues Spalten im Dataframe gemäß der Definition der drug_exposure Tabelle in OMOP
medication_order_omop['drug_exposure_id'] = medication_order_omop['MED_CASE_NR']
medication_order_omop['person_id'] = 1
medication_order_omop['drug_concept_id'] = 0
medication_order_omop['drug_exposure_start_date'] = medication_order_omop['START_DATE']
medication_order_omop['drug_exposure_start_datetime'] = drug_expsosure_dataframe['drug_exposure_start_datetime']
medication_order_omop['drug_exposure_end_date'] = medication_order_omop['END_DATE']
medication_order_omop['drug_exposure_end_datetime'] = drug_expsosure_dataframe['drug_exposure_end_datetime']
medication_order_omop['verbatim_end_date'] = drug_expsosure_dataframe['verbatim_end_date']
medication_order_omop['drug_type_concept_id'] = 38000180
medication_order_omop['stop_reason'] = drug_expsosure_dataframe['stop_reason']
medication_order_omop['refills'] = drug_expsosure_dataframe['refills']
medication_order_omop['quantity'] = drug_expsosure_dataframe['quantity']
medication_order_omop['days_supply'] = drug_expsosure_dataframe['days_supply']
medication_order_omop['sig'] = drug_expsosure_dataframe['sig']
medication_order_omop['route_concept_id'] = drug_expsosure_dataframe['route_concept_id']
medication_order_omop['lot_number'] = drug_expsosure_dataframe['lot_number']
medication_order_omop['provider_id'] = drug_expsosure_dataframe['provider_id']
medication_order_omop['visit_occurrence_id'] = 1
medication_order_omop['visit_detail_id'] = drug_expsosure_dataframe['visit_detail_id']
medication_order_omop['drug_source_value'] = medication_order_omop['MEDICATION']
medication_order_omop.loc[medication_order_omop["concept_id"] == "", "drug_source_concept_id"] = 0
medication_order_omop['drug_source_concept_id'] = medication_order_omop['concept_id']
medication_order_omop['route_source_value']= drug_expsosure_dataframe['route_source_value']
medication_order_omop['dose_unit_source_value']= drug_expsosure_dataframe['dose_unit_source_value']
    



In [29]:
# Prüfen, dass alle Medikationsverordnungen mit einem leeren concept_code, also ohne ATC Code Zuordnung, auch eine drug_source_concept_id = 0 haben
# das erwartete Dataframe ist null Zeilen lang

print(len(medication_order_omop.loc[(medication_order_omop["concept_code"]!="")&(medication_order_omop["drug_source_concept_id"]==0)]))

0


In [30]:
# Löschen von nicht benötigen Spalten, so dass das finale Dataframe konform zur Tabelle drug_exposure ist
medication_order_omop=medication_order_omop.drop([
    'MED_CASE_NR', 
    'MEDICATION',
    'concept_code',
    'CAT_MATCH',
    'START_DATE',
    'END_DATE',
    'UNIT',
    'concept_id',
    'concept_name',
    'domain_id',
    'vocabulary_id',
    'concept_class_id',
    'standard_concept',
    'standard_concept',
    'valid_start_date',
    'valid_end_date',
    'invalid_reason'], 
    axis=1)
medication_order_omop=medication_order_omop.reset_index(drop=True)
    

In [31]:
# check the correct number of assignet concept_ids to drug_source_concept_id
len(medication_order_omop.loc[medication_order_omop["drug_source_concept_id"]!=0])

843980

In [32]:

# Speichern der Medikationsverordnungen für die OMOP Tabelle drug_exposure

medication_order_omop.to_csv('../data_results/02_data_to_omop+terminology_results/Schritt-1-DQD-DS-Med.csv', index=False)