Modell der Brustkrebsdaten
Wir sind das Pharmaunternehmen Health future und sind daran interessiert, den Prozess der Heilung von Patienten mit Krebserkrangungen besser zu verstehen. Dafür stehen wir mit dem Krebszentrum "Gesund werden" in Verbindung. Unser Ziel ist es die Daten über die Diagnosen, Prozeduren und Medikamente zu erhalten, um die Zusammenhänge zwischen der Diagnose und den Behandlungen zu identifizieren und zu verstehen. Wir wollen untersuchen, ob die Patienten mit gleicher Diagnose auch die gleiche Behandlung erfahren. In unserer Studie fokussieren wir uns auf die Patienten mit Brustkrebs.
Die Daten, die wir vom Krebszentrum erhalten haben, befinden sich in Google Drive im Ordner Brustkrebs Daten:
Die folgenden Tabellen wurden uns zur Verfügung gestellt :
Datei | Beschreibung |
---|---|
careplans.csv | Keine Information in der Tabelle |
conditions.csv | Patientenbezogener Erkrankungszustand |
devices.csv | Patientenbezogene Medizinprodukte |
disease.csv | Keine Information in der Tabelle |
encounters.csv | Fallbezogene Daten |
imaging_studies.csv | Keine Information in der Tabelle |
immunizations.csv | Patientenbezogene Impfdaten |
medications.csv | Patientenbezogene Medikamentendaten |
observations.csv | Patientenbezogene Messwerte wie Laborparameter und Vitalzeichen |
organizations.csv | Organisationsbezogene Daten zu Kliniken und Ambulanzen |
patients.csv | Patientendaten |
payer_transitions.csv | Versicherungsbezogene Patientendaten |
payers.csv | Zahlungsbezogene Daten |
procedures.csv | Patientenbezogene Daten über Operationen und Prozeduren |
providers.csv | Arzt- und Krankenhausbezogene Registerdaten |
supplies.csv | Verbrauchsmaterialen |
Die *.csv Dateien careplans und disease enthalten keine Informationen, daher nehmen wir die Datei conditions als Erkrankungszustand. Zusätzlich wählen wir für unsere Untersuchung die Dateien: medications, procedures, observations. Auch die Tabelle patients, mit den patientenbezogenen Daten, benötigen wir für unsere Studie.
Die ausgewählten *.csv Dateien werden in eine SQLite-Datenbank geladen. Die Entwicklung des SQL-Codes zur Implementierung der Datenbank (DB) erfolgte Plattform-unabhängig soweit möglich.
Die SQL-Statements zur Erstellung der Tabellen und Schlüsselbeziehungen finden sich im folgenden Notebook: Transform.ipynb
Verschiedene Maßnahmen werden sicherstellen, z.B. Unit Tests, dass alle Daten der *.csv Dateien in die Datenbank eingetragen werden. Alle Attribute in jeder Tabelle werden untersucht, um einen sinnvollen Datentypen dafür auszuwählen. Alle Tabellen haben eine Verbindung zur Tabelle patients durch das Attribut patients_ID.
Die Tabellen in der Datenbank besitzen die gleichen Namen. Der Zusammenhang zwischen den Daten ist mit dem ER-Diagramm abgebildet: