Skip to content

Modell der Brustkrebsdaten

MaschaRobota edited this page Jul 21, 2022 · 9 revisions

Einleitung

Wir sind das Pharmaunternehmen Health future und sind daran interessiert, den Prozess der Heilung von Patienten mit Krebserkrangungen besser zu verstehen. Dafür stehen wir mit dem Krebszentrum "Gesund werden" in Verbindung. Unser Ziel ist es die Daten über die Diagnosen, Prozeduren und Medikamente zu erhalten, um die Zusammenhänge zwischen der Diagnose und den Behandlungen zu identifizieren und zu verstehen. Wir wollen untersuchen, ob die Patienten mit gleicher Diagnose auch die gleiche Behandlung erfahren. In unserer Studie fokussieren wir uns auf die Patienten mit Brustkrebs.

Die Daten, die wir vom Krebszentrum erhalten haben, befinden sich in Google Drive im Ordner Brustkrebs Daten:

Die folgenden Tabellen wurden uns zur Verfügung gestellt :

Datei Beschreibung
careplans.csv Keine Information in der Tabelle
conditions.csv Patientenbezogener Erkrankungszustand
devices.csv Patientenbezogene Medizinprodukte
disease.csv Keine Information in der Tabelle
encounters.csv Fallbezogene Daten
imaging_studies.csv Keine Information in der Tabelle
immunizations.csv Patientenbezogene Impfdaten
medications.csv Patientenbezogene Medikamentendaten
observations.csv Patientenbezogene Messwerte wie Laborparameter und Vitalzeichen
organizations.csv Organisationsbezogene Daten zu Kliniken und Ambulanzen
patients.csv Patientendaten
payer_transitions.csv Versicherungsbezogene Patientendaten
payers.csv Zahlungsbezogene Daten
procedures.csv Patientenbezogene Daten über Operationen und Prozeduren
providers.csv Arzt- und Krankenhausbezogene Registerdaten
supplies.csv Verbrauchsmaterialen

Die *.csv Dateien careplans und disease enthalten keine Informationen, daher nehmen wir die Datei conditions als Erkrankungszustand. Zusätzlich wählen wir für unsere Untersuchung die Dateien: medications, procedures, observations. Auch die Tabelle patients, mit den patientenbezogenen Daten, benötigen wir für unsere Studie.


Datenbank Implementierung

Die ausgewählten *.csv Dateien werden in eine SQLite-Datenbank geladen. Die Entwicklung des SQL-Codes zur Implementierung der Datenbank (DB) erfolgte Plattform-unabhängig soweit möglich.

SQL-Code

Die SQL-Statements zur Erstellung der Tabellen und Schlüsselbeziehungen finden sich im folgenden Notebook: Transform.ipynb

Datentypen und Schlüsselbeziehungen

Verschiedene Maßnahmen werden sicherstellen, z.B. Unit Tests, dass alle Daten der *.csv Dateien in die Datenbank eingetragen werden. Alle Attribute in jeder Tabelle werden untersucht, um einen sinnvollen Datentypen dafür auszuwählen. Alle Tabellen haben eine Verbindung zur Tabelle patients durch das Attribut patients_ID.

Detaillierte Informationen über die einzelnen Tabellen

Die Tabellen in der Datenbank besitzen die gleichen Namen. Der Zusammenhang zwischen den Daten ist mit dem ER-Diagramm abgebildet:

Brustkrebsdaten