Modell der Brustkrebsdaten

Einleitung

Wir sind das Pharmaunternehmen Health future und sind daran interessiert, den Prozess der Heilung von Patienten mit Krebserkrangungen besser zu verstehen. Dafür stehen wir mit dem Krebszentrum "Gesund werden" in Verbindung. Unser Ziel ist es die Daten über die Diagnosen, Prozeduren und Medikamente zu erhalten, um die Zusammenhänge zwischen der Diagnose und den Behandlungen zu identifizieren und zu verstehen. Wir wollen untersuchen, ob die Patienten mit gleicher Diagnose auch die gleiche Behandlung erfahren. In unserer Studie fokussieren wir uns auf die Patienten mit Brustkrebs.

Die Daten, die wir vom Krebszentrum erhalten haben, befinden sich in Google Drive im Ordner Brustkrebs Daten:

Die folgenden Tabellen wurden uns zur Verfügung gestellt :

Datei	Beschreibung
careplans.csv	Keine Information in der Tabelle
conditions.csv	Patientenbezogener Erkrankungszustand
devices.csv	Patientenbezogene Medizinprodukte
disease.csv	Keine Information in der Tabelle
encounters.csv	Fallbezogene Daten
imaging_studies.csv	Keine Information in der Tabelle
immunizations.csv	Patientenbezogene Impfdaten
medications.csv	Patientenbezogene Medikamentendaten
observations.csv	Patientenbezogene Messwerte wie Laborparameter und Vitalzeichen
organizations.csv	Organisationsbezogene Daten zu Kliniken und Ambulanzen
patients.csv	Patientendaten
payer_transitions.csv	Versicherungsbezogene Patientendaten
payers.csv	Zahlungsbezogene Daten
procedures.csv	Patientenbezogene Daten über Operationen und Prozeduren
providers.csv	Arzt- und Krankenhausbezogene Registerdaten
supplies.csv	Verbrauchsmaterialen

Die *.csv Dateien careplans und disease enthalten keine Informationen, daher nehmen wir die Datei conditions als Erkrankungszustand. Zusätzlich wählen wir für unsere Untersuchung die Dateien: medications, procedures, observations. Auch die Tabelle patients, mit den patientenbezogenen Daten, benötigen wir für unsere Studie.

Datenbank Implementierung

Die ausgewählten *.csv Dateien werden in eine SQLite-Datenbank geladen. Die Entwicklung des SQL-Codes zur Implementierung der Datenbank (DB) erfolgte Plattform-unabhängig soweit möglich.

SQL-Code

Die SQL-Statements zur Erstellung der Tabellen und Schlüsselbeziehungen finden sich im folgenden Notebook: Transform.ipynb

Datentypen und Schlüsselbeziehungen

Verschiedene Maßnahmen werden sicherstellen, z.B. Unit Tests, dass alle Daten der *.csv Dateien in die Datenbank eingetragen werden. Alle Attribute in jeder Tabelle werden untersucht, um einen sinnvollen Datentypen dafür auszuwählen. Alle Tabellen haben eine Verbindung zur Tabelle patients durch das Attribut patients_ID.

Detaillierte Informationen über die einzelnen Tabellen

Die Tabellen in der Datenbank besitzen die gleichen Namen. Der Zusammenhang zwischen den Daten ist mit dem ER-Diagramm abgebildet:

Brustkrebsdaten

Provide feedback

Saved searches