Johannes Köster edited this page Nov 28, 2018 · 16 revisions

Fachprojekt Reproduzierbare Datenanalyse mit Snakemake am Beispiel der Bioinformatik

In der Bioinformatik, aber auch in vielen anderen Wissenschaftszweigen spielt heutzutage die Analyse von großen Datenmengen eine wichtige Rolle. Um reproduzierbare und verlässliche Ergebnisse zu erhalten müssen drei Dimensionen beachtet werden. Erstens bedarf es einer formalen Beschreibung einer Datenanalyse, welche automatisiert ausführbar sein muss und dokumentiert aus welchen Schritten die Analyse besteht und welche Parameter verwendet wurden. Zweitens muss eine Datenanalyse skalierbar sein, dass heißt sie muss ohne Modifikation gegebene Resourcen in unterschiedlichen Umgebungen (Workstation, Server, Cluster, Grid, Cloud) effizient Nutzen können. Drittens muss sie portierbar sein, dass heißt sie muss ohne großen Aufwand auf einem neuen, nicht speziell vorbereiteten System lauffähig sein.

Mit Snakemake steht ein sehr erfolgreiches System zur Verfügung welches alle drei oben genannten Anforderungen umsetzt. Ziel des Fachprojekts ist, in Kleingruppen mit Hilfe von Snakemake Referenzimplementierungen für typische Datenanalysen aus der Bioinformatik zu erstellen. Dabei werden zusätzlich zu zentralen Datenanalyse-Paradigmen allgemeine Fähigkeiten aus den Bereichen Linux-Kommandozeile, Python, R und Visualisierung erlernt. Außerdem werden zentrale Themen der Bioinformatik aufgegriffen und vertieft.

Plan

Das Fachprojekt ist in vier Phasen gegliedert.

Phase 1

Erlernen von Snakemake: Die Teilnehmer lernen den Umgang mit Snakemake Anhand von praktischen Übungen.

Phase 2

Erarbeiten von relevanten Themen: Die Teilnehmer erarbeiten relevante Themen in Kleingruppen und stellen sich diese gegenseitig vor.

Phase 3

Implementierung eines Bioinformatik-Workflows: Die Teilnehmer implementieren eine Bioinformatik-Datenanalyse mit Hilfe von Snakemake.

Termine

Termin Thema
11.10.18 Einführung, Snakemake-Tutorial
25.10.18 Snakemake-Tutorial
8.11.18 Vorbereitung der Vorträge
15.11.18 Vorbereitung der Vorträge
22.11.18 Vorträge (je 40min inkl. Fragen)
29.11.18 Implementierung der Datenanalyse
06.12.18 Implementierung der Datenanalyse
13.12.18 Implementierung der Datenanalyse
20.12.18 Implementierung der Datenanalyse
10.01.19 Implementierung der Datenanalyse
17.01.19 Implementierung der Datenanalyse
24.01.19 Vorbereitung der Abschlusspräsentationen
31.01.19 Abschlusspräsentationen
Clone this wiki locally
You can’t perform that action at this time.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session.
Press h to open a hovercard with more details.