Skip to content

Comprehensive bioinformatic data analysis of the genome of Tyrolean Iceman Oetzi. The analysis includes fundamental steps of data preprocessing and genomic data analysis summarized in a workflow file, as well as compilation of the results within a website.

Notifications You must be signed in to change notification settings

MichelPfeifer/iceman-bioinformatic-analysis

Repository files navigation

Oetzi

Dieses Repository beinhaltet die Implementation eines Workflows, der eine Sequenzanalyse von Ötzi durchführt. Ötzi ist eine Gletschermumie, die im Jahr 1991 im österreichischen Ötztal entdeckt wurde.  

Hintergrund

Keller et al. (New insights into the Tyrolean Iceman's origin and phenotype as inferred by whole-genome sequencing) zufolge, welche das Genom von Ötzi im Jahr 2012 sequenziert haben, sollen unter anderem Sequenzen generiert worden sein, die Borrelia burgdoferi zugeordnet werden konnten. Durch diese Entdeckung entstand die Vermutung, dass Ötzi an Borreliose erkrankt sei.

Die oben dargestellten Abbildungen zeigen zum einem die gefundene Gletchermumie (links) Bildquelle sowie eine Illustration wie Ötzi, möglicherweise ausgesehen haben könnte (rechts) Bildquelle.

Aufgabenstellung

Zur Untersuchung, ob Ötzi an Borreliose erkrankt war, soll im Rahmen dieses Projekts ein Workflow implementiert werden, der im Wesentlichen aus den folgenden vier Aufgabenstellungen besteht:

  • Identifikation bakterieller Sequenzen in den Datensätzen
  • Taxonomische Profilierung
  • Rekonstruktion des Borrellia burgdorferi (Draft)-Genoms
  • Rekonstruktion der mtDNA von Ötzi

Die Rekonstruktion des Borrellia burgdorferi (Draft)-Genoms sowie der mtDNA beinhaltet folgende Aufgaben:

  • Mapping gegen das entsprechende Referenzgenom
  • Consensus Calling
  • Annotation der erzeugten Contigs
  • Bestimmung von 5’/3’ Substitutionsraten
  • Phylogenetische Charakterisierung

Die hierfür verwendeten Daten sind im European Nucleotide Archive (ENA) unter diesem Link zu finden.

Für die Rekonstruktion der Genome wurden zum einem das humane mitochondriale Referenzgenom aus der National Center for Biotechnology Information (NCBI) sowie das von Keller et al. publizierte Burrelia burgdoferi Referenzgemom, das ebenfalls in der NCBI hinterlegt ist, verwendet.

Installation

Das Repository mit dem von uns implementierten Workflows kann sowohl über SSH als auch über HTTPS heruntergeladen werden. Eine Installation über SSH kann über folgendem Befehl ausgeführt werden:

git clone git@git.computational.bio.uni-giessen.de:rserradj/oetzi.git

Falls eine Installation über HTTPS erfolgen soll, kann dies mit dem nachfolgenden Befehl erreicht werden:

git clone https://git.computational.bio.uni-giessen.de/rserradj/oetzi.git

Die Installation des conda Enviroments setzt eine lokale Installation von conda und mamba vorraus. Eine entsprechende conda Installationsanleitung ist über den hier angegebenen Link zu finden. Die mabma Installationsanleitung ist auf der folgenden Seite dokumentiert.

Nachdem conda und mamba erfolgreich installiert wurden, kann mittels mamba das von uns bereitgestellte conda Enviroment über die Kommandozeile installiert werden. Es empfiehlt sich, dies auf den SLURM Cluster auszuführen, da die Installation einige Zeit in Anspruch nehmen kann. Hierzu ist allerding eine Internetverbindung nötig.

mamba env create --file enviroment.yaml

Das conda Enviroment beinhaltet alle Pakete, die für den Workflow und Analyse benötigt werden und kann nach Installation über die Kommandozeile mit folgendem Befehl aktiviert werden:

conda activate oetzi

Nach der Aktivierung des conda Enviroments und vor Ausführung des Workflows muss folgender Befehl in der Kommandozeile ausgeführt werden.

ktUpdateTaxonomy.sh

Ausführen des Workflows

Der implementierte Workflow kann nach der Aktivierung des conda Enviroments über die Kommandozeile mit folgendem Befehl gestartet werden:

snakemake -j {Anzahl der Threads}

Das Ausführen des Workflows wird über den SLURM Cluster empfohlen.

Darüber hinaus kann der Nutzer über eine Konfigurationsdatei config.yaml den Pfad zu den Daten, Referenzgenomen und den Kraken2- sowie Kaiju-Datenbanken für die taxonimische Klassifikation angeben.

---
samples_dir: Pfad zu den Daten
burgdorferi_ref: Pfad zum Borrelia burgdoferi Referenzgenom
mtdna_ref: Pfad zum mtDNA Referenzgenom
kraken_db: Pfad zur kraken2 Datenbanken
kaiju_db: Pfad zur kajiu Datenbank
threads: Anzahl der Threads

Ausgabe Workflow

Nachdem der Workflow erfolgreich durchgelaufen ist, entsteht im Working Directory folgende Ordnerstruktur, die alle vom Workflow produzierten Ergebnisse beinhaltet:

Snakefile
├── fastqc_reeports
├── multiqc_reports
├── trimmed_seqs
├── trimmed_multiqc_reports
├── kraken
├── kaiju
├── krona
│   ├── kraken
│   └── kaiju  
├── bowtie2
│   ├── mtdna
│   │   ├── mapped
│   │   ├── unmapped
│   │   └── summary  
│   ├── index_burgdorferi 
│   └── index_mtdna 
├── consensus
│   └── mtdna
│       └── merged_mtdna_consensus.fa     
├── prokka
│   └── mtdna
├── mapDamage
│   └── reseults_mtdna
├── samtools_stats
│   └── statistics_mtdna.txt                     
└── phylo
    ├── sequences
    │   └── alignment.fasta
    └── reseults
        └── phylo_tree.png

Ergebnisse

Die visuelle Darstellung der Ergebnisse erfolgte mittels HTML. Hierfür muss die Datei index.html im lokalen Browser geöffnet werden.

Den dort dargestellten Ergebnisse ist zu entnehmen, dass Ötzi nicht an Borreliose erkrankt war, da aus den Daten kein Borrelia burgdoferi (Draft)-Genom rekonstruiert werden konnte.

Daüber hinaus konnte über die Bestimmung der Haplogruppe der mtDNA von Ötzi herausgefunden werden, dass dieser aus dem nördlichen Italien bzw. der Alpenregion stammte.

Eine genauere Darstellung aller Ergebnisse unseres Workflows ist in der Datei HDDA.pdf aufbereitet und dokumentiert.

About

Comprehensive bioinformatic data analysis of the genome of Tyrolean Iceman Oetzi. The analysis includes fundamental steps of data preprocessing and genomic data analysis summarized in a workflow file, as well as compilation of the results within a website.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published