In [None]:
! bwa index /tmp/jovyan/work/git/edugen_pub/ref/ref.fasta

# Tworzenie potoków przetwarzania danych

Na dzisiejszych zajęciach jak również na zajęciach z genomiki mieliśmy okazję zapoznać się z programami służącymi do obróbki danych pochodzących z sekwencjonowania wysokoprzepustowego. Jest to proces wieloetapowy, gdzie wykorzystywane są różne narzedzia a operacje wykonywane są na różnych rodzajach plików wejściowych generując nowego rodzaju dane. Biorąc pod uwage mnogość etapów analizy, jak również konieczność analizy wielu plików na raz ręczne wykonywanie po koleji kolejnych etapów analizy staje się niepraktyczne i nieefektywne. W odpowiedzi na te wyzwania stworzono programy do zarządzania przepływem danych, tzw. języki definicji przepływu pracy (ang. Workflow languages).

## Najpopularniejsze rodzaje języków definicji przepływu pracy
Języki definicji przepływu pracy zapewniają ustrukturyzowane ramy do opisywania i organizowania serii zadań wymaganych do analizy danych. Istnieje wiele języków definiowania przepływów pracy, używanych do pisania potoków obliczeniowych.

### Nextflow
<div>
<img src="https://upload.wikimedia.org/wikipedia/commons/e/e1/Logo_Nextflow_%28new%29.png"
width=400/>
</div>

[Strona WWW](https://www.nextflow.io/) \
Potok Nextflow składa się z jednego lub więcej modułów lub procesów. Nextflow umożliwia wykonanie skryptu, który może być napisany w dowolnym popularnym języku skryptowym, w tym Bash, Python i R. Nextflow jest wspierany przez dużą społeczność programistów i bioinformatyków. Istnieje również [nf-core](https://nf-co.re/pipelines/), duża biblioteka potoków bioinformatycznych open-source napisanych w Nextflow.
* Wykorzystuje język Groovy.
* Silna integracja ze środowiskami kontenerowymi (Docker, Singularity).
* Wysoka elastyczność w obsłudze plików, wykonywaniu zadań i zrównoleglaniu.
* Kompatybilność ze środowiskami chmurowymi i klastrowymi (AWS, Google Cloud, Slurm itp.).

Najpopularniejszy pipeline do analizy danych germinalnych i somatycznych z sekwencjonowania NGS to [nf-core/sarek](https://nf-co.re/sarek/3.4.4/). Potok ten jest podzielony na kilka składowych częsci:
* [workflows/sarek/main.nf](https://github.com/nf-core/sarek/blob/3.4.4/workflows/sarek/main.nf) - Główny plik "workflow" określający poszczególne kroki takie jak przygotowanie danych, uliniowienie czy wykrywanie wariantów z użyciem zaimportowanych subworkflow's oraz modułów. Poniżej przykład importu informacji ze skryptu do uliniowienia plików fastq:
* [subworkflows/local/fastq_align_bwamem_mem2_dragmap_sentieon/main.nf](https://github.com/nf-core/sarek/blob/3.4.4/subworkflows/local/fastq_align_bwamem_mem2_dragmap_sentieon/main.nf) - Pośrednie pliki "subworkflow" definiujące kroki w poszczególnych pomniejszych etapach, np. jak uliniowienie w pliku 
* [modules/bwa/mem/main.nf](https://github.com/nf-core/sarek/blob/3.4.4/modules/nf-core/bwa/mem/main.nf) - pliki "modules" definiujące pliki wejściowe i wyjściowe dla poszczególnych programów oraz ich uruchomienie

### Common Workflow Language
<div>
<img src="https://repository-images.githubusercontent.com/24454775/a0f7b480-04d7-11eb-9513-240001f2f87a"
width=400/>
</div>

[Strona WWW](https://www.commonwl.org/user_guide/) \
[Narzedzia do uruchamiania skrytpów CWL](https://www.commonwl.org/implementations/) \
Common Workflow Language (lub CWL) to język służący do definiowania przepływów pracy w sposób wieloplatformowy. CWL zapewnia prosty i dobrze zdefiniowany format do automatyzacji tych analiz poprzez określenie ich etapów i połączeń za pomocą plików CWL. Ekosystem CWL powiększył się o narzędzia do wizualizacji przepływu pracy, graficzne edytory przepływu pracy, biblioteki do programowej interakcji z CWL oraz narzędzia konwertujące do i z CWL oraz innych formatów przepływu pracy.
* Wykorzystuje YAML/JSON do definiowania przepływów pracy, kładąc nacisk na prostotę i czytelność.
* Oddziela definicje narzędzi i przepływy pracy, aby umożliwić ponowne wykorzystanie komponentów.
* Silna społeczność i skupienie na standardach, często postrzegane jako „klej” do łączenia narzędzi bioinformatycznych w różnych systemach.
* Zaprojektowany z myślą o szerokiej kompatybilności, umożliwiając uruchomienie tego samego przepływu pracy na różnych platformach przy minimalnych zmianach.


### Workflow Description Language
<div>
<img src="https://vsmalladi.github.io/openwdl.github.io//media/logo-preview.png"
width=400/>
</div>

[Strona WWW](https://docs.openwdl.org/getting-started/quickstart.html) \
[Narzedzia do uruchamiania skrytpów WDL](https://github.com/openwdl/wdl/tree/legacy?tab=readme-ov-file#software-and-tools) \
[Repozytoria potoków w WDL](https://github.com/openwdl/wdl/tree/legacy?tab=readme-ov-file#published-workflows) \
Workflow Description Language (WDL) to deklaratywny język przeznaczony do definiowania przepływów pracy związanych z przetwarzaniem danych w prosty i czytelny sposób. Jest on używany głównie w bioinformatyce, ale jest wystarczająco elastyczny dla różnych zastosować.
* Prosta składnia, ułatwiająca czytanie i pisanie skryptów.
* Silne wsparcie dla genomiki, zintegrowane z Cromwell (silnik wykonawczy).
* Możliwość rozszerzenia na różne środowiska chmurowe i HPC.


***
# Tworzenie potoków przetwarzania danych z użyciem języka WDL i programu Cromwell

### Pobranie programu Cromwell do wykonywania skryptów WDL
Program jest dostępny do pobrania ze strony [github projektu](https://github.com/broadinstitute/cromwell). \
[Wstęp do Cromwell](https://cromwell.readthedocs.io/en/latest/tutorials/FiveMinuteIntro/) - Obszerna dokumentacja zawiera m.in. informację o instalacji oraz stworzeniu pierwszego potoku.

Na początku należy pobrać plik jar niezbędny do uruchomienia programu:

In [None]:
! wget https://github.com/broadinstitute/cromwell/releases/download/87/cromwell-87.jar

W celu przetestowania działania programu należy uruchomić przykładowy skrypt WDL. Cromwell korzysta z Javy w wersji 11, dlatego przed każdą komendą uruchamiania programu specyfikujemy ścieżkę gdzie w systemie (w naszym przypadku system w obrazie Dockera) znajduje się odpowiednia wersja Javy. Skrypt znajduje się katalogu `dags/cromwell-test.wdl`:

In [None]:
! /usr/lib/jvm/java-11-openjdk-amd64/bin/java -jar cromwell-87.jar \
run dags/cromwell-test.wdl

WDL jest językiem deklaratywnym, co oznacza, że koncentruje się na tym, co należy zrobić, a nie na tym, jak to wykonać. Użytkownik opisuje dane wejściowe, polecenia i dane wyjściowe każdego kroku, a silnik (w naszym przypadku Cromwell) obsługuje planowanie zadań, zarządzanie zależnościami i przechowywanie plików.

Na dzisiejszych zajęciach będziemy używać Cromwell w trybie `run` który jest polecany do budowania oraz testowania potoków ze względu na prostotę obługi oraz łatwość.

Tryb `run` jest najlepszy do szybkiego wykonywania pojedynczych potoków na komputerze lokalnym. Jest prosty w użyciu, nie wymaga konfiguracji serwera, dzięki czemu doskonale nadaje się do testowania i debugowania. Jest on jednak ograniczony ze względu na możliwość uruchomienia tylko jednego potoku na raz oraz brak możliwości wznowienia analizy po nagłym przerwaniu.

Tryb `server` działa jako usługa z interfejsem API HTTP, umożliwiając jednoczesne zarządzanie i monitorowanie wielu przepływów pracy. Tryb ten nadaje się do rozwiązań produkcyjnych lub dla wielu użytkowników, umożliwiając automatyczne przesyłanie, monitorowanie w czasie rzeczywistym i kolejkowanie przepływów pracy. Wymaga dodatkowej konfiguracji, takiej jak zapasowa baza danych, w celu zapewnienia odporności na nagłe przerwania oraz skalowalności.


***
### Struktura skrytpów WDL

W folderze `dags` w pliku `alignment.wdl` zapisany jest krótki potok przetwarzania danych mający na celu uliniowienie plików FASTQ oraz konwersję wynikowego pliku do formatu BAM.

In [None]:
! cat dags/alignment.wdl

Schemat przepływu pracy WDL składa się z opisów przepływów pracy (Workflows) i zadań (Tasks):

* **Workflow:** Definiuje wysokopoziomową sekwencję kroków i przepływ danych. Przepływ pracy łączy wiele zadań i ustanawia logiczne zależności między nimi.
* **Task:** Definiuje poszczególne kroki w ramach przepływu pracy. Każde zadanie określa instrukcje wiersza poleceń, dane wejściowe i wyjściowe dla określonego kroku obliczeniowego.

<div class="alert alert-block alert-warning">
<b>Zadanie 7_1:</b> Przyglądając się plikowi <b>dags/alignment.wdl</b> podaj nazwy obydwu kroków oraz jakie przyjmują pliki wejściowe
</div>

W pliku `alignment-inputs.json` podane są ścieżki do plików które określone są jako pliki wejściowe na początku pliku wdl `alignment.wdl`

In [None]:
! cat dags/alignment-inputs.json

W przepływie pracy WDL zadania wykonywane są zgodnie z ich zależnościami:

* Zadania mogą działać równolegle, jeśli nie zależą od siebie nawzajem.
* Jeśli zadanie wymaga danych wyjściowych z innego zadania jako danych wejściowych, będzie czekać na zakończenie tego zależnego zadania.

Ten łańcuch zależności pozwala WDL automatycznie zarządzać transferami plików, planowaniem i monitorowaniem zadań.

***
### Uruchamianie potoku do uliniowienia plików FASTQ i konwersji wynikowego pliku SAM do formatu BAM
Uruchomienie potoku wymaga w tym przypadku podania również lokalizacji pliku ze ścieżkami do plików wejściowych za pomocą opcji `-i`:

In [None]:
! /usr/lib/jvm/java-11-openjdk-amd64/bin/java -jar cromwell-87.jar \
run dags/alignment.wdl -i dags/alignment-inputs.json

Przyjrzyjmy się plikom w folderach wynikowych `cromwell-executions`. Każdy z uruchamianych skryptów WDL tworzy folder o nazwie takie samej jak w nagłówku:

In [None]:
# Wyciągnięcie informacji o nazwie potoku
! sed -n '3,3p' dags/alignment.wdl
# Listowanie zawartości folderu
! ls cromwell-executions

Kolejny folder ma nazwę nadawaną losowo, natomiast w  nim znajdziemy foldery z nazwami związanymi z poszczególnymi etapami określonymi w skrypcie WDL:

In [None]:
# Wyciągnięcie informacji o nazwach zadań
! sed -n '17,18p;29,30p' dags/alignment.wdl
# Listowanie zawartości folderu
! ls -d cromwell-executions/alignment_pipeline/*/call-*

<div class="alert alert-block alert-warning">
<b>Zadanie 7_2:</b> Przyjrzyj się plikom w folderach <b>inputs</b> oraz <b>execution</b>. Jakie rodzaje plików w nich znajdziemy?
</div>

W przypadku pierwszego kroku `BwaMem` pliki wejściowe pobierane są zgodnie z plikiem `alignment-inputs.json`, natomiast plik wejściowy dla kolejnego etapu `SamToBam` stanowi plik wynikowy z kroku wcześniejszego:

In [None]:
! sed -n '29,32p;59,62p' dags/alignment.wdl

Dzięki przekazywaniu plików wynikowych z jednego etapu jako plików wejściowych następnego etapu tworzymy podstawowy potok w którym dane przepływają oraz analizowane są w zdefiniowany sposób.

<div>
<img src="https://docs.openwdl.org/assets/header.F2GrGx5o.png"
width=400/>
</div>

[Przykłady łączenia etapów w sekwencji](https://docs.openwdl.org/design-patterns/linear-chaining/)

Jednak nasz potok danych jest niepełny, brakuje w nim kilku etapów chociażby wykrywania wariantów.

<div class="alert alert-block alert-warning">
<b>Zadanie 7_3:</b> Dodaj krok wykrywania wariantów z użyciem narzędzia GATK HaplotypeCaller, który nazwij <b>GatkHc</b> gdzie plikami wejściowymi będą plik BAM z etapu SamToBam oraz plik FASTA genomu referencyjnego. Zapisz nowy potok pod nazwą <b>dags/alignment-vc.wdl</b>
</div>

In [None]:
! /usr/lib/jvm/java-11-openjdk-amd64/bin/java -jar cromwell-87.jar \
run dags/alignment-vc.wdl -i dags/alignment-inputs.json

Dodawanie kolejnych kroków wymaga dobrego rozeznania w poszczególnych etapach całego potoku oraz ścisłego ustalenia poszczególnych plików wejściowych i ustawień programu. Jednak obsługa dynamicznych konstrukcję ścieżek i osadzanie parametrów za pomocą wyrażeń takich jak  `~{}` ułatwia obsługę zmiennych nazw plików, katalogów pośrednich i sparametryzowanych poleceń.

***
### Analiza wielu plików jednocześnie

Jednak rozszerzanie potoku o dodatkowe kroki to połowa sukcesu. Niezwykle ważna w kontekście wydajności potoku jest możliwość jednoczesnej analizy wielu plików wejściowych jednocześnie. Do tego celu używany jest `scatter` czyli funkcjonalność WDL służąca do zrównoleglania potoku (lub niektórych jego części) przez iterację nad każdym elementem w tablicy (`Array`). Tworzy oddzielną instancję zadania dla każdego elementu tablicy, uruchamiając zadania dla każdego elementu niezależnie i jednocześnie, jeśli pozwalają na to zasoby obliczeniowe.

Aby wykorzystać `scatter` należy stworzyć tablicę (`Array`), która w WDL stanowi kolekcję elementów tego samego typu. Tablice umożliwiają potokom obsługę wielu danych wejściowych dla podobnego zadania, umożliwiając przekazywanie listy plików, ciągów znaków, liczb całkowitych lub innych typów danych.

[Przykłady wykorzystania funkcjonalności scatter](https://docs.openwdl.org/design-patterns/scatter-gather/#scatter-gather)

W celu lepszego zrozumienia rodzaju danych wejściowych zerknijmy na plik ze ścieżkami `dags/alignment-inputs-trio.json`:

In [None]:
! sed -n '8,19p' dags/alignment-inputs-trio.json

Ścieżki do plików FASTQ poszczególnych członków rodziny zostały zagnieżdżone w zmiennej `fastq_files`, podobna lista została również utworzona dla zmiennej `sample_names` i zawiera nazwy poszczególnych członków rodziny. Stwarza to możliwość iterowania po tych listach, czyli wybierania elementów listy według ich indeksów i wykonywanie na nich kolejnych etapów analizy.

<div class="alert alert-block alert-warning">
<b>Zadanie 7_4:</b> Zmodyfikuj skrypt <b>dags/alignment-vc.wdl</b> w taki sposób, aby umożliwiał równoległe procesowanie wszystkich próbek w rodzinie (mother, father, son) na poszczególnych etapach potoku. Użyj opcji <b>Array</b> dla plików wejściowych oraz polecenia <b>scatter()</b> dla zrównoleglenia wykonywanych czynności. Zapisz skrypt pod nazwą <b>dags/alignment-vc-trio.wdl</b>. Użyj zmodyfikowanego pliku ze ścieżkami do plików wejściowych <b>dags/alignment-inputs-trio.json</b>
</div>

In [None]:
! /usr/lib/jvm/java-11-openjdk-amd64/bin/java -jar cromwell-87.jar \
run dags/alignment-vc-trio.wdl -i dags/alignment-inputs-trio.json

### Rozgałęzianie oraz scalanie etapów potoku
<div>
<img src="https://docs.openwdl.org/assets/header.DpTZgXLq.png"
width=400/>
</div>

Do tej pory wykorzystywaliśmy prosty schemat wykonywania operacji jedna po drugiej. Natomiast często niektóre elementy potoku będą wykonywane na innych zbiorach plików lub będą korzystały z plików wynikowych z różnych etapów. Przykładem może być analiza jakościowa wykonywana za pomocą `MultiQC` które wykorzystuje wyniki z różnych narzędzi uruchamianych na poszczególnych etapach potoku.

[Przykłady rozgałęziania i scalania etapów](https://docs.openwdl.org/design-patterns/branch-and-merge/)

<div class="alert alert-block alert-warning">
<b>Zadanie 7_5:</b> Zmodyfikuj skrypt <b>dags/alignment-vc.wdl</b> poprzez dodanie etapów analizy <b>FastQC</b> na plikach FASTQ, <b>samtools flagstat</b> na plikach BAM oraz <b>bcftools stats</b> na plikach VCF. Na końcu dodaj krok analizy danych wynikowych z tych programów z użyciem <b>MultiQC</b>. Zapisz skrypt pod nazwą <b>dags/alignment-vc-trio-qc.wdl</b>.
</div>

Dla programu FastQC ustal wersję Javy którą ma używać za pomoca opcji: \
`-j /usr/lib/jvm/java-11-openjdk-amd64/bin/java`.

Wcześniej zainstalowaliśmy brakujące MultiQC przed którego wywołaniem trzeba użyć komendy: \
`export XDG_CONFIG_HOME=work/git/edugen-notebooks/20Z/dags`

In [None]:
! /usr/lib/jvm/java-11-openjdk-amd64/bin/java -jar cromwell-87.jar \
run dags/alignment-vc-trio-qc.wdl -i dags/alignment-inputs-trio.json