# Tworzenie potoków przetwarzania danych

Na dzisiejszych zajęciach jak również na zajęciach z genomiki mieliśmy okazję zapoznać się z programami służącymi do obróbki danych pochodzących z sekwencjonowania wysokoprzepustowego. Jest to proces wieloetapowy, gdzie wykorzystywane są różne narzedzia a operacje wykonywane są na różnych rodzajach plików wejściowych generując nowego rodzaju dane. Biorąc pod uwage mnogość etapów analizy, jak również konieczność analizy wielu plików na raz ręczne wykonywanie po koleji kolejnych etapów analizy staje się niepraktyczne i nieefektywne. W odpowiedzi na te wyzwania stworzono programy do zarządzania przepływem danych, tzw. języki definicji przepływu pracy (ang. Workflow languages).

## Najpopularniejsze rodzaje języków definicji przepływu pracy
Języki definicji przepływu pracy zapewniają ustrukturyzowane ramy do opisywania i organizowania serii zadań wymaganych do analizy danych. Istnieje wiele języków definiowania przepływów pracy, używanych do pisania potoków obliczeniowych.

### Nextflow
<div>
<img src="https://upload.wikimedia.org/wikipedia/commons/e/e1/Logo_Nextflow_%28new%29.png"
width=400/>
</div>

[Strona WWW](https://www.nextflow.io/) \
Potok Nextflow składa się z jednego lub więcej modułów lub procesów. Nextflow umożliwia wykonanie skryptu, który może być napisany w dowolnym popularnym języku skryptowym, w tym Bash, Python i R. Nextflow jest wspierany przez dużą społeczność programistów i bioinformatyków. Istnieje również [nf-core](https://nf-co.re/pipelines/), duża biblioteka potoków bioinformatycznych open-source napisanych w Nextflow.
* Wykorzystuje język Groovy.
* Silna integracja ze środowiskami kontenerowymi (Docker, Singularity).
* Wysoka elastyczność w obsłudze plików, wykonywaniu zadań i zrównoleglaniu.
* Kompatybilność ze środowiskami chmurowymi i klastrowymi (AWS, Google Cloud, Slurm itp.).

Najpopularniejszy pipeline do analizy danych germinalnych i somatycznych z sekwencjonowania NGS to [nf-core/sarek](https://nf-co.re/sarek/3.4.4/). Potok ten jest podzielony na kilka składowych częsci:
* [workflows/sarek/main.nf](https://github.com/nf-core/sarek/blob/3.4.4/workflows/sarek/main.nf) - Główny plik "workflow" określający poszczególne kroki takie jak przygotowanie danych, uliniowienie czy wykrywanie wariantów z użyciem zaimportowanych subworkflow's oraz modułów. Poniżej przykład importu informacji ze skryptu do uliniowienia plików fastq:
* [subworkflows/local/fastq_align_bwamem_mem2_dragmap_sentieon/main.nf](https://github.com/nf-core/sarek/blob/3.4.4/subworkflows/local/fastq_align_bwamem_mem2_dragmap_sentieon/main.nf) - Pośrednie pliki "subworkflow" definiujące kroki w poszczególnych pomniejszych etapach, np. jak uliniowienie w pliku
* [modules/bwa/mem/main.nf](https://github.com/nf-core/sarek/blob/3.4.4/modules/nf-core/bwa/mem/main.nf) - pliki "modules" definiujące pliki wejściowe i wyjściowe dla poszczególnych programów oraz ich uruchomienie

### Common Workflow Language
<div>
<img src="https://repository-images.githubusercontent.com/24454775/a0f7b480-04d7-11eb-9513-240001f2f87a"
width=400/>
</div>

[Strona WWW](https://www.commonwl.org/user_guide/) \
[Narzedzia do uruchamiania skrytpów CWL](https://www.commonwl.org/implementations/) \
Common Workflow Language (lub CWL) to język służący do definiowania przepływów pracy w sposób wieloplatformowy. CWL zapewnia prosty i dobrze zdefiniowany format do automatyzacji tych analiz poprzez określenie ich etapów i połączeń za pomocą czytelnych dokumentów CWL. Ekosystem CWL powiększył się o narzędzia do wizualizacji przepływu pracy, graficzne edytory przepływu pracy, biblioteki do programowej interakcji z CWL oraz narzędzia konwertujące do i z CWL oraz innych formatów przepływu pracy.
* Wykorzystuje YAML/JSON do definiowania przepływów pracy, kładąc nacisk na prostotę i czytelność.
* Oddziela definicje narzędzi i przepływy pracy, aby umożliwić ponowne wykorzystanie komponentów.
* Silna społeczność i skupienie na standardach, często postrzegane jako „klej” do łączenia narzędzi bioinformatycznych w różnych systemach.
* Zaprojektowany z myślą o szerokiej kompatybilności, umożliwiając uruchomienie tego samego przepływu pracy na różnych platformach przy minimalnych zmianach.


### Workflow Description Language
<div>
<img src="https://vsmalladi.github.io/openwdl.github.io//media/logo-preview.png"
width=400/>
</div>

[Strona WWW](https://openwdl.org/getting-started/) \
[Narzedzia do uruchamiania skrytpów WDL](https://github.com/openwdl/wdl/tree/wdl-1.2?tab=readme-ov-file#execution-engines-and-platforms) \
[Repozytoria potoków w WDL](https://github.com/openwdl/wdl/tree/wdl-1.2?tab=readme-ov-file#published-workflows) \
Workflow Description Language (WDL) to deklaratywny język przeznaczony do definiowania przepływów pracy związanych z przetwarzaniem danych w prosty i czytelny sposób. Jest on używany głównie w bioinformatyce, ale jest wystarczająco elastyczny dla różnych zastosować.
* Prosta składnia, ułatwiająca czytanie i pisanie skryptów.
* Silne wsparcie dla genomiki, zintegrowane z Cromwell (silnik wykonawczy).
* Możliwość rozszerzenia na różne środowiska chmurowe i HPC.


***
# Tworzenie potoków przetwarzania danych z użyciem języka WDL i programu Cromwell

### Pobranie programu Cromwell do wykonywania skryptów WDL
Program jest dostępny do pobrania ze strony [github projektu](https://github.com/broadinstitute/cromwell). \
[Wstęp do Cromwell](https://cromwell.readthedocs.io/en/latest/tutorials/FiveMinuteIntro/) - Obszerna dokumentacja zawiera m.in. informację o instalacji oraz stworzeniu pierwszego potoku.

Na początku należy pobrać plik jar niezbędny do uruchomienia programu:

In [3]:
! wget https://github.com/broadinstitute/cromwell/releases/download/87/cromwell-87.jar

--2024-10-27 16:39:46--  https://github.com/broadinstitute/cromwell/releases/download/87/cromwell-87.jar
Resolving github.com (github.com)... 140.82.116.4
Connecting to github.com (github.com)|140.82.116.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/34136406/8263b4d6-5db2-4ec9-8ad2-26e57c3e82ea?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20241027%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20241027T163947Z&X-Amz-Expires=300&X-Amz-Signature=b9f9077de4fd3cfc94d6481305cbae40944ed7463ec3a832e53a0ba5ea24f915&X-Amz-SignedHeaders=host&response-content-disposition=attachment%3B%20filename%3Dcromwell-87.jar&response-content-type=application%2Foctet-stream [following]
--2024-10-27 16:39:47--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/34136406/8263b4d6-5db2-4ec9-8ad2-26e57c3e82ea?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Cred

W celu przetestowania działania programu należy uruchomić przykładowy skrypt WDL. Cromwell korzysta z Javy w wersji 11, dlatego przed komendą uruchamiania programu specyfikujemy ścieżkę gdzie w systemie (w naszym przypadku system w obrazie Dockera) znajduje się odpowiednia wersja Javy. Skrypt znajduje się katalogu `dags/cromwell-test.wdl`:

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
! java -version

openjdk version "11.0.24" 2024-07-16
OpenJDK Runtime Environment (build 11.0.24+8-post-Ubuntu-1ubuntu322.04)
OpenJDK 64-Bit Server VM (build 11.0.24+8-post-Ubuntu-1ubuntu322.04, mixed mode, sharing)


In [13]:
! java -jar cromwell-87.jar \
run /content/drive/MyDrive/dags/cromwell-test.wdl

[2024-10-27 15:38:08,47] [info] Running with database db.url = jdbc:hsqldb:mem:1cbb5877-74a9-4328-8764-968a882a436f;shutdown=false;hsqldb.tx=mvcc
[2024-10-27 15:38:17,47] [info] Running migration RenameWorkflowOptionsInMetadata with a read batch size of 100000 and a write batch size of 100000
[2024-10-27 15:38:17,52] [info] [RenameWorkflowOptionsInMetadata] 100%
[2024-10-27 15:38:18,77] [info] Running with database db.url = jdbc:hsqldb:mem:8ca29ab6-3ea0-43f6-839f-d36afd12678c;shutdown=false;hsqldb.tx=mvcc
[2024-10-27 15:38:20,62] [info] Slf4jLogger started
[2024-10-27 15:38:20,99] [info] Workflow heartbeat configuration:
{
  "cromwellId" : "cromid-ac05623",
  "heartbeatInterval" : "2 minutes",
  "ttl" : "10 minutes",
  "failureShutdownDuration" : "5 minutes",
  "writeBatchSize" : 10000,
  "writeThreshold" : 10000
}
[2024-10-27 15:38:21,19] [info] Metadata summary refreshing every 1 second.
[2024-10-27 15:38:21,19] [info] No metadata archiver defined in config
[2024-10-27 15:38:21,20] [

WDL jest językiem deklaratywnym, co oznacza, że koncentruje się na tym, co należy zrobić, a nie na tym, jak to wykonać. Użytkownik opisuje dane wejściowe, polecenia i dane wyjściowe każdego kroku, a silnik (w naszym przypadku Cromwell) obsługuje planowanie zadań, zarządzanie zależnościami i przechowywanie plików.

Na dzisiejszych zajęciach będziemy używać Cromwell w trybie `run` który jest polecany do budowania oraz testowania potoków ze względu na prostotę obługi oraz łatwość.

Tryb `run` jest najlepszy do szybkiego wykonywania pojedynczych potoków na komputerze lokalnym. Jest prosty w użyciu, nie wymaga konfiguracji serwera, dzięki czemu doskonale nadaje się do testowania i debugowania. Jest on jednak ograniczony ze względu na możliwość uruchomienia tylko jednego potoku na raz oraz brak możliwości wznowienia analizy po nagłym przerwaniu.

Tryb `server` działa jako usługa z interfejsem API HTTP, umożliwiając jednoczesne zarządzanie i monitorowanie wielu przepływów pracy. Tryb ten nadaje się do rozwiązań produkcyjnych lub dla wielu użytkowników, umożliwiając automatyczne przesyłanie, monitorowanie w czasie rzeczywistym i kolejkowanie przepływów pracy. Wymaga dodatkowej konfiguracji, takiej jak zapasowa baza danych, w celu zapewnienia odporności na nagłe przerwania oraz skalowalności.


***
### Struktura skrytpów WDL

W folderze `dags` w pliku `alignment.wdl` zapisany jest krótki potok przetwarzania danych mający na celu uliniowienie plików FASTQ oraz konwersję wynikowego pliku do formatu BAM.

In [10]:
! cat drive/MyDrive/dags/alignment.wdl

version 1.0

workflow alignment_pipeline {
    # Określenie plików wejściowych dla całego potoku
    input {
        File ref_fasta
        File ref_dict
        File ref_fasta_fai
        File ref_fasta_amb
        File ref_fasta_ann
        File ref_fasta_bwt
        File ref_fasta_pac
        File ref_fasta_sa
        File mother_fastq
    }

    # Etap 1: Uruchomienie BWA MEM
    call BwaMem {
        input:
            ref_fasta = ref_fasta,
            ref_fasta_amb = ref_fasta_amb,
            ref_fasta_ann = ref_fasta_ann,
            ref_fasta_bwt = ref_fasta_bwt,
            ref_fasta_pac = ref_fasta_pac,
            ref_fasta_sa = ref_fasta_sa,
            fastq = mother_fastq
    }

    # Etap 2: Konwersja SAM do BAM
    call SamToBam {
        input:
            sam_file = BwaMem.sam_file
    }

    # Określenie pliku wynikowego całego potoku
    output {
        File bam_file = SamToBam.bam_file
        File bai_file = SamToBam.bai_file
    }
}

# Informacje do uruchomien

Schemat przepływu pracy WDL składa się z opisów przepływów pracy (Workflows) i zadań (Tasks):

* **Workflow:** Definiuje wysokopoziomową sekwencję kroków i przepływ danych. Przepływ pracy łączy wiele zadań i ustanawia logiczne zależności między nimi.
* **Task:** Definiuje poszczególne kroki w ramach przepływu pracy. Każde zadanie określa instrukcje wiersza poleceń, dane wejściowe i wyjściowe dla określonego kroku obliczeniowego.

<div class="alert alert-block alert-warning">
<b>Zadanie 7_1:</b> Przyglądając się plikowi <b>dags/alignment.wdl</b> podaj nazwy obydwu kroków oraz jakie przyjmują pliki wejściowe
</div>

W pliku `alignment-inputs.json` podane są ścieżki do plików które określone są jako pliki wejściowe na początku pliku wdl `alignment.wdl`

In [11]:
! cat drive/MyDrive/dags/alignment-inputs.json

{
  "alignment_pipeline.ref_fasta": "/tmp/jovyan/work/git/edugen_pub/ref/ref.fasta",
  "alignment_pipeline.ref_dict": "/tmp/jovyan/work/git/edugen_pub/ref/ref.dict",
  "alignment_pipeline.ref_fasta_fai": "/tmp/jovyan/work/git/edugen_pub/ref/ref.fasta.fai",
  "alignment_pipeline.ref_fasta_amb": "/tmp/jovyan/work/git/edugen_pub/ref/ref.fasta.amb",
  "alignment_pipeline.ref_fasta_ann": "/tmp/jovyan/work/git/edugen_pub/ref/ref.fasta.ann",
  "alignment_pipeline.ref_fasta_bwt": "/tmp/jovyan/work/git/edugen_pub/ref/ref.fasta.bwt",
  "alignment_pipeline.ref_fasta_pac": "/tmp/jovyan/work/git/edugen_pub/ref/ref.fasta.pac",
  "alignment_pipeline.ref_fasta_sa": "/tmp/jovyan/work/git/edugen_pub/ref/ref.fasta.sa",
  "alignment_pipeline.mother_fastq": "/tmp/jovyan/work/git/edugen_pub/fastq/mother.fq"
}


In [4]:
!pip install udocker

Collecting udocker
  Downloading udocker-1.3.17-py2.py3-none-any.whl.metadata (37 kB)
Downloading udocker-1.3.17-py2.py3-none-any.whl (119 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/119.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m119.6/119.6 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: udocker
Successfully installed udocker-1.3.17


In [5]:
%%shell
udocker --allow-root install

Info: creating repo: /root/.udocker
Info: udocker command line interface 1.3.17
Info: searching for udockertools >= 1.2.11
Info: installing udockertools 1.2.11
Info: installation of udockertools successful




In [6]:
!mkdir -p shared

In [7]:
!chmod 777 shared

In [8]:
!udocker --allow-root run -p 8888:8888 \
-v $PWD/shared:/tmp/jovyan/work \
-e HOME=/tmp/jovyan \
-e DS_LAB_GCS_KEY=/tmp/dummy \
-e USER=jovyan \
biodatageeks/ds-notebook:spark-edugen-2.4.3-0.1.7-ga024cfc \
jupyter-lab --ip='*' --NotebookApp.token='' --NotebookApp.password=''

Info: downloading layer sha256:8133bbf9a032f37a77ed68dddcfe9994325a2502dc1fa88b09e4200bffadf3f3
Info: downloading layer sha256:27c7c87504d48672b6ae6c3fb3c5137b65f053ec706251f70a9a033acc317e84
Info: downloading layer sha256:5badc6b00464250a15d6cfdf1bf5a46a54de19d25ed903e7db6cc4997672416f
Info: downloading layer sha256:be2ed4fde04c160702f0c7a49f0161f4a9ed5d02645e931661dee8a480c8a42b
Info: downloading layer sha256:fbfa651457e20fcfad737a1a130f4918a83668525729d49294240551a07ee46d
Info: downloading layer sha256:9f8553e4abd1da5942556d8c269a64270028cc56dc28862503817ea901cb2f0b
Info: downloading layer sha256:bb22f9360ecec1b5105434d03ab0071447aa52a9d1c3e5663f8db13e88c1ebbe
Info: downloading layer sha256:e53c80fc815926e056189fbf8f1ff2366919859b41624b7586c28daf69f5bb69
Info: downloading layer sha256:06ea1d780c3581293c47514a320c4044de49959a36a34b5a5e1f813301423f2a
Info: downloading layer sha256:cca00083c93b5f50415827838acd7abc969a4a1d5e875e66c653a6be24bcb603
Info: downloading layer sha256:719fb45e9

In [9]:
!udocker --allow-root ps

CONTAINER ID                         P M NAMES              IMAGE               
30b1a0b8-4d03-35ee-bfb5-df9d2f01fc7d . W                    biodatageeks/ds-notebook:spark-edugen-2.4.3-0.1.7-ga024cfc


In [18]:
!udocker --allow-root --help


Syntax:
  udocker  [general_options] <command>  [command_options]  <command_args>

  udocker [-h|--help|help]        :Display this help and exits
  udocker [-V|--version|version]  :Display udocker and tarball version and exits

General options common to all commands must appear before the command:
  -D, --debug                   :Debug
  -q, --quiet                   :Less verbosity
  --insecure                    :Allow insecure non authenticated https
  --repo=<directory>            :Use repository at directory
  --allow-root                  :Allow execution by root NOT recommended
  --config=<conf_file>          :Use configuration <conf_file>

Commands:
  --help [command]              :Command specific help
  showconf                      :Print all configuration options

  search <repo/expression>      :Search dockerhub for container images
  pull <repo/image:tag>         :Pull container image from dockerhub
  create <repo/image:tag>       :Create container from a pulled image
  

In [22]:
!udocker --allow-root run 30b1a0b8-4d03-35ee-bfb5-df9d2f01fc7d ls /tmp/dummy

 
 ****************************************************************************** 
 *                                                                            * 
 *               STARTING 30b1a0b8-4d03-35ee-bfb5-df9d2f01fc7d                * 
 *                                                                            * 
 ****************************************************************************** 
 executing: entrypoint.sh
+ export TMP_HOME=/tmp/jovyan
+ TMP_HOME=/tmp/jovyan
+ cp -r /tmp/jovyan/.sdkman /tmp/jovyan
cp: '/tmp/jovyan/.sdkman' and '/tmp/jovyan/.sdkman' are the same file
+ source /tmp/jovyan/.sdkman/bin/sdkman-init.sh
++ '[' -z '' ']'
++ export SDKMAN_VERSION=5.9.2+613
++ SDKMAN_VERSION=5.9.2+613
++ '[' -z '' ']'
++ export SDKMAN_CANDIDATES_API=https://api.sdkman.io/2
++ SDKMAN_CANDIDATES_API=https://api.sdkman.io/2
++ '[' -z '' ']'
++ export SDKMAN_DIR=/tmp/jovyan/.sdkman
++ SDKMAN_DIR=/tmp/jovyan/.sdkman
+++ infer_platform
+++ local kernel
+++ local machine
++++ una

In [12]:
!pip install pyngrok
from pyngrok import ngrok
!ngrok config add-authtoken "2o1oleMV7o19pWSV92909mOVXNI_3GnoVyejLABkMweQQTk6G"

# Open a tunnel to the Jupyter Notebook port
public_url = ngrok.connect(8888)
print(public_url)


Authtoken saved to configuration file: /root/.config/ngrok/ngrok.yml
NgrokTunnel: "https://7bd5-35-233-218-180.ngrok-free.app" -> "http://localhost:8888"


W przepływie pracy WDL zadania wykonywane są zgodnie z ich zależnościami:

* Zadania mogą działać równolegle, jeśli nie zależą od siebie nawzajem.
* Jeśli zadanie wymaga danych wyjściowych z innego zadania jako danych wejściowych, będzie czekać na zakończenie tego zależnego zadania.

Ten łańcuch zależności pozwala WDL automatycznie zarządzać transferami plików, planowaniem i monitorowaniem zadań.

***
### Uruchamianie potoku do uliniowienia plików FASTQ i konwersji wynikowego pliku SAM do formatu BAM
Uruchomienie potoku wymaga w tym przypadku podania również lokalizacji pliku ze ścieżkami do plików wejściowych za pomocą opcji `-i`:

In [None]:
! /usr/lib/jvm/java-11-openjdk-amd64/bin/java -jar cromwell-87.jar \
run dags/alignment.wdl -i dags/alignment-inputs.json

Przyjrzyjmy się plikom w folderach wynikowych `cromwell-executions`. Każdy z uruchamianych skryptów WDL tworzy folder o nazwie takie samej jak w nagłówku:

In [None]:
# Wyciągnięcie informacji o nazwie potoku
! sed -n '3,3p' dags/alignment.wdl
# Listowanie zawartości folderu
! ls cromwell-executions

Kolejny folder ma nazwę nadawaną losowo, natomiast w  nim znajdziemy foldery z nazwami związanymi z poszczególnymi etapami określonymi w skrypcie WDL:

In [None]:
# Wyciągnięcie informacji o nazwach zadań
! sed -n '17,18p;29,30p' dags/alignment.wdl
# Listowanie zawartości folderu
! ls -d cromwell-executions/alignment_pipeline/*/call-*

<div class="alert alert-block alert-warning">
<b>Zadanie 7_2:</b> Przyjrzyj się plikom w folderach <b>inputs</b> oraz <b>execution</b>. Jakie rodzaje plików w nich znajdziemy?
</div>

W przypadku pierwszego kroku `BwaMem` pliki wejściowe pobierane są zgodnie z plikiem `alignment-inputs.json`, natomiast plik wejściowy dla kolejnego etapu `SamToBam` stanowi plik wynikowy z kroku wcześniejszego:

In [None]:
! sed -n '29,32p;59,62p' dags/alignment.wdl

Dzięki przekazywaniu plików wynikowych z jednego etapu jako plików wejściowych następnego etapu tworzymy podstawowy potok w którym dane przepływają oraz analizowane są w zdefiniowany sposób.

<div>
<img src="https://docs.openwdl.org/en/latest/Images/linear_chaining.png"
width=400/>
</div>

[Przykłady łączenia etapów w sekwencji](https://docs.openwdl.org/en/latest/WDL/Linear_chaining/)

Jednak nasz potok danych jest niepełny, brakuje w nim kilku etapów chociażby wykrywania wariantów.

<div class="alert alert-block alert-warning">
<b>Zadanie 7_3:</b> Dodaj krok wykrywania wariantów z użyciem narzędzia GATK HaplotypeCaller, który nazwij <b>GatkHc</b> gdzie plikami wejściowymi będą plik BAM z etapu SamToBam oraz plik FASTA genomu referencyjnego. Zapisz nowy potok pod nazwą <b>dags/alignment-vc.wdl</b>
</div>

In [None]:
! /usr/lib/jvm/java-11-openjdk-amd64/bin/java -jar cromwell-87.jar \
run dags/alignment-vc.wdl -i dags/alignment-inputs.json

Dodawanie kolejnych kroków wymaga dobrego rozeznania w poszczególnych etapach całego potoku oraz ścisłego ustalenia poszczególnych plików wejściowych i ustawień programu. Jednak obsługa dynamicznych konstrukcję ścieżek i osadzanie parametrów za pomocą wyrażeń takich jak  `~{}` ułatwia obsługę zmiennych nazw plików, katalogów pośrednich i sparametryzowanych poleceń.

***
### Analiza wielu plików jednocześnie

Jednak rozszerzanie potoku o dodatkowe kroki to połowa sukcesu. Niezwykle ważna w kontekście wydajności potoku jest możliwość jednoczesnej analizy wielu plików wejściowych jednocześnie. Do tego celu używany jest `scatter` czyli funkcjonalność WDL służąca do zrównoleglania potoku (lub niektórych jego części) przez iterację nad każdym elementem w tablicy (`Array`). Tworzy oddzielną instancję zadania dla każdego elementu tablicy, uruchamiając zadania dla każdego elementu niezależnie i jednocześnie, jeśli pozwalają na to zasoby obliczeniowe.

Aby wykorzystać `scatter` należy stworzyć tablicę (`Array`), która w WDL stanowi kolekcję elementów tego samego typu. Tablice umożliwiają potokom obsługę wielu danych wejściowych dla podobnego zadania, umożliwiając przekazywanie listy plików, ciągów znaków, liczb całkowitych lub innych typów danych.

[Przykłady wykorzystania funkcjonalności scatter](https://docs.openwdl.org/en/latest/WDL/scattering_index/)

W celu lepszego zrozumienia rodzaju danych wejściowych zerknijmy na plik ze ścieżkami `dags/alignment-inputs-trio.json`:

In [None]:
! sed -n '8,19p' dags/alignment-inputs-trio.json

Ścieżki do plików FASTQ poszczególnych członków rodziny zostały zagnieżdżone w zmiennej `fastq_files`, podobna lista została również utworzona dla zmiennej `sample_names` i zawiera nazwy poszczególnych członków rodziny. Stwarza to możliwość iterowania po tych listach, czyli wybierania elementów listy według ich indeksów i wykonywanie na nich kolejnych etapów analizy.

<div class="alert alert-block alert-warning">
<b>Zadanie 7_4:</b> Zmodyfikuj skrypt <b>dags/alignment-vc.wdl</b> w taki sposób, aby umożliwiał równoległe procesowanie wszystkich próbek w rodzinie (mother, father, son) na poszczególnych etapach potoku. Użyj opcji <b>Array</b> dla plików wejściowych oraz polecenia <b>scatter()</b> dla zrównoleglenia wykonywanych czynności. Zapisz skrypt pod nazwą <b>dags/alignment-vc-trio.wdl</b>. Użyj zmodyfikowanego pliku ze ścieżkami do plików wejściowych <b>dags/alignment-inputs-trio.json</b>
</div>

In [None]:
! /usr/lib/jvm/java-11-openjdk-amd64/bin/java -jar cromwell-87.jar \
run dags/alignment-vc-trio.wdl -i dags/alignment-inputs-trio.json

### Rozgałęzianie oraz scalanie etapów potoku
<div>
<img src="https://docs.openwdl.org/en/latest/Images/branch_merge.png"
width=400/>
</div>

Do tej pory wykorzystywaliśmy prosty schemat wykonywania operacji jedna po drugiej. Natomiast często niektóre elementy potoku będą wykonywane na innych zbiorach plików lub będą korzystały z plików wynikowych z różnych etapów. Przykładem może być analiza jakościowa wykonywana za pomocą `MultiQC` które wykorzystuje wyniki z różnych narzędzi uruchamianych na poszczególnych etapach potoku.

[Przykłady rozgałęziania i scalania etapów](https://docs.openwdl.org/en/latest/WDL/Branch_and_merge/)

<div class="alert alert-block alert-warning">
<b>Zadanie 7_5:</b> Zmodyfikuj skrypt <b>dags/alignment-vc.wdl</b> poprzez dodanie etapów analizy <b>FastQC</b> na plikach FASTQ, <b>samtools flagstat</b> na plikach BAM oraz <b>bcftools stats</b> na plikach VCF. Na końcu dodaj krok analizy danych wynikowych z tych programów z użyciem <b>MultiQC</b>. Zapisz skrypt pod nazwą <b>dags/alignment-vc-trio-qc.wdl</b>.
</div>

Dla programu FastQC ustal wersję Javy którą ma używać za pomoca opcji: \
`-j /usr/lib/jvm/java-11-openjdk-amd64/bin/java`.

Wcześniej zainstalowaliśmy brakujące MultiQC przed którego wywołaniem trzeba użyć komendy: \
`export XDG_CONFIG_HOME=work/git/edugen-notebooks/20Z/dags`

In [None]:
! /usr/lib/jvm/java-11-openjdk-amd64/bin/java -jar cromwell-87.jar \
run dags/alignment-vc-trio-qc.wdl -i dags/alignment-inputs-trio.json