このノートブックは [harvardinformatics/bioinformatics-coffee-hour の snakemake](https://github.com/workflow-meetup-jp/bioinformatics-coffee-hour/blob/master/snakemake/index.ipynb)
の日本語翻訳になります。
```
Bioinformatics Coffee Hour - May 26, 2020
Modified from https://github.com/ctb/2019-snakemake-ucdavis

No license; the below content is under CC0. (Do with it what you will, and I hope it's useful!)
```
# snakemakeを用いたデータ分析のためのワークフローの紹介

著者: Meghan Correa と Ming Tang

翻訳: [ワークフローミートアップコミュニティ](https://github.com/workflow-meetup-jp)

### イントロと考え

こんにちは! 私はMeghan Correaです。
FAS Informatics のソフトウェア オペレーション チームのメンバーです。
特にBauer coreのデータ分析をサポートしています。

この 25 分のティーザーは、snakemake の使用を開始する方法を示すことを目的としています。

### なぜワークフロー管理ツールを使用するのですか?
- 依存関係管理
- 再入可能 - 中断したところから再開
- 再利用可能
- 文書化されている
- ポータブル

ワークフロー管理ツールには多くの選択肢があります: https://github.com/pditommaso/awesome-pipeline

FAS Informatics は、ポストシーケンシングパイプラインおよびその他のワークフローにsnakemakeを使用することを選択しました。
主な理由は、Python で記述されており、バイオインフォマティクスコミュニティで人気があるためです。

### 私たちがやろうとしているタスク

`data` フォルダー内に、4つの `fastq.gz` ファイルを取得します。
各 fastq ファイルで `Snakemake` do `fastqc` を使用し、`multiQC` を使用して複数の html ファイルを 1 つのファイルにコンパイルします。

## 使用するソフトウェア

[fastqc](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/) と [multiqc](https://multiqc.info/) を使用して、ショートリードの品質チェックパイプラインを実装します。
これが何を意味するのか分からなくても心配は要りません。
snakemake 側にとってはそれほど重要ではありません :)

この環境にインストールされている Python のソフトウェアの完全なセットは、`environment.yml` ファイルで確認できます。

**必要なツールは既に、すべてこのbinder コンテナーにインストールされています。**

## いくつかのデータをダウンロードする

以下のセルを実行してデータを取得します。


In [None]:
mkdir data

In [None]:
curl -L https://github.com/ctb/2019-snakemake-ucdavis/raw/9db09bc0b6a3469f8a0d4996d4b2995bf36e5d27/data/0Hour_001_1.fq.gz > data/0Hour_001_1.fq.gz
curl -L https://github.com/ctb/2019-snakemake-ucdavis/raw/9db09bc0b6a3469f8a0d4996d4b2995bf36e5d27/data/6Hour_001_1.fq.gz > data/6Hour_001_1.fq.gz
curl -L https://github.com/ctb/2019-snakemake-ucdavis/raw/9db09bc0b6a3469f8a0d4996d4b2995bf36e5d27/data/0Hour_001_2.fq.gz > data/0Hour_001_2.fq.gz
curl -L https://github.com/ctb/2019-snakemake-ucdavis/raw/9db09bc0b6a3469f8a0d4996d4b2995bf36e5d27/data/6Hour_001_2.fq.gz > data/6Hour_001_2.fq.gz

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   190  100   190    0     0    356      0 --:--:-- --:--:-- --:--:--   356
100 7689k  100 7689k    0     0  4426k      0  0:00:01  0:00:01 --:--:-- 6606k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   190  100   190    0     0    568      0 --:--:-- --:--:-- --:--:--   570
100 5262k  100 5262k    0     0  4648k      0  0:00:01  0:00:01 --:--:-- 15.2M
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   190  100   190    0     0    529      0 --:--:-- --:--:-- --:--:--   529
100 8160k  100 8160k    0     0  6191k      0  0:00:01  0:00:01 --:--:-- 9158k
  % Total    % Received % Xferd  Average Speed   Tim

## snakemakeを走らせましょう!

### はじめに - 初めての Snakefile

`Snakefile` ファイルをテキスト エディタで開き、以下をその中に貼り付けます。

```
rule fastqc_a_file:
  shell:
    "fastqc data/0Hour_001_1.fq.gz"
```

In [None]:
touch Snakefile

（上記のruleから始まるコードをSnakefileにコピー/貼り付けることをお勧めします。）
[ファイル] --> [ファイルを保存] をクリックすることを忘れないでください。

In [3]:
cat Snakefile

rule fastqc_a_file:
  shell:
    "fastqc data/0Hour_001_1.fq.gz"

In [5]:
snakemake --cores 1

[33mBuilding DAG of jobs...[0m
[33mUsing shell: /srv/conda/envs/notebook/bin/bash[0m
[33mProvided cores: 1 (use --cores to define parallelism)[0m
[33mRules claiming more threads will be scaled down.[0m
[33mJob counts:
	count	jobs
	1	fastqc_a_file
	1[0m
[33mSelect jobs to execute...[0m
[32m[0m
[32m[Wed Jun  2 05:22:52 2021][0m
[32mrule fastqc_a_file:
    jobid: 0[0m
[32m[0m
Started analysis of 0Hour_001_1.fq.gz
Approx 5% complete for 0Hour_001_1.fq.gz
Approx 10% complete for 0Hour_001_1.fq.gz
Approx 15% complete for 0Hour_001_1.fq.gz
Approx 20% complete for 0Hour_001_1.fq.gz
Approx 25% complete for 0Hour_001_1.fq.gz
Approx 30% complete for 0Hour_001_1.fq.gz
Approx 35% complete for 0Hour_001_1.fq.gz
Approx 40% complete for 0Hour_001_1.fq.gz
Approx 45% complete for 0Hour_001_1.fq.gz
Approx 50% complete for 0Hour_001_1.fq.gz
Approx 55% complete for 0Hour_001_1.fq.gz
Approx 60% complete for 0Hour_001_1.fq.gz
Approx 65% complete for 0Hour_001_1.fq.gz
Approx 70% complete f

In [7]:
ls data

0Hour_001_1_fastqc.html  0Hour_001_1.fq.gz  6Hour_001_1.fq.gz
0Hour_001_1_fastqc.zip   0Hour_001_2.fq.gz  6Hour_001_2.fq.gz


すると2つの新しいファイルが作成されます、

作るべきポイント:

- デフォルトでは、snakemake の設定ファイルは Snakefile と呼ばれます。


### 入力と出力を追跡するために Snakefile を更新する

現時点では、これは基本的に、追加の構文を備えたシェル スクリプトにすぎません... ポイントは何なのでしょうか?

シェル スクリプトは、ファイルを実行するたびにコマンドを再実行します。
ファイルが変更されていないため、再実行する理由がなくても、snakemake を使用すると、入力ファイルと出力ファイルでルールに注釈を付けることができます。

**余談:** これは、処理に数時間から数日かかる可能性のある数十から数百のファイルを扱う大規模または長いワークフローにとって特に重要です。

