# Snakemakeについて

データガバナンス機能では、実験パッケージ内の実験処理の依存関係をSnakefileというファイルに整理していただく必要があります。  
このページでは、以下について知ることができます。
- Snakemakeの概要  
- Snakefileの書き方  

## Snakemakeの概要

データガバナンス機能では、再現性と拡張性のある実験を作成するためのワークフローツールとしてSnakemakeを使います。  
ワークフローはPythonベースの言語でSnakefileに記述され、SnakemakeはSnakefileに記述された処理の依存関係を定義し、ワークフローを実行します。<!--Snakefileの内容を変更せずに、クラウドなどに実験環境を拡張してワークフローを実行することもできます。  -->
Snakemakeの詳しい内容は、[公式ドキュメント](https://snakemake.readthedocs.io/en/stable/)や[公式チュートリアル](https://snakemake.readthedocs.io/en/stable/tutorial/tutorial.html)をご覧ください。  

## Snakefileの書き方

### Snakefileの概要

SnakefileはSnakemakeでワークフローを実行するために、ワークフローに含める処理を整理するファイルです。  
基本的にSnakefileは必要な処理を整理したruleによって構成されます。  
SnakefileのruleからSnakemakeは処理の依存関係を定義し、その順番に処理を実行します。  
以下は、Snakefileのサンプルです。  

>![snakemake-sample](./images/snakefileサンプル.png)  
出典：「Snakemake」  
URL：https://snakemake.readthedocs.io/en/stable/tutorial/short.html#step-8-1

### Snakefileの記述法

データガバナンス機能では、研究者の方に実験パッケージの各処理をSnakefileにruleとして記述いただくことが必要です。以下を参考にして、実験パッケージフォルダにある空のSnakefileを更新してください。  
また、Snakefileを記述する基本的な流れの例としては[こちら](https://snakemake.readthedocs.io/en/stable/tutorial/basics.html#basics-an-example-workflow)を、詳しいruleの記述方法については[こちら](https://snakemake.readthedocs.io/en/stable/snakefiles/rules.html)をご覧ください。  

ruleは主に以下の要素で構成されます。
- input(その処理の入力データのパス)
- output（その処理によって出力されるデータのパス）
- inputをoutputに変換する処理  
    主に以下の要素で記述されます。  
    - shell：シェルコマンドを記述します。  
        >![shell](./images/shell.png)  
        出典：「Snakemake」  
        URL：https://snakemake.readthedocs.io/en/stable/snakefiles/rules.html#snakefiles-and-rules
    - notebook：JupyterNotebookを実行します。 
        >![notebook](./images/notebook.png)  
        出典：「Snakemake」  
        URL：https://snakemake.readthedocs.io/en/stable/snakefiles/rules.html?highlight=rule#jupyter-notebook-integration
    - script：pythonのファイルを実行します。  
        >![script](./images/script.png)  
        出典：「Snakemake」  
        URL：https://snakemake.readthedocs.io/en/stable/snakefiles/rules.html#external-scripts
    - run：pythonコードを記述します。  
        >![run](./images/run.png)  
        出典：「Snakemake」  
        URL：https://snakemake.readthedocs.io/en/stable/snakefiles/rules.html#snakefiles-and-rules



実験パッケージに複数の処理が存在する場合は、各処理をruleとして整理した後に、Snakefileの最上部にrule allを作成し、rule allのinputで最後に実行される処理の出力データを指定してください。それによって、SnakemakeがSnakefileに整理された実験パッケージ内の全ての処理の依存関係を定義し、その通りに実行することができます。rule allについては[こちら](https://snakemake.readthedocs.io/en/stable/tutorial/basics.html#step-7-adding-a-target-rule)を参照してください。  


### Snakefileの記述内容の確認方法

以下の方法でSnakefileの記述内容を確認することができます。  
確認するためには、実験パッケージのディレクトリで以下のコマンドを実行してください。  
- snakemake -n -r  
  以下のことを確認できます。
  - Snakefile内の処理の定義が適切であるか
  - 必要な計算量
- snakemake --dag | dot -Tpdf > dag.pdf  
  Snakefileに定義された処理の依存関係図(dag.pdf)が実験パッケージ内に作成されます。dag.pdfから依存関係を適切に記述できているかを確認することができます。  
  以下はdag.pdfのイメージです。 

  >![dag](./images/dag.png)  
  出典：「Snakemake」  
  URL：https://snakemake.readthedocs.io/en/stable/tutorial/basics.html?highlight=dag#step-4-indexing-read-alignments-and-visualizing-the-dag-of-jobs


  