<center>
<h1>使用Bioconda辅助生物信息学软件安装</h1>
<br/>
<img src="bioconda.png">
<p>
<em>2018-01-30</em>
<br/>
</p>
<p>
<em>Andrew Perry, <br/>Monash Bioinformatics Platform</em>
</p>
<p>
<em>王诗翔（译）, <br/>上海科技大学</em>
</p>
</center>

依照：<https://github.com/XSLiuLab/bioconda-tutorial/blob/master/Bioconda_Installation.ipynb>

否认声明：当我在谈论这件事的时候，我不会假装自己是一个Conda或Bioconda的专家。

这是我基于Simon Gladman, Saskia Hiltemann and Eric Rasche提供的一个工作坊["Packaging your bioinformatics tool with Bioconda and Galaxy"](https://www.melbournebioinformatics.org.au/projects-blog/bioconda/)进行的。

# 为什么使用Conda？

* 管理独立的_环境_，包括依赖。不需要`sudo`。
* 大型组织为`channels`的预编译的生态系统（如conda-forge、bioconda）
* 语言不限（不仅仅是Python！）
* 用不同的系统创建一个新的包都非常简单直接（一个食谱recipe包含一个短的[build.sh](https://github.com/pansapiens/bioconda-recipes/blob/master/recipes/seqtk/build.sh) 和 [meta.yml](https://github.com/pansapiens/bioconda-recipes/blob/master/recipes/seqtk/meta.yaml)）。
* 整合了Python的`virtualenv`和`pip`。
* 以Continuum Analytics公司为背景的开源工具（BSD）。一些默认channel中的包不是开源的。


# (*@ο@*) 哇～ 'environment'

Conda开源设置一些UNIX shell环境变量，主要是`PATH`，它决定了当你键入它程序名字时运行的程序版本。 

键入：

```bash
env
```

你将看到你的环境变量。

<img src="captainplanet.jpg">

# 为什么使用Bioconda？

* 大型可获取生信软件生态系统，约250位贡献者。
  - !!!--> http://bioconda.github.io/recipes.html <---!!!

* Conda环境促进可重复性 - 一个`environment.yml`文件可以记录工具版本（+构建号），它可以在其他地方稳定地重装。 

* 它是支持_Galaxy_工具安装方法，已经存在的包会进行维护并有新的软件加入。

* 质量控制 - 很好的文档指南（<http://bioconda.github.io/guidelines.html>），自动化测试、包构建（TravisCI / CircleCI）以及核心团队的合并审查。
  - 有趣的事实： Bioconda食谱不盲目地信任工具上的版本号，它们使用源包的md5和sha256检验和。

* Docker容器支持（Biocontainers项目）。

可以在[这个博客](http://blogs.nature.com/naturejobs/2017/11/03/techblog-bioconda-promises-to-ease-bioinformatics-software-installation-woes/)和[bioArxiv](https://www.biorxiv.org/content/early/2017/10/27/207092)看到更多卖点。

# 让我们从Bioconda安装Minicaonda和一些工具

Miniconda在你的家目录下和自己的Conda环境中安装`conda`包管理器（Miniconda是'Anaconda'的迷你版本）。

Miniconda可以通过以下链接查阅：
https://conda.io/miniconda.html

In [1]:
# 下载Minoconda

cd ~
# macOS系统
curl -O https://repo.continuum.io/miniconda/Miniconda3-latest-MacOSX-x86_64.sh

# 或者在Linux系统上
# curl -O https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 34.3M  100 34.3M    0     0  15.1M      0  0:00:02  0:00:02 --:--:-- 15.1M


In [2]:
# 查看安装帮助
sh ./Miniconda3-latest-MacOSX-x86_64.sh --help


usage: ./Miniconda3-latest-MacOSX-x86_64.sh [options]

Installs Miniconda3 4.3.31

-b           run install in batch mode (without manual intervention),
             it is expected the license terms are agreed upon
-f           no error if install prefix already exists
-h           print this help message and exit
-p PREFIX    install prefix, defaults to /Users/perry/miniconda3, must not contain spaces.
-s           skip running pre/post-link/install scripts
-u           update an existing installation
-t           run package tests after installation (may install conda-build)



: 2

In [3]:
# 开始安装
sh ./Miniconda3-latest-MacOSX-x86_64.sh
# sh ./Miniconda3-latest-MacOSX-x86_64.sh -b


Welcome to Miniconda3 4.3.31

In order to continue the installation process, please review the license
agreement.
Please, press ENTER to continue
>>> 


查看许可证（一直按 ENTER 键）然后键入'yes'。

安装器会将下面一行加入`~/.bash_profile` （`-s`选项可以禁止，Linux系统一般是加入`~/.bashrc`）。

In [7]:
export PATH="$HOME/miniconda3/bin:$PATH"

In [8]:
# 查看conda使用说明
conda --help

usage: conda [-h] [-V] command ...

conda is a tool for managing and deploying applications, environments and packages.

Options:

positional arguments:
  command
    info         Display information about current conda install.
    help         Displays a list of available conda commands and their help
                 strings.
    list         List linked packages in a conda environment.
    search       Search for packages and display their information. The input
                 is a Python regular expression. To perform a search with a
                 search string that starts with a -, separate the search from
                 the options with --, like 'conda search -- -h'. A * in the
                 results means that package is installed in the current
                 environment. A . means that package is not installed but is
                 cached in the pkgs directory.
    create       Create a new conda environment from a list of specified
                 packages.
   

In [9]:
# 启用 bioconda 'channel' 和其他一些
conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda

# 国内可以添加清华镜像
conda config --add channels defaults
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --set show_channel_urls yes

# 更多请查看 https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/



In [11]:
# 这是conda的配置文件，可以通过config命令修改
# 底部的channel优先
cat ~/.condarc

channels:
  - bioconda
  - conda-forge
  - defaults


In [14]:
# 安装一些conda包
conda install -y seqtk

Fetching package metadata ...............
Solving package specifications: .

Package plan for installation in environment /Users/perry/miniconda3:

The following NEW packages will be INSTALLED:

    seqtk:     1.2-0            bioconda

The following packages will be UPDATED:

    conda:     4.3.31-py36_0             --> 4.3.33-py36_0 conda-forge

The following packages will be SUPERSEDED by a higher-priority channel:

    conda-env: 2.6.0-h36134e3_0          --> 2.6.0-0       conda-forge

conda-env-2.6. 100% |################################| Time: 0:00:00 395.33 kB/s
seqtk-1.2-0.ta 100% |################################| Time: 0:00:00  63.60 kB/s
conda-4.3.33-p 100% |################################| Time: 0:00:01 279.73 kB/s


In [16]:
# samtools版本0.1.15构建号0
conda install -y samtools=0.1.15=0

# conda install kallisto
# conda install salmon=0.9.1 sailfish

Fetching package metadata ...............
Solving package specifications: .

# All requested packages already installed.
# packages in environment at /Users/perry/miniconda3:
#
samtools                  0.1.15                        0    bioconda


In [17]:
# 看下包都被装在哪里了
ls ~/miniconda3/bin

total 5792
drwxr-xr-x  75 perry  staff   2.3K 31 Jan 12:49 [34m.[39;49m[0m
drwxr-xr-x  13 perry  staff   416B 31 Jan 12:48 [34m..[39;49m[0m
-rwxr-xr-x   2 perry  staff   216B 27 Oct 02:51 [31m.python.app-post-link.sh[39;49m[0m
-rwxr-xr-x   2 perry  staff    39B 27 Oct 02:51 [31m.python.app-pre-unlink.sh[39;49m[0m
lrwxr-xr-x   1 perry  staff     8B 31 Jan 12:49 [35m2to3[39;49m[0m -> 2to3-3.6
-rwxrwxr-x   1 perry  staff   111B 31 Jan 12:49 [31m2to3-3.6[39;49m[0m
-rwxrwxr-x   2 perry  staff   3.7K 25 Jan 01:56 [31mactivate[39;49m[0m
-rwxr-xr-x   1 perry  staff   5.0K 31 Jan 12:09 [31mc_rehash[39;49m[0m
lrwxr-xr-x   1 perry  staff     3B 31 Jan 12:48 [35mcaptoinfo[39;49m[0m -> tic
-rwxr-xr-x   1 perry  staff   243B 31 Jan 12:10 [31mchardetect[39;49m[0m
-rwxrwxr-x   2 perry  staff    13K  3 Dec  2016 [31mclear[39;49m[0m
-rwxrwxr-x   1 perry  staff   132B 31 Jan 12:48 [31mconda[39;49m[0m
-rwxrwxr-x   1 perry  staff   150B 31 Jan 12:48 [31mconda-env[39;49

## 使用环境

让我们创建和切换到一个新的环境，安装一些包，记录我们安装了什么，然后退出环境。

https://conda.io/docs/user-guide/tasks/manage-environments.html

In [2]:
# 创建一个新的Conda环境
conda create -y --name new_env

Fetching package metadata ...............
Solving package specifications: 
Package plan for installation in environment /Users/perry/miniconda3/envs/new_env:

#
# To activate this environment, use:
# > source activate new_env
#
# To deactivate an active environment, use:
# > source deactivate
#



In [3]:
# 显式地启用环境
source activate new_env

(new_env) 

: 1

In [4]:
# 安装一些包
conda install -y samtools=0.1.14

(new_env) Fetching package metadata ...............
Solving package specifications: .

Package plan for installation in environment /Users/perry/miniconda3/envs/new_env:

The following NEW packages will be INSTALLED:

    ncurses:  5.9-10   conda-forge
    samtools: 0.1.14-0 bioconda   
    zlib:     1.2.8-3  conda-forge

(new_env) 

: 1

In [5]:
# 默认，环境位于 ~/miniconda3/envs
# 看一下
ls ~/miniconda3/envs/new_env/bin
which samtools

(new_env) (new_env) total 1336
drwxr-xr-x  18 perry  staff   576B  1 Feb 15:30 [34m.[39;49m[0m
drwxr-xr-x   7 perry  staff   224B  1 Feb 15:30 [34m..[39;49m[0m
lrwxr-xr-x   1 perry  staff    36B  1 Feb 15:30 [35mactivate[39;49m[0m -> /Users/perry/miniconda3/bin/activate
lrwxr-xr-x   1 perry  staff     3B  1 Feb 15:30 [35mcaptoinfo[39;49m[0m -> tic
-rwxrwxr-x   3 perry  staff    13K  3 Dec  2016 [31mclear[39;49m[0m
lrwxr-xr-x   1 perry  staff    33B  1 Feb 15:30 [35mconda[39;49m[0m -> /Users/perry/miniconda3/bin/conda
lrwxr-xr-x   1 perry  staff    38B  1 Feb 15:30 [35mdeactivate[39;49m[0m -> /Users/perry/miniconda3/bin/deactivate
-rwxrwxr-x   3 perry  staff    71K  3 Dec  2016 [31minfocmp[39;49m[0m
lrwxr-xr-x   1 perry  staff     3B  1 Feb 15:30 [35minfotocap[39;49m[0m -> tic
-rwxrwxr-x   1 perry  staff   5.2K  1 Feb 15:30 [31mncurses5-config[39;49m[0m
-rwxrwxr-x   1 perry  staff   5.2K  1 Feb 15:30 [31mncursesw5-config[39;49m[0m
lrwxr-xr-x   1 perry  s

: 1

In [6]:
# 你可以将当前的环境导出为一个environment.yml文件
# 这有点像Python中的requirements.txt文件
# 保留你分析项目的environment.yml
conda env export >environment.yml

cat environment.yml

(new_env) (new_env) (new_env) (new_env) (new_env) name: new_env
channels:
- bioconda
- conda-forge
- defaults
dependencies:
- samtools=0.1.14=0
- ncurses=5.9=10
- zlib=1.2.8=3
prefix: /Users/perry/miniconda3/envs/new_env

(new_env) 

: 1

In [7]:
# 另外，如果你想要通过channel + version + build + md5检验和锁定准确的包版本
# 注意这里有平台特异性，但更好地保证了可重复性
conda list --show-channel-urls --md5 --explicit >package-list.txt

cat package-list.txt

(new_env) (new_env) (new_env) (new_env) # This file may be used to create an environment using:
# $ conda create --name <env> --file <this file>
# platform: osx-64
@EXPLICIT
https://conda.anaconda.org/conda-forge/osx-64/ncurses-5.9-10.tar.bz2#f303ad9e588c5f06b9b02077b57d88d5
https://conda.anaconda.org/bioconda/osx-64/samtools-0.1.14-0.tar.bz2#d2d79f5cab9c1c420887875623d26ea9
https://conda.anaconda.org/conda-forge/osx-64/zlib-1.2.8-3.tar.bz2#03b6fcc7a5e1a471e74049665e1c06b0
(new_env) 

: 1

In [None]:
# 你可以使用这些文件创建包含这些包的新环境
# 命令如下：

# conda create --name reproduced_env --file environment.yml
# conda create --name locked_reproduced_env --file package-list.txt

In [9]:
# 离开环境
source deactivate

(new_env) (new_env) (new_env) (new_env) (new_env) 

# brew / linuxbrew怎么样？

* macOS系统的`brew`和`linuxbrew`基本上都是分离的项目。 

* 据传brew/linuxbrew生信软件的安装质量不好，经常崩溃。

## _homebrew-science_已经弃用了

https://github.com/Homebrew/homebrew-science/issues/6365

# apt, yum 等怎么样？

* 目标是系统级别的包 - 通常不能处理无权限的安装或者包版本的共存。

* 官方发行（Debian, Ubuntu, Centos）软件库很少能跟上生信软件的更新。非官方仓库有时候填补了空白（如Debian Med）。

* 创建包实在太复杂了。


# _modules_, LMOD等怎么样？

* 很适合使用环境变量（即 `PATH`）来管理共存版本。 

* LMOD环境可以“附加”（许多“modules”可以同时导入，不像conda环境）。

* LMOD不是一个包管理器（处理不了下载/编译/安装）。 

# _pip_和_virtualenv_怎么样？

* 这两个都和Python一起的，对Python包和包生态非常好。
* 对非Python包不友好（二进制包和依赖）。

# bio-ansible怎么样？

* [bio-ansible](https://github.com/MonashBioinformaticsPlatform/bio-ansible)因为是我们写的，所以非常棒。 
* 不那么棒的地方是为了安装新的工具我们必须编写任务。
  - 但是！bio-ansible 也支持安装`conda`包为LMOD模块（我们可以轻松地从Bioconda添加任何东西）。
* 支持无权限软件在家目录中安装、系统包和配置。
* 通过LMOD模块支持版本共存。
* 学习成本高。

# 我发现Conda没有处理好的一些事情

* 没有官方支持'stacking'环境和*ala* LMOD。
  - 我们该关心吗？软件比较小、硬盘空间便宜，让环境用所需的不同工具版本进行组合。
  - 非官方添加`max_shlvl: 16`到`~/.condarc`可以支持（YMMV）(https://github.com/conda/conda/issues/3580)。
* 构建包的食谱指明依赖名但没有依赖来自的channel名。
* 没有从源安装的方法（例如`conda install https://github.com/me/my_recipe`）、预编译二进制文件？
  - 考虑和拒绝的功能特性 https://github.com/conda/conda/issues/306

# 创建(Bio)conda包

## 让我们看一下_seqtk_的Bionconda食谱

https://github.com/bioconda/bioconda-recipes/tree/master/recipes/seqtk

### build.sh
```bash
#!/bin/bash

export C_INCLUDE_PATH=${PREFIX}/include
export LIBRARY_PATH=${PREFIX}/lib

make all
mkdir -p $PREFIX/bin
cp -f seqtk $PREFIX/bin/
```

`PREFIX`是conda构建环境中的安装路径（在配置文件中你可能会使用`configure --prefix=$PREFIX`）

## meta.yaml
```yaml
package:
  name: seqtk
  version: 1.2

source:
  fn: v1.2.tar.gz
  url: https://github.com/lh3/seqtk/archive/v1.2.tar.gz
  md5: 255ffe05bf2f073dc57abcff97f11a37

build:
  number: 0

requirements:
  build:
    - gcc   # [not osx]
    - llvm  # [osx]
    - zlib
  run:
    - zlib


about:
  home: https://github.com/lh3/seqtk
  license: MIT License
  summary: Seqtk is a fast and lightweight tool for processing sequences in the FASTA or FASTQ format

test:
  commands:
    - seqtk seq
```

## 构建一个食谱（普通conda方式）

In [25]:
cd ~
mkdir -p recipes/seqtk

# 创建你的build.sh和meta.yml
# 另见`conda skeleton`，它可以帮助生成特定包类型的模板

# vi recipes/seqtk/build.sh
# vi recipes/seqtk/meta.yaml

In [28]:
# 我们需要conda-build包构建包
conda install -y conda-build

Fetching package metadata ...............
Solving package specifications: .

Package plan for installation in environment /Users/perry/miniconda3:

The following NEW packages will be INSTALLED:

    beautifulsoup4: 4.6.0-py36_0  conda-forge
    conda-build:    2.1.18-py36_0 conda-forge
    conda-verify:   2.0.0-py36_0  conda-forge
    filelock:       2.0.6-py36_0  conda-forge
    jinja2:         2.10-py36_0   conda-forge
    markupsafe:     1.0-py36_0    conda-forge
    pkginfo:        1.4.1-py36_0  conda-forge
    pycrypto:       2.6.1-py36_1  conda-forge
    pyyaml:         3.12-py36_1   conda-forge

beautifulsoup4 100% |################################| Time: 0:00:02  59.83 kB/s
filelock-2.0.6 100% |################################| Time: 0:00:00   3.52 MB/s
markupsafe-1.0 100% |################################| Time: 0:00:00  29.10 kB/s
pkginfo-1.4.1- 100% |################################| Time: 0:00:00  83.65 kB/s
pycrypto-2.6.1 100% |################################| Time: 0:00:

In [31]:
# 一旦一个新的食谱创建了，我们就可以构建
conda build recipes/seqtk/

BUILD START: seqtk-1.2-0
updating index in: /Users/perry/miniconda3/conda-bld/osx-64
updating index in: /Users/perry/miniconda3/conda-bld/noarch

The following NEW packages will be INSTALLED:

    cctools:       895-h7512d6f_0              
    ld64:          274.2-h7c2db76_0            
    libcxx:        4.0.1-h579ed51_0            
    libcxxabi:     4.0.1-hebd6815_0            
    llvm:          4.0.1-hc748206_0            
    llvm-lto-tapi: 4.0.1-h6701bc3_0            
    zlib:          1.2.11-0         conda-forge


latest version is 3.3.0. Run

conda update -n root conda-build

to get the latest version.

Source cache directory is: /Users/perry/miniconda3/conda-bld/src_cache
Downloading source to cache: v1.2.tar.gz
Downloading https://github.com/lh3/seqtk/archive/v1.2.tar.gz
Success
Extracting download
Package: seqtk-1.2-0
source tree in: /Users/perry/miniconda3/conda-bld/seqtk_1517365865334/work/seqtk-1.2
+ source /Users/perry/miniconda3/bin/activate /Users/perry/miniconda3/

In [32]:
# 我们刚创建包的归档在哪里？
conda build recipes/seqtk/ --output

/Users/perry/miniconda3/conda-bld/osx-64/seqtk-1.2-0.tar.bz2


In [34]:
# 安装本地构建的包（使用'local' channel）
conda install -y --use-local seqtk

# 或者直接使用包的tar.bz2压缩包，或者存储它的http://链接
# conda install /Users/perry/miniconda3/conda-bld/osx-64/seqtk-1.2-0.tar.bz2
# conda install http://bioinformatics.erc.monash.edu/home/andrewperry/conda/seqtk-1.2-0.tar.bz2

Fetching package metadata .................
Solving package specifications: .

Package plan for installation in environment /Users/perry/miniconda3:

The following NEW packages will be INSTALLED:

    seqtk: 1.2-0 local



### 在Anaconda.org上发布

（在个人的`conda` channel上，独立于Bioconda项目channel）

步骤 1:
在<https://anaconda.org/>创建一个账号

In [None]:
# 步骤 2: 安装`anaconda-client`包
conda install anaconda-client

# 步骤 3: 登陆和上传
anaconda login
# use the path to the package reported by `conda build recipes/seqtk/ --output`
anaconda upload <path_to_package_bz2>

# 步骤 4: 测试包是否正常工作 —— 从你上传的channel上安装
conda uninstall bigdatascript
conda install -c https://conda.anaconda.org/pansapiens bigdatascript

# Bioconda方式

http://bioconda.github.io/contributing.html

添加一个食谱并在本地测试。

第一步 - 打开 https://github.com/bioconda/bioconda-recipes 然后Fork仓库。

然后克隆你的Fork。

```bash
export MY_GIT_USERNAME=pansapiens
git clone https://github.com/${MY_GIT_USERNAME}/bioconda-recipes.git
cd bioconda-recipes
```

为你的食谱创建一个新的分支。

```bash
git branch mynewtool
git checkout mynewtool
```

编辑你的食谱。使用一个已经存在的食谱作为模板是一个很好的方式（也可以使用`conda skeleton`）。

```bash
vi recipes/mynewtool/meta.yaml
vi recipes/mynewtool/build.sh

git commit -a -m "Added new recipe for mynewtool."
```

激活TravisCI环境进行测试。

```bash
# 这个Bioconda脚本会创建一个新的Miniconda安装
./simulate-travis.py --bootstrap /tmp/anaconda --overwrite

# 构建你的食谱并运行测试
# --packages 是可选选项，只有版本和构建改变的食谱会构建
./simulate-travis.py --disable-docker --packages mynewtool --force
```

如果测试通过，提交commit并推送到远程分支。

```bash
git push origin
```

* 到 https://github.com/bioconda/bioconda-recipes 创建一个合并请求。
* TravisCI 会自动构建你的分支。
* 如果 TravisCI 测试通过，Bioconda团队会审查你的合并请求，查看是否可以合并。
* Bioconda主分支的食谱会自动在Linux和macOS系统上构建并上传到Anaconda的`bioconda` channel上。

# 谢谢！