# Gerenciado de pacotes e pipelines com `conda`, containers (Docker e Singularity) e orquestradores de pipelines (NextFlow)

## Introdução ao conda

Conda é uma ferramenta de gerenciamento de pacotes, ambientes e dependências para múltiplas linguagens de programação, incluindo Python. Na bioinformática, onde o ambiente de computação é frequentemente diverso e complexo, o Conda é uma ferramenta valiosa para gerenciar diferentes bibliotecas, ferramentas e versões de software.

### Conceitos Básicos


* Conda: Uma ferramenta de gerenciamento de pacotes e ambientes.
* Ambientes Conda: Ambientes isolados que podem conter diferentes versões de Python e pacotes. Isso permite que você instale e mantenha separados os requisitos específicos para diferentes projetos ou tarefas.
* Pacotes: Software, bibliotecas ou ferramentas disponíveis para instalação via Conda.

### Instalando o Conda


A bioinformática, na prática exige o uso e/ou o desenvolvimento de diversas ferramentas. Para facilitar o uso de softwares, e suas diferentes versões em diferentes sistemas operacionais, o [Anaconda ou Conda](https://docs.conda.io/en/latest/) é uma excelente solução. Nesse curso por exemplo usaremos ambiente customizados em um Google Colab. Mais informações sobre a biblioteca usada para instalar o Conda no Google Colab podem ser encontradas [aqui](https://inside-machinelearning.com/en/how-to-install-use-conda-on-google-colab/).

Você pode conferir o repositório [condacolab](https://github.com/conda-incubator/condacolab) para ter mais informações.


In [None]:
!pip install -q condacolab

In [None]:
import condacolab
condacolab.install()

### Guia de questões e comandos

Responda às seguintes perguntas nos blocos de código abaixo

1. Como verificar os ambientes disponíveis?
2. Como criar um ambiente através do conda?
3. Como ativar um ambiente conda?
4. Como procurar se uma ferramenta esta disponível no bioconda?
5. Como instalar programas através do conda?
6. Como exportar um ambiente conda?  
7. Como desinstalar programas de um ambiente conda?
8. Como remover um ambiente conda?
9. Como criar um ambiente a partir de um arquivo YML?
10. Como verificar os pacotes instalados no ambiente conda?

1. Como verificar os ambientes disponíveis?


In [None]:
!conda --version
!conda env list

2. Criar um ambiente através do conda chamado `bioinfo`

In [None]:
!conda create -n bioinfo

3. Ativar um ambiente conda

In [None]:
%%bash
source activate /usr/local/envs/bioinfo
conda info

4. Procurar se uma ferramenta está disponível no bioconda

In [None]:

!conda search -c bioconda blast

5. Instalar programas através do conda

In [None]:

!conda install -c bioconda blast=2.15.0

Verificar os pacotes instalados


In [None]:
!conda list

Verificar o help do programa


In [None]:
!blastx -h

6. Exportar um ambiente conda

In [None]:
!conda env export > blast.yml

Verificar se o env foi exportado


In [None]:
!ls
!cat blast.yml

7. Desinstalar programas de um ambiente conda

In [None]:

!conda remove blast

Verificar se o pacote foi desinstalado

In [None]:

!conda list

Remover um ambiente conda.

In [None]:
!conda env list
!conda env remove -n bioinfo

Verificar os ambientes

In [None]:
!conda env list

8. Criar um ambiente a partir de um arquivo YML

In [None]:
!sed -i 's/name: base/name: bioinfo/g' blast.yml
!sed -i 's/local/local\/env\/bioinfo/g' blast.yml
!cat blast.yml

!conda env create -f blast.yml

9. Verificar os pacotes instalados no ambiente conda


In [None]:
%%bash
source activate /usr/local/envs/bioinfo
conda info
conda list

Leia mais sobre containers/docker:
* [Container Docker](https://www.meupositivo.com.br/panoramapositivo/container-docker/)
*[Aplicação de containers](https://www.docker.com/resources/what-container/)
*[Desmistificando container](https://cloudblogs.microsoft.com/opensource/2019/07/15/how-to-get-started-containers-docker-kubernetes/)

## Introdução a conteinerização 

Na bioinformática, lidamos com grandes conjuntos de dados, uma variedade de ferramentas e bibliotecas, e muitas vezes enfrentamos desafios de compatibilidade de software e dependências. Contêineres, como Docker e Singularity, surgiram como soluções valiosas para gerenciar esses problemas, oferecendo ambientes isolados e portáteis para executar aplicativos e workflows bioinformáticos de forma consistente em diferentes sistemas.

1. O que são contêineres?


Definição: Contêineres são unidades de software que encapsulam um ambiente completo - incluindo código, bibliotecas, dependências e configurações - permitindo a execução consistente de aplicativos em diferentes ambientes.
Comparação com máquinas virtuais: Contêineres são mais leves que as máquinas virtuais, pois compartilham o kernel do sistema operacional do host, resultando em menor sobrecarga e maior eficiência.

2. Docker terminologias:


* Visão geral

Docker é uma plataforma de contêinerização amplamente utilizada na indústria de software.


### Principais recursos:

* Imagens

Pacotes de software pré-configurados e prontos para execução.

* Containers

Instâncias em execução de imagens isoladas.

* Dockerfile

Arquivo de configuração usado para construir imagens personalizadas.

Exemplo de um `dockerfile`

In [None]:
################## BASE IMAGE ######################
FROM continuumio/miniconda3:23.10.0-1
ENV DEBIAN_FRONTEND noninteractive

################## METADATA ######################
ARG software_version=0.3.6
LABEL base_image="continuumio/miniconda3"
LABEL version="0.3.6"
LABEL software="mosdepth"

################## INSTALL BWA ######################
RUN conda install mosdepth=${version} -c bioconda

# Clean up
RUN apt-get clean && \
    rm -rf /var/lib/apt/lists/* /tmp/* /var/tmp/*

################## RUN BWA ######################
CMD ["mosdepth"]

### Exemplo prático: Criando e executando um contêiner Docker na bioinformática.`

#### Passos:

[Instalação do Docker](https://docs.docker.com/desktop/). Caso você não possua OS Ubuntu não se preocupe, o Docker pode ser instalado em vários OS.

In [None]:
sudo apt-get update
sudo apt-get install docker-ce

Baixando uma imagem bioinformática pré-configurada.

In [1]:
docker pull biocontainers/bowtie2:v2.4.2_cv1

Cannot connect to the Docker daemon at unix:///Users/wilsondasilvajunior/.docker/run/docker.sock. Is the docker daemon running?


Executando ferramentas bioinformáticas dentro do contêiner.

In [None]:
!docker run -it biocontainers/bowtie2:v2.4.2_cv1 bowtie2 --help

3. Singularity:


Visão geral: Singularity é uma ferramenta de contêinerização projetada especificamente para ambientes de computação de alto desempenho (HPC), como clusters de computadores.


### Principais recursos:

* Compatibilidade HPC

Singularity foi projetado para trabalhar com ambientes HPC sem a necessidade de privilégios de superusuário.

* Suporte a Docker

Singularity é compatível com imagens Docker, facilitando a migração de aplicativos entre as duas plataformas.

Exemplo de um arquivo `def`

In [None]:
Bootstrap: library
From: debian:11

%environment
    export PATH=$PATH:/usr/local/bin/micromamba:/usr/local/bin/mm:/usr/local/bin/mm/bin
    
%post
    nextclade_version="0.3.6"
    apt-get update
    apt-get install -y curl bzip2
    cd /usr/local
    rmdir bin
    curl -Ls https://micro.mamba.pm/api/micromamba/linux-64/latest | tar -xvj bin/micromamba
    export MAMBA_ROOT_PREFIX=/usr/local/bin/mm
    eval "$(/usr/local/bin/micromamba shell hook -s posix)"
    /usr/local/bin/micromamba shell init -s bash -p /usr/local/bin/mm
    micromamba shell init --shell=bash --prefix=/usr/local/bin/mm
    micromamba activate
    micromamba config append channels conda-forge --env
    micromamba self-update
    micromamba install mosdepth=${nextclade_version} -c bioconda

### Exemplo prático: Utilizando Singularity para executar workflows bioinformáticos em um cluster HPC.

#### Passos:

Instalação do Singularity no cluster.

In [None]:
sudo apt-get update
sudo apt-get install singularity-container

Conversão de uma imagem Docker em um formato compatível com Singularity.

In [None]:
singularity build biocontainer.sif docker://biocontainers/bowtie2:v2.4.2_cv1

Submissão de um job de bioinformática utilizando o contêiner Singularity.

In [None]:
singularity exec biocontainer.sif bowtie2 --help

4. Casos de uso na Bioinformática:

* Reprodutibilidade


Contêineres permitem a reprodução consistente de resultados, garantindo que outros pesquisadores possam replicar experimentos.

* Gerenciamento de dependências

Contêineres simplificam a instalação e o gerenciamento de bibliotecas e ferramentas bioinformáticas, eliminando conflitos de dependência.

* Colaboração

Contêineres facilitam o compartilhamento de workflows e ferramentas entre pesquisadores, promovendo a colaboração e o intercâmbio de conhecimento.

5. Considerações de Segurança e Desempenho:

* Segurança: É importante estar ciente das práticas recomendadas de segurança ao usar contêineres, como a execução de imagens confiáveis e a aplicação de políticas de controle de acesso.
* Desempenho: Embora os contêineres sejam mais leves que as máquinas virtuais, ainda é importante considerar o impacto no desempenho, especialmente em ambientes de computação de alto desempenho.

### Conclusão:

Os softwares de conteinerização, como Docker e Singularity, oferecem soluções poderosas para os desafios de gerenciamento de software e dados na bioinformática. Ao fornecer ambientes isolados e portáteis, os contêineres facilitam a execução de aplicativos e workflows em diferentes ambientes de computação. Ao incorporar contêineres em práticas de pesquisa bioinformática, os cientistas podem melhorar a reprodutibilidade, colaboração e eficiência de seus projetos. Repositórios como o [dockerhub](https://hub.docker.com/) hospedam muitas receitas prontas para serem utilizadas em workflows.