# Introduction to metabarcoding: DADA2 Tutorial

**Workshop led by: (Pedro E. Romero)** <br>
**Assisted by: Boris ..., Camila Castillo-Vilcahuaman** <br>
**Tutorial by: @reymonera (Camila Castillo-Vilcahuaman)**

This is a tutorial with all the necessary commands for the use of the R package DADA2. All the analysis are done and exposed here with their respective figures. In this opportunity, we will use data from an already published study: Metabarcoding in the most important river in Lima, Peru: The Rimac river.

This pipeline and tutorial is heavily based on another great bioinformatician's pipeline (Hi, @AstroBioMike!). If you want to learn more about this package, I highly suggest to visit this tutorial.

## 1. Getting to know the DADA2 package

First of all, we will get a first glance of how this environment stuff works. First of all, this is a Jupyter notebook. It is easier to show you guys how code works using these.
However, for our workshop to work well, we will need to set everything up first. So, for this, we will proceed with the following code:

```
conda env create -f dada2_env.yaml
conda activate dada2_env
python -m ipykernel install --user --name=dada2_env
jupyter-notebook
```

Now, we will proceed with enabling R code in this notebook. As you've probably guessed, Jupyer mainly runs with python. But we can make our own stuff run here using the following command:

In [1]:
%load_ext rpy2.ipython



Empezamos por descargar la información necesaria para nuestro análisis. Estaremos trabajando con la data del estudio de las comunidades microbianas presentes en el río Rímac. Para ello requeriremos descargarlas de la siguiente forma: 
- Primero, nos dirigimos a la pestaña “Terminal” de nuestro RStudio. Luego, pegaremos los siguientes comandos:

In [None]:
!cd ~
!curl -L -o dada2_amplicon_ex_workflow.tar.gz
!https://ndownloader.figshare.com/files/28773936
!tar -xzvf dada2_amplicon_ex_workflow.tar.gz
!rm dada2_amplicon_ex_workflow.tar.gz
!cd dada2_amplicon_ex_workflow/

Con el último comando, nos podremos ubicar dentro de la carpeta. Si le damos a `ls` podremos observar los nuevos archivos que hemos adquirido.

- Ahora, requeriremos un listado de los archivos que tiene por nombre `samples` con la información de nombres de cada uno de los archivos. Esto hará más simple el moverse por los archivos, y facilitará varios aspectos relacionados al procesamiento. Estaremos llamando a estos archivos constantemente. Quedándonos en “Terminal”, ejecutamos el siguiente comando:

In [None]:
!ls *_R1.fq | cut -f1 -d "_" > samples

- Toca hacerle un tratamiento a nuestros archivos de reads. Ello implica cortar los adaptadores con los que vienen por default. Eso lo podemos lograr con `cutadapt`. En nuestra terminal, ejecutamos el siguiente comando:

In [None]:
cutadapt --version # 2.3
cutadapt -a ^GTGCCAGCMGCCGCGGTAA...ATTAGAWACCCBDGTAGTCC \
-A ^GGACTACHVGGGTWTCTAAT...TTACCGCGGCKGCTGGCAC \
-m 215 -M 285 --discard-untrimmed \
-o B1_sub_R1_trimmed.fq -p B1_sub_R2_trimmed.fq \
B1_sub_R1.fq B1_sub_R2.fq

Y ejecutaremos `cutadapt` para B1. Si deseamos ejecutar cutadapt para el resto de nuestras
muestras, lo mejor será utilizar un artilugio del lenguaje Bash:

In [None]:
!for sample in $(cat samples)
!do
    !echo "On sample: $sample"

    !cutadapt -a ^GTGCCAGCMGCCGCGGTAA...ATTAGAWACCCBDGTAGTCC \
    -A ^GGACTACHVGGGTWTCTAAT...TTACCGCGGCKGCTGGCAC \
    -m 215 -M 285 --discard-untrimmed \
    -o ${sample}_sub_R1_trimmed.fq.gz -p ${sample}_sub_R2_trimmed.fq.gz \
    ${sample}_sub_R1.fq ${sample}_sub_R2.fq \
    >> cutadapt_primer_trimming_stats.txt 2>&1
!done

Esto terminará por realizar el tratamiento en nuestra data. Ahora sí, podremos dirigirnos a la consola de R y empezar a poner todo en orden. Primero, señalamos en donde nos vamos a quedar y cuál será nuestro espacio de trabajo:

In [2]:
%%R
getwd()
setwd("~/dada2_amplicon_ex_workflow")

[1] "/home/marlen/gitrepos/dada2_msm-course-2024"


In [10]:
%%R
library(dada2)
packageVersion("dada2")

[1] ‘1.30.0’


Crea una variable llamada `samples`

In [None]:
%%R
samples <- scan("samples", what="character")
list.files()