# Análisis de variantes desde lecturas de secuenciador masivo

> Jorge Maturana, Instituto de Informática UACh, jorge.maturana@uach.cl


### Presentación

Este tutorial presenta un pipeline de análisis de datos obtenidos desde un secuenciador masivo de datos paired-end, hasta llegar a la identificación de variantes. Para ello se propone un pieline basado en línea de comandos de Linux, con herramientas instaladas en un ambiente de Conda

### Presentación

Este tutorial se estructura de la siguiente forma:

1. Seteo del ambiente
 - Conda
 - Jupyter Notebook
 - Creación de estructura de directorios
 - Descarga de DNA de referencia
 - Obtención de archivos desde el secuenciador
1. Control de calidad
1. Trimming
1. Alineamiento de datos podados pareados
 - Indexación de ADN de referencia
 - Alineamiento
1. Variant calling
 - Creación de archivo pileup
 - Llamado de variantes



## 1. Seteo del ambiente

### Conda

**Conda** es un administrador de paquetes multiplataforma que permite generar ambientes destinados a distintas actividades en el mismo computador. Para más información sobre conda visite [este link](https://docs.conda.io/en/latest/).

**Miniconda** es una implementación mínima de Conda. Una introducción breve y las instrucciones para la instalación pueden encontrarse en [este video](https://www.youtube.com/watch?v=23aQdrS58e0).

En este tutorial se utilizará Conda. Se reecomienza crear un ambiente llamado *bioinfo* y agregar el canal **bioconda**, que contiene varios de los programas que utilizaremos

In [None]:
!conda create -n bio python=3.9
!conda activate bio
!conda config --add channels bioconda

Para comenzar a utilizar el ambiente bioinfo se debe activar:

In [None]:
!conda activate bio

### Jupyter Notebook

Jupyter Notebook es un ambiente basado en web para el desarrollo interactivo de codigo y texto. Una introducción rápida y simple se entrega en [este video](https://www.youtube.com/watch?v=6Vr9ZUntCyE).

### Creación de estructura de directorios

Durante el proceso de eanálisis se generan muchos archivos. Crear una estructura de directorios es conveniente porque:
- Permite proteger los datos crudos de eliminaciones o modificaciones accidentales
- Permite separar los archivos generados en cada paso del proceso, en caso de rollback



In [None]:
!mkdir RawReads # para los reads crudos (que vienen del secuenciador)
!mkdir DNAref # para almacenar el DNA de referencia
!mkdir FastQC_RawData # para guardar los resultados de calidad de los reads crudos
!mkdir TrimReads # para almacenar los reads podados
!mkdir FastQC_TrimData # para guardar los resultados de calidad de los reads podados
!mkdir Align # para almacenar los resultados del alineamiento
!mkdir VarCall # para almacenar las variantes llamadas

### Descarga de DNA de referencia

Es necesario contar con el ADN de referencia para alinear los reads. Este se puede obtener desde una base dedatos. En nuestro caso, se cuenta con el link de descarga directo desde NCBI. Descargaremos el archivo mediante la utilidad **wget** y la almacenarremos en el directorio DNAref

In [None]:
%cd DNAref
!wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/215/GCF_000001215.4_Release_6_plus_ISO1_MT/GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fna.gz
#!gunzip GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fna.gz
%cd ..

### Obtención de archivos desde el secuenciador

Los archivos desde el secuenciador vienen en formato FASTQC. En este tutorial utilizaremos dos archivos procedentes de una secuenciación Paired-end de Drosophila melanogaster (mosca de la fruta), los cuales fueron utilizados originalmente en el tutorial de Bérénice Batut que se puede encontrar [acá](https://training.galaxyproject.org/archive/2021-08-01/topics/sequence-analysis/tutorials/quality-control/tutorial.html#process-paired-end-data)

> Los nombres de archivos de genoma pueden ser muy largos, lo que podría confundirnos al momento de tipear los comando. Es posible trabajar localmente con nombres más simples
>
>Para no perder el nombre de los archivos y no utilizar más espacio de disco que le necesario, se pueden usar links simbólicos de Linux (similares a los accesos directos en Windows), los cuales crean un puntero a otro archivo


In [None]:
%cd RawReads/
# descarga de datos
!wget https://zenodo.org/record/61771/files/GSM461178_untreat_paired_subset_1.fastq
!wget https://zenodo.org/record/61771/files/GSM461178_untreat_paired_subset_2.fastq
# creación de links simbólicos
!ln -s GSM461178_untreat_paired_subset_1.fastq R1.fq
!ln -s GSM461178_untreat_paired_subset_2.fastq R2.fq
%cd ..

## 2. Control de calidad

### análisis de muestras crudas con FastQC

Para observar la calidad de los reads crudos se puede invocar FastQC

In [None]:
!fastqc RawReads/R1.fq -o FastQC_RawData/
!fastqc RawReads/R2.fq -o FastQC_RawData/

### Analizar Reportes de FastQC

FastQC genera una página web con distintos módulos de análisis en los que se despliegan estadísticas de los datos. Las siguientes gráficas muestran las calidades dpor base de los reads en R1 yy R2:

<table><tr>
<td> <img src="images_JupNot/FastQC_rawR1.png" alt="FastQC raw R1" style="width: 400px;"/> </td>
<td> <img src="images_JupNot/FastQC_rawR2.png" alt="FastQC raw R2" style="width: 400px;"/> </td>
</tr></table>


## 3. Trimming

El proceso de **trimming** (o poda) permite eliminar reads de baja calidad y adaptadores sintéticos que pudieran haberse secuenciado por error.

Al realizar una poda de dos archivos (FASTQ) con reads paired-end, se generan 4 archivos FASTQ con reads pareados (cuyo par en el sentido contrario de lectura ha sobrevivido), y con reads no-pareados para cada una de las lecturas, R1 y R2.

<img src="images_JupNot/trimming.png" alt="Trimming" style="width: 700px;"/>

La documetación de trimmomatic puede encontrse [aquí](http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/TrimmomaticManual_V0.32.pdf).

A continuación se instalará trimomatic en el ambiente de conda y se ejecutará sobre los datos Paired End que se encuentran en el directorio RawReads. Los resultados se almacenarán en el directorio TrimReads

In [None]:
#!conda install trimmomatic
!trimmomatic PE RawReads/R1.fq RawReads/R2.fq TrimReads/p_R1.fq TrimReads/u_R1.fq TrimReads/p_R2.fq TrimReads/u_R2.fq LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:20

   ### FastQC sobre datos podados
   
   Para apreciar el efecto del trimming, se analizan los archivos con los reads podados con FastQC
   

In [None]:
!for i in `ls TrimReads/*.fq`; do fastqc $i -o FastQC_TrimData/; done

Las siguientes gráficas muestran las calidades por base de los reads podados en los archivos pareados de R1 yy R2, las cuales se pueden comparar con la de los datos crudos, mostrados anteriormente

<table><tr>
<td> <img src="images_JupNot/FastQC_trim_pR1.png" alt="FastQC trimmed paired R1" style="width: 400px;"/> </td>
<td> <img src="images_JupNot/FastQC_trim_pR2.png" alt="FastQC trimmed paired R2" style="width: 400px;"/> </td>
</tr></table>


## 4. alineamiento de datos podados pareados

De manera arbitraria, sólo alinearemos los reads de los datos pareados que sobrevivieron a la poda. Este proceso se separa en dos pasos: indexación y alineamiento propiamente tal

<img src="images_JupNot/alineamiento.png" alt="Alineamiento" style="width: 700px;"/>


### Indexación de ADN de referencia

Con el objeto de acelerar el alineamiento, el ADN de referencia debe indexarse. Este proceso puede tardarse, pero se realiza solamente una vez, dado que es independiente de los reads.

In [None]:
!bwa index DNAref/GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fna.gz

### Alineamiento

Una de las herramientas más utilizadas para realizar el alineamiento es bwa (Burrows-Wheeler Aligner). Este proceso genera un archivo SAM, que será almacenado en la carpeta Align

In [None]:
!bwa mem DNAref/GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fna.gz TrimReads/p_R1.fq TrimReads/p_R2.fq > Align/trimPaired.sam

###  Visualización con IGV

Nos interesa visualizar el alineamiento para tener una idea de lo que ha resultado de este proceso. Esto se puede hacer con el programa IGV.

Para desplegar los resultados en IGV, se debe transformar el archivo SAM a su equivalente comprimido BAM, y posteriormente indexarlo.

In [None]:
%cd Align/
!samtools sort trimPaired.sam -o sorted_trimPaired.bam
!samtools index sorted_trimPaired.bam
%cd ..

In [None]:
!igv Align/sorted_trimPaired.bam

IGV despliega los reads bajo el genoma de referencia. Tanto algunos reads como algunos nucleótidos están marcado en color, para llamar la atención sobre alguna situación especial. El significado de cada color puede ser revisado [acá](https://software.broadinstitute.org/software/igv/AlignmentData).

Debe asegurarse que el ADN de referencia contra el cual se están desplegando los reads es el correcto. Een nuestro caso, **D. melanogaster (dm6)**

A Modo de ejemplo, en el locus **chr2L:10,201,310-10,202,060** se observa una cantidad significativa de reads. Un **locus** es una ubicación dentro del genoma, en nuestro caso en el **cromosoma 2L** entre las posiciones 10,201,310 y 10,202,060

<img src="images_JupNot/IGV_profLectura.png" alt="IGV porfundidad de lectura" style="width: 700px;"/>

En el locus **chr2L:9,967,742-9,968,167** aparecen dos SNPs con bastante claridad

<img src="images_JupNot/IGV_SNPs.png" alt="IGV SNPs" style="width: 700px;"/>


## 5. Variant calling

El llamado de variantes permite distinguir, con una alta probabilidad, las variantes verdaderas de los artefactos producidos durante el proceso de laboratorio (considerando, entree otros, la obtención y preparación de muestras, PCR, preparación de librerías y secuenciación)

Este procedimiento se realiza en dos pasos: creación del archivo pileup, y llamado de variantes propiamente tal

<img src="images_JupNot/varCall.png" alt="Llamado de variantes" style="width: 700px;"/>


### Creación de archivo pileup

Este proceso se realiza con la utilidad *samtools mpileup*, la cual requiere un ADN de referencia descomprimido o bien comprimido con una utilidad similar a *gzip*, llamada *bgzip*

In [None]:
!gunzip DNAref/GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fna.gz #descomprimir .gz
!bgzip DNAref/GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fna # volver a comprimir el FASTA con bgzip

In [None]:
!samtools mpileup Align/sorted_trimPaired.bam -g -f DNAref/GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fna.gz > VarCall/pileup.bcf

### Llamado de variantes

El llamado de variantes propiamente tal se realiza con la herramienta bcftools call

In [None]:
!bcftools call -O b -vc VarCall/pileup.bcf > VarCall/varCall.bcf
#(opción -O b indica que el output es BCF, -O v sacaría un VCF)

# transformar BCF a VCF
!bcftools view VarCall/varCall.bcf > VarCall/varCall.vcf

### Visualización de llamado de variantes en IGV

Las variantes identificadas pueden visualizarse junto a los reads con la ayuda de IGV

In [None]:
!igv Align/sorted_trimPaired.bam VarCall/varCall.vcf

> **Esta sección contiene un devío del pipeline**
> 
> Por alguna razón, al intentar visualizar los llamados con referencia al genoma y anotaciones de D. melanogaster incluidos en IGV, estos no so desplegados.
> una hipótesis es que los nombres del FASTA utilizado por IGV y el alineamiento no nos los mismos

Una forma de verificar lo anterior es explorar los nombres de los encabezados del FASTA del DNA de referencia. Para esto, desplegamos el listado de encabezados, filtrando con el carácter ">"

> **cat** y **grep** son utilidades de la línea de comanndos. cat muestra el contenido de todo el archivo, el resultodo de eso, en vez de ser mostrado por pantalla, es canalizado a través del operador **pipe** (**|**) hacia grep, que filtra las líneas que contienen el carácter ">", dejando fuera a las secuencas y dejando pasar sólo los encabezados

In [None]:
!cat DNAref/GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fna | grep ">"

Una gran cantidad de secuencias corresponden a contigs o scacffolds (marcados con el prefijo *NW_*. Para eliminar estos, volvemos a filtrar para eliminar estos encabezados, esta vez utilizando el modificados **-v** de grep, que invierte el filtro

In [None]:
!cat DNAref/GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fna | grep ">" | grep -v "NW_"

Observamos que en este archivo el cromosoma 2L está identificado como

> \> NT_033779.5 Drosophila melanogaster chromosome 2L

Por lo que el locus en donde se ha+ian observado los SNPs (**chr2L:9,967,742-9,968,167**) aparecerá ahora bajo el nombre **NT_033779.5:9,967,742-9,968,167**) 

Para visualizar las variantes llamadas, se debe:
1. Iniciar IGV
1. En el menú *Genomes -> Load Genomes From File...* cargar el genoma de rerferencia almacenado en la carpeta DNAref
1. En el menú *File -> Load From File...* cargar VarCall/varCall.vcf
1. En el menú *File -> Load From File...* cargar Align/trimPaired.bam
1. En la ventana del locus, colocar NT_033779.5:9,967,742-9,968,167

Con esto, podemos visualizar que las variantes que se habían observado a simple fueron confirmadas en el proceso de llamado de variantes

<img src="images_JupNot/IGV_varCall.png" alt="IGV llamado de variantee" style="width: 700px;"/>

Es posible cargar las anotaciones del genoma de referencia descargando de desde NCBI el archivo GFF (link [acá](https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/215/GCF_000001215.4_Release_6_plus_ISO1_MT/GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.gff.gz)). Al cargar en el menú *File -> Load From File...* se podrá observar que esta variante pertenece al gen RpL13, para el cual se podŕia buscar mayor información en alguna base de datos especializada como [FlyBase](https://flybase.org/).

<img src="images_JupNot/IGV_varCall_gene_RpL13.png" alt="IGV identificaicón de gen" style="width: 700px;"/>
