# Control de calidad (QC) inicial de genomas obtenidos por secuenciación Nanopore  e ilumina
En este notebook analizaremos los resultados de  secuenciación utilizando dos enfoques para la secuenciación del genoma de SARS-CoV-2. Ambos se basan en el **ARTIC protocol** desarrollado por [Artic Network] (https://artic.network/ncov-2019). Para Illumina, corresponde al protocolo Classic Artic, que amplifica el genoma SARS-CoV-2 en 98 fragmentos de 400 pb cada uno. Para Nanopore, el protocolo usado se llama **"Midnight Protocol"** y se basa en la amplificación de 29 fragmentos superpuestos de 1200 pb que cubren todo el genoma SARS-CoV-2 SARS-CoV-2.
El contenido del notebook se puede resumir en:

* Descargar datos
* Instalar software y preparar el entorno
* Ejecutar el control de calidad de la secuenciación


### Descargar datos

In [None]:
!wget https://zenodo.org/records/10681134/files/module_2.tar.gz

### Extraer los archivos .tar.gz

In [None]:
!tar xvf module_2.tar.gz

### Instalar condacolab

In [None]:
!pip install -q condacolab
import condacolab
condacolab.install()

### Instalar software

In [None]:
# Instalar fastqc
!conda install -c bioconda fastqc

In [None]:
# Instalar nanoplot
!conda install -c bioconda nanoplot

In [None]:
#Instalar multiqc
!pip install multiqc

### Recordemos el formato FASTQ

Todos los secuenciadores producen datos en un formato llamado **FASTQ**. A coninuación verá la estructura del formato. Todas las secuencias FASTQ están representadas por 4 líneas:

```
@SEQ_ID                   <---- SEQUENCE NAME
AGCGTGTACTGTGCATGTCGATG   <---- SEQUENCE AS BASES
+                         <---- SEPARATOR LINE
%%).1***-+*''))**55CCFF   <---- ASCII QUALITY SCORES

```

La calidad de las secuencias se representa como un carácter del código ASCII. Revise [aquí](https://support.illumina.com/help/basespace_olh_009008/content/source/informatics/bs/qualityscoreencoding_swbs.htm) para una explicación más detallada.
Los valores numéricos corresponden a los valores de calidad de Phred

# Illumina QC

Usaremos el software [fastQC] (https://www.bioinformatics.babraham.ac.uk/projects/fastqc/) para el análisis de los resultados de secuenciación de Illumina. FastQC ejecuta una serie de análisis de archivos FASTQ e informa los resultados como un archivo html que abre en un navegador. Para obtener ayuda en cualquiera de las secciones, consulte los siguientes enlaces.

*   [Basic statitistics](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/1%20Basic%20Statistics.html)
*   [Per base sequence quality](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/2%20Per%20Base%20Sequence%20Quality.html)
*   [Per base sequence content](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/4%20Per%20Base%20Sequence%20Content.html)
*   [Per sequence GC content](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/5%20Per%20Sequence%20GC%20Content.html)
*   [Per base N content](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/6%20Per%20Base%20N%20Content.html)
*   [Sequence length distribution](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/7%20Sequence%20Length%20Distribution.html)
*   [Duplicate Sequences](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/8%20Duplicate%20Sequences.html)
*   [Overrepresented Sequences](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/9%20Overrepresented%20Sequences.html)
*   [Adapter content](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/10%20Adapter%20Content.html)
*   [Kmer content](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/11%20Kmer%20Content.html)
*   [Per tile sequence quality](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/12%20Per%20Tile%20Sequence%20Quality.html)


Ejecute FastQC desde la línea de comandos

In [None]:
#Cree un directorio para almacenar todos los resultados de FastQC y ejecutar FastQC
!mkdir Illumina_fastqc_results
!fastqc -o Illumina_fastqc_results /content/module_2/illumina/*

Como lo hicimos en el módulo anterior, podemos resumir los resultados de FASTQC usando MultiQC

In [None]:
!multiqc -o /content/Illumina_fastqc_results/ /content/Illumina_fastqc_results/

Esto creará un archivo de resultados HTML (`Multiqc_report`) con un resumen de los informes de FastQC.

Revise los resultados para cada archivo e informe:

> **¿Qué muestra tiene más lecturas?**

> **¿Cuál es el tamaño promedio de reads de la muestra SRR19903797?**

# Nanopore QC

Ejecute FastQC desde la línea de comandos (en realidad, para nanopore, FastQC no es una buena opción)

In [None]:
!mkdir Nanopore_FastQC_report
!fastqc -o Nanopore_FastQC_report /content/module_2/nanopore/*

In [None]:
!multiqc -o /content/Nanopore_FastQC_report/ /content/Nanopore_FastQC_report/

Ejecución de NanoPlot para datos de nanopore

In [None]:
!NanoPlot -o nanoplot_output --fastq /content/module_2/nanopore/*.fastq.gz 

 La salida estará en la carpeta NanoPlot_output. Descargue el archivo `nanoplot-report.html` y explore los resultados.


> **¿Cuántas lecturas hay en total?**

> **¿Cuál es el tamaño de lectura promedio?**

*Modificado por Luisa Sacristán (Universidad de los Andes-CABANA)*