## **Control de calidad inicial para la secuenciación del genoma del SARS-CoV-2 con Nanopore**

En este notebook analizaremos los resultados de las ejecuciones de secuenciación con el protocolo **ARTIC**, desarrollado por la [ARTIC Network](https://artic.network/ncov-2019). Para Nanopore, el protocolo utilizado se denomina **"Midnight Protocol "** y se basa en la amplificación de 29 fragmentos solapados de 1200bp que cubren todo el genoma del SARS-CoV-2.

El contenido del cuaderno puede resumirse en:

* Descargar datos
* Preparar el entorno e Instalar el software
* Realizar un control de calidad de la ejecución


# Descargar datos

In [None]:
!gdown 1rRhK7H7R9aiPooqtKtT8kugnLNsqmkkR ; unzip Nanopore_READS.zip

In [None]:
#Instala conda en el Notebook de google Colab
!pip install -q condacolab
import condacolab
condacolab.install()

# Instalar software

Herramienta de control de calidad para datos de secuencia de alto rendimiento.

In [None]:
#Análisis de calidad de lecturas cortas
  #https://github.com/s-andrews/FastQC
!conda install -c bioconda fastqc

In [None]:
#permite visualizar todas las muestras en un solo reporte
  #https://github.com/MultiQC/MultiQC
!pip install multiqc

In [None]:
#Análisis de Calidad de secuenciación de Nanopore(fastq) y alineaciones (bam)
  #https://github.com/wdecoster/NanoPlot
!pip install nanoplot

# Formato fastq

Todos los secuenciadores producen datos en un formato llamado **fastq**. Todas las secuencias con un fastq están representadas por 4 líneas:

```
@SEQ_ID                   <---- Nombre Secuencia
AGCGTGTACTGTGCATGTCGATG   <---- Bases de la secuencia
+                         <---- Linea separador
%%).1***-+*''))**55CCFF   <---- Puntaje de Calidad ASCII

```

La calidad de las secuencias se representa como un carácter del código ASCII. Consulte [aquí](https://elcodigoascii.com.ar/) para obtener una explicación.
Los valores numéricos corresponden a los valores de calidad phred

# Nanopore QC



1.   Se corre por cada barcode o muestra
2.   Remoción de lecturas quiméricas y filtro por tamaño

*   --min-length **150**
*   --max-length **1200**









In [None]:
#crea directorio para guardar el reporte de calidad
!mkdir Nanopore_FastQC_report

In [None]:
#Se ejecuta fastqc para los reportes de calidad de cada una de las muestras
!fastqc -o Nanopore_FastQC_report /content/Nanopore_READS/nanopore_fastq/barcode*/*

In [None]:
#Se ejecuta multiqc
!multiqc -o /content/Nanopore_FastQC_report/ /content/Nanopore_FastQC_report/


  [91m///[0m ]8;id=318089;https://multiqc.info\[1mMultiQC[0m]8;;\ 🔍 [2m| v1.20[0m

[34m|           multiqc[0m | Search path : /content/Nanopore_FastQC_report
[2K[34m|[0m         [34msearching[0m | [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [35m100%[0m [32m14/14[0m  
[?25h[34m|            fastqc[0m | Found 7 reports
[34m|           multiqc[0m | Report      : Nanopore_FastQC_report/multiqc_report.html
[34m|           multiqc[0m | Data        : Nanopore_FastQC_report/multiqc_data
[34m|           multiqc[0m | MultiQC complete


Correr **NanoPlot** para datos generados por metodos de secuenciación Nanopore

In [None]:
!NanoPlot -o nanoplot_output --fastq_rich /content/Nanopore_READS/nanopore_fastq/barcode*/*.fastq.gz

La salida estará en la carpeta nanoplot_output. Descargue el archivo **`NanoPlot-report.html`** y examine los resultados.

---


> **¿Cuántas lecturas hay en total?**

> **¿Cuál es el tamaño medio de las lecturas?**

> **¿Cómo se compara esto con los resultados de Illumina?**





Adaptación del curso B4B de Wellcome Connecting Science, Cursos Abiertos de Genómica, bioinformática y biología molecular.

Para más información o para inscribirse en un curso, visite el [sitio web](https://coursesandconferences.wellcomeconnectingscience.org/) de Wellcome Connecting Science.