# Curso de bioinformática para profesionales de la salud: Patógenos respiratorios


## Práctica Módulo 1. Control de calidad secuencias crudas: Secuencias cortas y Secuencias largas


## 1. Instalación la plataforma conda/mamba

###"Conda es un gestor de paquetes y ambientes desde la línea de commando. 250 paquetes de instalación automática que trabajan bien fuera de la caja. Acceso al repositorio público de Anaconda con 8000 paquetes de libre acceso en areas como data science y machine learning. Anaconda se distribuye gratuitamente, fácil de instalar y ofrece una comunidad de desarrollo como soporte".

In [None]:
#Instale de la plataforma conda/mamba y dependencias de conda/mamba en colab
#!pip install -q condacolab
#Instalación cuda-version-12 para resolver error cuda_12.2.*
!pip install -U https://github.com/conda-incubator/condacolab/archive/cuda-version-12.tar.gz
import condacolab
condacolab.install()
!pip install --upgrade --force-reinstall zstandard

In [None]:
import condacolab
condacolab.install()
!pip install --upgrade --force-reinstall zstandard

### "Mamba es una herramienta en la interfase de línea de comando (CLI) para la gestión de ambientes conda. Si ha usado conda, genial ya conoce mamba!. Si eres nuevo en este mundo bioinfo, no entres en pánico, vas a encontrar todo lo necesario en la documentación". Mamba viene instalada por defecto en la versión actual de google Colab, compruébelo.

In [None]:
#Revise la lista de ambientes que vienen por defecto en conda/mamba
!mamba env list

###Para más información consulte la documentación:

[conda](https://conda.io/projects/conda/en/latest/user-guide/install/index.html)

[mamba](https://mamba.readthedocs.io/en/latest/)

##2. Cree un ambiente conda/mamba con los programas  necesarios para realizar el ejercicio de control de calidad de las secuencias

### "Con conda/mamba usted puede crear, exportar, listar, remover y actualizar ambientes que tienen diferentes versiones de Python y/o paquetes bioinformáticos instalados. Cargar y moverse entre diferentes ambientes se llama activar un ambiente. Usted puede támbien compartir con otros el ambiente en un archivo para que sea construido en cualquier lugar en el mundo."


In [None]:
#Cree un nuevo ambiente conda/mamba
!mamba create -n QC

In [None]:
#Revise que el ambiente fue creado y se encuentra en la lista
!mamba env list

In [None]:
#Active el ambiente que acabo de crear
!mamba activate QC

In [None]:
#Revise en el listado de programas si encuentra los programas fastqc, multiqc, fastp o nanofilt
!mamba list

In [None]:
#Instale las dependencias necesarias para los pasos posteriores de control de calidad de secuencias
#conda-forge y bioconda son canales donde se enecuentran herramientas y programas
#fastqc programa de calidad short reads
#multiqc programa de calidad short reads múltiples secuencias
#fastp selección de secuencias por puntaje phred
#nanofilt selección de secuencias por puntaje Q
!mamba install -c bioconda fastqc multiqc fastp nanofilt --quiet

In [None]:
#Verifique en el listado que se encuentren los programas fastqc, multiqc, fastp y nanofilt
!mamba list

###Para más información consulte la documentación:

[fastqc](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)

[multiqc](https://multiqc.info/docs/)

[fastp](https://github.com/OpenGene/fastp)

[nanofilt](https://github.com/wdecoster/nanofilt)

##3. Realice el análisis de calidad de las secuencias Illumina

### "La herramienta FastQC provee un manera simple de realizar algunos controles de calidad en secuencias crudas cortas y largas, y visualizar los resultados en un archivo .html. Los análisis de esta herramienta permiten un desarrollo modular que provee rapidamente una primera impresión de si los datos se encuentran en condiciones de continuar con los siguientes análisis.  

###Las principales funciones de FastQC son:

###- Importar datos desde archivos de formatos BAM, SAM y FastQ (Cualquier variante)
###- Proveer una mirada rápida en las secuencias reconociendo las áreas en las pueden estar los problemas.
###- Resumir un reporte en gráficas y tablas desde un análisis rápido de calidad.
###- Exportar los resultados en un archivo HTML como un reporte fácil de compartir.
###- Generar reportes automáticos en la aplicación en estado Offline".

In [None]:
#Cree un directorio para las secuencias crudas
!mkdir fastqs_illumina

In [None]:
#Descarge del repositorio de NCBI las secuencias crudas
!wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR260/063/SRR26037363/SRR26037363_1.fastq.gz

In [None]:
#Descarge del otros repositorios
!wget https://github.com/diseasesdetectives/Curso_Bioinformatica_para_profesionales_de_la_salud_publica/data_curso/prueba_fastqc.fastq.gz

In [None]:
#Mueva los archivos de secuencias crudas al directorio creado previamente
!mv SRR26037363_1.fastq.gz ./fastqs_illumina/
!mv prueba_fastqc.fastq.gz ./fastqs_illumina/

In [None]:
#Cree el directorio para la salida del programa fastqc
!mkdir fastqc_output

In [None]:
#Corra el análisis de calidad usando el programa fastqc y explore el directorio de salida
###To Do### Corra el mismo procedimiento para la secuencia "prueba_fastqc.fastq.gz"
!fastqc fastqs_illumina/SRR26037363_1.fastq.gz -o fastqc_output
!

In [None]:
# o corra simultaneamente varios set de datos (individuos)
!cd fastqs_illumina/
!multiqc .

In [None]:
#Descarge el archivo .html del directorio fastqc_output y de doble click
#o visualice con el código Python
import IPython
IPython.display.HTML(filename='/content/fastqc_output/SRR26037363_1_fastqc.html')

##4. Realice el filtrado de las secuencias del archivo "prueba_fastqc.fastq.gz" por calidad phred=20

###Fastp es una herramienta diseñada para proporcionar un pre-procesamiento de todo en uno de archivos fastq. Esta herramienta fue desarrollada en C++, con la posibilidad de correr con múltiples CPUs para un mejor desempeño con grandes datos.

In [None]:
#Cree el directorio para la salida de fastp
!mkdir trimmed_fastqs

In [None]:
#Filtrado de las secuencias por calidad
!fastp -i ./fastqs_illumina/prueba_fastqc.fastq.gz --detect_adapter_for_pe -o ./trimmed_fastqs/prueba_fastqc.fq.gz -h ./trimmed_fastqs/SRR26037363_1.html --qualified_quality_phred 20

In [None]:
###To Do### Escriba el código y corra el proceso de calidad que corrio previamente pero usando las secuencias filtradas
!

##5. Realice el análisis de calidad de las secuencias nanopore

###MinIONQC es un software que generá gráficas tipo plots a partir de los datos de calidad de la secuenciación Oxford Nanopore en MinION y PromethION. Muchas otras herramientas pueden proveer resultados similares, sin embargo, son costosos computacionalmente pues se enfocan en las secuencias fastq o fast5, mientrás que esta herramienta usa directamente los archivos "sequencing_summary.txt" que son generados por software de llamado de bases ONT's Albacore o Guppy. Además, permite la comparación rápida y fácil de datos de diferentes celdas. Por ejemplo, le toma alrededor de un minuto analizar una celda de 48GB usando una computadora de un procesador.

###Si no tiene el archivo sequencing_summary.txt de sus datos, usted puede producirlo rápidamente con los programas de llamado de bases ONT's Albacore o Guppy.


In [None]:
#Descargue desde el repositorio en EBI la secuencia cruda nanopore
!wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR144/083/SRR14475083/SRR14475083_1.fastq.gz

In [None]:
#Descarge el archivo de calidad de la corrida de nanopore
!wget https://github.com/diseasesdetectives/Curso_Bioinformatica_para_profesionales_de_la_salud_publica/data_curso/sequencing_summary.txt

In [None]:
# Cree un directorio y mueva los archivos nanopore al directorio
!mkdir fastqs_nanopore
!mv SRR14475083_1.fastq.gz ./fastqs_nanopore
!mv sequencing_summary.txt ./fastqs_nanopore

In [None]:
#Decarge el programa de calidad de secuencias para nanopore
!wget https://raw.githubusercontent.com/roblanf/minion_qc/master/MinIONQC.R -O MinIONQC.R

In [None]:
#Revise la versión de R. Para salir del modo consola escriba q() y luego n
!R version

In [None]:
# Cargue R para poder correr el programa de calidad de nanopore
%reload_ext rpy2.ipython
%config IPCompleter.greedy=True
%config InlineBackend.figure_format = 'retina'

In [None]:
#Instale las librerias de R necesarias para correr MinIONQC
%%R
install.packages(c("data.table",
                   "futile.logger",
                   "ggplot2",
                   "optparse",
                   "plyr",
                   "readr",
                   "reshape2",
                   "scales",
                   "viridis",
                   "yaml"))

In [None]:
#Corra el programa de calidad de las secuencias nanopore
!Rscript MinIONQC.R -i sequencing_summary.txt -o minion_output -p 2

Para mayor información consulte la documentación:

[MinIONQC.R](https://github.com/roblanf/minion_qc)

##6. Realice el filtrado de las secuencias del archivo "SRR14475083_1.fastq.gz" por lonquitud > 500

### Nanofilt realiza el filtrado y selección de secuencias largas por calidad o por longuitud de lectura, una opción para la selección de lecturas que pasen los filtros. Opcionalmente este puede usar con archivos en formato decomprimido.

###El software es diseñado para usarse:

###Directamente después de las extracción del fastq
###Antes del proceso de mapeo
###Dentro de un grupo de procesos como entre de extracción y mapeo


In [None]:
#Tip para verificar la instalación o acceso a software se escribe el commando -h para ayuda, mostrando la nomenclatura y opciones.
!NanoFilt -h

In [None]:
#Descomprimir archivo de la secuencia nanopore
! gunzip -c SRR14475083_1.fastq.gz

In [None]:
#Filtrar las secuencias menores que 500 bp y otros parámetros de calidad por default
!NanoFilt -l 500 SRR14475083_1.fastq

In [None]:
##cambiar nombre del archivo y comprimir para ocupar menor espacio
!mv SRR14475083_1.fastq SRR14475083_1_trimmed.fastq
!gzip SRR14475083_1_trimmed.fastq

##7. Prueba Módulo_1

###Siga el paso a paso del cuaderno, recuerde los procesos vistos previamente para resolverlo

In [None]:
#Descarge las secuencias crudas para el ejercicio
!wget https://github.com/diseasesdetectives/Curso_Bioinformatica_para_profesionales_de_la_salud_publica/data_curso/Modulo_1/exercise.zip

In [None]:
#Descomprima el directorio "exercise"
!unzip exercise.zip

In [None]:
#Liste las 4 secuencias para el análisis "sample_1-4"
!

In [None]:
#muevase a la crapeta de trabajo exercise
!

In [None]:
#Active el ambiente mamba de calidad de las secuencias que se creo previamente (QC)
!

In [None]:
#En este espacio realice el análisis de calidad de la secuencia sample_1
#Si es necesario realice el filtrado por calidad o longitud de secuencias
!

In [None]:
#En este espacio realice el análisis de calidad de la secuencia sample_2
#Si es necesario realice el filtrado por calidad o longitud de secuencias
!

In [None]:
#En este espacio realice el análisis de calidad de la secuencia sample_3
#Si es necesario realice el filtrado por calidad o longitud de secuencias
!

In [None]:
#En este espacio realice el análisis de calidad de la secuencia sample_4
#Si es necesario realice el filtrado por calidad o longitud de secuencias
!

##Para cumplir con la prueba de este módulo deberá subir en la plataforma Learning manage system (LMS) sección prueba Módulo_1, los archivos de reporte de calidad "fastqc.html" finales, en caso de realizar algún filtrado por favor vuelva a correr el programa de calidad del archivo filtrado y suba solo el último reporte.

#FIN DEL EJERCICIO




Alguna de la información aquí presentada proviene de cursos pasados desarrollados por el Wellcome connecting science (WCS) en el marco del proyecto COG-TRAIN

https://github.com/WCSCourses/COG-Train_Resources