# Módulo 3: NGS y formatos NGS
# PARTE 1: INTRODUCCIÓN A LA SECUENCIACIÓN DE NUEVA GENERACIÓN (NGS)

Este módulo tiene como objetivo proporcionar una introducción a conceptos relacionados con las tecnologías de nueva generación, las plataformas de secuenciación y una breve introducción a la genómica. 

Antes de iniciar este módulo le recomendamos ver los videos de esta playlist: https://www.youtube.com/watch?v=sRW6k9TkKu8&list=PLfovZnX0TvKtHq6Q4L5KdW332NCD4GbtU&index=3

___

## 01. Introducción a Genómica

La genómica es un campo interdisciplinario de la biología que se centra en la estructura, función, evolución, mapeo y edición de los genomas. Un genoma es el conjunto completo de ADN de un organismo, incluyendo todos sus genes y su configuración estructural tridimensional jerárquica.

Una parte significativa de la genómica es determinar la secuencia de las moléculas que componen el contenido de ADN genómico de un organismo.

Puede aplicarse a cualquier organismo para estudiar diferentes aspectos como las características funcionales, la evolución, la epidemiología, el comportamiento, la epigenética, etc.

La información genética de virus, bacterias y otros organismos infecciosos ha desempeñado un papel crucial en estos esfuerzos. Los avances en tecnologías moleculares y bioinformáticas han hecho posible examinar los genomas de patógenos con mucho más detalle. Ahora, la disminución en los costos y tiempos de respuesta están acercando la secuenciación genética de alto rendimiento al alcance de los investigadores clínicos y de salud pública.

### ¿Qué es el ADN?

El ácido desoxirribonucleico (ADN) es el compuesto químico que contiene las instrucciones necesarias para desarrollar y dirigir las actividades de casi todos los organismos vivos. Las moléculas de ADN están formadas por dos hebras retorcidas, emparejadas a menudo y referidas como una doble hélice.

Cada hebra de ADN consta de cuatro unidades químicas, llamadas bases nucleotídicas, que comprenden el "alfabeto" genético. Las bases son adenina (A), timina (T), guanina (G) y citosina (C). Las bases en hebras opuestas se emparejan específicamente: una A siempre se empareja con una T; una C siempre se empareja con una G. El orden de las A, T, C y G determina el significado de la información codificada en esa parte de la molécula de ADN, tal como el orden de las letras determina el significado de una palabra.

### ¿Qué es el genoma?

El conjunto completo de ADN de un organismo se llama su genoma. Prácticamente cada célula del cuerpo contiene una copia completa de los aproximadamente 3 mil millones de pares de bases de ADN, o letras, que componen el genoma humano.

Con su lenguaje de cuatro letras, el ADN contiene la información necesaria para construir todo el cuerpo humano. Un gen se refiere tradicionalmente a la unidad de ADN que lleva las instrucciones para hacer una proteína específica o un conjunto de proteínas. Cada uno de los aproximadamente 20,000 a 25,000 genes en el genoma humano codifica un promedio de tres proteínas.

La genómica es el estudio de la organización molecular de los genomas, su contenido de información y los productos génicos que codifican. Es una disciplina amplia que se puede dividir en al menos tres áreas generales. 

1. Genómica estructural es el estudio de la naturaleza física de los genomas. Su objetivo principal es determinar y analizar la secuencia de ADN del genoma.

2. Genómica funcional se ocupa de la forma en que funciona el genoma. Examina las transcripciones producidas por el genoma y la variedad de proteínas que codifican.

3. Genómica comparativa, en la que se comparan genomas de diferentes organismos para buscar diferencias y similitudes significativas.

### ¿Qué es un gen?

Un gen es una unidad básica de herencia y una secuencia de nucleótidos en ADN que codifica la síntesis de un producto génico, ya sea ARN o proteína. Las proteínas forman estructuras corporales como órganos y tejidos, así como controlan las reacciones químicas y transportan señales entre las células. Si el ADN de una célula está mutado, se puede producir una proteína anormal que puede interrumpir los procesos normales del cuerpo y provocar una enfermedad como el cáncer.

### Genómica Microbiana

Los microorganismos son algunos de los organismos más ubicuos de nuestro planeta. Están presentes en toda la biosfea, incluyendo algunos de los lugares más extremos de la Tierra. Los microorganismos, en general, tienen genomas mucho más pequeños en comparación con las plantas y los animales, lo que los hace ideales para estudios genéticos y fisiológicos.

La genómica microbiana se enfoca principalmente en la identificación y caracterización de las composiciones genéticas de los microorganismos. La capacidad para procesar y analizar los datos genómicos recolectados de los organismos microbianos es una piedra angular de la bioinformática moderna. Sus amplias aplicaciones abarcan todos los sectores de nuestras vidas, tales como garantizar la seguridad del suministro de alimentos, mantener la salud y el bienestar humano, contrarrestar la propagación de enfermedades y proteger el medio ambiente.

Con las herramientas de bioinformática desarrolladas es posible analizar todos los aspectos de la genómica microbiana. Podemos identificar organismos, evaluar las poblaciones microbianas en nichos ambientales, catalogar las vías evolutivas y definir la relación genética entre cepas microbianas. Además, la investigación está en curso para explorar el potencial de utilizar rasgos genómicos para determinar la resistencia a los antibióticos y la virulencia.


### Estructura Poblacional, Evolución y Epidemiología Molecular

Las diferencias en la secuencia y estructura de los genomas de los miembros de una población microbiana reflejan los efectos compuestos de la mutación, la recombinación y la selección. Con la creciente disponibilidad de secuencias genómicas, estos efectos se han caracterizado mejor y se han explotado de manera más efectiva para comprender la historia y la evolución de microorganismos y virus y sus relaciones a veces íntimas con los humanos. Los conocimientos resultantes tienen una importancia práctica para las investigaciones epidemiológicas, la medicina forense, los diagnósticos y el desarrollo de vacunas.

El poder de la secuenciación del genoma completo para discriminar entre cepas estrechamente relacionadas y rastrear la evolución en tiempo real de los aislados clonales asociados con enfermedades ofrece la posibilidad de rastrear la transmisión persona a persona e identificar las fuentes de brotes. 

Los enfoques genómicos han introducido una nueva era en el descubrimiento y detección de patógenos microbianos. La robustez, confiabilidad y portabilidad de los datos basados en secuencias moleculares para evaluaciones filogenéticas y para la caracterización de patógenos previamente no reconocidos, combinados con los avances tecnológicos, recomiendan los enfoques genómicos tanto para la investigación como para la aplicación clínica de rutina.

## 02. Next-Generation Sequencing

Secuenciación de nueva generación

Secuenciación significa determinar el orden exacto de los nucleótidos en una secuencia de ADN o ARN determinada. Debido a que las bases existen en pares, y la identidad de una de las bases del par determina al otro miembro del par, los investigadores no tienen que reportar ambas bases del par.

En el tipo más común de secuenciación utilizado hoy en día, llamado secuenciación por síntesis, la polimerasa de ADN (la enzima en las células que sintetiza ADN) se utiliza para generar una nueva cadena de ADN a partir de una cadena de interés. En la reacción de secuenciación, la enzima incorpora en la nueva cadena de ADN nucleótidos individuales que han sido químicamente etiquetados con una etiqueta fluorescente. A medida que esto sucede, el nucleótido es excitado por una fuente de luz, y se emite y detecta una señal fluorescente. La señal es diferente dependiendo de cual de los cuatro nucleótidos fue incorporado. Este método puede generar "lecturas" de 125 nucleótidos seguidos y miles de millones de lecturas a la vez. Los investigadores pueden utilizar la secuenciación de ADN para buscar variaciones genéticas y/o mutaciones que pueden desempeñar un papel en el desarrollo o la progresión de una enfermedad. El cambio que causa la enfermedad puede ser tan pequeño como la sustitución, deleción o adición de un solo par de bases o tan grande como la deleción de miles de bases.


![NGS](/images/ngs_1.png)

*Tomado de: https://www.nature.com/articles/nbt1486*

La secuenciación de nueva generación (NGS, por sus siglas en inglés) es una tecnología para determinar la secuencia de ADN o ARN para estudiar la variación genética asociada con enfermedades u otros fenómenos biológicos. Lanzada para uso comercial en 2005, este método fue inicialmente llamado "secuenciación masiva paralela", ya que permitió la secuenciación de muchas hebras de ADN al mismo tiempo, en lugar de una por una como en la secuenciación de Sanger tradicional por electroforesis capilar.

La secuenciación de próxima generación, también llamada secuenciación profunda, es una tecnología que permite el análisis multiplexado en paralelo de secuencias de ADN a gran escala, desde millones hasta miles de millones de secuencias de hebras individuales de ADN analizadas por separado, pero simultáneamente.

### Tecnologías NGS

- Secuenciación de Illumina (Solexa): La secuenciación de Illumina se basa en una técnica conocida como "amplificación en puente" en la que se utilizan moléculas de ADN (aproximadamente de 500 bp) con adaptadores apropiados ligados en cada extremo como sustratos para reacciones de síntesis de amplificación repetidas en un soporte sólido (placa de vidrio) que contiene secuencias de oligonucleótidos complementarios a un fragmento de adaptador ligado. Los oligonucleótidos en la placa están espaciados de tal manera que el ADN, que luego se somete a rondas repetidas de amplificación, crea "clusters" clonales que consisten en alrededor de 1000 copias de cada fragmento de oligonucleótido. Cada placa de vidrio puede soportar millones de reacciones clonales paralelas. Durante las reacciones de síntesis, se incorporan nucleótidos modificados patentados, correspondientes a cada una de las cuatro bases, cada uno con una etiqueta fluorescente diferente, y luego se detectan. Los nucleótidos también actúan como terminadores de la síntesis para cada reacción, que se desbloquean después de la detección para la siguiente ronda de síntesis. Las reacciones se repiten durante 300 o más rondas. El uso de la detección fluorescente aumenta la velocidad de detección debido a la imagen directa, en contraste con la imagen basada en cámara.
- Secuenciación Roche 454: Este método se basa en la pirosecuenciación, una técnica que detecta la liberación de pirofosfato, utilizando una señal de luz (bioluminiscencia), después de que los nucleótidos son incorporados por la polimerasa en una nueva cadena de ADN. La plataforma de secuenciación Roche 454 ha sido descontinuada desde 2016.
- Ion Torrent: Secuenciación Proton/PGM: La secuenciación de Ion Torrent mide la liberación directa de H+ (protones) a partir de la incorporación de bases individuales por la polimerasa de ADN y, por lo tanto, difiere de los dos métodos anteriores ya que no mide la luz.
- Pacbio: La secuenciación de PacBio, también conocida como secuenciación de SMRT (Single Molecule Real Time), permite secuenciar fragmentos muy largos, de hasta 30-50 kb o más. El método SMRT implica la unión de una polimerasa de ADN modificada y con una molécula de ADN a ser secuenciada, en el fondo de un pozo (guía de onda de modo cero (ZMW) en una célula de flujo SMRT.)
- Nanopore: La secuenciación de ADN basada en nanoporos se propuso por primera vez a finales de la década de 1990 y se logró la comercialización recientemente por Oxford Nanopore Technologies (ONT) con un MinION portátil. Estos secuenciadores utilizan nanoporos proteicos en una membrana polimérica eléctricamente resistente a través de la cual ocurren cambios de corriente característicos a medida que cada nucleótido pasa por el detector.



### Flujo de trabajo de NGS
![NGS](./images//ngs_2.png)

*Tomado de: https://www.biorender.com/template/next-generation-sequencing-workflow*

### AVentajas de NGS

NGS se puede utilizar para analizar muestras de ADN y ARN y es una herramienta popular en la genómica funcional. En contraste con los métodos de microarrays, los enfoques basados en NGS tienen varias ventajas, incluyendo:

- No se requiere conocimiento previo del genoma o las características genómicas.
- Ofrece una resolución de un solo nucleótido, lo que hace posible detectar genes (o características) relacionados, transcritos alternativamente, variantes génicas alélicas y polimorfismos de un solo nucleótido.
- Un rango dinámico de señal más alto.
- Requiere menos ADN/ARN como entrada (nanogramos de materiales son suficientes).
- Mayor reproducibilidad.



### Desafíos de NGS

Existen varias limitaciones para utilizar la secuenciación de próxima generación. La secuenciación de próxima generación proporciona información sobre una serie de aberraciones moleculares. Para muchas de las anomalías identificadas, la importancia clínica es desconocida actualmente. La secuenciación de próxima generación también requiere sistemas de bioinformática sofisticados, procesamiento rápido de datos y grandes capacidades de almacenamiento de datos, lo que puede ser costoso. Aunque muchas instituciones pueden tener la capacidad de comprar equipos de secuenciación de próxima generación, muchas no tienen los recursos computacionales y el personal para analizar e interpretar clínicamente los datos.

### Aplicación de NGS

Las tecnologías de NGS se utilizan actualmente para:

- Secuenciación de genoma completo.
- Metagenómica.
- Investigación de la diversidad genómica.
- Epigenética.
- Descubrimiento de ARN no codificantes.
- Sitios de unión de proteínas.
- Perfil de expresión génica mediante secuenciación de ARN.

Debe enfatizarse que la información de secuencia de todo el genoma proporciona un punto de partida completamente nuevo para la investigación biológica. En el futuro, los microbiólogos no tendrán que pasar tanto tiempo clonando genes porque podrán generar nuevas preguntas e hipótesis a partir de análisis informáticos de datos genómicos. Luego podrán probar sus hipótesis en el laboratorio.

## 03. Introducción a Plataformas de Secuenciación

Han pasado más de 30 años desde que se desarrolló la [primera generación](https://www.walshmedicalmedia.com/open-access/generations-of-sequencing-technologies-from-first-to-next-generation-0974-8369-1000395.pdf) de tecnología de secuenciación de ADN en 1977. Desde entonces, las plataformas de secuenciación han progresado considerablemente y cada transformación ha llevado a un gran avance hacia la investigación del genoma, la investigación clínica de enfermedades y el desarrollo de medicamentos.

La secuenciación de próxima generación (NGS) se hizo disponible a principios del siglo XXI. Quizás el mayor avance que NGS ofreció fue la capacidad de producir una gran cantidad de datos, además de su capacidad para proporcionar un enfoque altamente eficiente, rápido, de bajo costo y preciso para la secuenciación de ADN, fuera del alcance de los métodos tradicionales de Sanger.

### Una Visión general de la Secuenciación

Los métodos fundadores en la secuenciación de ADN fueron la síntesis de dideoxi Sanger (Sanger y Coulson, 1975; [Sanger, Nicklen y Coulson, 1977](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6020069/#R43)) y el método de clivaje químico de Maxam-Gilbert ([Maxam y Gilbert, 1980](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6020069/#R29)). El método Maxam-Gilbert se basa en la modificación química del ADN y la posterior rotura de la cadena de ADN en lugares adyacentes a los nucleótidos modificados. La secuenciación de Sanger utiliza nucleótidos específicos de terminación de cadena (nucleótidos de dideoxi) que carecen de un grupo 3'-OH. Por lo tanto, ninguna unión fosfodiéster puede formarse por la polimerasa de ADN, lo que resulta en la terminación de la cadena de ADN en crecimiento en esa posición. Los ddNTP se marcan con radioactividad o fluorescencia para su detección en geles de "secuenciación" o máquinas de secuenciación automatizadas, respectivamente. Aunque la química del método original de Maxam-Gilbert se ha modificado para eliminar los reactivos tóxicos, el método de dideoxi síntesis de secuenciación de Sanger (SBS) se ha convertido en el estándar de secuenciación.

El método de secuenciación de Sanger se desarrolló en 1977. Aunque relativamente lento según los estándares actuales de NGS, las mejoras en la metodología de terminación de cadena de Sanger, la automatización y la comercialización han permitido que siga siendo el método de secuenciación más apropiado para muchas aplicaciones actuales.

![NGS](./images//sanger.png)

*Tomado de: https://microbeonline.com/dna-sequencing-sanger-sequencing-method/*

### Métodos de Segunda Generación de Secuenciación

Las tecnologías de NGS de segunda generación, del tipo desarrollado por Illumina y otros, se pueden agrupar en dos categorías principales: la secuenciación por hibridación o la secuenciación por síntesis. La secuenciación por hibridación es un enfoque en el que se ensambla una colección de secuencias de oligonucleótidos solapantes para determinar la secuencia de ADN. La tecnología de secuenciación por síntesis utiliza una enzima polimerasa o ligasa para incorporar nucleótidos con una etiqueta fluorescente, que luego se identifican para determinar la secuencia de ADN.

![NGS](./images//synthesis.png)

*Tomado de: https://www.mdpi.com/2075-4418/13/3/373*


Todas las tecnologías de NGS de segunda generación dependen de la amplificación antes del análisis de la secuencia. Este paso de amplificación es necesario para generar un número suficientemente grande de copias de cada plantilla de ADN para que haya suficiente fuerza de señal para cada adición de base.

**Ventajas de la Segunda Generación de NGS:**

- Alta precisión de la secuencia
- Relativamente barato
- Capaz de secuenciar ADN fragmentado

**Desventajas de la Segunda Generación de NGS:**

- Solo es capaz de producir lecturas de secuenciación cortas (las lecturas tienen entre 200 y 300 bases de longitud).
- No es capaz de resolver variantes estructurales o distinguir regiones genómicas altamente homólogas.
- No es adecuado para el análisis de secuencias que contienen grandes números de elementos de secuencia repetitivos, isoformas de transcritos o firmas de metilación.


### Métodos de Secuenciación de Tercera Generación

La secuenciación de tercera generación de NGS es una clase de métodos de secuenciación de ADN que se describieron por primera vez alrededor de 2009 y aún se encuentran en desarrollo activo. Estas tecnologías son capaces de producir lecturas sustancialmente más largas que la secuenciación de segunda generación, con amplias implicaciones para la investigación del genoma. Las aplicaciones particularmente útiles de la secuenciación de tercera generación de NGS incluyen el estudio de marcadores epigenéticos, transcriptómica y metagenómica.

Estas máquinas secuencian moléculas de ADN individuales y no amplifican las plantillas antes de la secuenciación. En su lugar, se han desarrollado metodologías para aumentar directamente el ADN lo suficiente para obtener una fuerza de señal suficiente sin amplificación.

**Ventajas de la Tercera Generación de NGS**

- Posible comenzar con fragmentos de ADN considerablemente más largos.
- La falta de amplificación conduce a una preparación de biblioteca más fácil y tecnologías portátiles.
- Los marcadores epigenéticos son estables y, por lo tanto, las firmas de metilación y las modificaciones de histonas están preservadas.
- Genera lecturas de secuencia muy largas.

**Desventajas de la Tercera Generación de NGS**

- Las señales obtenidas de fragmentos individuales pueden ser débiles.
- Precisión generalmente menor.

**Hay dos compañías principales que desarrollan tecnologías de NGS de tercera generación: Pacific Biosciences y Oxford Nanopore Technologies. Cada una toma un enfoque fundamentalmente diferente para la secuenciación.**

#### Química de Secuenciación de Pacific Biosciences

La secuenciación SMRT es la tecnología central que impulsa las plataformas de Pacific Biosciences. La célula SMRT contiene millones de pequeños pozos llamados "guías de onda de modo cero". Las moléculas de ADN individuales se inmovilizan en el fondo de estos pozos mientras que la polimerasa de ADN incorpora nucleótidos etiquetados fluorescentemente. Para detectar la adición de cada base, se registra y analiza la luz emitida en la parte superior de la guía de onda de modo cero. Esta metodología permite leer los fragmentos de ADN varias veces sintetizando oligonucleótidos que se unen a los extremos de los fragmentos de ADN y dándoles forma en "campanas inteligentes". Estas moléculas circulares individuales permiten que la polimerasa rodee el ADN múltiples veces, lo que resulta en una precisión de secuenciación mucho mayor. Esta tecnología puede generar lecturas de secuencia muy largas y se pueden utilizar fragmentos de ADN mucho más largos.

![pacbio](./images//pacbio.png)

*Tomado de: https://www.pacb.com/engage/attachment/how-to-get-hifi-reads_v2/*

#### Química de Secuenciación de Oxford Nanopore

Oxford Nanopore Technologies desarrolló una tecnología de secuenciación que determina la secuencia de moléculas de ADN a medida que se enhebran a través de un pequeño nanoporo. Las plataformas funcionan pasando una corriente iónica a través de nanoporos y midiendo los cambios en la carga eléctrica a medida que los nucleótidos pasan a través del pequeño poro. Los nanoporos pueden ser creados por proteínas que perforan membranas o material sólido. Se utiliza una proteína motora phi29 adaptada para enhebrar el ADN en el nanoporo. A medida que la corriente eléctrica cambia a través del nanoporo, es posible determinar la secuencia de nucleótidos que pasan a través de él.

![nanopore](./images//nanopore.jpg)

*Tomado de: https://www.genome.gov/genetics-glossary/Nanopore-DNA-Sequencing*

___

# PARTE 2: FORMATOS NGS


>Este es un módulo general para ayudarlo a familiarizarse con los formatos de datos NGS de manera práctica.

### Instalar conda

In [None]:
!pip install -q condacolab
import condacolab
condacolab.install()

## Formatos de archivo de uso común para datos de secuenciación de próxima generación (NGS)

En esta sesión se va a familiarizar con varios formatos de archivo comunes utilizados para los datos de secuenciación. Luego vamos a realizar algún control de calidad (QC) en algunos datos de secuencia con formato FASTQ.


### FASTA

Entre los formatos de archivo más comunes y simples para representar secuencias de nucleótidos está FASTA. Esencialmente, cada secuencia está representada por una línea de 'encabezado' que comienza con un '>', seguido de líneas que contienen la secuencia de nucleótidos. Por convención, la primera 'palabra' en la línea de encabezado es un identificador único, que generalmente es como número de acceso. Considere este ejemplo de una secuencia de nucleótidos con formato FASTA:

    >LC719646.1 Influenza A virus (A/swine/Tottori/B34/2020(H1N1)) segment 8 NS1, NEP genes for nonstructural protein 1, nuclear export protein, complete cds
    ATGGAATCCAACACCATGTCAAGCTTTCAGGTAGACTGTTTTCTTTGGCATATTCGCAAGCGATTTGCAG
    ACAATGGATTGGGTGATGCCCCATTCCTTGATCGGCTACGCCGAGATCAAAAGTCCTTAAAAGGAAGAGG
    CAACACCCTTGGCCTCGACATCAAAACAGCCACTCTTGTTGGGAAACAAATTGTGGAATGGATTTTGAAA
    GAGGAATCCAGCGAGACACTTAGAATGGCAATTGCATCTGTACCTACTTCGCGTTACATTTCTGACATGG
    CCCTCGAGGAAATGTCACGAGACTGGTTCATGCTTATGCCTAGGCAAAAGATAATAGGCCCTCTTTGCGT
    GCGATTGGACCAGGCGGTCATGGATAAGAACGTAGTACTGGAAGCAAACTTCAGTGTAATCTTCAACCGA
    TTAGAGACCTTGATACTACTAAGGGCTTTCACTGAGGAGGGAACAATAGTTGGAGAAATTTCACCATTAC
    CTTCTCTTCCAGGACATACTTATGAGGATGTCAAAAATGCAGTTGGGGTYCTCATCGGAGGACTTGAGTG
    GAATGGTAACACGGTTCGAGTCTCTGAAAATATACAGAGATTCGCTTGGAGAAGCTGTGATGAGAATGGG
    AGACCTTCACTACCTCCAGAGCAGAAATGAGAAGTGGCGGGAACAATTGGGACAGAAATTTGAGGAAATA
    AGGTGGTTAATTGAAGAAATACGACACAGATTGAAAGCGACAGAGAATAGTTTCGAACAAATAACATTTA
    TGCAAGCCTTACAACTACTGCTTGAAGTAGAGCAAGAGATAAGAGCTTTCTCGTTTCAGCTTATTTAA

- La primera línea comienza con '>' que indica que es la línea de encabezado.
- Esto es seguido inmediatamente por 'LC719646.1', que es un número de acceso para [esta secuencia en la base de datos GenBank] (https://www.ncbi.nlm.nih.gov/nuccore/lc719646.1).
- Luego sigue la secuencia de nucleótidos, dividida en varias líneas, comenzando con 'ATGGAATCCAACA ...' y terminando con '... TTATTTAA''.

Es muy común combinar múltiples secuencias en un solo **archivo multi-fasta** como este:

    >ON084923.1 Influenza A virus (A/ostriches (Struthio camelus)/Egypt/Mansoura1/2022(H5N8)) segment 4 hemagglutinin, HA2 region, (HA) gene, partial cds
    GTACCACCATAGCAATGAGCAGGGGAGTGGGTACGCTGCAGACAAAGAATCCACTCAAAAGGCAATAGAT
    GGAGTTACCAATAAGGTCAACTCAATCATTGACAAAATGAACACTCAATTTGAGGCAGTTGGAAGGGAGT
    TTAATAACTTAGAAAGGAGGATAGAGAATTTGA
    
    >MW170960.1 Influenza A virus (A/swine/Italy/410927/2018(H1N2)) segment 6 neuraminidase (NA) gene, partial cds
    CCTTATGCAGATTGCTATCCTGGTAACTACTGTTACATTTCACTTCAAGCAATATGAATACAATTTCTAC
    CCAAACAACCAAGTAATGCCATGTGAACCAACGATAATTGAAAGAAACATAACAGAAATAGTGTACCTGG
    CCAACACCAC
    
    >MW170083.1 Influenza A virus (A/swine/Italy/134212/2019(H1N2)) segment 6 neuraminidase (NA) gene, partial cds
    GTAGTAACTGCCTGAGTCCTAATAATGAAGAAGGGGGTCATGGGGTAAAAGGCTGGGCCTTTGATGATGG
    AAATGATGTTTGGATGGGAAGAACGATCAGCGAAAAGTTACGATTAGGTTATGAAACCTTCAAGGTCATC
    GACGGTTGGTCCAAGCC
    
    >MW169741.1 Influenza A virus (A/swine/Italy/8745/2019(H3N2)) segment 2 polymerase PB1 (PB1) gene, partial cds
    TCGTTCCATCCTCAATACTAGCCAAAGGGGAATTCTTGAGGATGAGCAAATGTATCAGAAGTGCTGCAAT
    TTATTTGAGAAATTCTTCCCTAGCAGTTCATACAGGAGGCCAGTGGGAATTTCAAGCATGGTGGAGGCCA
    TGGTATCTAGGGCCAGAATTGATGCACGGATTGATTTCGAGTCTGGAAGGATTAATAAAGAAGAATTTGC
    TGAGATCATGAAGATCTGTTCCACCATAGAAGAGTTCAGACGGCAAAAGTAG
    
    >OM149369.1 Influenza A virus (A/Hilly chicken/Bangladesh/Avian Influenza Virus/2019(H9)) segment 4 hemagglutinin (HA) gene, partial cds
    AATTTCTTAGCTAGCAAAATGGAAACAATAACACTGATGACTACACTACTATTAACAACAACGAGCCTTG
    CAGACAAAATCTGTATCGGCCACCAATCGACAAATTCTACAGAAACTGTAGACACACTAACAGAAACTAA
    CGTTCCTGTGACACATGCCAAAGAGTTGCTCCATACGGATCACAATGGAATGCTGTGTGCAACAAATCTA
    GGACATCCCCTCATCCTAGATAAATGTAACGTAGAAGGACTGATCTACGGCAACCCTTCTTGTGATCT


Si desea información más detallado del formato de archivo FASTA, puede echar un vistazo a la página de Wikipedia aquí: https://en.wikipedia.org/wiki/FASTA_format.



### FASTQ
El formato de archivo FASTA es ampliamente utilizado y tiene la gran ventaja de la simplicidad. Sin embargo, esta simplicidad puede ser restrictiva si queremos incluir datos/metadatos adicionales además de la secuencia.
Dadas las tasas de error de las tecnologías NGS, a menudo necesitamos acompañar nuestros datos de secuencia con puntajes de calidad que estiman nuestra confianza en la precisión de los datos de secuencia. Como veremos más adelante, esto nos permite realizar análisis de control de calidad y filtrar datos de mala calidad antes de realizar análisis.
FASTQ es un formato simple basado en texto que nos permite incluir puntajes de calidad. Una sola secuencia está representada por cuatro líneas de texto:

    @ERR8261968.1 1 length=97
    ACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGCTTAGTGCACTCACGCAGTATAATTA
    +ERR8261968.1 1 length=97
    CCCCCFDDFFFFGGGGGGGGGGHHHHHHHHHHHGGGGHHHHHHHHHHHHHHHGHHGHHIIHHGGGGGGHHHHHHHHHHHHHHHHHHHGGGHHHHHHH

- La primera línea es un 'encabezado' que contiene un identificador único para la secuencia y, opcionalmente, una descripción adicional.
- La segunda línea contiene la secuencia de nucleótidos.
- La tercera línea es redundante y puede ignorarse de manera segura. A veces simplemente repite la primera línea. A veces está en blanco o simplemente contiene un carácter '+'.
- La cuarta línea contiene una cadena de caracteres que codifican puntajes de calidad para cada nucleótido en la secuencia. Cada caracter codifica una puntuación, típicamente un número entre 0 y 40;Esta puntuación está codificada por un solo caracter.

| Character | ASCII | FASTQ quality score (ASCII – 33) 
| --|--|--
| ! | 33 | 0
| “ | 34 | 1
| # | 35 | 2
| $ | 36 | 3
| % | 37 | 4
| ... | ... | ...
| C | 67 | 34
| D | 68 | 35
| E | 69 | 36
| F | 70 | 37
| G | 71 | 38
| H | 72 | 39
|40 | 73 | 40

Entonces, en el ejemplo anterior, podemos ver que la mayoría de las posiciones dentro de la secuencia de 97 nucleótidos tienen puntajes mayores a 30 , lo que indica un alto grado de confianza en su precisión.

- Una puntuación de 30 denota una probabilidad de 1 en 1000 de un error, es decir, una precisión del 99.9 %.
- Una puntuación de 40 denota una probabilidad de 1 en 10,000 de un error, es decir, una precisión del 99.99 %.

Puede leer más sobre el formato de archivo FASTQ y los puntajes de calidad aquí: Cock, P. J., Fields, C. J., Goto, N., Heuer, M. L. y Rice, P. M. (2010).
Información sobre el formato de archivo Sanger FastQ para secuencias con puntajes de calidad y las variantes Solexa/Illumina Fastq las puede encontar aquí: *Nucleic Acids Research*, ** 38 **, 1767–1771.https://doi.org/10.1093/nar/gkp1137.



### SAM y BAM

El archivo SAM (generalmente llamado *.sam) se usa para representar secuencias alineadas. Es particularmente útil para almacenar los resultados de alinear lecturas de secuencia genómica o transcriptómica alineadas con una secuencia del genoma de referencia. 
El formato de archivo BAM es una **forma comprimida** de SAM. Esto tiene la desventaja de que no es legible para los humanos, sino que tiene la ventaja de ser más pequeño que el archivo SAM correspondiente y, por lo tanto, más fácil de compartir y copiar entre ubicaciones.

Las entradas en la sección de encabezado siempre comienzan con "@" y vienen antes de la sección de alineación. Cada línea en el encabezado está delimitada por tabulaciones y tiene un código de encabezado de dos letras llamado TAG. Siguen el formato "TAG:VALUE". Estos TAG son:

    HD - La línea de encabezado - 1ª línea
    SO - Orden de clasificación de alineaciones (desconocido (predeterminado), no ordenado, nombre de consulta y coordenadas)
    SQ - Diccionario de secuencia de referencia
    SN - Nombre de secuencia de referencia
    LN - Longitud de secuencia de referencia
    PG - Programa
    ID - ID del programa
    PN - Nombre del programa
    VN - Número de versión del programa
    CL - El comando realmente utilizado para crear el archivo SAM
    RG - Grupo de lectura - "un conjunto de lecturas que fueron todos el producto de una sola ejecución de secuenciación en un carril"

En la sección de alineación, hay 11 campos obligatorios. Estos son:

    QNAME: Nombre de lectura
    FLAG: Información sobre si la lectura está mapeada, forma parte de un par, cadena, etc.
    RNAME: Nombre de secuencia de referencia a la que se alinea la lectura.
    POS: Posición más a la izquierda de donde se mapea esta alineación en la referencia.
    MAPQ: Calidad de mapeo de la lectura a la referencia (escala phred P que el mapeo es incorrecto).
    CIGAR: Informe compacto de alineación idiosincrático y con brechas.
    RNEXT: Nombre de lectura de pareja emparejada
    PNEXT: Posición de pareja emparejada
    TLEN: Longitud de plantilla / Tamaño de inserción (diferencia en las coordenadas exteriores de las lecturas emparejadas)
    SEQ: La secuencia real de ADN leída
    QUAL: Puntuaciones de calidad de Phred ASCII (+33)
    TAGS: Datos opcionales - Muchas opciones, como MD=String para desajustes


Puedes leer más sobre formatos SAM y BAM aquí:
 - Li, H., Handsaker, B., Wysoker, A., Fennell, T., Ruan, J., Homer, N., Marth, G., Abecasis, G., Durbin, R. y 1000 Genome Project Data Processing Subgroup (2009).
 
 El formato de alineación/mapeo de secuencia y SamTools en *Bioinformática*, ** 25 **, 2078–2079.https://doi.org/10.1093/bioinformatics/btp352 y
-[https://samtools.github.io/hts-specs/samv1.pdffont>(https://samtools.github.io/hts-specs/samv1.pdf).

Podemos ver archivos BAM gráficamente utilizando un softwares especializados como:
- [IGV](https://igv.org/)
- [Tablet](https://ics.hutton.ac.uk/tablet/)
- [Artemis / BAMview](http://sanger-pathogens.github.io/Artemis/BamView/) 



### Formato de archivo de mapeo de alineación binario (BAM)

El archivo de mapeo de alineación binario (BAM) es un archivo SAM comprimido. Se comprime utilizando el método de compresión BGZF.

### Archivos CRAM

Los archivos CRAM también son archivos SAM comprimidos, diseñados por EBI para reducir el espacio de almacenamiento. La compresión de archivos CRAM se basa en la referencia a la que se alinea el dato.

Los datos se comprimen utilizando uno de los compresores de propósito general (gzip, bzip2). Los registros CRAM se comprimen utilizando varias estrategias de codificación diferentes. Por ejemplo, las bases se comprimen con referencia codificando las diferencias de base en lugar de almacenar las bases mismas. Las secuencias de referencia externas introducen la única dependencia externa en el formato CRAM. Cuando no se pueden usar secuencias de referencia externas de manera conveniente, las secuencias de referencia también se pueden incrustar dentro de los archivos CRAM. Sin embargo, cuando se utilizan secuencias de referencia incrustadas, solo se preservan en CRAM las regiones de secuencia de referencia que tienen lecturas alineadas.

### Formato GFF3

GFF3 significa archivo de características de genes versión 3. Este es un archivo delimitado por tabulaciones

Formato GFF3

GFF3 significa archivo de características genéticas versión 3. Este es un archivo delimitado por tabuladores que contiene toda la información que se puede asociar con una secuencia de ADN o proteína. Un ejemplo se puede ver en la siguiente figura.

El archivo contiene 9 campos:

    ID de secuencia
    Fuente: algoritmo utilizado para derivar la función, como pródigo, prokka, Genescan, etc.
    Tipo de característica: detalla cuál es la característica (cds, mRNA)
    Inicio de funciones
    Función parada
    Puntuación: estos son valores electrónicos del algoritmo utilizado
    Hebra
    Fase : describe el marco de lectura relativo a la referencia donde comienza la función. Tiene valores 0, 1 y 2 para indicar el número de base desde el principio donde comienza el primer codón de la característica
    Atributos: proporciona información adicional sobre cada característica


## SeqKit

[SeqKit](https://github.com/shenwei356/seqkit?tab=readme-ov-file) es una herramienta que ha ganado popularidad durante los últimos años y permiten manipular archivos FASTA/FASTQ y BAM. Además de esto, podemos ver estadísticas generales, hacer cambios de formato y editar los archivos. 

Aquí podrá encontrar los usos y ejemplos de la herramienta: https://bioinf.shenwei.me/seqkit/usage/

In [None]:
#Instale SeqKit
!conda install -c bioconda seqkit

In [None]:
#Para ver las funcionalidades de SeqKit ejecute el siguiente comando
!seqkit -h

*Más adelante revisaremos algunos ejemplos*

## Repositorios públicos de datos NGS
El "Sequence Read Archive" (SRA) contiene una gran cantidad de lecturas de secuencias generadas por varios métodos NGS. Podemos explorar estos datos en la web a través del portal web del NCBI. También podemos descargar conjuntos de datos NGS en formato FASTQ y analizarlos localmente, por ejemplo, en una máquina virtual. Echemos un vistazo a un conjunto de datos de ejemplo: [SRR19504912](https://www.ncbi.nlm.nih.gov/sra/?term=SRR19504912)

¿De qué virus proviene este conjunto de datos de secuenciación?

Usemos la interfaz web para echar un vistazo a algunas de las lecturas de secuencia en este conjunto de datos. Haga clic en donde dice [SRR19504912](https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=SRR19504912) debajo de 'Run'. Luego haga clic en la pestaña 'Reads'. Esto lo llevará a [this page](https://trace.ncbi.nlm.nih.gov/Traces/index.html?view=run_browser&page_size=10&acc=SRR19504912&display=reads), que se ve así:

![enter image description here](https://github.com/WCSCourses/ViralBioinfAsia2022/raw/main/course_data/NGS_file_formats_and_data_QC/images/Screenshot%202022-07-31%20at%2016.05.10.png)

En la figura anterior, podemos ver una sola secuencia junto con las puntuaciones de calidad para cada posición de nucleótidos. Observe que los puntajes son altos (muy por encima de 30) para la mayor parte de esta secuencia lectura.

Ahora descargemos los datos de las secuencias (es decir, todo el conjunto de lecturas) a partir de SRA. Desafortunadamente, no es fácil descargar los datos directamente desde el sitio web de NCBI;en su lugar, tenemos que usar la herramienta *fastqrq-dump* de [NCBI's SRA Toolkit](https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit). 

Entonces, primero ejecute este comando en la terminal:

In [None]:
#Descargue las SRA tools usando bioconda
!conda install -c bioconda sra-tools

In [None]:
#Descargue el archivo SRR19504912 de la base de datos SRA utilizando fastq-dump
!fastq-dump --split-files SRR19504912

Entonces debería ver alguna salida algo como estas:

    spots read      : 306,691
    reads read      : 613,382
    reads written   : 613,382

Notará que se han creado nuevos archivos llamados *SRR19504912_1.Fastq *y *SRR19504912_2.Fastq *.Hay dos archivos porque este conjunto de datos consiste en lecturas de secuencia pareada o "paired end". 

In [None]:
#Revise las estadísticas de los archivos descargados utilizando SeqKit
!seqkit stats *.fastq -T

In [None]:
#Puede usar el siguiente comando para ver el contenido de los archivos FASTQ
!seqkit head -n 5 SRR19504912_1.fastq

In [None]:
#Puede usar el siguiente comando para convertir archivos FASTQ a FASTA
!seqkit fq2fa SRR19504912_1.fastq -o SRR19504912_1.fasta

In [None]:
#Imprimir el ID y la longitud de la secuencia del archivo FASTA
!seqkit fx2tab SRR19504912_1.fasta -w 0

In [None]:
#Divida el archivo FASTA en múltiples archivos con 500 secuencias cada uno
!seqkit split -s 500 SRR19504912_1.fasta

## References

https://www.technologynetworks.com/genomics/articles/an-overview-of-next-generation-sequencing-346532

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6020069/

https://www.nature.com/articles/nbt1486

https://omicstutorials.com/next-generation-sequencing-ngs-introduction/

https://www.healio.com/hematology-oncology/learn-genomics/whole-genome-sequencing/strengths-and-limitations-of-next-generation-sequencing

https://www.mlsu.ac.in/econtents/1111_Microbial%20genomes.pdf

http://www.cs.cornell.edu/projects/btr/bioinformaticsschool/slides/stanhope.pdf

https://www.genome.gov/about-genomics/fact-sheets/A-Brief-Guide-to-Genomics

https://www.britannica.com/science/genomics

https://www.biorender.com/template/next-generation-sequencing-workflow

https://microbeonline.com/dna-sequencing-sanger-sequencing-method/

https://www.mdpi.com/2075-4418/13/3/373

https://www.genome.gov/genetics-glossary/Nanopore-DNA-Sequencing

https://frontlinegenomics.com/dna-sequencing-how-to-choose-the-right-technology/


*Adaptado de:*

- Advanced Bioinformatics Course developed for the GPS and JUNO projects - Wellcome Sanger Insitute
- SARS-CoV-2 Bioinformatics for Beginners Course - Wellcome Connecting Science
- Viral Genomics and Bioinformatics Asia 2022 - Wellcome Connecting Science


*Modificado por Luisa Sacristán (Universidad de los Andes-CABANA)*
