# Biología como una ciencia data-intensiva

Gracias a los avances en tconología *high-throughput* las secuencias y genomas de miles de organismos están disponible. Desde virus de unos miles de pares de bases hasta plantas con billones de pb. Asimismo, los metagenomas de comunidades de bacterias y microorganismos están siendo secuenciados a gran escala. Pero las secuencias no son los únicos datos disponibles, existen otros tipos de datos que están expandiendo la dimensión de información en biología. A medida que avanza la colección de datos, es imprescindible desarrollar la habilidad de interpretarlos y combinarlos para proponer nuevas hipótesis. El reto actual no es el de adquirir los datos sino el de analizarlos e interpretarlos para obtener conocimiento sobre los sistemas biológicos. 

En la sesión de hoy tendremos una introducción de la secuenciación *high-throughput* que iniciaron este "big-bang" de datos. 


# Tipos de secuenciación

<img src="sanger_ngs.jpeg"/>

- **Sanger**: terminación de reacción de la DNA polimerasa con marcaje (radiactivo o fluorescente)
https://www.youtube.com/watch?v=KTstRrDTmWI
- **High-throughput (Next Generation Sequencing)**:
https://www.youtube.com/watch?v=jFCD8Q6qSTM&list=PLK1xpTaA9PuZqvDpaEYrA5d8kbmxqjXoJ&index=8
    - **Illumina**: fragmetación y  marcaje luminiscente
    - **Nanopore**: Cambios en corriente eléctrica de nuleótidos a medida que pasan por un *nanopore* de prtoeína protein nanopore

<img src="developments_in_high_throughput_sequencing.jpg"/>

## Illumina
Es la tecnología más usada en los últimos años

<img src="Cluster_Generation.png"/>

## Secuencias crudas de SARS-CoV

Hasta ahora hemos descargado y analizado secuencias que ya están ensambladas o "limpias", es decir que ya han pasado por filtros de calidad y se ha establecido un *consenso* para la secuencia. Sin embargo, así no es como salen del secuenciador. Cada vez que se realiza una secuenciación y se publica su análisis, las secuencias "crudas" se depositan en un repositorio. Hoy vamos a descargar las secuencias de una de las primeras variantes de Omicrón secuenciadas y depositadas en el European Nucleotide Archive (ENA) de la siguiente dirección URL:

ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR170/002/SRR17054502/SRR17054502_1.fastq.gz
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR170/002/SRR17054502/SRR17054502_2.fastq.gz

Cuantas lecturas tiene cada archivo? Por qué cree que hay dos archivos? Cual es el identificador y que significa el "_1" y "_2"?

Los archivos con fromato FASTQ son una extensión del formato FASTA donde cada lectura ("read") está compuesta por múltiples líneas

Descargue las secuencias, descomprímalas y explore el archivo (recuerde que si trabaja en Apolo, esto se debe realizar vía un script de Slurm). Cuantas lecturas contiene cada archivo? Cuantas líneas contiene cada lectura y en cual de ellas está la secuencia?

1. la primera línea comienza con el símbolo “@”, el identificador y la lectura. Note que como son pares de lecturas, los prefijos de id son iguales en las lecturas, pero terminan con  “/1” and “/2”.
2. la segunda línea contiene la secuencia de nucleótidos.
3. Una linea con el símbolo “+” indica el final de los nucleótidos. 
4. La cuarta línea contienen una colección de símbolos que representan el *Phred quality score*. El valor n-avo de calidad corresponde al n-avo de la secuencia.

### Calidad de las secuencias

[**Phred Quality Score**](https://medium.com/@robertopreste/phred-quality-score-2837415f0af): 
Para determinar la calidad de secuenciación se utiliza este índice. A cada base secuenciada se le asigna un score de calidad *Q* basado en la probabilidad (en escala logarítmica) de que la base sea correcta. 

Q = -10 log10(p) 

Al índice Q se le asigna un símbolo ASCII. Por ejemplo, si la probabilidad de error es 1 en 1000 nucleótidos, p = 0.001, entonces log10(0.001) es -3, y entonces Q = 30. El símbolo ASCII correspondiente es “?”. En resúmen, mientras mas bajo *p*, mas alto *Q*. 


## FASTQC

(FastQC)[https://www.bioinformatics.babraham.ac.uk/projects/fastqc/} es una herramienta que permite visualizar varias métricas para el control de calidad de secuencias. Se puede instalar en el computador personal o generar un ambiente en Apolo para su uso 

In [None]:
ssh lsalazarj@apolo.eafit.edu.co
conda create --name fastqc
conda activate fastqc
conda install -c bioconda fastqc

Una vez instalado fastqc, se puede correr con el comando (recuerde que en Apolo este comando debe estar dentro de un script slurm)

In [None]:
fastqc SRR17054502_1.fastq 

Esto genera un archivo SRR17054502_1_fastqc.html que se puede abrir en un Browser (si lo corrió en Apolo, primero debe copiarlo a un directorio local)

Como se ve la calidad de las secuencias? Por qué disminuyen hacia el final? 

ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR170/039/SRR17051939/SRR17051939_1.fastq.gz
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR170/039/SRR17051939/SRR17051939_2.fastq.gz

<div class="alert alert-block alert-info">
<b>Ejercicio Evaluable</b> 

  1) Entre a https://merenlab.org/data/sar11-saavs/files/ftp-links-for-raw-data-files.txt 
  y descargue un par cualquiera de secuencias correspondientes a un ID específico
  2) Realice una evaluación de la calidad de las secuencias usando FastQC.
  3) Suba el reporte de FastQC
  </div>