# Formatos de arquivos em genômica

Esta prática foi adaptada de um curso anterior - [Viral Genomics and Bioformatics Asia, 2022](https://wcscourses.github.io/ViralBioinfAsia2022/).

O módulo de formatos de arquivo NGS foi criado por [David Studholme ( Univ. de Exeter)](https://biosciences.exeter.ac.uk/staff/profile/index.php?web_id=david_studholme).

Este é um módulo geral para ajudá-lo a se familiarizar com os formatos de dados de maneira prática.

# Formatos de arquivo comumente usados ​​para dados de sequenciamento de próxima geração (NGS)

Nesta sessão, vamos nos familiarizar com vários formatos de arquivo comuns usados ​​para dados de sequência.



## FASTA

Entre os formatos de arquivo mais simples, usados para representar sequências biomoleculares, tanto polinucleotídeos como proteínas, o FASTA talvez o mais usado. Essencialmente, cada sequência é representada por uma linha de 'cabeçalho' que começa com um '>' (caractere "maior que"), seguida por linhas contendo a sequência de nucleotídeos ou aminoácidos. Por convenção, o texto antes do primeiro espaço, na linha de cabeçalho, é o identificador da sequência, e normalmente será um número de acesso em um banco de dados. Considere este exemplo de uma sequência de nucleotídeos formatada em FASTA:

```
    >LC719646.1 Influenza A virus (A/swine/Tottori/B34/2020(H1N1)) segment 8 NS1, NEP genes for nonstructural protein 1, nuclear export protein, complete cds
    ATGGAATCCAACACCATGTCAAGCTTTCAGGTAGACTGTTTTCTTTGGCATATTCGCAAGCGATTTGCAG
    ACAATGGATTGGGTGATGCCCCATTCCTTGATCGGCTACGCCGAGATCAAAAGTCCTTAAAAGGAAGAGG
    CAACACCCTTGGCCTCGACATCAAAACAGCCACTCTTGTTGGGAAACAAATTGTGGAATGGATTTTGAAA
    GAGGAATCCAGCGAGACACTTAGAATGGCAATTGCATCTGTACCTACTTCGCGTTACATTTCTGACATGG
    CCCTCGAGGAAATGTCACGAGACTGGTTCATGCTTATGCCTAGGCAAAAGATAATAGGCCCTCTTTGCGT
    GCGATTGGACCAGGCGGTCATGGATAAGAACGTAGTACTGGAAGCAAACTTCAGTGTAATCTTCAACCGA
    TTAGAGACCTTGATACTACTAAGGGCTTTCACTGAGGAGGGAACAATAGTTGGAGAAATTTCACCATTAC
    CTTCTCTTCCAGGACATACTTATGAGGATGTCAAAAATGCAGTTGGGGTYCTCATCGGAGGACTTGAGTG
    GAATGGTAACACGGTTCGAGTCTCTGAAAATATACAGAGATTCGCTTGGAGAAGCTGTGATGAGAATGGG
    AGACCTTCACTACCTCCAGAGCAGAAATGAGAAGTGGCGGGAACAATTGGGACAGAAATTTGAGGAAATA
    AGGTGGTTAATTGAAGAAATACGACACAGATTGAAAGCGACAGAGAATAGTTTCGAACAAATAACATTTA
    TGCAAGCCTTACAACTACTGCTTGAAGTAGAGCAAGAGATAAGAGCTTTCTCGTTTCAGCTTATTTAA
```

- A primeira linha começa com '>' indicando que é a linha de cabeçalho.
- Isso é imediatamente seguido por 'LC719646.1', que é um número de acesso para [esta sequência no banco de dados GenBank](https://www.ncbi.nlm.nih.gov/nuccore/LC719646.1).
- Em seguida, segue a sequência de nucleotídeos real, dividida em várias linhas, começando com 'ATGGAATCCAACA...' e terminando com '...TTATTTAA'.

Nesse exemplo, cada linha contendo a sequência tem, no máximo, 70 caracteres. Embora esse seja um número comum nos arquivos FASTA obtidos de bancos de dados públicos, o formato FASTA não define ou restringe o número de caracteres (resíduos) que devem estar em cada linha e a maioria dos softwares pode operar mesmo quando a sequência inteira está contida em uma linha. A mesma flexibilidade também vale para a linha de cabeçalho.

É muito comum combinar várias sequências em um único arquivo multi-FASTA como este:

```
    >ON084923.1 Influenza A virus (A/ostriches (Struthio camelus)/Egypt/Mansoura1/2022(H5N8)) segment 4 hemagglutinin, HA2 region, (HA) gene, partial cds
    GTACCACCATAGCAATGAGCAGGGGAGTGGGTACGCTGCAGACAAAGAATCCACTCAAAAGGCAATAGAT
    GGAGTTACCAATAAGGTCAACTCAATCATTGACAAAATGAACACTCAATTTGAGGCAGTTGGAAGGGAGT
    TTAATAACTTAGAAAGGAGGATAGAGAATTTGA
    >MW170960.1 Influenza A virus (A/swine/Italy/410927/2018(H1N2)) segment 6 neuraminidase (NA) gene, partial cds
    CCTTATGCAGATTGCTATCCTGGTAACTACTGTTACATTTCACTTCAAGCAATATGAATACAATTTCTAC
    CCAAACAACCAAGTAATGCCATGTGAACCAACGATAATTGAAAGAAACATAACAGAAATAGTGTACCTGG
    CCAACACCAC
    >MW170083.1 Influenza A virus (A/swine/Italy/134212/2019(H1N2)) segment 6 neuraminidase (NA) gene, partial cds
    GTAGTAACTGCCTGAGTCCTAATAATGAAGAAGGGGGTCATGGGGTAAAAGGCTGGGCCTTTGATGATGG
    AAATGATGTTTGGATGGGAAGAACGATCAGCGAAAAGTTACGATTAGGTTATGAAACCTTCAAGGTCATC
    GACGGTTGGTCCAAGCC
    >MW169741.1 Influenza A virus (A/swine/Italy/8745/2019(H3N2)) segment 2 polymerase PB1 (PB1) gene, partial cds
    TCGTTCCATCCTCAATACTAGCCAAAGGGGAATTCTTGAGGATGAGCAAATGTATCAGAAGTGCTGCAAT
    TTATTTGAGAAATTCTTCCCTAGCAGTTCATACAGGAGGCCAGTGGGAATTTCAAGCATGGTGGAGGCCA
    TGGTATCTAGGGCCAGAATTGATGCACGGATTGATTTCGAGTCTGGAAGGATTAATAAAGAAGAATTTGC
    TGAGATCATGAAGATCTGTTCCACCATAGAAGAGTTCAGACGGCAAAAGTAG
    >OM149369.1 Influenza A virus (A/Hilly chicken/Bangladesh/Avian Influenza Virus/2019(H9)) segment 4 hemagglutinin (HA) gene, partial cds
    AATTTCTTAGCTAGCAAAATGGAAACAATAACACTGATGACTACACTACTATTAACAACAACGAGCCTTG
    CAGACAAAATCTGTATCGGCCACCAATCGACAAATTCTACAGAAACTGTAGACACACTAACAGAAACTAA
    CGTTCCTGTGACACATGCCAAAGAGTTGCTCCATACGGATCACAATGGAATGCTGTGTGCAACAAATCTA
    GGACATCCCCTCATCCTAGATAAATGTAACGTAGAAGGACTGATCTACGGCAACCCTTCTTGTGATCT
```

Se você quiser um histórico mais detalhado do formato de arquivo FASTA, dê uma olhada na página da Wikipedia aqui: https://en.wikipedia.org/wiki/FASTA_format.

## FASTQ
O formato de arquivo FASTA amplamente utilizado tem a grande vantagem da simplicidade. No entanto, essa simplicidade limita a capacidade do formato para representar outros dados e metadados, além da sequência. Um exemplo de metadado, presente nas sequências acima, é o nome do organismo, que aparece no cabeçalho. Adicionar informações ao cabeçalho, porém, não permite representar informações sobre resíduos individuais.

 Um exemplo de informação associada a resíduos individuais é a qualidade de cada resíduo, informação que é obtida durante o sequenciamento. A qualidade expressa a probabilidade de erro de cada resíduo, pois é dada pela fórmula $Q = -10*\log_{10}P$ onde $Q$ é a qualidade e $P$ é a probabilidade de erro. A qualidade de cada base é uma informação essencial na análise de NGS, pois permite o controle da qualidade do sequenciamento como um todo, incluindo a detecção de viéses, e a filtragem de dados de má qualidade, etapa que precede a análise propriamente dita.

O formago FASTQ é um formato relativamente simples, baseado em texto, que representa a sequência em uma linha, abaixo de um cabeçalho, e os valores de qualidade logo abaixo de segunda linha de cabeçalho, iniciada com um sinal de mais ("+"). Assim, nesse formato, uma única sequência é representada por quatro linhas de texto:

    @ERR8261968.1 1 length=97
    ACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGCTTAGTGCACTCACGCAGTATAATTA
    +ERR8261968.1 1 length=97
    CCCCCFDDFFFFGGGGGGGGGGHHHHHHHHHHHGGGGHHHHHHHHHHHHHHHGHHGHHIIHHGGGGGGHHHHHHHHHHHHHHHHHHHGGGHHHHHHH

- A primeira linha é o primeiro cabeçalho, que conterá um identificador único para a sequência e, opcionalmente, uma descrição.
- A segunda linha contém a sequência de nucleotídeos.
- A terceira linha é redundante e pode ser ignorada com segurança. Às vezes, ela simplesmente repete a primeira linha. Às vezes, está em branco ou contém apenas um caractere '+'.
- A quarta linha contém uma sequência de caracteres que codificam pontuações de qualidade para cada nucleotídeo na sequência. Cada caractere único codifica uma pontuação, geralmente um número entre 0 e 42; essa pontuação é codificada por um único caractere, [baseado no código ASCII](https://drive5.com/usearch/manual/quality_score.html).

| Character | ASCII | Qualidade (ASCII – 33)
| --|--|--
| ! | 33 | 0
| “ | 34 | 1
| # | 35 | 2
| $ | 36 | 3
| % | 37 | 4
| ... | ... | ...
| G | 71 | 38
| H | 72 | 39
| I | 73 | 40
| J | 74 | 41
| K | 75 | 42

Assim, no exemplo acima, podemos ver que a maioria das posições dentro da sequência de 97 nucleotídeos tem valores de qualidade acima de 30, o que indica probabilidades de erro menores que uma em mil.

- Uma pontuação de 30 denota uma chance de erro de 1 em 1.000, ou seja, 99,9% de precisão.
- Uma pontuação de 40 indica uma chance de erro de 1 em 10.000, ou seja, 99,99% de precisão.

Você pode ler mais sobre o formato de arquivo FastQ e as pontuações de qualidade neste artigo:

Cock, P.J., Fields, C.J., Goto, N., Heuer, M.L., & Rice, P.M. (2010). The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. *Nucleic Acids Research* , **38**, 1767–1771. https://doi.org/10.1093/nar/gkp1137.

# Repositórios públicos de dados NGS
O Sequence Read Archive (SRA) contém um grande número de leituras de sequência geradas por vários métodos NGS. Podemos navegar por esses dados na web por meio do portal da web do NCBI. Também podemos baixar conjuntos de dados NGS no formato FastQ e analisá-los localmente, para exemplo em nossa máquina virtual. Vamos dar uma olhada em um exemplo de conjunto de dados: [SRR19504912](https://www.ncbi.nlm.nih.gov/sra/?term=SRR19504912).

De qual vírus vem este conjunto de dados de sequenciamento?

Vamos usar a interface da web para dar uma olhada em algumas das leituras de sequência neste conjunto de dados. Clique onde diz [SRR19504912](https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=SRR19504912) em 'Executar'. Em seguida, clique na guia 'Reads'. Isso o levará a [esta página](https://trace.ncbi.nlm.nih.gov/Traces/index.html?view=run_browser&page_size=10&acc=SRR19504912&display=reads), que se parece com isto:

![insira a descrição da imagem aqui](https://github.com/WCSCourses/ViralBioinfAsia2022/raw/main/course_data/NGS_file_formats_and_data_QC/images/Screenshot%202022-07-31%20at%2016.05.10.png)

Na figura acima, podemos ver uma única sequência lida junto com as pontuações de qualidade para cada posição de nucleotídeo em sua sequência. Observe que as pontuações são altas (bem acima de 30) para a maior parte dessa sequência lida.

Agora vamos baixar os dados da sequência (ou seja, todo o conjunto de leituras) desse sequenciamento executado do SRA. Infelizmente, não é fácil baixar os dados diretamente do site do NCBI; em vez disso, temos que usar a ferramenta *fasterq-dump* do [SRA Toolkit do NCBI](https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit). Então, primeiro execute este comando no Terminal:

In [None]:
#Baixe o kit de ferramentas SRA usando wget
!wget --output-document sratoolkit.tar.gz https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz


In [None]:
#Descompacte o arquivo baixado usando tar
#Obs: tar é uma excelente ferramenta para compactar e descompactar arquivos
!tar -vxzf sratoolkit.tar.gz

In [None]:
# Este comando executa uma configuração para usar NCBI SRA para acessar dados, geralmente é executado com uma sessão interativa, mas falha no colab
# Este é o comando interativo, causará uma falha de segmentação, mas você deve executar
!$(\ls | grep sratoolkit | grep -v tar)/bin/vdb-config --interactive


In [None]:
#Este comando é executado sem o interativo e, de alguma forma, permite que os comandos subsequentes funcionem no colab
#OBS: Isso pode não funcionar indefinidamente em colab com ferramentas SRA
# Se este comando falhar, você pode usar wget https://wcs_data_transfer.cog.sanger.ac.uk/SRR19504912.zip e descompactar
!$(\ls | grep sratoolkit | grep -v tar)/bin/vdb-config

In [None]:
# Este comando usa a ferramenta fastq-dump para baixar o conjunto de dados SRR19504912
!$(\ls | grep sratoolkit | grep -v tar)/bin/fasterq-dump SRR19504912


Você deve ver uma saída mais ou menos assim:

    spots read      : 306,691
    reads read      : 613,382
    reads written   : 613,382

Você notará que novos arquivos foram criados chamados *SRR19504912_1.fastq* e *SRR19504912_2.fastq*. Existem dois arquivos porque este conjunto de dados consiste em leituras de sequência emparelhada.

In [None]:
!ls

In [None]:
# Inspecione o conteúdo do arquivo SRR19504912_1.fastq
!head SRR19504912_1.fastq

In [None]:
# Inspecione o conteúdo do arquivo SRR19504912_2.fastq
!head SRR19504912_2.fastq

# Formatos GenBank e GFF

Os dados de sequenciamento podem ser adequadamente representados por arquivos nos formatos FASTA e FASTQ, mas o sequenciamento é apenas a primeira etapa de qualquer projeto envolvendo focado em dados genômicos. Quando consideramos exemplos de montagem *de novo*, duas etapas de análise subsequentes são a montagem e a anotação. A montagem consiste em identificar sobreposições entre os fragmentos de DNA para inferir a sequência de fragmentos maiores do que as leituras individuais. A anotação inspeciona a sequências maiores produzidas pela montagem, identifica as regiões que correspondem a genes e associa esses genes a funçnoes conhecidas, quando possível.

## Formato GenBank

O resultado dos passos resumidos acima é uma tabela que descreve as posições e funçnoes de genes no genoma sob análise. Um consórcio internacional ([INSDC](https://www.insdc.org/)), formado pelos principais bancos de dados de nucleotídeos do mundo ([GenBank](https://www.ncbi.nlm.nih.gov/nucleotide/), [EMBL](https://www.ebi.ac.uk/ena/) e [DDBJ](https://www.ddbj.nig.ac.jp/index-e.html)), definiu um [conjunto padronizado de marcadores](https://www.insdc.org/submitting-standards/feature-table/) para essas anotações.

O banco de dados GenBank, usa um formato específico desse banco, conhecido como GenBank, gbk, gbff ou gb. O format GBK segue os padrões do INSDC, incluindo seções com metadados (anotações) e uma tabela de características (*feature table*), que descreve características conhecidas em regiões da sequência. Como os outros formatos que aderem aos padrões do INSDC, o GBK também inclui a própria sequência, de modo que toda a informação conhecida sobre uma sequência individual pode ser representado nesse formato.

### Baixando dados sobre um genoma com NCBI Datasets

A ferramenta NCBI Datasets foi introduzida recentemente para facilitar o *download* e processamento de arquivos GBFF do repositório de genomas do NCBI (GenBank + RefSeq).

O passo inicial para podermos obter e explorar dados no formato GenBank é instalar o NCBI Datasets:

In [None]:
!pip install -q condacolab
import condacolab
condacolab.install()
!mamba install -c conda-forge ncbi-datasets-cli

Vamos verificar se a instalação funcionou:

In [None]:
!which datasets
!which dataformat

O comando "datasets summary" vai obter informações sobre genomas disponíveis no GenBank. No exemplo abaixo, solicitamos informações sobre o genoma de referência de SARS-Cov-2:

In [None]:
!datasets summary genome taxon "Monkeypox" --annotated --assembly-source RefSeq --as-json-lines | dataformat tsv genome | column -t -s $'\t'

Como podemos ver, a saída do datasets é convertida em uma tabela pelo comando dataformat. Usando o primeiro número de acesso (*accession*), fornecido acima pelo *datasets*, vamos baixar os arquivos disponíveis para este genoma:

In [None]:
!datasets download genome accession --include gbff,gff3 GCF_000857045.1

E agora checamos o que foi baixado:

In [None]:
!ls

E descompactamos o arquivo obtido (ncbi_dataset.zip):

In [None]:
! unzip ncbi_dataset.zip

Vamos inspecionar as primeiras 80 linhas do arquivo GBFF obtido pelo datasets:

In [None]:
!head -n80 ncbi_dataset/data/GCF_000857045.1/genomic.gbff

In [None]:
!tail ncbi_dataset/data/GCF_000857045.1/genomic.gbff

## Formato GFF3

O formato GFF3 é um formato para armazenamento e distribuição de anotações genômicas. É um formato padronizado e suportado por muitos softwares, constituído por uma tabela em texto simples (ASCII), contendo nove colunas separadas por tabulações.

Vamos examinar o arquivo GFF3, disponibilizado pelo NCBI. Esse arquivo contém informação equivalente à disponível na tabela de anotações do arquivo GBFF.

Para tanto, vamos usar o programa GenomeTools, que inclui várias ferramentas de análise e manipulação de dados genômicos.

In [None]:
!apt-get install genometools

Começamos usando o GenomeToools para extrair estatísticas sobre o genoma de Monkey Pox:

In [None]:
!gt stat ncbi_dataset/data/GCF_000857045.1/genomic.gff

E usamos o subcomando *sketch* para produzir uma representação gráfica de uma região do genoma de Monkey Pox:

In [None]:
!gt sketch -format png -start 90000 -end 110000 test.png ncbi_dataset/data/GCF_000857045.1/genomic.gff

In [None]:
from IPython.display import display, Image
Image("test.png", width=600, height=300)

## SAM e BAM

Um arquivo SAM (geralmente chamado \*.sam) é usado para representar sequências alinhadas. É particularmente útil para armazenar os resultados do alinhamento de leituras (*reads*), de sequências genômicas ou transcriptômicas, contra um genoma de referência. O formato de arquivo BAM é uma forma compactada do formato SAM, este último um arquivo de texto simples (ASCII). O BAM tem a desvantagem de não ser legível por um ser humano, mas a vantagem de ser muito menor que o arquivo SAM correspondente e, portanto, mais fácil de compartilhar e copiar entre locais.

Você pode ler sobre os formatos SAM e BAM aqui:

- Li, H., Handsaker, B., Wysoker, A., Fennell, T., Ruan, J., Homer, N., Marth, G., Abecasis, G., Durbin, R., & 1000 Genome Project Data Processing Subgroup(2009). The Sequence Alignment/Map format and SAMtools. *Bioinformatics*, **25**, 2078–2079. https://doi.org/10.1093/bioinformatics/btp352
- [https://samtools.github.io/hts-specs/SAMv1.pdf](https://samtools.github.io/hts-specs/SAMv1.pdf).

Arquivos BAM podem ser visualizados usando um software de navegador de genoma especializado, como:

- [IGV](https://igv.org/)
- [Tablet](https://ics.hutton.ac.uk/tablet/)
- [Artemis / BAMview](http://sanger-pathogens.github.io/Artemis/BamView/)

## **Créditos:**
Robson Francisco de Souza

Progress Dube

Marcela Suarez Esquivel

Leigh Jackson

Srikeerthana Kuchi (Intro to Unix Commands)

David Studholme  (Introduction to NGS formats and QC)

COG-Train
Wellcome Connection Science