## Controle de qualidade inicial para sequenciamento de genomas SARS-CoV-2 por Nanopore e Illumina 
Neste Notebook, analisaremos os resultados das execuções de sequenciamento, usando duas abordagens para sequenciar o genoma do SARS-CoV-2. Ambas são baseadas no **protocolo ARTIC**, desenvolvido pela [Rede ARTIC](https:// artic.network/ncov-2019). Para Illumina, corresponde ao protocolo ARTIC clássico, que amplifica o genoma SARS-CoV-2 em 98 fragmentos de 400 pb cada. Para Nanopore, o protocolo utilizado é denominado **"Midnight Protocol"** e baseia-se na amplificação de 29 fragmentos de 1200 pb sobrepostos que cobrem todo o genoma do SARS-CoV-2.
O conteúdo do notebook pode ser resumido em:

* Baixar dados
* Instalar software e preparar ambiente
* Controle de qualidade


# Baixe os dados

In [None]:
!gdown 1JkUU3wcexm9Y532l6IbdIsdY4saMehJO ; unzip Illumina_READS.zip
!gdown 1rRhK7H7R9aiPooqtKtT8kugnLNsqmkkR ; unzip Nanopore_READS.zip

Instalando o condacolab

In [None]:
!pip install -q condacolab
import condacolab
condacolab.install()

# Instalando softwares
Instale o FastQC e o NanoPlot

In [None]:
!conda install -c bioconda fastqc
!pip install nanoplot

In [None]:
!pip install multiqc

# Formato Fastq

Todos os sequenciadores produzem dados em um formato chamado **fastq**. A estrutura é mostrada abaixo. Todas as sequências com fastq são representadas por 4 linhas:

```
@SEQ_ID                   <---- SEQUENCE NAME
AGCGTGTACTGTGCATGTCGATG   <---- SEQUENCE AS BASES
+                         <---- SEPARATOR LINE
%%).1***-+*''))**55CCFF   <---- ASCII QUALITY SCORES

```

A qualidade das sequências é representada como um caractere do código ASCII. Verifique [aqui](https://support.illumina.com/help/BaseSpace_OLH_009008/Content/Source/Informatics/BS/QualityScoreEncoding_swBS.htm) para obter uma explicação .
Os valores numéricos correspondem aos valores de qualidade phred

# Controle de qualidade Illumina 

Usaremos o software [FastQC](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/) para a análise dos resultados de uma execução do Illumina. FastQC executa uma série de análises em arquivos fastq e informe os resultados como um arquivo HTML que você abre em um navegador. Para obter ajuda em qualquer uma das seções, verifique os links a seguir.

* [Estatística básica](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/1%20Basic%20Statistics.html)
* [Qualidade da sequência por base](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/2%20Per%20Base%20Sequence%20Quality.html)
* [Conteúdo da sequência por base](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/4%20Per%20Base%20Sequence%20Content.html)
* [Conteúdo GC por sequência](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/5%20Per%20Sequence%20GC%20Content.html)
* [Conteúdo por base N](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/6%20Per%20Base%20N%20Content.html)
* [Distribuição do comprimento da sequência](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/7%20Sequence%20Length%20Distribution.html)
* [Sequências duplicadas](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/8%20Duplicate%20Sequences.html)
* [Sequências hiper-representadas](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/9%20Over-represented%20Sequences.html)
* [Conteúdo do adaptador](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/10%20Adapter%20Content.html)
* [Conteúdo do Kmer](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/11%20Kmer%20Content.html)
* [Qualidade da sequência por bloco](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/12%20Per%20Tile%20Sequence%20Quality.html)


Execute fastQC a partir da linha de comando

In [None]:
#Crie um diretório para armazenar todos os resultados do FastQC e execute o FastQC
!mkdir Illumina_fastqc_results
!fastqc -o Illumina_fastqc_results /content/Illumina_fastq/fastq/*

Como fizemos no módulo anterior, podemos resumir os resultados do fastqc usando multiqc

In [None]:
!multiqc -o /content/Illumina_fastqc_results/ /content/Illumina_fastqc_results/

Isso criará um arquivo de resultado HTML (`multiqc_report`) com um resumo dos relatórios FastQC.

Navegar pelos resultados de cada arquivo e relatório:

> **Qual amostra tem mais leituras?**

> **Existe alguma distribuição de tamanhos de sequências?**

# Controle de qualidade Nanopore 

Execute fastQC a partir da linha de comando (na verdade, para Nanopore, FastQC não é uma boa escolha)

In [None]:
!mkdir Nanopore_FastQC_report
!fastqc -o Nanopore_FastQC_report /content/Nanopore_READS/nanopore_fastq/barcode*/*

In [None]:
!multiqc -o /content/Nanopore_FastQC_report/ /content/Nanopore_FastQC_report/

Executando NanoPlot para dados Nanopore

In [None]:
!NanoPlot -o nanoplot_output --fastq_rich /content/Nanopore_READS/nanopore_fastq/barcode*/*.fastq.gz 

A saída/output estará na pasta nanoplot_output. Baixe o arquivo `NanoPlot-report.html` e navegue pelos resultados.

---


> **Quantas leituras/reads há no total?**

> **Qual é o tamanho médio de leitura?**

> **Como isso se compara aos resultados do Illumina?**




Não fazemos nenhum corte porque os pipelines que usaremos fazem isso para nós. Vejo você no próximo notebook...