Skip to content

Montagem_genoma_YFV

Deyvid Amgarten edited this page Jun 12, 2019 · 16 revisions

Welcome to the YFV wiki! Procedimentos para análise dos dados NGS brutos do sequenciamento de genoma completo de YFV

Input: Pasta com os arquivos que possuem o script feito.

1. Mapear genoma humano - remover contaminantes

Antes, fazer download da ref do genoma humano. Vá até a pasta que você deseja salvar e digite

curl --output ./human_genome.fasta.gz http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz

Após realizar o download, o arquivo estará numa pasta .zip - executar o comando abaixo para extrair os dados

gunzip $REFERENCE

É necessário realizar o index do genoma humano usado como referência

bwa index $reference

Usar os dados gerados pelo cutadapt (forward e reverse) para realizar esta etapa (pode ser que o notebook não aguente rodar pois, o genoma humano é muito grande)

bwa mem -t 12 $REFERENCE.fasta passedQC/$SAMPLE1.fq passedQC/$SAMPLE2.fq | samtools view -b > human_mapped/bwa_mapped_human.bam

2. Filtrar reads unmapped em ambos os pares

samtools view -u -f 12 -F 256 bwa_mapped_human.bam > bwa_mapped_human_unmapped.bam

3. Extrair FASTQ do arquivo BAM

Antes de realizar a extração do FASTQ do arquivo BAM, verificar se você possui o programa para executar o bamToFastq - o comando para instalar é:

conda install -c bioconda bedtools 

Para extrair o arquivo:

bamToFastq -i unmapped.bam -fq unmapped_reads1.fastq -fq2 unmapped_reads2.fastq

4. Realizar a montagem apenas com os reads que não mapearam em humano

Spades

spades.py -1 passedQC/$SAMPLE1.fq -2 passedQC/$SAMPLE2.fq --trusted-contigs $REFERENCE_YFV.fasta -t 2 -m 2 -o assembly/