# **Software de manipulação de sequencias básico e bancos de dados**

Neste Notebook, iremos fazer o donwload e manipular algumas sequencias nucleotídicas e de aminoácido utilizando o pacote emboss compilado pelo conda. Além disso, também vamos trabalhar com softwares de alinhamento e de extração de informações das sequências biológicas.

Utilizaremos principalmente os softwares listados abaixo.

*   EMBOSS e os softwares implementados - (https://emboss.sourceforge.net/what/);
*   ENTREZ - pacote para interagir com o National Library of Medicine (NCBI) - (https://www.ncbi.nlm.nih.gov/ - https://www.ncbi.nlm.nih.gov/Web/Search/entrezfs.html);

**Antes de começarmos**

Para poder salvar as alterações desse arquivo notebook no seu Drive:

Clique em Arquivo no canto superior esquerdo e selecione Salvar uma cópia no Drive.

**Baixando o conjunto de dados a ser analisado**

Utilizaremos um conjunto de dados de genomas do vírus da Dengue para esta aula prática.

In [None]:
!wget https://raw.githubusercontent.com/khourious/IGM-TRAIN/main/course_data/IGM-TRAIN_DENV.fasta

In [35]:
#Checando o arquivo
!head IGM-TRAIN_DENV.fasta

>ID9999|BR-Bahia|2016
AGTCTGTGTGGACCGACAAGGACAGTTCCAAATCGGAAGCTTGCTTAACACAGTTCTAACAGTTTATTTGAATAGAGAGCAGATCTCTGGAAAAATGAACCAACGAAAAAAGGTGGTTAGACCACCTTTCAATATGCTGAAACGCGAGAGAAACCGCGTATCAACCCCTCAAGGGTTGGTGAAGAGATTCTCAACCGGACTTTTTTCTGGGAAAGGACCCTTACGGATGGTGCTAGCACTCATCACGTTTTTGCGAGTCCTTTCCATCCCACCAACAGCAGGGATTCTGAAGAGATGGGGACAGTTGAAGAAAAATAAGGCCATCAAGATACTGATTGGATTCAGGAAGGAGATAGGCCGCATGCTGAACATCTTGAACGGGAGAAAAAGGTCAACGATAACATTGTTGTGCTTGATTCCCACCGTAATGGCGTTTCACTTGTCAACAAGAGATGGCGAACCCCTCATGATAGTGGCAAAACATGAAAGGGGGAGACCTCTCTTGTTTAAGACAACAGAGGGGATCAACAAATGCACTCTCATTGCCATGGACTTGGGTGAAATGTGTGAGGACACTGTCACGTACAAATGCCCCCTACTGGTCAATACCGAACCTGAAGACATTGATTGCTGGTGCAACCTCACGTCTACCTGGGTCATGTATGGGACATGCACCCAGAGCGGAGAACGGAGACGAGAGAAGCGCTCAGTAGCTTTAACACCACATTCAGGAATGGGATTGGAAACAAGAGCTGAGACATGGATGTCATCGGAAGGAGCTTGGAAGCATGCTCAGAGAGTAGAGAGCTGGATACTCAGAAACCCAGGATTTGCACTCTTGGCAGGATTTATGGCTTATATGATTGGGCAAACAGGGATCCAGCGAACTGTCTTCTTTGTCCTAATGATGCTGGTCGCCCCATCCTACGGAATGCGATGCGTAGGAGTAGGAAACAGAGACTTTGTGGAAGGAGTCTC

In [None]:
#Vamos obter o número de sequencias
!head IGM-TRAIN_DENV.fasta | grep -c '>'

In [None]:
#E agora?
!grep -c '>' IGM-TRAIN_DENV.fasta

**Instalando o conda/mamba**

In [None]:
!pip install --upgrade --force-reinstall zstandard cuda-python
!pip install -q condacolab

!sed -i '/cudatoolkit/d' /usr/local/conda-meta/pinned

#Código em Python
import condacolab
condacolab.install()

**Instalando o pacote de programa emboss**

In [None]:
!mamba install -c bioconda emboss --quiet

**Vamos utilizar algumas ferramentas interessantes?**


*   infoseq	- Displays some simple information about sequences.
*   pepstats	- Protein statistics.
*   palindrome	- Looks for inverted repeats in a nucleotide sequence.
*   eprimer3	- Picks PCR primers and hybridization oligos.
*   showfeat	- Show features of a sequence.
*   extractseq	- Extract regions from a sequence.

*   getorf - Finds and extracts open reading frames (ORFs).
*   plotorf - Plot potential open reading frames.
*   sixpack - Display a DNA sequence with 6-frame translation and ORFs.
*   remap - Display sequence with restriction sites, translation etc
*   transeq - translates nucleic acid sequences to the corresponding peptide sequences.
*   tfscan	- Scans DNA sequences for transcription factors.
*   patmatmotifs	- Compares a protein sequence to the PROSITE motif database.

*   wossname	- Finds programs by keywords in their one-line documentation.

**Agora podemos chamar cada software do EMBOSS diretamente**

Neste primeiro momento, como de prache devido a centenas de softwares e parâmetros existentes nos softwares de bioinformática, vamos chamar o parâmetro help para entendermos as opções disponíveis no programa infoseq.

In [None]:
#Vamos chamar o manual do software infoseq
!infoseq -help

In [41]:
#Chamando o comando para imprimir na tela
!infoseq -sequence sequencias_nucleotideos.fasta -only -name -type -length

Display basic information about sequences
Name           Type Length 
Dele           N    1509   
Dinc           N    1504   
Dbia           N    1462   
Dmel           N    1509   
Dlit           N    1509   
Dpse           N    1509   
Dsec           N    1402   
Dsim           N    1509   
Dyak           N    1477   
Dvir           N    1472   
Drho           N    1469   
Dmau           N    1509   
Dwil           N    1461   
Dper           N    1509   
Dmoj           N    1476   
Dgri           N    1503   
Dere           N    1442   
Dana           N    1491   
musca          N    1509   


In [42]:
#Vamos agora imprimir em um arquivo
!infoseq sequencias_nucleotideos.fasta -only -name -type -length -outfile sequencias_nucleotideos.info

Display basic information about sequences


In [None]:
#Vizualizando o arquivo
!cat sequencias_nucleotideos.info

**E um arquivo com polipeptídeos/amino ácidos?**

In [40]:
#Chamando o comando para imprimir na tela
!infoseq -sequence sequencias_aminoacidos.fasta -only -name -type -length

Display basic information about sequences
Name           Type Length 
D_mauritiana   P    345    
Madmar1.gi805122 P    347    


In [44]:
#Vamos agora imprimir em um arquivo
!infoseq sequencias_aminoacidos.fasta -only -name -type -length -outfile sequencias_aminoacidos.info

Display basic information about sequences


In [45]:
#Imprimindo na tela
!cat sequencias_aminoacidos.info

Name           Type Length 
D_mauritiana   P    345    
Madmar1.gi805122 P    347    


**Extraindo informações de outros formatos de arquivo que armazenam sequências e anotações**


Existem vários formatos de arquivos que carregam informações extras, além da sequência nucleotídica. Um dos formatos bem conhecidos é o .gbk (https://www.ncbi.nlm.nih.gov/genbank/samplerecord/). Porém iremos utilizar um outro formato de arquivo que contém as anotações proveniente do EMBL (European Molecular Biology Laboratory - https://ena-docs.readthedocs.io/en/latest/submit/fileprep/flat-file-example.html).

In [None]:
!showfeat -help

In [56]:
#Vamos usar um arquivo no formato embl
!showfeat -sequence x65921.embl.txt -outfile x65921.embl.showfeat

Display features of a sequence in pretty format


In [None]:
#Vamos modificar o resultado passando alguns parametros
!showfeat -joinfeat -pos -sequence x65921.embl.txt -outfile x65921.embl.showfeat1

Display features of a sequence in pretty format


In [57]:
#Imprimindo na tela
!cat x65921.embl.showfeat

X65921
H.sapiens fau 1 gene
|----------------------------------------------------------> source
           |-->                                              exon
           |-->                                              mRNA
                      |->                                    mRNA
                           |--->                             mRNA
                                             |>              mRNA
                                                    |-->     mRNA
              |------->                                      intron
                      |->                                    exon
                      |->                                    CDS
                           |--->                             CDS
                                             |>              CDS
                                                    |-->     CDS
                        |-->                                 intron
                           |--->              

**Agora vamos usar um comando para extrair informações específicas de arquivos .embl**

**Vamso extrair um pouco mais de informação no caso de sequências de aminoácido**

In [47]:
!pepstats -help

Calculate statistics of protein properties
Version: EMBOSS:6.6.0.0

   Standard (Mandatory) qualifiers:
  [-sequence]          seqall     Protein sequence(s) filename and optional
                                  format, or reference (input USA)
  [-outfile]           outfile    [*.pepstats] Pepstats program output file

   Additional (Optional) qualifiers: (none)
   Advanced (Unprompted) qualifiers:
   -aadata             datafile   [Eamino.dat] Amino acid properties
   -mwdata             datafile   [Emolwt.dat] Molecular weight data for amino
                                  acids
   -pkdata             datafile   [Epk.dat] Values of pKa for amino acids
   -[no]termini        boolean    [Y] Include charge at N and C terminus
   -mono               boolean    [N] Use monoisotopic weights

   General qualifiers:
   -help               boolean    Report command line options and exit. More
                                  information on associated and general
                        

In [None]:
!pepstats -sequence sequencias_aminoacidos.fasta -outfile sequencias_aminoacidos.pepstats

In [None]:
!cat sequencias_aminoacidos.pepstats

**Como procurar um software dentro do EMBOSS por palavra-chave??**

In [None]:
!wossname -help

In [None]:
!wossname -search transeq

## Baixando o genoma de referência a anotações através do Entrez/NCBI

In [None]:
#Criando ambiente para baixar o genoma de referência e anotações
!mamba create -n entrez_ncbi
!mamba env list
!mamba install -c bioconda cmake entrez-direct --quiet
!mamba activate entrez_ncbi

In [None]:
!esearch -db nucleotide -query NC_045512 | efetch -format fasta | awk '{print $1}' > NC_045512.fa
!wget -O NC_045512.gff "https://www.ncbi.nlm.nih.gov/sviewer/viewer.cgi?db=nuccore&report=gff3&id=NC_045512"
!ls

## **Créditos:**
Desenvolvido por Gabriel da Luz Wallau

https://github.com/khourious/IGM-TRAIN

