<a href="https://colab.research.google.com/github/andersonnb6/ColabPython-Tutoriais/blob/main/Introdu%C3%A7%C3%A3o_Biopython.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Biopython-Analysis**

### Instação de pacotes

In [None]:
%pip install biopython

### Importação de pacotes e métodos

In [None]:
from Bio.Seq import Seq
from Bio import SeqIO
from Bio.SeqRecord import SeqRecord
from Bio.SeqUtils import GC
import requests

# **PARTE 1 - Manipulando sequências individuais**

In [None]:
# Importando módulo de manipulação básica de sequências
# Já foi importado antes, mas segue abaixo
from Bio.Seq import Seq

# Declarando uma sequência
myseq = Seq("ACGTAGCTACGATCACAGCTA")
print(f">sequence\n{myseq}\n")

# Reverso
revers = myseq[::-1]
print(f">reverse\n{revers}\n")

# Reverso complementar
revcomp = myseq.reverse_complement()
print(f">reverse_complemet\n{revcomp}\n")

# Transcrição
rna = myseq.transcribe()
print(f">rna\n{rna}\n")

# Tradução a partir do RNA
protein = myseq.translate()
print(f">translate\n{protein}\n")

>sequence
ACGTAGCTACGATCACAGCTA

>reverse
ATCGACACTAGCATCGATGCA

>reverse_complemet
TAGCTGTGATCGTAGCTACGT

>rna
ACGUAGCUACGAUCACAGCUA

>translate
T*LRSQL



In [None]:
# Importando módulo que calcula conteúdo GC
# Já foi importado antes, mas segue abaixo
from Bio.SeqUtils import GC

# Declarando uma sequência
myseq = Seq("ACGTAGCTACGATCACAGCTA")
print(f">sequence\n{myseq}\n")

# Obtendo posição da cada nucleotídeo
print("Obtendo posição da cada nucleotídeo")
for i, n in enumerate(myseq):
  print(i, n)

# Buscar substrings
print("\nQuantas vezes ocorre TACGA na sequencia")
print(myseq.count('TACGA'))

# Contando contaúdo de GC
print("\nConteúdo GC")
print(GC(myseq))

# Converter objetos de sequência em strings
print("\nConvertendo objetos Seq em strings")
myseq2 = str(myseq)
print(type(myseq2))

# Converter strings em objetos de sequência
print("\nConverter strings em objetos de sequência")
myseq2 = Seq(myseq2)
print(type(myseq2))

# Unir sequencias 
print("\nUnindo sequencias")
seqs = myseq2 + myseq2
print(seqs)

# verificando se strings são iguais
print("\nComparando sequências")
myseq == myseq2

>sequence
ACGTAGCTACGATCACAGCTA

Obtendo posição da cada nucleotídeo
0 A
1 C
2 G
3 T
4 A
5 G
6 C
7 T
8 A
9 C
10 G
11 A
12 T
13 C
14 A
15 C
16 A
17 G
18 C
19 T
20 A

Quantas vezes ocorre TACGA na sequencia
1

Conteúdo GC
47.61904761904762

Convertendo objetos Seq em strings
<class 'str'>

Converter strings em objetos de sequência
<class 'Bio.Seq.Seq'>

Unindo sequencias
ACGTAGCTACGATCACAGCTAACGTAGCTACGATCACAGCTA

Comparando sequências


True

# **PARTE 2 - Manipulando arquivos de sequências**

### Importando arquivo fasta de exemplo

In [None]:
# Acessando url
url = 'https://raw.githubusercontent.com/andersonnb6/Biopython-Analysis/main/seq_examples.fasta'

# Download do conteúdo
example_file = requests.get(url, allow_redirects=True)

# Salvando arquivo
open('sequences.fasta', 'wb').write(example_file.content)
example_file.close()

###Abrindo arquivo e visualizando conteúdo

In [None]:
# Abrindo arquivo
myfile = SeqIO.parse('sequences.fasta', 'fasta')

# Mostrando o que contém no arquivo
for i in myfile:
  print(i)

ID: NC_019051.1:2063-3046
Name: NC_019051.1:2063-3046
Description: NC_019051.1:2063-3046 Escherichia coli plasmid pAm05WL6211, complete sequence
Number of features: 0
Seq('ATGTGTCCTAATAGTAGCATTTATTCAGATGAAAAATCAAGGGTTTTAGTGGAC...TAG')
ID: NC_019052.1:2941-3711
Name: NC_019052.1:2941-3711
Description: NC_019052.1:2941-3711 Escherichia coli plasmid pAm08CQ6130, complete sequence
Number of features: 0
Seq('ATGAGAATAGTGAATGGACCAATAATAATGACTAGAGAAGAAAGAATGAAGATT...TGA')
ID: NC_025021.1:4551-5756
Name: NC_025021.1:4551-5756
Description: NC_025021.1:4551-5756 Escherichia coli plasmid pGBG1, complete sequence
Number of features: 0
Seq('ATGAATAGTTCGACAAAGATCGCATTGGTAATTACGTTACTCGATGCCATGGGG...TAG')
ID: NC_025021.1:c4202-3489
Name: NC_025021.1:c4202-3489
Description: NC_025021.1:c4202-3489 Escherichia coli plasmid pGBG1, complete sequence
Number of features: 0
Seq('ATGAGCACAAAAAAGAAACCATTAACACAAGAGCAGCTTGAGGACGCACGTCGC...TGA')


### Filtrando informações de arquivos

In [None]:
# Abrindo arquivo
myfile = SeqIO.parse('sequences.fasta', 'fasta')

# Filtrando apenas informações desejadas
for i in myfile:
  rotulo = i.id
  descricao = i.description
  sequencia = i.seq
  print(f'{rotulo}\n{sequencia}')

NC_019051.1:2063-3046
ATGTGTCCTAATAGTAGCATTTATTCAGATGAAAAATCAAGGGTTTTAGTGGACAAGACAAAAAGTGGAAAAGTGAGACCATGGAGAGAAAAGAAAATCGCTAATGTTGATTACTTTGAACTTCTGCATATTCTTGAATTTAAAAAGGCTGAAAGAGTAAAAGATTGTGCTGAAATATTAGAGTATAAACAAAATCGTGAAACAGGCGAAAGAAAGTTGTATCGAGTGTGGTTTTGTAAATCCAGGCTTTGTCCAATGTGCAACTGGAGGAGAGCAATGAAACATGGCATTCAGTCACAAAAGGTTGTTGCTGAAGTTATTAAACAAAAGCCAACAGTTCGTTGGTTGTTTCTCACATTAACAGTTAAAAATGTTTATGATGGCGAAGAATTAAATAAGAGTTTGTCAGATATGGCTCAAGGATTTCGCCGAATGATGCAATATAAAAAAATTAATAAAAATCTTGTTGGTTTTATGCGTGCAACGGAAGTGACAATAAATAATAAAGATAATTCTTATAATCAGCACATGCATGTATTGGTATGTGTGGAACCAACTTATTTTAAGAATACAGAAAACTACGTGAATCAAAAACAATGGATTCAATTTTGGAAAAAGGCAATGAAATTAGACTATGATCCAAATGTAAAAGTTCAAATGATTCGACCGAAAAATAAATATAAATCGGATATACAATCGGCAATTGACGAAACTGCAAAATATCCTGTAAAGGATACGGATTTTATGACCGATGATGAAGAAAAGAATTTGAAACGTTTGTCTGATTTGGAGGAAGGTTTACACCGTAAAAGGTTAATCTCCTATGGTGGTTTGTTAAAAGAAATACATAAAAAATTAAACCTTGATGACACAGAAGAAGGCGATTTGATTCATACAGATGATGACGAAAAAGCCGATGAAGATGGATTTTCTATTATTGCAATGTGGAATTGGGAACGGAAAAATTATTTTATTAAA

### Criando novo arquivo filtrado

In [None]:
# Abrindo arquivo
myfile = SeqIO.parse('sequences.fasta', 'fasta')

# Filtrando informações
dados_editados = []
for i in myfile:
  rotulo = i.id
  descricao = i.description
  sequencia = i.seq.translate()

  # SeqRecord organizando dados filtrados
  temp_var = SeqRecord(id = rotulo, description = '', seq = sequencia)

  # Gravando dados filtrados na lista vazia 'dados_editados'
  dados_editados.append(temp_var)

# Mostrando dados filtrados organizados
print('Dados organizados com SeqRecord:')
print(dados_editados)

# Criando novo arquivo fasta com os dados filtrados
SeqIO.write(dados_editados, 'sequences_edited.fasta', 'fasta')

Dados organizados com SeqRecord:
[SeqRecord(seq=Seq('MCPNSSIYSDEKSRVLVDKTKSGKVRPWREKKIANVDYFELLHILEFKKAERVK...KE*'), id='NC_019051.1:2063-3046', name='<unknown name>', description='', dbxrefs=[]), SeqRecord(seq=Seq('MRIVNGPIIMTREERMKIVHEIKERILDKYGDDVKAIGVYGSLGRQTDGPYSDI...PF*'), id='NC_019052.1:2941-3711', name='<unknown name>', description='', dbxrefs=[]), SeqRecord(seq=Seq('MNSSTKIALVITLLDAMGIGLIMPVLPTLLREFIASEDIANHFGVLLALYALMQ...SA*'), id='NC_025021.1:4551-5756', name='<unknown name>', description='', dbxrefs=[]), SeqRecord(seq=Seq('MSTKKKPLTQEQLEDARRLKAIYEKKKNELGLSQESVADKMGMGQSGVGALFNG...FG*'), id='NC_025021.1:c4202-3489', name='<unknown name>', description='', dbxrefs=[])]


4