<a href="https://colab.research.google.com/github/FranciscoBPereira/Bioinformatica25-26/blob/main/Bioinfo2526_Aula2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**0. Instalar Biopython**
https://biopython.org/


In [None]:
!pip install BioPython

import Bio



**1.   Processamento básico de objetos Seq**








In [None]:
# Os objetos Seq armazenam sequências de DNA, RNA ou aminoácidos.
#Na prática são muito semelhantes a strings

from Bio.Seq import Seq

S1 = Seq('ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG')

print(S1)

In [None]:
# O objeto Seq tem um conjunto de métodos associado, úteis para bioinformática

print('Tamanho: ', len(S1))

print('Complemento: ', S1.complement())

print('Complemento reverso: ', S1.reverse_complement())


**Questões:**

Qual é a diferença entre o complemento e o complemento reverso?

Qual a relevância para os processos de transcrição e tradução?

In [None]:
R1 = S1.transcribe()

AA1 = S1.translate()
AA2 = R1.translate()

print('RNA: ', R1)
print('Aminoácidos: ', AA1)
print('Aminoácidos: ', AA2)

**Questões:**

Os 2 processos de tradução obtêm o mesmo resultado. Porquê?

O que significa o '*' na sequência de aminoácidos?

**2. Processamento de objetos SeqRecord**

In [None]:
# Os objetos SeqRecord permitem armazenar vários atributos, para além da sequência.
# Além disso, são os objetos utilizados para operações de input e output do módulo SeqIO

from Bio.SeqRecord import SeqRecord

from Bio import SeqIO

In [None]:
# Criação de um objeto de raiz
# Deve ser especificado, no mínimo, a sequência

SR1 = SeqRecord(Seq('ACTUAT'), 'Id1', 'First SeqRecord')

print(SR1)

In [None]:
# Criação de um objeto através da leitura do ficheiro NC_005816.fna
# O ficheiro está no formato FASTA e contém 1 única sequência de DNA.
# É do organismo descrito aqui: https://www.ncbi.nlm.nih.gov/nuccore/NC_005816

SR2 = SeqIO.read('NC_005816.fna', 'fasta')

print(SR2)


**Questões:**

O que é o formato FASTA?

Que atributos foram preenchidos?

In [None]:
# Criação de um objeto através da leitura do ficheiro NC_005816.gb
# O ficheiro está no formato GenBank e contém informação sobre o mesmo organismo utilizado anteriormente

SR3 = SeqIO.read('NC_005816.gb', 'genbank')

print(SR3)


**Questões:**

Analise o formato GenBank e compare-o com o utilizado anteriormente?

Quais os atributos preenchidos?

In [None]:
# Muitas vezes, os ficheiros podem conter várias sequências.
# Neste caso, é habitualmente utilizado o método de parsing() para efetuar a leitura sequencial
# Este exemplo usa o ficheiro ls_orchid.fasta que contém várias sequências FASTA relacionadas com um tipo especifico de orquídeas

i = 1
for SR3 in SeqIO.parse('ls_orchid.fasta', 'fasta'):
  print('\n', 'Record ', i)
  print(SR3.id)
  print(SR3.description)
  print(len(SR3.seq))
  i += 1

In [None]:
# Muitas vezes, os ficheiros podem conter várias sequências.
# Neste caso, é habitualmente utilizado o método de parsing() para efetuar a leitura sequencial
# Este exemplo usa o ficheiro ls_orchid.gbk que contém várias sequências GenBank relacionadas com um tipo especifico de orquídeas

i = 1
for SR3 in SeqIO.parse('ls_orchid.gbk', 'genbank'):
  print('\n', 'Record ', i)
  print(SR3.id)
  print(SR3.description)
  print(len(SR3.seq))
  i += 1

In [None]:
# Processamento iterativo de um ficheiro contendo várias sequências
# Permite lidar de forma individual com cada uma delas

iterator = SeqIO.parse('ls_orchid.fasta', 'fasta')

print(iterator)


In [None]:
# Agora que temos um iterador podemos processar o ficheiro

First = next(iterator)
print(First)

Second = next(iterator)
print(Second)

In [None]:
# Transformação de um iterador numa lista Python

iterator = SeqIO.parse('ls_orchid.fasta', 'fasta')
lista = list(iterator)

print('Tamanho da lista: ', len(lista))
print(lista)

**Questão:**

Indique vantagens e desvantagens da utilização da lista vs. iterador

**3.Acesso a bases de dados para obtenção de sequências**

In [None]:
# O Entrez é o motor de pesquisa e acesso às bases de dados  do NCBI
# Funciona como portal para obtenção de informação biológica

# Nos 2 exemplos seguintes, são executados os seguintes passos:
# 1. Criação do handle especificando os detalhes da ligação e da tarefa a realizar
# 2. Leitura da informação

from Bio import Entrez

Entrez.email = 'abc@example.com'
with Entrez.efetch(db='nucleotide', rettype='fasta', retmode='text', id='6273291') as handle:
    seq_record = SeqIO.read(handle, 'fasta')

print('%s with %i features' % (seq_record.id, len(seq_record.features)))
print(seq_record.seq)

In [None]:
from Bio import Entrez
from Bio import SeqIO

Entrez.email = 'abc@example.com'
with Entrez.efetch(db='nucleotide', rettype='gb', retmode='text', id='6273291') as handle:
    seq_record = SeqIO.read(handle, 'gb')

print('%s with %i features' % (seq_record.id, len(seq_record.features)))
print(seq_record.seq)

**Exercício 1**

Calcular a sequência de aminoácidos do gene humano LCT human lactase

In [None]:
# Passo 1: obter a entrada completa da base de dados NCBI

Entrez.email = 'abc@example.com'
with Entrez.efetch(db='nucleotide', rettype='gb', retmode='text', id='NM_002299') as handle:
    seq_record = SeqIO.read(handle, 'gb')

In [None]:
# Passo 2: Isolar a sequência de DNA
# Sugestão: Criar um objeto Seq a partir do atributo seq do objeto SeqRecord


# COMPLETAR


In [None]:
# Passo 3: Efetuar a transcrição e a tradução

# COMPLETAR




**Exercício 2**

Obter informação de um registo da base de dados Uniprot. Deve ser utilizado um ficheiro com formato SwissProt



In [None]:
# Passo 1: Obter informação da Uniprot

from Bio.AlignIO import write
from Bio import ExPASy
from Bio import SeqIO

uniprotID = 'P69905'

with ExPASy.get_sprot_raw(uniprotID) as handle:
    seq_record = SeqIO.read(handle, 'swiss')



**Questão:**

Qual é o papel desempenhado por esta proteína?


In [None]:
# Passo 2: Apresentar os seguintes campos: Id, nome, descrição, comprimentos da sequência e sequência


# COMPLETAR


In [None]:
# Passo 3: Gravar a informação num ficheiro com formato FASTA

SeqIO.write(seq_record, 'hemoglobina_alpha.fasta', 'fasta')

print('Sequência guardada')

In [None]:
#Passo 4: Qual o aminoácido mais frequente?

# COMPLETAR