# Atividade 4 - Transcrição e Tradução de Sequências

Neste notebook, vamos explorar o processo biológico de transcrição (DNA → RNA) e tradução (RNA → Proteína) usando código Python para implementar esses processos biológicos fundamentais.

## Objetivo
- Transcrever sequências de DNA para RNA
- Traduzir sequências de RNA para Proteína nos 6 frames de leitura
- Utilizar dicionário Python para implementar a tabela do código genético

## 1. Importando Bibliotecas Necessárias

Usaremos BioPython para facilitar a manipulação de sequências biológicas, mas implementaremos manualmente a tradução para proteína usando dicionários.

In [2]:
%pip install biopython

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [4]:
# Importando bibliotecas necessárias
from Bio import SeqIO
from Bio.Seq import Seq
import os

# Verificar que o BioPython está instalado corretamente
print(f"BioPython versão: {Bio.__version__}")

NameError: name 'Bio' is not defined

## 2. Dogma Central da Biologia Molecular

O fluxo da informação genética segue o dogma central da biologia molecular:

DNA → RNA → Proteína

- **Transcrição**: DNA é transcrito para RNA mensageiro (mRNA)
- **Tradução**: mRNA é traduzido para proteína

### 2.1 Código Genético

A tradução de mRNA para proteína é mediada pelo código genético, que associa trincas de nucleotídeos (códons) a aminoácidos específicos. Vamos implementar a tabela do código genético usando um dicionário Python.

In [None]:
# Criando o dicionário do código genético (tabela de tradução RNA → proteína)
def criar_tabela_genetica():
    tabela = {
        'UUU': 'F', 'UUC': 'F', 'UUA': 'L', 'UUG': 'L',
        'CUU': 'L', 'CUC': 'L', 'CUA': 'L', 'CUG': 'L',
        'AUU': 'I', 'AUC': 'I', 'AUA': 'I', 'AUG': 'M',
        'GUU': 'V', 'GUC': 'V', 'GUA': 'V', 'GUG': 'V',
        'UCU': 'S', 'UCC': 'S', 'UCA': 'S', 'UCG': 'S',
        'CCU': 'P', 'CCC': 'P', 'CCA': 'P', 'CCG': 'P',
        'ACU': 'T', 'ACC': 'T', 'ACA': 'T', 'ACG': 'T',
        'GCU': 'A', 'GCC': 'A', 'GCA': 'A', 'GCG': 'A',
        'UAU': 'Y', 'UAC': 'Y', 'UAA': '*', 'UAG': '*',
        'CAU': 'H', 'CAC': 'H', 'CAA': 'Q', 'CAG': 'Q',
        'AAU': 'N', 'AAC': 'N', 'AAA': 'K', 'AAG': 'K',
        'GAU': 'D', 'GAC': 'D', 'GAA': 'E', 'GAG': 'E',
        'UGU': 'C', 'UGC': 'C', 'UGA': '*', 'UGG': 'W',
        'CGU': 'R', 'CGC': 'R', 'CGA': 'R', 'CGG': 'R',
        'AGU': 'S', 'AGC': 'S', 'AGA': 'R', 'AGG': 'R',
        'GGU': 'G', 'GGC': 'G', 'GGA': 'G', 'GGG': 'G'
    }
    return tabela

# Mostrando alguns códons e seus aminoácidos correspondentes
tabela = criar_tabela_genetica()
print("Exemplos de códons e seus aminoácidos:")
print(f"AUG (códon de início) → {tabela['AUG']} (Metionina)")
print(f"UUU → {tabela['UUU']} (Fenilalanina)")
print(f"UAA → {tabela['UAA']} (Códon de parada)")

## 3. Implementando as Funções de Transcrição e Tradução

Agora vamos implementar as funções necessárias para:
1. Ler sequências de DNA em formato FASTA
2. Transcrever DNA para RNA
3. Obter o complemento reverso de uma sequência
4. Traduzir RNA para proteína em um determinado frame

In [None]:
# Função para ler arquivo FASTA
def ler_fasta(arquivo):
    sequencias = {}
    
    try:
        # Lendo o arquivo FASTA usando o BioPython
        for record in SeqIO.parse(arquivo, "fasta"):
            header = ">" + record.description  # Adicionando o ">" no início do cabeçalho
            sequencias[header] = str(record.seq)
        
        print(f"Leitura concluída: {len(sequencias)} sequências encontradas")
    except Exception as e:
        print(f"Erro ao ler o arquivo FASTA: {e}")
        
    return sequencias

# Função para transcrever DNA para RNA
def dna_para_rna(sequencia_dna):
    # Usando BioPython para transcrição
    seq_dna = Seq(sequencia_dna.upper())
    seq_rna = seq_dna.transcribe()  # Substitui T por U
    
    return str(seq_rna)

# Função para obter complemento reverso
def complemento_reverso(sequencia):
    # Usando BioPython para obter complemento reverso
    seq_dna = Seq(sequencia.upper())
    seq_complementar = seq_dna.reverse_complement()
    
    return str(seq_complementar)

# Função para traduzir RNA para proteína
def traduzir_rna(sequencia_rna, tabela, frame=0):
    proteina = ""
    # Começar do frame desejado (0, 1 ou 2)
    for i in range(frame, len(sequencia_rna) - 2, 3):
        codon = sequencia_rna[i:i+3]
        if len(codon) == 3:  # Garantir que temos um códon completo
            aminoacido = tabela.get(codon, "X")  # X para códons desconhecidos
            proteina += aminoacido
    return proteina

## 4. Demonstração com uma Sequência Simples

Vamos demonstrar o processo com uma sequência simples de DNA:

In [None]:
# Sequência de DNA de exemplo
dna_exemplo = "ATGGCTAGCATCGATCGATGCTAGCTAGCTAGCTAGCTGATCGATCG"
print(f"Sequência de DNA: {dna_exemplo}")

# Transcrição para RNA
rna_exemplo = dna_para_rna(dna_exemplo)
print(f"Sequência de RNA: {rna_exemplo}")

# Tradução para proteína (frame 1)
tabela = criar_tabela_genetica()
proteina_frame1 = traduzir_rna(rna_exemplo, tabela, 0)
print(f"Proteína (Frame 1): {proteina_frame1}")

# Tradução para proteína (frame 2)
proteina_frame2 = traduzir_rna(rna_exemplo, tabela, 1)
print(f"Proteína (Frame 2): {proteina_frame2}")

# Tradução para proteína (frame 3)
proteina_frame3 = traduzir_rna(rna_exemplo, tabela, 2)
print(f"Proteína (Frame 3): {proteina_frame3}")

## 5. Frames de Leitura (Reading Frames)

Um conceito importante na tradução é o "frame de leitura". Como o código genético é lido em trincas (códons), existem três possíveis frames de leitura em cada fita de DNA:

**Fita senso (5' → 3'):**
- Frame 1: começa na posição 0
- Frame 2: começa na posição 1
- Frame 3: começa na posição 2

**Fita anti-senso (3' → 5'):**
- Frame 4: complemento reverso, começa na posição 0
- Frame 5: complemento reverso, começa na posição 1
- Frame 6: complemento reverso, começa na posição 2

Vamos demonstrar a tradução nos frames 4, 5 e 6 (fita anti-senso):

In [None]:
# Sequência complementar reversa
dna_complementar = complemento_reverso(dna_exemplo)
print(f"DNA complementar reverso: {dna_complementar}")

# Transcrição da sequência complementar reversa
rna_complementar = dna_para_rna(dna_complementar)
print(f"RNA da fita complementar: {rna_complementar}")

# Tradução nos frames 4, 5 e 6
proteina_frame4 = traduzir_rna(rna_complementar, tabela, 0)
proteina_frame5 = traduzir_rna(rna_complementar, tabela, 1)
proteina_frame6 = traduzir_rna(rna_complementar, tabela, 2)

print(f"Proteína (Frame 4): {proteina_frame4}")
print(f"Proteína (Frame 5): {proteina_frame5}")
print(f"Proteína (Frame 6): {proteina_frame6}")

## 6. Processando o arquivo da E. coli Sakai

Agora vamos processar o arquivo FASTA da E. coli Sakai, gerando:
1. Um arquivo de RNA
2. Seis arquivos de proteínas (um para cada frame)

Vamos escrever o código para isso:

In [None]:
# Definindo os caminhos dos arquivos
caminho_fasta = "c:\\Users\\gabri\\Documents\\Unifesp\\Atividades\\AlgBio\\Atividade 4\\Ecoli_Sakai_cds_from_genomic.fna"

# Função para salvar sequências em formato FASTA
def salvar_fasta(sequencias, arquivo):
    from Bio import SeqIO
    from Bio.SeqRecord import SeqRecord
    from Bio.Seq import Seq
    
    # Converter o dicionário para uma lista de SeqRecord
    records = []
    for header, seq in sequencias.items():
        # Remover o '>' do início do cabeçalho
        if header.startswith('>'):
            header = header[1:]
        
        # Criar um objeto SeqRecord
        record = SeqRecord(
            Seq(seq),
            id="",
            description=header
        )
        records.append(record)
    
    # Salvar como FASTA
    try:
        SeqIO.write(records, arquivo, "fasta")
        print(f"Arquivo salvo: {arquivo}")
        return True
    except Exception as e:
        print(f"Erro ao salvar o arquivo FASTA: {e}")
        return False

# Verificar se o arquivo FASTA existe
if os.path.exists(caminho_fasta):
    print(f"Arquivo encontrado: {caminho_fasta}")
    print("Processando...")
    
    # Ler o arquivo FASTA
    sequencias_dna = ler_fasta(caminho_fasta)
    
    # Tomar apenas as primeiras 5 sequências para demonstração
    primeiras_sequencias = {}
    contador = 0
    for header, seq in sequencias_dna.items():
        primeiras_sequencias[header] = seq
        contador += 1
        if contador >= 5:  # Limitar a 5 sequências para demonstração
            break
    
    print(f"Usando {len(primeiras_sequencias)} sequências para demonstração")
else:
    print(f"Arquivo não encontrado: {caminho_fasta}")
    primeiras_sequencias = {}

In [None]:
# Se o arquivo foi encontrado e temos sequências
if primeiras_sequencias:
    # Criar as sequências de RNA
    print("Transcrevendo DNA para RNA...")
    sequencias_rna = {}
    for header, seq in primeiras_sequencias.items():
        # Adicionar "RNA" ao final do cabeçalho
        novo_header = header + " RNA"
        sequencias_rna[novo_header] = dna_para_rna(seq)
    
    # Mostrar um exemplo de sequência de RNA
    primeiro_header = list(sequencias_rna.keys())[0]
    primeiro_rna = sequencias_rna[primeiro_header]
    print(f"Exemplo de RNA: {primeiro_rna[:50]}...")
    
    # Criar a tabela do código genético
    tabela_genetica = criar_tabela_genetica()
    
    # Criar sequências de proteínas para os 6 frames
    print("\nCriando proteínas para os 6 frames de leitura...")
    for frame in range(1, 7):
        sequencias_proteina = {}
        
        for header, seq_dna in primeiras_sequencias.items():
            # Adicionar "Proteína" ao final do cabeçalho
            novo_header = header + f" Proteína Frame {frame}"
            
            if frame <= 3:  # Frames 1, 2, 3 (fita senso)
                seq_rna = dna_para_rna(seq_dna)
                proteina = traduzir_rna(seq_rna, tabela_genetica, frame - 1)
            else:  # Frames 4, 5, 6 (fita anti-senso)
                # Obter complemento reverso e transcrever
                seq_complementar = complemento_reverso(seq_dna)
                seq_rna = dna_para_rna(seq_complementar)
                proteina = traduzir_rna(seq_rna, tabela_genetica, frame - 4)
            
            sequencias_proteina[novo_header] = proteina
        
        # Mostrar um exemplo de proteína para este frame
        primeiro_header = list(sequencias_proteina.keys())[0]
        primeira_proteina = sequencias_proteina[primeiro_header]
        print(f"Frame {frame} - Exemplo: {primeira_proteina[:20]}...")
else:
    print("Nenhuma sequência disponível para processamento")

## 7. Discussão: Open Reading Frames (ORFs)

As sequências DNA que estamos convertendo em sequências de aminoácidos são, em inglês, "Open reading frame" (ORF)?

Não, as sequências de DNA do arquivo `Ecoli_Sakai_cds_from_genomic.fna` não são exatamente "Open Reading Frames" (ORFs), mas sim sequências CDS (Coding Sequences). 

Uma CDS é uma região do DNA genômico que codifica uma proteína específica já identificada e anotada no genoma. Essas sequências já foram processadas para conter apenas os éxons (regiões codificantes), com íntrons removidos (se houver), e iniciam com um códon de início (AUG) e terminam com um códon de parada (UAA, UAG ou UGA).

Em contraste, um Open Reading Frame (ORF) é qualquer sequência de DNA que tem potencial para codificar uma proteína, começando com um códon de início e terminando com um códon de parada, mas que não necessariamente codifica uma proteína funcional na realidade. ORFs são sequências candidatas a genes, enquanto CDSs são genes já confirmados.

No caso do arquivo que estamos utilizando (`Ecoli_Sakai_cds_from_genomic.fna`), o nome "cds" indica que são sequências codificantes já anotadas, ou seja, genes conhecidos de E. coli Sakai.

## 8. Importância dos 6 Frames de Leitura

### Qual a razão para ler os 6 Frames de uma sequência? O que estamos procurando?

A razão para ler os 6 frames de uma sequência é porque, ao analisar um genoma ou fragmento de DNA desconhecido, não sabemos a princípio:

1. Em qual das duas fitas de DNA (senso ou anti-senso) o gene está codificado
2. Em qual dos três frames de leitura possíveis (começando na posição 0, 1 ou 2) a tradução correta ocorre

Isto resulta em 6 frames de leitura possíveis (3 frames na fita senso + 3 frames na fita anti-senso).

Ao traduzir uma sequência nos 6 frames, estamos procurando:
- Potenciais genes não anotados (ORFs)
- Erros de anotação em genes existentes
- Genes sobrepostos que possam ter sido perdidos na anotação original
- Pseudogenes ou fragmentos de genes
- Sequências codificantes em fases de leitura alternativas

Esta abordagem é fundamental em análises de genômica comparativa, anotação de genomas e descoberta de genes, pois permite identificar todas as possíveis proteínas que poderiam ser codificadas por uma determinada sequência de DNA, independentemente de sua orientação ou fase de leitura.

## 9. Conclusão

Neste notebook, exploramos os fundamentos da transcrição de DNA para RNA e da tradução de RNA para proteína, implementando esses processos biológicos usando Python e BioPython.

Principais conceitos abordados:
1. O dogma central da biologia molecular: DNA → RNA → Proteína
2. A tabela do código genético que relaciona códons (trincas de nucleotídeos) a aminoácidos
3. Os 6 possíveis frames de leitura em uma sequência de DNA
4. A diferença entre CDS (Coding Sequence) e ORF (Open Reading Frame)

Este notebook complementa o script Python desenvolvido para a Atividade 4, que processa o genoma completo da E. coli Sakai, gerando os arquivos FASTA de RNA e proteínas nos 6 frames de leitura.