Problema de codificação de peptídeos: encontrar substrings de um genoma que codificam uma determinada sequência de aminoácidos.

* Entrada: Uma sequência de DNA Text, uma sequência de aminoácidos Peptídeo e o array GeneticCode.
* Saída: Todas as substrings do Peptídeo de codificação de texto (se houver alguma substring desse tipo).

In [None]:
def reverse_complement(dna_seq):
    """ Calcula a fita complementar reversa de uma sequência de DNA. """
    complement = {'A': 'T', 'T': 'A', 'C': 'G', 'G': 'C'}
    return ''.join(complement[base] for base in reversed(dna_seq))

def translate_dna_to_peptide(dna_seq, genetic_code):
    """ Traduz uma sequência de DNA para aminoácidos. """
    rna_seq = dna_seq.replace('T', 'U')  # Transcrição para RNA
    peptide = ""
    for i in range(0, len(rna_seq), 3):
        codon = rna_seq[i:i+3]
        if len(codon) == 3:
            peptide += genetic_code.get(codon, '')  # Traduz para aminoácidos
    return peptide

def peptide_encoding_problem(Text, Peptide, GeneticCode):
    """ Retorna todas as substrings do DNA que codificam o peptídeo fornecido. """
    substrings = []
    k = 3 * len(Peptide)  # Tamanho da substring necessário para codificar o Peptide
    
    for i in range(len(Text) - k + 1):
        # Obter substring
        substring = Text[i:i+k]
        
        # Tradução direta (fita principal)
        translated_peptide = translate_dna_to_peptide(substring, GeneticCode)
        if translated_peptide == Peptide:
            substrings.append(substring)
        
        # Tradução da fita complementar reversa
        reverse_complement_seq = reverse_complement(substring)
        translated_reverse_peptide = translate_dna_to_peptide(reverse_complement_seq, GeneticCode)
        if translated_reverse_peptide == Peptide:
            substrings.append(substring)
    
    return substrings


# Código genético RNA -> Aminoácidos
GeneticCode = {
    "UUU": "F", "UUC": "F", "UUA": "L", "UUG": "L",
    "UCU": "S", "UCC": "S", "UCA": "S", "UCG": "S",
    "UAU": "Y", "UAC": "Y", "UAA": "STOP", "UAG": "STOP",
    "UGU": "C", "UGC": "C", "UGA": "STOP", "UGG": "W",
    "CUU": "L", "CUC": "L", "CUA": "L", "CUG": "L",
    "CCU": "P", "CCC": "P", "CCA": "P", "CCG": "P",
    "CAU": "H", "CAC": "H", "CAA": "Q", "CAG": "Q",
    "CGU": "R", "CGC": "R", "CGA": "R", "CGG": "R",
    "AUU": "I", "AUC": "I", "AUA": "I", "AUG": "M",
    "ACU": "T", "ACC": "T", "ACA": "T", "ACG": "T",
    "AAU": "N", "AAC": "N", "AAA": "K", "AAG": "K",
    "AGU": "S", "AGC": "S", "AGA": "R", "AGG": "R",
    "GUU": "V", "GUC": "V", "GUA": "V", "GUG": "V",
    "GCU": "A", "GCC": "A", "GCA": "A", "GCG": "A",
    "GAU": "D", "GAC": "D", "GAA": "E", "GAG": "E",
    "GGU": "G", "GGC": "G", "GGA": "G", "GGG": "G"
}

def ler_e_juntar_linhas(arquivo):
    with open(arquivo, 'r') as f:
        # Lê todas as linhas do arquivo e junta em uma única string
        todas_as_linhas = ''.join(line.strip() for line in f)
    return todas_as_linhas

Text = ler_e_juntar_linhas('Bacillus_brevis.txt')
Peptide = "VKLFPWFNQY"
result = peptide_encoding_problem(Text, Peptide, GeneticCode)
print(result)