В решении используется три класса:

* **ProteinTranslation** для трансляции нуклеотидов в аминокислоты
* **ProteinSequence** для представления последовательности аминокислот
* **Protein** для представления белка и объединения двух белковых последовательностей

In [1]:
class ProteinTranslation:
    """
    Класс для трансляции нуклеотидной последовательности в аминокислотную.
    """

    # Генетический код, представляющий собой соответствие между триплетами нуклеотидов
    # и соответствующими им аминокислотами.
    GENETIC_CODE = {
        'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
        'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
        'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
        'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
        'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
        'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
        'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
        'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
        'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
        'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
        'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
        'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
        'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
        'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
        'TAC':'Y', 'TAT':'Y', 'TAA':'_', 'TAG':'_',
        'TGC':'C', 'TGT':'C', 'TGA':'_', 'TGG':'W',
    }

    @classmethod
    def translate(cls, nucleotide_sequence):
        """Транслирует последовательность нуклеотидов в аминокислотную последовательность."""
        protein_sequence = []

        # Перебираем каждые три нуклеотида (кодон) в последовательности
        for i in range(0, len(nucleotide_sequence), 3):
            codon = nucleotide_sequence[i:i+3]

            # Получаем аминокислоту, соответствующую текущему кодону, или 'X', если кодон не опознан
            protein_sequence.append(cls.GENETIC_CODE.get(codon, 'X'))

        return protein_sequence

# Проверка
test_sequence = "ATGCGAACTTGA"
ProteinTranslation.translate(test_sequence)

['M', 'R', 'T', '_']

In [2]:
class ProteinSequence:
    def __init__(self, sequence):
        """Инициализирует белковую последовательность либо из нуклеотидов, либо из аминокислот."""
        if all(nucleotide in 'ATCG' for nucleotide in sequence):
            self.sequence = ProteinTranslation.translate(sequence)
        else:
            self.sequence = list(sequence)

    def __str__(self):
        """
        Возвращает строковое представление белковой последовательности.
        """
        return "".join(self.sequence)

# Проверка
protein_from_nucleotides = ProteinSequence("ATGCGAACTTGA")
protein_from_amino_acids = ProteinSequence("MRT_")
str(protein_from_nucleotides), str(protein_from_amino_acids)

('MRT_', 'MRT_')

Можно заметить, что класс может инициализироваться как из последовательности нуклеотидов, так и из последовательности аминокислот.

In [3]:
class Protein:
    def __init__(self, sequence):
        """Инициализирует белковую последовательность."""
        self.sequence = ProteinSequence(sequence).sequence

    def __add__(self, other):
        """Объединяет две белковые последовательности."""
        overlap_length = 0
        min_length = min(len(self.sequence), len(other.sequence))

        # Поиск максимального пересечения между двумя последовательностями
        for i in range(1, min_length + 1):
            if self.sequence[-i:] == other.sequence[:i]:
                overlap_length = i

        # Возвращение новой последовательности, объединяющей обе последовательности
        # с учетом найденного пересечения
        return Protein("".join(self.sequence + other.sequence[overlap_length:]))


    def __str__(self):
        """
        Возвращает строковое представление белковой последовательности.
        """
        return "".join(self.sequence)

# Проверка
protein1 = Protein("MRT")
protein2 = Protein("RT_")
combined_protein = protein1 + protein2
str(combined_protein)


'MRT_'

Пример объединения двух белковых последовательностей, которые имеют пересечения:

In [4]:
# Создание двух белковых последовательностей
proteinA = Protein("ABCDEF")
proteinB = Protein("DEFGHI")

# Объединение двух последовательностей
combined_protein_example = proteinA + proteinB
str(combined_protein_example)

'ABCDEFGHI'

Как видите, две последовательности "ABCDEF" и "DEFGHI" успешно объединились в одну последовательность "ABCDEFGHI", при этом участок "DEF" был объединен, так как он присутствует в конце первой последовательности и в начале второй.

Таким образом, класс **Protein** умеет объединять две белковые последовательности по их пересекающимся участкам.