In [None]:
#1. Получить случайную последовательность ДНК из 1000 нуклеотидов на
#Random DNA Sequence (https://www.bioinformatics.org/sms2/random_dna.html)
#2. Представить каждый уникальный нуклеотид (Нуклеотиды — Википедия) как
#бинарное число (подсказка: хватит 2 битов)
#3. Реализовать класс, содержащий метод сжатия (упаковки), распаковки и
#строкового представления хранимых данных (в распакованном виде). При
#этом метод сжатия должен быть скрытым/приватным , что должно быть
#отражено в принципе его именования. Он не должен вызываться напрямую,
#его вызов осуществляется при инициализации экземпляра класса.
#4. Экземпляр класса при инициализации должен принимать на вход строковое
#( str ) представление последовательности нуклеотидов.
#5. Хранение сжатой последовательности должно осуществляться при помощи
#бинарного целого числа ( int , 0b00 )
#6. При битовых операциях использовать операцию битового сдвига влево <<= и
#битовую операцию OR |= (см. подробнее о битовых операциях, например,
#здесь: BitwiseOperators - Python Wiki, Bitwise Operators in Python – Real Python)
#7. Метод сжатия можно реализовать через последовательность
#if...elif..else или применить match
#8. При распаковке вам понадобится битовый сдвиг вправо >> и операция
#обратного среза ( [::-1] ) или метод reverse()
#9. При запуске программы выводить оригинальный и сжатый размер
#последовательности в памяти через sys.getsizeof()
#10. Протестировать работу программы на последовательностях из 1000 , 10_000 ,
#100_000 , 1_000_000 и 10_000_000 нуклеотидов.

import random
import string
import sys
#Словарь бинарных кодов по коду ДНК
DNA_BINARY_CODES: dict[str, bin] = {
    'a': 0b00,
    'c': 0b01,
    'g': 0b10,
    't': 0b11,
}
#Коды ДНК по бинарным кодам
DNA_CODES: dict[bin, str] = {
    0b00: 'a',
    0b01: 'c',
    0b10: 'g',
    0b11: 't',
}
#Класс сжатия и распаковки ДНК
class DNACompressor:
    #Сжатая последовательность ДНК
    __compressed_dna_sequence: bin
    #Длина исходной последовательности
    __original_length: int
    #Инициализирует ДНК
    def __init__(self, dna_sequence: str) -> None:
        self.__compressed_dna_sequence = self._compress(dna_sequence)
        self.__original_length = len(dna_sequence)
    #Возвращает сжатую ДНК в виде строки.
    def __str__(self) -> str:
        return str(self.__compressed_dna_sequence)
    #Выполняет сжатие ДНК.
    def _compress(self, dna_sequence: str) -> bin:
        compressed: bin = 0
        for nucleotide in dna_sequence:
            compressed <<= 2
            compressed |= DNA_BINARY_CODES[nucleotide]
        return compressed
    #Выполняет распаковку ДНК.
    def _decompress(self) -> str:
        dna_sequence: list[bin] = []
        compressed: bin = self.__compressed_dna_sequence
        for _ in range(self.__original_length):
            nucleotide_bits: bin = compressed & 0b11
            dna_sequence.append(DNA_CODES[nucleotide_bits])
            compressed >>= 2
        return ''.join(dna_sequence[::-1])
    #Возвращает сжатую последовательность ДНК.
    def get_compressed_dna_sequence(self) -> str:
        return self.__str__()
    #Возвращает сжатую последовательность ДНК.
    def get_decompressed_dna_sequence(self) -> str:
        return self._decompress()
    
#Исходная строка ДНК из 1000 нуклеотидов.
DEFAULT_DNA: str = f'ataagactccccctcaagcgttcgtggggatgctctgtttactgggcagttatcctagca\
cccggggcccgaacgaagttcaacgctagctaccttccactgatgtgaaaaggatgagat\
aatccctgtcagacgcattaagtgaatgtgtgaatgacgccactacacgctggcaagcgc\
gggcgatcgcaggttcttcttgtgaggcgactacaggctcgccattcgtcgtttcttcaa\
tggttagcctatcagaaacacggctccaatacttctgacgtctcgacgggccagcggtca\
gcaccgctgtcgatattaatcgcagctgggaactaacagaaacctaaagaaaaattcgtc\
cggttctgattatataccgggagtataatcactctcacagcccgagtacatacacgcacg\
actttacaacaagcagagctcagtctgggcctcgccatttcccgttttaagcgcgggtga\
aactgggtttaaggggcggtgtacggacaattaatcgcatttttcgataggtcatgatcg\
tcaagttttgagatctcaaacctttagtaataatgttcgcctagaatctgggggctattg\
gagaacgaaccttccatcggtcgcgataccgcataccaagccgcttatctttaaagtgca\
aatctgggaatccccatgccctaagaggtcattaagagaacctatgtttagcagctactc\
tcgtagaatgcacgtttaagggacgccgtcaccacggattccggtgcatatagttgcata\
gctagatccggtctctctctatgggataaagcgtcacaagtcgcgttcatctttctacat\
tgtaacgccattcaatcaaagtgatcgggatctgctctgctcatgatacacgctgagata\
gattcggcataaggaacggcttgctcgaatcggtaatccccgaggatcatgtcgatttgc\
atcaacagtgacgcggcaggtaccatgacaaccaaatggc'

#Гененрирует последовательность ДНК из нуклеотидов a, c, g, t.
def generate_dna(dna_length: int = 1000):
    return DEFAULT_DNA \
        if dna_length == 1000 \
        else ''.join(random.choices('acgt', k=dna_length))

#Проводит тест на сгенерированной последовательности ДНК по переданной длине ДНК.
def test(dna_length: int = 1000) -> None:
    print(f'Длина последовательности: {dna_length}')
    dna_sequence: str = generate_dna(dna_length)
    compressed_dna_str = DNACompressor(dna_sequence)
    print(f'Исходная строка: {sys.getsizeof(dna_sequence)} байтов')
    print(f'Сжатая строка: {sys.getsizeof(compressed_dna_str.get_compressed_dna_sequence())} байтов')
    is_sequence_same: bool = dna_sequence == compressed_dna_str.get_decompressed_dna_sequence()
    print(f'Совпало ли после распаковки? {'Да' if is_sequence_same else 'Нет'}')
    print()

if __name__ == '__main__':
    test()
    test(10_000)
    test(100_000)
    test(1_000_000)
    test(10_000_000)

Длина последовательности: 1000
Исходная строка: 1041 байтов
Сжатая строка: 643 байтов
Совпало ли после распаковки? Да

Длина последовательности: 10000
Исходная строка: 10041 байтов
Сжатая строка: 6062 байтов
Совпало ли после распаковки? Да

Длина последовательности: 100000
Исходная строка: 100041 байтов
Сжатая строка: 60247 байтов
Совпало ли после распаковки? Да

Длина последовательности: 1000000
Исходная строка: 1000041 байтов
Сжатая строка: 602101 байтов
Совпало ли после распаковки? Да

Длина последовательности: 10000000
