In [1]:
class CompressGene:
    
    def __init__(self, gene: str) -> None:
        
        self.nucleotide2bit = {'A' : 0b00, 'G' : 0b10,
                               'C' : 0b01, 'T' : 0b11}
        self.bit2nucleotide = {0b00 : 'A', 0b10 : 'G',
                               0b01 : 'C', 0b11 : 'T'}
        self._compress(gene)
        
    
    def _compress(self, gene: str) -> None:
        
        self.bit_string: int = 1
        for nucleotide in gene.upper():
            
            ## 왼쪽으로 2비트 쉬프트 해준다.
            self.bit_string <<= 2
            
            if nucleotide in self.nucleotide2bit.keys():
                self.bit_string |= self.nucleotide2bit[nucleotide]
                
            else:
                
                raise ValueError(f'유효하지 않은 염기 서열입니다. {nucleotide}')
                
    def decompress(self) -> str:
        
        gene: str = ''
        for idx in range(0, self.bit_string.bit_length() - 1, 2):
            
            bits: int = self.bit_string >> idx & 0b11
            if bits in self.bit2nucleotide.keys():
                
                gene += self.bit2nucleotide[bits]
            
            else:
                raise ValueError(f'Invalid bits : {bits}')
                
        return gene[::-1]

    
    def __str__(self) -> str: return self.decompress()

In [2]:
from sys import getsizeof

In [5]:
original   :          str = 'TAGGGATTAACCGTTATATATATATAGCCATGGATCGATTATATAGGGATTAACCGTTATATATATATAGCCATGGATCGATTATA' * 1000
compressed : CompressGene = CompressGene(original)

print(f'원본 문자열 사이즈 : {getsizeof(original)}')
print(f'압축 문자열 사이즈 : {getsizeof(compressed.bit_string)}')
print(original == compressed.decompress())

원본 문자열 사이즈 : 86049
압축 문자열 사이즈 : 22960
True
