## 1.2. Compactação Trivial

Ao trabalhar com dados, podemos armazená-los de duas maneiras: em sua forma natural ou na forma de um código que o represente. Se o número de possíveis combinações diferentes de um valor for menor que o número de bits necessários para armazená-lo, pode ser mais interessante salvar o código da cobinação.

No exemplo do livro, temos os nucleotídeos que formam um gene no DNA, que podem ser de um entre quatro valores (A, C, G e T). Se o gene for armazenado como string, cada nucleotídeo será um caractere de 8 bits, mas se optarmos por armazenar o código binário de cada um, apenas 2 bits serão necessários para cada um: 00(A), 01(C), 10(G) e 11(T).

Considerando uma sequência ACGT, temos a seguinte situação:

**"ACGT"** -> 4 x 8 = `32 bits`

**00011011** -> 8 x 1 = `8 bits` 

Então, podemos exibir nossos dados na forma de string, porém armazená-los na forma de um código binário, precisando apenas fazer a compactação e descompactção.


In [31]:
class CompressedGene:
    def __init__(self, gene: str) -> None:
        self.__compressed_gene = 0
        self.__compress(gene)
    def get_compressed_gene(self):
        return self.__compressed_gene

    def __compress(self, gene: str) -> None:
        self.__compressed_gene: int = 1

        for nucleotide in gene.upper():
            self.__compressed_gene <<= 2

            if nucleotide == 'A':
                self.__compressed_gene |= 0b00
            elif nucleotide == 'C':
                self.__compressed_gene |= 0b01
            elif nucleotide == 'G':
                self.__compressed_gene |= 0b10
            elif nucleotide == 'T':
                self.__compressed_gene |= 0b11
            else:
                raise ValueError(f'Invalid Nucleotide {nucleotide}')

    def __decompress(self):
        gene: str = ''

        for i in range(0, self.__compressed_gene.bit_length() - 1, 2):
            bits: int = self.__compressed_gene >> i & 0b11

            if bits == 0b00:
                gene += 'A'
            elif bits == 0b01:
                gene += 'C'
            elif bits == 0b10:
                gene += 'G'
            elif bits == 0b11:
                gene += 'T'
            else:
                raise ValueError(f'Invalid bits {bits}')

        return gene[::-1]

    def __str__(self) -> str:
        return self.__decompress()

In [39]:
from sys import getsizeof

test_gene: str = "ACGTTAGT" * 5
print(f'The gene {test_gene} have {getsizeof(test_gene)} bits')

compressed_gene: CompressedGene = CompressedGene(test_gene)
print(f'The compressed gene {compressed_gene.get_compressed_gene()} have {getsizeof(compressed_gene.get_compressed_gene())} bits')

print(f'The test gene {test_gene} and decompressed {compressed_gene} are the same: {test_gene == str(compressed_gene)}')

The gene ACGTTAGTACGTTAGTACGTTAGTACGTTAGTACGTTAGT have 89 bits
The compressed gene 1340176406424091089378251 have 36 bits
The test gene ACGTTAGTACGTTAGTACGTTAGTACGTTAGTACGTTAGT and decompressed ACGTTAGTACGTTAGTACGTTAGTACGTTAGTACGTTAGT are the same: True
