# Triviale Komprimierung

---
- Erforderlich um den benötigten Speicherplatz zu reduzieren
---

## Bit-String
- Ein Bitstring kann verwendet werden werden den benötigten Speicher eines String zu reduzieren
- Das Beispiel stellt einen Methode dar um Genesequenzen effizienter zu speichern 

---

In [14]:
class CompressedGene:
    def __init__(self, gene: str) -> None:
        self._compress(gene) 
    def _compress(self, gene: str) -> None:
        self.bit_string: int = 1 # Mit Sentinel starten
        for nucleotide in gene.upper():
            self.bit_string <<= 2
            if nucleotide == "A":
                self.bit_string |= 0b00
            elif nucleotide == "C":
                self.bit_string |= 0b01
            elif nucleotide == "G":
                self.bit_string |= 0b10
            elif nucleotide == "T":
                self.bit_string |= 0b11
            else:
                raise ValueError("Ungültiges Nukleotid:{}".format(nucleotide))
    def decompress(self) -> str:
        gene: str = ""
        for i in range(0, self.bit_string.bit_length() - 1, 2):
            # - 1 , um Sentinel zu ignorieren
            bits: int = self.bit_string >> i & 0b11 # nur 2 relevante Bits lesen
            if bits == 0b00:
                gene += "A"
            elif bits == 0b01:
                gene += "C"
            elif bits == 0b10:
                gene += "G"
            elif bits == 0b11:
                gene += "T"
            else:
                raise ValueError("Ungültige Bits:{}".format(bits))
        return gene[::-1]
    def __str__(self) -> str:
        return self.decompress()

if __name__ == "__main__":
    from sys import getsizeof
    original: str = "TAGGATTGGAATTAGGTAGGTAGAAAATGGTTGAATGGGTTTAGGTATATAGTGATAGATGTGATAGATGTGATGTGATGTAGTAGTAGATGATGATAGTAGTAGTAGATGATGTGTAT" * 100
    print("Original: {} Byte".format(getsizeof(original)))
    compressed: CompressedGene = CompressedGene(original) # Komprimierung
    print("Komprimiert: {} Byte".format(getsizeof(compressed.bit_string)))
    print("Original und dekomprimierte Daten sind gleich: {}".format(original == compressed.decompress()))
    print("Eingespart: {}%".format(round(100 * (getsizeof(original) - getsizeof(compressed.bit_string)) / getsizeof(original))))

Original: 11949 Byte
Komprimiert: 3200 Byte
Original und dekomprimierte Daten sind gleich: True
Eingespart: 73%
