# 总结：
1. python创建int类型，最小不少于28字节
2. 对于部分数据如果小于1个字符，即8个二进制位，8bit时，使用位串(bit string)进行存储

以A,C,G,T为例，DNA的元素进行压缩和解压缩

In [29]:
class CompressGen:

    def __init__(self, gene) -> None:
        self._compress(gene)

    def _compress(self, gene:str):
        self.bit_string: int = 1
        for t in gene.upper():
            self.bit_string <<=2
            if t == "A":
                self.bit_string |= 0b00
            elif t == "C":
                self.bit_string |= 0b01
            elif t == "G":
                self.bit_string |= 0b10
            elif t == "T":
                self.bit_string |= 0b11
            else:
                raise ValueError(f"Invalid value {t}")
            
    def __str__(self) -> str:
        return self.decompress()
    
    def decompress(self):
        gene: str= ""
        for i in range(0, self.bit_string.bit_length()-1, 2):
            bits: int = self.bit_string >> i & 0b11
            if bits == 0b00:
                gene += "A"
            elif bits == 0b01:
                gene += "C"
            elif bits == 0b10:
                gene += "G"
            elif bits == 0b11:
                gene += "T"
            else:
                raise ValueError(f"Invalid bits: {bits}")
        return gene[::-1]

In [33]:
test_str = "ACGTCATCG"*1000
from sys import getsizeof
getsizeof(test_str)

9049

In [34]:
compressed_str = CompressGen(test_str)
getsizeof(compressed_str.bit_string)

2428

In [35]:
test_str == compressed_str.decompress()

True

因为原数据为1byte，8个bit，压缩后的数据为2bit，所以压缩率为25%，而根据计算得到的压缩率接近25%。

In [44]:
test_str = "A"
getsizeof(test_str)

50

In [43]:
compressed_str = CompressGen(test_str)
getsizeof(compressed_str.bit_string)

28

In [45]:
test_int = 1
getsizeof(test_int)

28

此处当字符的值只有一个A时，它的长度为50bit，也就是说python对于字符定义的最短长度为50，同样的最小的int值的长度要至少占用28个字节。这个是由python语言的设计导致的，python语言无需定义变量的类型，提供了方便的同时也占用了更多的资源。