#### gzip, zipfile, tarfile 模块：处理压缩文件

In [40]:
import os, shutil, glob
import zlib, gzip, bz2, zipfile, tarfile

#### 
gzip，通常只能压缩一个文件。与tar结合起来就可以实现先打包，再压缩。

tar： linux系统下的打包工具，只打包，不压缩

tgz：即tar.gz。先用tar打包，然后再用gz压缩得到的文件

zip： 不同于gzip，虽然使用相似的算法，可以打包压缩多个文件，不过分别压缩文件，压缩率低于tar。

rar：打包压缩文件，最初用于DOS，基于window操作系统。压缩率比zip高，但速度慢，随机访问的速度也慢。

##### zlib.compress(string[, level])

##### zlib.decompress(string[, wbits[, bufsize]])

zlib.compress用于压缩流数据。参数string指定了要压缩的数据流，参数level指定了压缩的级别，它的取值范围是1到9。压缩速度与压缩率成反比，1表示压缩速度最快，而压缩率最低，而9则表示压缩速度最慢但压缩率最高。zlib.decompress用于解压数据。参数string指定了需要解压的数据，wbits和bufsize分别用于设置系统缓冲区大小(window buffer )与输出缓冲区大小(output buffer)。

##### python3是bytes和string敏感的 ，字节包和字符串可以互相转换
'€20'.encode('utf-8')
b'\xe2\x82\xac20'
 b'\xe2\x82\xac20'.decode('utf-8')
'€20'

##### python3的zilb对象不能为str，应该为bytes

In [41]:
orginal = "this is a test string"
orginal_byte = orginal.encode('utf-8')
compressed = zlib.compress(orginal_byte)
print(compressed)
print(zlib.decompress(compressed))

b'x\x9c+\xc9\xc8,V\x00\xa2D\x85\x92\xd4\xe2\x12\x85\xe2\x92\xa2\xcc\xbct\x00S\xe9\x07\xcd'
b'this is a test string'


In [42]:
print (zlib.adler32(orginal_byte) & 0xffffffff)

1407780813


In [43]:
print (zlib.crc32(orginal_byte) & 0xffffffff)

4236695221


##### gzip 
产生 .gz格式的文件，压缩方式由zlib提供，可以通过gzip.open 来读写.gz文件

In [44]:
content = "Lots of content here"
content_byte = content.encode('utf-8')
with gzip.open('file.txt.gz', 'wb') as f:
    f.write(content_byte)

In [45]:
with gzip.open('file.txt.gz', 'rb') as f:
    file_content = f.read()
    
print(file_content)

b'Lots of content here'


In [46]:
with gzip.open('file.txt.gz', 'rb') as f_in, open('file.txt', 'wb') as f_out:
    shutil.copyfileobj(f_in, f_out)

In [47]:
with open("file.txt") as f:
    print(f.read())

Lots of content here


In [48]:
os.remove('file.txt.gz')

##### bz2

In [49]:
orginal = "this is a test string"
orginal_byte = orginal.encode('utf-8')

compressed = bz2.compress(orginal_byte)

In [50]:
print(compressed)
print(bz2.decompress(compressed))

b'BZh91AY&SY*\x1c\xd9v\x00\x00\t\x91\x80@\x00"\xe1\x1c\x00 \x001\x000"zi\x0f\xd2\x15\x1b\xb1FLT`\xa5\xe8\xbb\x92)\xc2\x84\x81P\xe6\xcb\xb0'
b'this is a test string'


##### zipfile

###### 产生一些file.txt的复制

In [51]:
for i in range(10):
    shutil.copy("file.txt","file.txt" + str(i))

######  将这些复制压缩到一个zip文件中

In [54]:
f = zipfile.ZipFile('files.zip','w')

for name in glob.glob("*.txt.[0-9]"):
    f.write(name)
    os.remove(name)

f.close()

######  解压，并用namelist来查看压缩文件中的子文件名

In [55]:
f = zipfile.ZipFile('files.zip','r')
print(f.namelist())

[]


In [56]:
for name in f.namelist():
    print(name, "content:", f.read(name))
    
f.close()

##### tarfile

In [59]:
f = tarfile.open("file.txt.tar", 'w')
f.add("file.txt")
f.close()

FileNotFoundError: [WinError 2] 系统找不到指定的文件。: 'file.txt'

In [60]:
os.remove("file.txt")
os.remove("file.txt.tar")
os.remove("files,zip")

FileNotFoundError: [WinError 2] 系统找不到指定的文件。: 'file.txt'

In [1]:
!ls

'ls' 不是内部或外部命令，也不是可运行的程序
或批处理文件。


TypeError: write() takes exactly one argument (0 given)