In [None]:
# 08장 데이터 압축하고 보관하기
# ---------------------------
# 파일이나 데이터는 여러 가지 방법으로 묶거나 압축할 수 있다. 이번 장에서는 데이터를 묶거나 압축할 때 사용하는 모듈을 알아본다.

## 048 데이터 크기를 줄여 전송하려면? ― zlib

In [None]:
# 048 데이터 크기를 줄여 전송하려면? ― zlib
# ---------------------------------------
# zlib은 데이터를 압축하거나 해제할 때 사용하는 모듈이다.

# 문제
# ----
# 다음처럼 공백, 특수 문자를 포함한 35자 문자열(35바이트)을 10,000번 곱한 350,000바이트 문자열이 있다.

# data = "Life is too short, You need python." * 10000
# print(len(data))  # 350000 출력

# 이 문자열을 네트워크를 이용해 상대방에게 전송해야 한다. 
# 하지만, 네트워크로 데이터 전송 시 허용할 수 있는 트래픽 용량은 2,000바이트라 한다. 
# 문자열 손실 없이 전송할 수 있도록 데이터를 압축하고 전송받은 쪽에서는 이를 해제하려면 어떤 프로그램을 작성해야 할까?


In [1]:
data = "Life is too short, You need python." * 10000
len(data)

350000

In [None]:
# 풀이
# ----
# zlib의 compress()와 decompress()를 사용하면 문자열을 압축하고 해제할 수 있다.

# [파일명: zlib_sample.py]

# import zlib


# data = "Life is too short, You need python." * 10000
# compress_data = zlib.compress(data.encode(encoding='utf-8'))
# print(len(compress_data))  # 1077 출력

# org_data = zlib.decompress(compress_data).decode('utf-8')
# print(len(org_data))  # 350000 출력

# data는 유니코드 문자열이므로 data.encode(encoding='utf-8')과 같이 UTF-8 형식으로 인코딩한 바이트 문자열을 만든 후 
# zlib.compress()를 사용하여 바이트 문자열을 압축했다. 
# 압축한 바이트 문자열의 길이를 출력해 보았더니 1077이라는 값을 얻었다. 350,000바이트가 1,077바이트가 되었으니 압축률이 상당히 좋음을 알 수 있다.

# 참고: 부록 01 파이썬과 유니코드

# 압축된 바이트 문자열을 원래 문자열로 복구하려면 먼저 zlib.decompress(compress_data)로 압축을 해제한 바이트 문자열을 얻고, 
# 이를 다시 .decode('utf-8')로 UTF-8 형식으로 인코딩한 바이트를 유니코드 문자열로 바꾸었다. 
# 마지막으로 org_data의 길이를 출력해 보면 원래 문자열 길이인 350,000바이트임을 확인할 수 있다.

# 참고
# zlib - gzip 과 호환되는 압축: https://docs.python.org/ko/3/library/zlib.html
# 동영상 - https://youtube.com/shorts/susm4x3u-oA?feature=share

In [6]:
import zlib

data = "Life is too short, You need python." * 10000

compress_data = zlib.compress(data.encode(encoding='utf-8'))
print(len(compress_data))

org_data = zlib.decompress(compress_data).decode('utf-8')
print(len(org_data))

1077
350000


## 049 데이터를 압축하여 파일로 저장하려면? ― gzip

In [None]:
# 049 데이터를 압축하여 파일로 저장하려면? ― gzip
# ---------------------------------------------
# gzip은 파일을 압축하거나 해제할 때 사용하는 모듈이다.

# gzip은 내부적으로 zlib를 사용한다.

# 문제
# ----
# 다음처럼 공백, 특수 문자를 포함한 35자 문자열(35바이트)을 10,000번 곱한 350,000바이트 문자열이 있다.

# data = "Life is too short, You need python." * 10000
# print(len(data))  # 350000 출력

# 이 문자열을 파일로 저장해야 한다. 하지만, 사용할 수 있는 하드디스크 여유 공간은 2,000바이트뿐이라 한다. 
# 이럴 때 문자열 손실 없이 데이터를 압축하여 파일에 저장하고 해제하여 읽을 수 있는 프로그램을 작성하려면 어떻게 해야 할까?


In [None]:
# 풀이
# gzip의 open()을 사용하면 쉽게 데이터를 압축하여 파일로 저장하고 또 해제하여 읽을 수 있다.

# [파일명: gzip_sample.py]

# import gzip

# data = "Life is too short, you need python." * 10000

# with gzip.open('data.txt.gz', 'wb') as f:
#     f.write(data.encode('utf-8'))  # 저장한 파일의 크기는 1097바이트

# with gzip.open('data.txt.gz', 'rb') as f:
#     read_data = f.read().decode('utf-8')

# assert data == read_data
# data는 유니코드 문자열이므로 data.encode('utf-8') 와 같이 UTF-8 형식으로 인코딩한 바이트 문자열로 저장했다. 저장한 data.txt.gz 파일의 크기를 확인해 보았더니 1,097바이트이다. 350,000바이트가 1,097바이트로 줄었으니 압축률이 상당히 좋음을 알 수 있다.

# 참고: 부록 01 파이썬과 유니코드

# 압축한 파일은 마찬가지 방법으로 gzip.open()을 사용하여 바이너리 읽기 모드인 'rb'로 읽으면 된다. 마지막으로 원래 350,000바이트였던 문자열과 이를 압축하여 저장하고 다시 읽은 문자열이 같은지 assert 구문으로 검사했다. 같지 않다면 AssertionError 오류가 발생할 것이다.

# 참고
# gzip - gzip 파일 지원: https://docs.python.org/ko/3/library/gzip.html