In [None]:
# 08장 데이터 압축하고 보관하기
# ---------------------------
# 파일이나 데이터는 여러 가지 방법으로 묶거나 압축할 수 있다. 이번 장에서는 데이터를 묶거나 압축할 때 사용하는 모듈을 알아본다.

## 048 데이터 크기를 줄여 전송하려면? ― zlib

In [None]:
# 048 데이터 크기를 줄여 전송하려면? ― zlib
# ---------------------------------------
# zlib은 데이터를 압축하거나 해제할 때 사용하는 모듈이다.

# 문제
# ----
# 다음처럼 공백, 특수 문자를 포함한 35자 문자열(35바이트)을 10,000번 곱한 350,000바이트 문자열이 있다.

# data = "Life is too short, You need python." * 10000
# print(len(data))  # 350000 출력

# 이 문자열을 네트워크를 이용해 상대방에게 전송해야 한다. 
# 하지만, 네트워크로 데이터 전송 시 허용할 수 있는 트래픽 용량은 2,000바이트라 한다. 
# 문자열 손실 없이 전송할 수 있도록 데이터를 압축하고 전송받은 쪽에서는 이를 해제하려면 어떤 프로그램을 작성해야 할까?


In [1]:
data = "Life is too short, You need python." * 10000
len(data)

350000

In [None]:
# 풀이
# ----
# zlib의 compress()와 decompress()를 사용하면 문자열을 압축하고 해제할 수 있다.

# [파일명: zlib_sample.py]

# import zlib


# data = "Life is too short, You need python." * 10000
# compress_data = zlib.compress(data.encode(encoding='utf-8'))
# print(len(compress_data))  # 1077 출력

# org_data = zlib.decompress(compress_data).decode('utf-8')
# print(len(org_data))  # 350000 출력

# data는 유니코드 문자열이므로 data.encode(encoding='utf-8')과 같이 UTF-8 형식으로 인코딩한 바이트 문자열을 만든 후 
# zlib.compress()를 사용하여 바이트 문자열을 압축했다. 
# 압축한 바이트 문자열의 길이를 출력해 보았더니 1077이라는 값을 얻었다. 350,000바이트가 1,077바이트가 되었으니 압축률이 상당히 좋음을 알 수 있다.

# 참고: 부록 01 파이썬과 유니코드

# 압축된 바이트 문자열을 원래 문자열로 복구하려면 먼저 zlib.decompress(compress_data)로 압축을 해제한 바이트 문자열을 얻고, 
# 이를 다시 .decode('utf-8')로 UTF-8 형식으로 인코딩한 바이트를 유니코드 문자열로 바꾸었다. 
# 마지막으로 org_data의 길이를 출력해 보면 원래 문자열 길이인 350,000바이트임을 확인할 수 있다.

# 참고
# zlib - gzip 과 호환되는 압축: https://docs.python.org/ko/3/library/zlib.html
# 동영상 - https://youtube.com/shorts/susm4x3u-oA?feature=share

In [6]:
import zlib

data = "Life is too short, You need python." * 10000

compress_data = zlib.compress(data.encode(encoding='utf-8'))
print(len(compress_data))

org_data = zlib.decompress(compress_data).decode('utf-8')
print(len(org_data))

1077
350000


## 049 데이터를 압축하여 파일로 저장하려면? ― gzip

In [None]:
# 049 데이터를 압축하여 파일로 저장하려면? ― gzip
# ---------------------------------------------
# gzip은 파일을 압축하거나 해제할 때 사용하는 모듈이다.

# gzip은 내부적으로 zlib를 사용한다.

# 문제
# ----
# 다음처럼 공백, 특수 문자를 포함한 35자 문자열(35바이트)을 10,000번 곱한 350,000바이트 문자열이 있다.

# data = "Life is too short, You need python." * 10000
# print(len(data))  # 350000 출력

# 이 문자열을 파일로 저장해야 한다. 하지만, 사용할 수 있는 하드디스크 여유 공간은 2,000바이트뿐이라 한다. 
# 이럴 때 문자열 손실 없이 데이터를 압축하여 파일에 저장하고 해제하여 읽을 수 있는 프로그램을 작성하려면 어떻게 해야 할까?


In [1]:
data = "Life is too short, You need python." * 10000
print(len(data))  # 350000 출력

350000


In [None]:
# 풀이
# gzip의 open()을 사용하면 쉽게 데이터를 압축하여 파일로 저장하고 또 해제하여 읽을 수 있다.

# [파일명: gzip_sample.py]

# import gzip

# data = "Life is too short, you need python." * 10000

# with gzip.open('data.txt.gz', 'wb') as f:
#     f.write(data.encode('utf-8'))  # 저장한 파일의 크기는 1097바이트

# with gzip.open('data.txt.gz', 'rb') as f:
#     read_data = f.read().decode('utf-8')

# assert data == read_data
# data는 유니코드 문자열이므로 data.encode('utf-8') 와 같이 UTF-8 형식으로 인코딩한 바이트 문자열로 저장했다. 저장한 data.txt.gz 파일의 크기를 확인해 보았더니 1,097바이트이다. 350,000바이트가 1,097바이트로 줄었으니 압축률이 상당히 좋음을 알 수 있다.

# 참고: 부록 01 파이썬과 유니코드

# 압축한 파일은 마찬가지 방법으로 gzip.open()을 사용하여 바이너리 읽기 모드인 'rb'로 읽으면 된다. 마지막으로 원래 350,000바이트였던 문자열과 이를 압축하여 저장하고 다시 읽은 문자열이 같은지 assert 구문으로 검사했다. 같지 않다면 AssertionError 오류가 발생할 것이다.

# 참고
# gzip - gzip 파일 지원: https://docs.python.org/ko/3/library/gzip.html

In [3]:
import gzip

data = "Life is too short, you need python." * 10000

with gzip.open('data.txt.gz', 'wb') as f:
    f.write(data.encode('utf-8'))

with gzip.open('./data.txt.gz', 'rb') as f:
    read_data = f.read().decode('utf-8')
assert data == read_data


## 050 bzip2 알고리즘으로 압축하려면? ― bz2

In [None]:
# 050 bzip2 알고리즘으로 압축하려면? ― bz2
# ----------------------------------------
# bz2는 bzip2 압축 알고리즘으로 데이터를 압축하거나 해제할 때 사용하는 모듈이다.

# zlib와 사용법이 같으나 bz2는 스레드 환경에서 안전하다는 특징이 있다.

# 문제
# 앞 절과 마찬가지로 35자 문자열(35바이트)을 10,000번 곱한 350,000바이트 문자열이 있다.

# data = "Life is too short, You need python." * 10000
# print(len(data))  # 350000 출력

# 이 문자열을 네트워크를 통해 전송해야 한다. 하지만, 데이터 전송 시 허용 가능한 트래픽 용량은 2,000바이트까지라 한다. 
# 이에 문자열 손실 없이 데이터를 전송할 수 있도록 데이터를 압축하고 해제하는 프로그램을 작성하려면 어떻게 해야 할까? 
# 단, 여기서는 bz2 모듈을 사용해 문제를 풀어야 한다.


In [None]:
# 풀이
# ----
# bz2의 compress()와 decompress()를 사용하면 bzip2 알고리즘으로 문자열을 압축하고 해제할 수 있다.

# [파일명: bz2_sample.py]

# import bz2

# data = "Life is too short, You need python." * 10000
# compress_data = bz2.compress(data.encode(encoding='utf-8'))
# print(len(compress_data))  # 163 출력

# org_data = bz2.decompress(compress_data).decode('utf-8')
# print(len(org_data))  # 350000 출력

# assert data == org_data

# data는 유니코드 문자열이므로 data.encode(encoding='utf-8')과 같이 UTF-8 형식으로 인코딩한 바이트 문자열을 만든 다음, 
# bz2.compress()를 사용하여 바이트 문자열을 압축했다. 
# 압축한 바이트 문자열 길이를 확인했더이라니 163는 값을 출력한다. 
# 350,000바이트가 163바이트가 되었으니 압축률이 상당히 좋음을 알 수 있다.

# 참고: 부록 01 파이썬과 유니코드

# 압축한 바이트 문자열을 원래 문자열로 복구하고자 먼저 bz2.decompress(compress_data)로 압축을 해제한 바이트 문자열을 얻고, 
# 다시 .decode('utf-8')로 UTF-8 형식으로 인코딩한 바이트를 유니코드 문자열로 바꾸었다. 
# 마지막으로 org_data의 길이를 출력해 보면 원래의 문자열 길이인 350,000바이트임을 확인할 수 있고 data와 이를 압축하고 
# 해제한 org_data가 같음을 assert 구문으로 확인할 수 있다.

In [8]:
import bz2

data = "Life is too short, You need python." * 10000
compress_data = bz2.compress(data.encode(encoding='utf-8'))
print(len(compress_data))

org_data = bz2.decompress(compress_data).decode(encoding='utf-8')
print(len(org_data))

assert org_data == data

163
350000


In [None]:
# 알아두면 좋아요
# bz2 파일 압축 해제
# -----------------
# bz2는 다음과 같이 파일을 압축하고 해제할 때도 사용할 수 있다.

# gzip과 사용법이 같다.

# import bz2

# data = "Life is too short, you need python." * 10000

# with bz2.open('data.txt.bz2', 'wb') as f:
#     f.write(data.encode('utf-8'))

# with bz2.open('data.txt.bz2', 'rb') as f:
#     read_data = f.read().decode('utf-8')

# assert data == read_data
# 압축 파일 크기는 157바이트로, 압축률도 뛰어나다.

# 참고
# bz2 - bzip2 압축 지원: https://docs.python.org/ko/3/library/bz2.html

In [9]:
import bz2

data = "Life is too short, You need python." * 10000

with bz2.open('./data.txt.bz2', 'wb') as f:
    f.write(data.encode('utf-8'))

with bz2.open('./data.txt.bz2', 'rb') as f:
    org_data = f.read().decode(encoding='utf-8')
assert data == org_data    

## 051 LZMA 알고리즘으로 압축하려면? ― lzma

In [None]:
# 051 LZMA 알고리즘으로 압축하려면? ― lzma
# ----------------------------------------
# lzma는 LZMA 압축 알고리즘으로 데이터를 압축하거나 해제할 때 사용하는 모듈이다.

# zlib, bz2와 사용법이 같지만, lzma는 bz2와 달리 스레드 환경에서는 안전하지 않다.

# 문제
# 지금까지와 마찬가지로 35자 문자열(35바이트)을 10,000번 곱한 350,000바이트 문자열이 있다.

# data = "Life is too short, You need python." * 10000
# print(len(data))  # 350000 출력

# 이 문자열을 네트워크를 통해 전송해야 한다. 하지만, 네트워크로 전송할 수 있는 데이터 용량은 2,000바이트까지라 한다. 문자열의 손실 없이 데이터를 전송할 수 있도록 데이터를 압축하고 해제하는 프로그램을 작성하려면 어떻게 해야 할까? 단, 여기서는 lzma 모듈을 사용해 문제를 풀어야 한다.

# 풀이
# lzma의 compress()와 decompress()를 사용하면 문자열을 압축하고 해제할 수 있다.

# [파일명: lzma_sample.py]

# import lzma

# data = "Life is too short, You need python." * 10000
# compress_data = lzma.compress(data.encode(encoding='utf-8'))
# print(len(compress_data))  # 220 출력

# org_data = lzma.decompress(compress_data).decode('utf-8')
# print(len(org_data))  # 350000 출력

# assert data == org_data
# data는 유니코드 문자열이므로 data.encode(encoding='utf-8')과 같이 UTF-8 형식으로 인코딩한 바이트 문자열을 만든 다음, lzma.compress()를 사용하여 바이트 문자열을 압축했다. 압축한 바이트 문자열의 길이를 확인했더니 220이라는 값을 출력한다. 350,000바이트가 220바이트가 되었으니 압축률 또한 상당히 좋다.

# 참고: 부록 01 파이썬과 유니코드

# 압축한 바이트 문자열을 원래 문자열로 복구하고자 먼저 lzma.decompress(compress_data)로 압축을 해제한 바이트 문자열을 얻고 다시 .decode('utf-8')로 UTF-8 형식으로 인코딩한 바이트를 유니코드 문자열로 바꾸었다. 마지막으로 org_data의 길이를 확인해 보면 원래 문자열 길이인 350,000바이트임을 확인할 수 있다. 또한, data와 이를 압축하고 해제한 org_data가 같다는 것은 assert 구문으로 확인할 수 있다.

# 알아두면 좋아요
# lzma 파일 압축 해제
# lzma는 다음과 같이 파일을 압축하고 해제할 때도 사용할 수 있다.

# gzip과 사용법이 같다.

# import lzma

# data = "Life is too short, you need python." * 10000

# with lzma.open('data.txt.xz', 'wb') as f:
#     f.write(data.encode('utf-8'))

# with lzma.open('data.txt.xz', 'rb') as f:
#     read_data = f.read().decode('utf-8')

# assert data == read_data
# 압축 파일 크기는 220바이트로, 압축률도 뛰어나다.

# 참고
# lzma - LZMA 알고리즘을 사용한 압축: https://docs.python.org/ko/3/library/lzma.html

## 052 여러 파일을 zip으로 합치려면? ― zipfile

In [None]:
# 052 여러 파일을 zip으로 합치려면? ― zipfile
# -------------------------------------------
# zipfile은 여러 개의 파일을 zip 형식으로 합치거나 이를 해제할 때 사용하는 모듈이다.

# 문제
# 다음과 같은 3개의 텍스트 파일이 있다고 하자.

# a.txt
# b.txt
# c.txt

# 이 3개의 텍스트 파일을 하나로 합쳐 mytext.zip이라는 파일을 만들고, 이 파일을 원래의 텍스트 파일 3개로 해제하는 프로그램을 만들려면 어떻게 해야 할까?


In [None]:
# 풀이
# zipfile.ZipFile()을 사용한 문제 풀이는 다음과 같다.

# [파일명: zipfile_sample.py]

# import zipfile

# # 파일 합치기
# with zipfile.ZipFile('mytext.zip', 'w') as myzip:
#     myzip.write('a.txt')
#     myzip.write('b.txt')
#     myzip.write('c.txt')

# # 해제하기
# with zipfile.ZipFile('mytext.zip') as myzip:
#     myzip.extractall()

# ZipFile 객체의 write() 함수로 개별 파일을 추가할 수 있고 extreactall() 함수를 사용하면 모든 파일을 해제할 수 있다. 합친 파일에서 특정 파일만 해제하고 싶다면 다음과 같이 extract() 함수를 사용하면 된다.

# with zipfile.ZipFile('mytext.zip') as myzip:
#     myzip.extract('a.txt')

# 더 알아보기
# 압축

# 파일을 압축하여 묶고 싶은 경우에는 compression, compresslevel 옵션을 사용할 수 있다.

# with zipfile.ZipFile('mytext.zip', 'w', compression=zipfile.ZIP_LZMA, compresslevel=9) as myzip:
#     (... 생략 ...)
# compression은 4가지이다.

# ZIP_STORED - 압축하지 않고 파일을 Zip으로만 묶는다. 속도가 빠르다.
# ZIP_DEFLATED - 일반적인 ZIP 압축으로 속도가 빠르고 압축률은 낮다. (호환성이 좋다.)
# ZIP_BZIP2 - bzip2 압축으로 압축률이 높고 속도가 느리다.
# ZIP_LZMA - lzma 압축으로 압축률이 높고 속도가 느리다. (7zip과 동일한 알고리즘으로 알려져 있다.)

# compressionlevel은 압축 수준을 의미하는 숫자값으로 1 ~ 9를 사용한다. 1은 속도가 가장 빠르고 압축률이 낮고, 9는 속도는 가장 느리지만 최대 압축을 한다.

In [22]:
import zipfile
import glob
import os

# with zipfile.ZipFile('mytext.zip', 'w') as myzip:
#     for file in glob.glob('*.txt'):
#         myzip.write(file)

# with zipfile.ZipFile('mytext.zip') as myzip:
#     myzip.extractall()

with zipfile.ZipFile('mytext.zip') as myzip:
    myzip.extract('test3.txt')    

In [None]:
# 비밀번호 사용하기
# 만약 비밀번호를 포함하여 zip 파일을 생성하고 싶다면 다음의 파이썬 라이브러리를 사용해 보자.

# pyminizip - https://pypi.org/project/pyminizip/

# 사용방법은 다음과 같다.

# pyminizip.compress("/srcfile/path.txt", "file_path_prefix", "/distfile/path.zip", "password", int(compress_level))
# file_path_prefix - 압축 파일내의 파일명을 의미 (이름만 적을경우 경로는 포함되지 않는다.)
# password - 압축파일의 비밀번호
# compress_level - 압축 수준의 의미하는 숫자값 (1~9)
# 참고
# zipfile - ZIP 아카이브 작업: https://docs.python.org/ko/3/library/zipfile.html
# 동영상 - https://youtube.com/shorts/Y21nU2jhW9U?feature=share

## 053 여러 파일을 tar로 합치려면? ― tarfile

In [None]:
# 053 여러 파일을 tar로 합치려면? ― tarfile

# tarfile은 여러 개의 파일을 tar 형식으로 합치거나 이를 해제할 때 사용하는 모듈이다.

# 파일을 합칠 때 gzip, bz2, lzma 압축을 사용할 수도 있다.

# 문제
# 다음과 같이 3개의 텍스트 파일이 있다고 하자.

# a.txt
# b.txt
# c.txt

# 이 3개의 텍스트 파일을 하나로 합쳐 mytext.tar라는 파일을 만들고, 이 파일을 원래의 텍스트 파일 3개로 해제하는 프로그램을 만들려면 어떻게 해야 할까?


In [None]:

# 풀이
# tarfile 모듈을 사용한 문제 풀이는 다음과 같다.

# [파일명: tarfile_sample.py]

# import tarfile

# # 여러파일 합치기
# with tarfile.open('mytext.tar', 'w') as mytar:
#     mytar.add('a.txt')
#     mytar.add('b.txt')
#     mytar.add('c.txt')

# # 여러파일 해제하기
# with tarfile.open('mytext.tar') as mytar:
#     mytar.extractall()

# tarfile.open()으로 생성한 객체의 add() 함수로 여러 파일을 추가할 수 있고 extreactall() 함수를 사용하면 
# 여러 파일을 해제할 수 있다. 합친 파일에서 특정 파일만 해제하고 싶다면 다음과 같이 extract() 함수를 사용하면 된다.

# with tarfile.open('mytext.tar') as mytar:
#     mytar.extract('a.txt')


# 알아두면 좋아요

# 파일 압축하여 묶기
# tar 파일을 만들 때 파일을 압축하고 나서 합치고 싶다면 다음처럼 압축 방법을 지정한 문자열(:gz, :bz2, :xz)을 추가로 전달하면 된다.

# import tarfile

# # 여러파일 합치기
# with tarfile.open('mytext.tar.gz', 'w:gz') as mytar:
#     mytar.add('a.txt')
#     mytar.add('b.txt')
#     mytar.add('c.txt')

# # 여러파일 해제하기
# with tarfile.open('mytext.tar.gz') as mytar:
#     mytar.extractall()

# w:gz처럼 gzip 압축을 사용하면 관례로 *.tar.gz와 같은 확장자를 파일 이름에 붙인다. w:bz2(bzip2 압축)를 
# 사용한다면 파일 확장자를 *.tar.bz2로 하며 w:xz(lzma 압축)를 사용한다면 *.tar.xz라는 확장자를 붙인다.

# 참고
# tarfile - tar 아카이브 파일 읽기와 쓰기: https://docs.python.org/ko/3/library/tarfile.html

In [26]:
import tarfile

with tarfile.open('mytext.tar.gz', 'w:gz') as mytar:
    mytar.add('test1.txt')
    mytar.add('test2.txt')
    mytar.add('test3.txt')

with tarfile.open('mytext.tar.gz', 'r:gz') as mytar:
    mytar.extractall()