# Архивирование данных и формат zip

*Сжатие информации* – это процесс преобразования информации, хранящейся в файле, при котором уменьшается избыточность в ее представлении и, соответственно, требуется меньший объем памяти для хранения.

*Архивация файлов* — упаковка нескольких файлов в один файл или поток — архив. Не следует путать архивацию со сжатием, которое далеко не всегда применяется при создании архива.

## формат zip

In [1]:
from zipfile import ZipFile

zip — это формат сжатия без потерь: после распаковки данные будут такими же, как перед сжатием. Алгоритм ищет избыточности в исходных данных и эффективнее представляет информацию.

In [2]:
with ZipFile('test.zip') as zip_file: # объекты ZipFile похожи на файловые объекты, возвращаемые функцией open()
    
    print('Работа с архивом началась')
    print('...')
    
print('Работа с архивом закончилась')

Работа с архивом началась
...
Работа с архивом закончилась


Метод **printdir()** - выводит таблицу о содержимом архива

In [3]:
with ZipFile('test.zip') as zip_file:
    zip_file.printdir()  # информация об архиве

File Name                                             Modified             Size
test/                                          2021-11-27 12:47:10            0
test/Картинки/                                 2021-11-27 12:49:02            0
test/Картинки/1.jpg                            2021-09-02 12:30:20        90156
test/Картинки/avatar.png                       2021-08-20 09:38:44        19053
test/Картинки/certificate.png                  2021-10-23 09:46:36        43699
test/Картинки/py.png                           2021-07-28 17:55:56        33522
test/Картинки/World_Time_Zones_Map.png         2021-11-08 07:30:06      2324421
test/Картинки/Снимок экрана.png                2021-10-01 20:47:02        10878
test/Неравенства.djvu                          2021-08-19 08:39:06      5283010
test/Программы/                                2021-11-27 12:48:20            0
test/Программы/image_util.py                   2021-11-18 12:42:22         4955
test/Программы/sort.py                  

Метод **infolist()** - список с информацией о каждом файле

In [4]:
with ZipFile('test.zip') as zip_file:
    
    info_list = zip_file.infolist()
    
    for info in info_list:
        print(info)
    print()
    print(info_list)

<ZipInfo filename='test/' external_attr=0x10>
<ZipInfo filename='test/Картинки/' external_attr=0x10>
<ZipInfo filename='test/Картинки/1.jpg' compress_type=deflate external_attr=0x20 file_size=90156 compress_size=84676>
<ZipInfo filename='test/Картинки/avatar.png' external_attr=0x20 file_size=19053>
<ZipInfo filename='test/Картинки/certificate.png' compress_type=deflate external_attr=0x20 file_size=43699 compress_size=43532>
<ZipInfo filename='test/Картинки/py.png' compress_type=deflate external_attr=0x20 file_size=33522 compress_size=33443>
<ZipInfo filename='test/Картинки/World_Time_Zones_Map.png' compress_type=deflate external_attr=0x20 file_size=2324421 compress_size=2322032>
<ZipInfo filename='test/Картинки/Снимок экрана.png' compress_type=deflate external_attr=0x20 file_size=10878 compress_size=10614>
<ZipInfo filename='test/Неравенства.djvu' external_attr=0x20 file_size=5283010>
<ZipInfo filename='test/Программы/' external_attr=0x10>
<ZipInfo filename='test/Программы/image_util.p

In [5]:
# кроме того можно обращаться к атрибутам
 
print(info_list[2].file_size)  # размер файла в байтах
print(info_list[2].compress_size) # размер сжатого файла
print(info_list[2].filename)  # имя файла
print(info_list[2].date_time)  # кортеж, показывающий дату изменения файла

90156
84676
test/Картинки/1.jpg
(2021, 9, 2, 12, 30, 20)


In [6]:
info_list[2]

<ZipInfo filename='test/Картинки/1.jpg' compress_type=deflate external_attr=0x20 file_size=90156 compress_size=84676>

In [7]:
info_list[2].is_dir()  # проверка, является ли объект папкой

False

Метод **namelist**() - список названий файлов и директорий

In [8]:
with ZipFile('test.zip') as zip_file:
    
    name_list = zip_file.namelist() # список
    print(*name_list, sep='\n')

test/
test/Картинки/
test/Картинки/1.jpg
test/Картинки/avatar.png
test/Картинки/certificate.png
test/Картинки/py.png
test/Картинки/World_Time_Zones_Map.png
test/Картинки/Снимок экрана.png
test/Неравенства.djvu
test/Программы/
test/Программы/image_util.py
test/Программы/sort.py
test/Разные файлы/
test/Разные файлы/astros.json
football.json
football.json
football.json
football.json


Метод **getinfo()** - получить информацию о конкретном файле по его имени 

In [9]:
with ZipFile('test.zip') as zip_file:
    
    print(zip_file.getinfo('test/')) 
    
    print(zip_file.getinfo('test/Картинки/Снимок экрана.png'))
    print()
    
    info_about_one_file = zip_file.getinfo('test/Картинки/py.png')  # получаем информацию об отдельном файле
    print(info_about_one_file.file_size)

<ZipInfo filename='test/' external_attr=0x10>
<ZipInfo filename='test/Картинки/Снимок экрана.png' compress_type=deflate external_attr=0x20 file_size=10878 compress_size=10614>

33522


### Работа с конкретными файлами из архива

In [10]:
from zipfile import ZipFile

with ZipFile('test.zip') as zip_file:
    with zip_file.open('test/Разные файлы/astros.json') as file:
        print(file.read()) 

b'{"number": 10, "people": [{"craft": "ISS", "name": "Mark Vande Hei"}, {"craft": "ISS", "name": "Pyotr Dubrov"}, {"craft": "ISS", "name": "Thomas Pesquet"}, {"craft": "ISS", "name": "Megan McArthur"}, {"craft": "ISS", "name": "Shane Kimbrough"}, {"craft": "ISS", "name": "Akihiko Hoshide"}, {"craft": "ISS", "name": "Anton Shkaplerov"}, {"craft": "Shenzhou 13", "name": "Zhai Zhigang"}, {"craft": "Shenzhou 13", "name": "Wang Yaping"}, {"craft": "Shenzhou 13", "name": "Ye Guangfu"}], "message": "success"}'


Обратите внимание на символ b перед выводом. Это бинарная строка. Метод file.read() возвращает сырые байты (тип bytes). Для того чтобы преобразовать их в строку (тип str), нужно использовать метод decode(), указав нужную кодировку (файл astros.json имеет кодировку UTF-8).

In [11]:
from zipfile import ZipFile

with ZipFile('test.zip') as zip_file:
    with zip_file.open('test/Разные файлы/astros.json') as file:
        
        s = file.read().decode('utf-8') # преобразование в строку
        print(s) 

{"number": 10, "people": [{"craft": "ISS", "name": "Mark Vande Hei"}, {"craft": "ISS", "name": "Pyotr Dubrov"}, {"craft": "ISS", "name": "Thomas Pesquet"}, {"craft": "ISS", "name": "Megan McArthur"}, {"craft": "ISS", "name": "Shane Kimbrough"}, {"craft": "ISS", "name": "Akihiko Hoshide"}, {"craft": "ISS", "name": "Anton Shkaplerov"}, {"craft": "Shenzhou 13", "name": "Zhai Zhigang"}, {"craft": "Shenzhou 13", "name": "Wang Yaping"}, {"craft": "Shenzhou 13", "name": "Ye Guangfu"}], "message": "success"}


### Запись в zip архив

По аналогии с чтением файлов из архива их можно туда и записывать, для этого необходимо создать объект ZipFile в режимах mode='w' или mode='a'.

In [12]:
from zipfile import ZipFile

with ZipFile('new_archive.zip', mode='w') as zip_file:
    zip_file.write('football.csv','new_name_football_csv') # для записи нового имени в архив указываем вторым аргуентом новое имя
    zip_file.write('students.csv')
    print(zip_file.namelist())

['new_name_football_csv', 'students.csv']


In [13]:
from zipfile import ZipFile

with ZipFile('test.zip', mode='a') as zip_file:
    zip_file.write('football.json')
    print(*zip_file.namelist(), sep='\n')

test/
test/Картинки/
test/Картинки/1.jpg
test/Картинки/avatar.png
test/Картинки/certificate.png
test/Картинки/py.png
test/Картинки/World_Time_Zones_Map.png
test/Картинки/Снимок экрана.png
test/Неравенства.djvu
test/Программы/
test/Программы/image_util.py
test/Программы/sort.py
test/Разные файлы/
test/Разные файлы/astros.json
football.json
football.json
football.json
football.json
football.json


  return self._open_to_write(zinfo, force_zip64=force_zip64)


### Извлечение содержимого zip-файла в каталог

Для извлечения данных из архива в каталог используются методы extract() и extractall().
Если требуется извлечь отдельные файлы, то используется метод extract(), он принимает два аргумента: название файла и путь, по которому требуется извлечь файл. Если путь не указывать, то файл будет извлечен в папку, где находится файл с программой.

In [15]:
with ZipFile('test.zip') as zip_file:
    zip_file.extract('test/Картинки/avatar.png')
    zip_file.extract('test/Программы/image_util.py','new_name')

Если требуется извлечь все содержимое архива, то используется метод **extractall**(), он принимает в качестве аргумента путь, по которому требуется извлечь все файлы. Если путь не указывать, то файл будет извлечен в папку, где находится файл с программой.