# Архивирование данных и формат zip

*Сжатие информации* – это процесс преобразования информации, хранящейся в файле, при котором уменьшается избыточность в ее представлении и, соответственно, требуется меньший объем памяти для хранения.

*Архивация файлов* — упаковка нескольких файлов в один файл или поток — архив. Не следует путать архивацию со сжатием, которое далеко не всегда применяется при создании архива.

## формат zip

In [1]:
from zipfile import ZipFile

zip — это формат сжатия без потерь: после распаковки данные будут такими же, как перед сжатием. Алгоритм ищет избыточности в исходных данных и эффективнее представляет информацию.

In [None]:
with ZipFile('test.zip') as zip_file: # объекты ZipFile похожи на файловые объекты, возвращаемые функцией open()
    
    print('Работа с архивом началась')
    print('...')
    
print('Работа с архивом закончилась')

Метод **printdir()** - выводит таблицу о содержимом архива

In [None]:
with ZipFile('test.zip') as zip_file:
    zip_file.printdir()  # информация об архиве

Метод **infolist()** - список с информацией о каждом файле

In [None]:
with ZipFile('test.zip') as zip_file:
    info_list = zip_file.infolist()
    for info in info_list:
        print(info)
    print()
    print(info_list)

In [None]:
# кроме того можно обращаться к атрибутам
 
print(info_list[2].file_size)  # размер файла в байтах
print(info_list[2].compress_size) # размер сжатого файла
print(info_list[2].filename)  # имя файла
print(info_list[2].date_time)  # кортеж, показывающий дату изменения файла

In [None]:
info_list[2]

In [None]:
info_list[2].is_dir()  # проверка, является ли объект папкой

Метод **namelist**() - список названий файлов и директорий

In [None]:
with ZipFile('test.zip') as zip_file:
    name_list = zip_file.namelist() # список
    print(*name_list, sep='\n')

Метод **getinfo()** - получить информацию о конкретном файле по его имени 

In [None]:
with ZipFile('test.zip') as zip_file:
    print(zip_file.getinfo('test/')) 
    print(zip_file.getinfo('test/Картинки/Снимок экрана.png'))
    print()
    info_about_one_file = zip_file.getinfo('test/Картинки/py.png')  # получаем информацию об отдельном файле
    print(info_about_one_file.file_size)

### Работа с конкретными файлами из архива

In [None]:
from zipfile import ZipFile

with ZipFile('test.zip') as zip_file:
    with zip_file.open('test/Разные файлы/astros.json') as file:
        print(file.read())

Обратите внимание на символ b перед выводом. Это бинарная строка. Метод file.read() возвращает сырые байты (тип bytes). Для того чтобы преобразовать их в строку (тип str), нужно использовать метод decode(), указав нужную кодировку (файл astros.json имеет кодировку UTF-8).

In [None]:
from zipfile import ZipFile

with ZipFile('test.zip') as zip_file:
    with zip_file.open('test/Разные файлы/astros.json') as file:
        print(file.read().decode('utf-8'))

### Запись в zip архив

По аналогии с чтением файлов из архива их можно туда и записывать, для этого необходимо создать объект ZipFile в режимах mode='w' или mode='a'.

In [None]:
from zipfile import ZipFile

with ZipFile('new_archive.zip', mode='w') as zip_file:
    zip_file.write('football.csv','new_name_football_csv') # для записи нового имени в архив
    zip_file.write('students.csv')
    print(zip_file.namelist())

In [None]:
from zipfile import ZipFile

with ZipFile('test.zip', mode='a') as zip_file:
    zip_file.write('football.json')
    print(*zip_file.namelist(), sep='\n')

### Извлечение содержимого zip-файла в каталог

Для извлечения данных из архива в каталог используются методы extract() и extractall().
Если требуется извлечь отдельные файлы, то используется метод extract(), он принимает два аргумента: название файла и путь, по которому требуется извлечь файл. Если путь не указывать, то файл будет извлечен в папку, где находится файл с программой.

In [None]:
with ZipFile('test.zip') as zip_file:
    zip_file.extract('test/Картинки/avatar.png')
    zip_file.extract('test/Программы/image_util.py','new_name')

Если требуется извлечь все содержимое архива, то используется метод **extractall**(), он принимает в качестве аргумента путь, по которому требуется извлечь все файлы. Если путь не указывать, то файл будет извлечен в папку, где находится файл с программой.