Тема урока: работа с zip файлами
Архивирование данных
Формат данных zip
Модуль zipfile
Аннотация. Урок посвящен работе с файлами в формате zip.

Архивирование данных

Сжатие информации – это процесс преобразования информации, хранящейся в файле, при котором уменьшается избыточность в ее представлении и, соответственно, требуется меньший объем памяти для хранения.

Сжатие информации в файлах производится за счет устранения избыточности различными способами, например, за счет упрощения кодов, исключения из них постоянных битов или представления повторяющихся символов или повторяющейся последовательности символов в виде коэффициента повторения и соответствующих символов.

Архивация файлов — упаковка нескольких файлов в один файл или поток — архив. Не следует путать архивацию со сжатием, которое далеко не всегда применяется при создании архива.

Архивный файл – это специальным образом организованный файл, содержащий в себе один или несколько файлов в сжатом или несжатом виде и служебную информацию об именах файлов, дате и времени их создания или модификации, размерах и т.д.

Целью архивации (упаковки) файлов обычно являются обеспечение более компактного размещения информации на диске, сокращение времени и соответственно стоимости передачи информации по каналам связи в компьютерных сетях. Кроме того, упаковка в один архивный файл группы файлов существенно упрощает их перенос с одного компьютера на другой и сокращает время копирования файлов на диски.

Степень сжатия файлов характеризуется коэффициентом K, определяемым как отношение объема сжатого файла Vc к объему исходного файла Vo, выраженным в процентах:

Степень сжатия зависит от используемой программы, метода сжатия и типа исходного файла. Наиболее хорошо сжимаются файлы графических образов, текстовые файлы и файлы данных, для которых степень сжатия может достигать 5−40%, меньше сжимаются файлы исполняемых программ и загрузочных модулей – 60−90%. Почти не сжимаются архивные файлы.

Архивация (упаковка) – помещение (загрузка) исходных файлов в архивный файл в сжатом или несжатом виде.

Разархивация (распаковка) – процесс восстановления файлов из архива точно в таком виде, какой они имели до загрузки в архив. При распаковке файлы извлекаются из архива и помещаются на диск или в оперативную память;

Программы, осуществляющие упаковку и распаковку файлов, называются программами – архиваторами.

Формат zip

В реальной жизни применяется большое количество различных форматов архивов: zip, 7z, rar и многие другие. В нашем уроке мы остановимся на zip архивах.

zip — это формат сжатия без потерь: после распаковки данные будут такими же, как перед сжатием. Алгоритм ищет избыточности в исходных данных и эффективнее представляет информацию.

Формат сжатия без потерь отличается от сжатия с потерями, который используется в таких форматах, как JPEG и MP3: при сжатии выбрасывается часть информации, которая менее заметна для человеческого глаза или уха.

Формат zip обладает следующими преимуществами:

является полностью открытым
является очень популярным (большинство архивов в Internet – это архивы zip)
является очень быстрым

Работа с zip файлами в Python

В Python для работы с zip архивами используется встроенный модуль zipfile. Основное преимущество данного модуля заключается в том, что он позволяет работать с архивом, как с обычной папкой, содержащей файлы и другие каталоги.

Не забывайте, что в архив может быть помещена целая структура каталогов.

Модуль zipfile

Для того чтобы начать работать с zip архивами в Python, нам потребуется импортировать модуль zipfile, в частности нам потребуется создать объект ZipFile.

In [None]:
from zipfile import ZipFile

Объекты ZipFile похожи на файловые объекты, возвращаемые функцией open().

Метод printdir()

В начале работы мы создаем объект типа ZipFile, передавая ему имя архива (архив лежит в той же папке, что и программа).

Метод printdir() выводит таблицу с информацией о содержимом архива: полные названия файлов с указанием даты изменения и размера в байтах.

In [1]:
from zipfile import ZipFile

with ZipFile('test.zip') as zip_file:
    zip_file.printdir()

File Name                                             Modified             Size
test/                                          2021-11-27 12:47:10            0
test/Картинки/                                 2021-11-27 12:49:02            0
test/Картинки/1.jpg                            2021-09-02 12:30:20        90156
test/Картинки/avatar.png                       2021-08-20 09:38:44        19053
test/Картинки/certificate.png                  2021-10-23 09:46:36        43699
test/Картинки/py.png                           2021-07-28 17:55:56        33522
test/Картинки/World_Time_Zones_Map.png         2021-11-08 07:30:06      2324421
test/Картинки/Снимок экрана.png                2021-10-01 20:47:02        10878
test/Неравенства.djvu                          2021-08-19 08:39:06      5283010
test/Программы/                                2021-11-27 12:48:20            0
test/Программы/image_util.py                   2021-11-18 12:42:22         4955
test/Программы/sort.py                  

При создании объекта ZipFile мы также можем передать необязательный аргумент mode, который задает режим работы (по аналогии с обычными файлами):

r — файл будет открыт для чтения
w — если файл существует, то он будет уничтожен и вместо него будет создан новый файл
a — существующий файл будет открыт в режиме добавления в конец

По умолчанию параметр mode имеет значение mode='r', то есть архив открывается для чтения.

Метод infolist()

Метод infolist() позволяет получить информацию о файлах из архива в виде списка специальных объектов (тип ZipInfo), которые содержат дополнительную информацию о каждом файле:

file_size
compress_size
filename
date_time
...

In [2]:
from zipfile import ZipFile

with ZipFile('test.zip') as zip_file:
    info = zip_file.infolist()
    print(info[6].file_size)  # размер начального файла в байтах
    print(info[6].compress_size)  # размер сжатого файла в байтах
    print(info[6].filename)  # имя файла
    print(info[6].date_time)  # дата изменения файла

2324421
2322032
test/Картинки/World_Time_Zones_Map.png
(2021, 11, 8, 7, 30, 6)


Помимо указанных атрибутов (свойств) file_size, compress_size, filename, date_time доступны и другие, о которых можно почитать в официальной документации.

Обратите внимание на то, что атрибут date_time представляет из себя кортеж (год, месяц, день, час, минута, секунда).

Также мы можем использовать метод is_dir(), чтобы проверить тип объекта: файл или папка. Он возвращает True, если объект является папкой, или False в противном случае.

In [3]:
from zipfile import ZipFile

with ZipFile('test.zip') as zip_file:
    info = zip_file.infolist()
    print(info[0].is_dir())
    print(info[6].is_dir())

True
False


Метод namelist()

Метод namelist() возвращает список названий файлов и директорий, содержащихся в архиве.

In [4]:
from zipfile import ZipFile

with ZipFile('test.zip') as zip_file:
    info = zip_file.namelist()
    print(*info, sep='\n')

test/
test/Картинки/
test/Картинки/1.jpg
test/Картинки/avatar.png
test/Картинки/certificate.png
test/Картинки/py.png
test/Картинки/World_Time_Zones_Map.png
test/Картинки/Снимок экрана.png
test/Неравенства.djvu
test/Программы/
test/Программы/image_util.py
test/Программы/sort.py
test/Разные файлы/
test/Разные файлы/astros.json


Метод getinfo()

В отличие от метода infolist(), который позволяет получить информацию о всех файлах из архива в виде списка специальных объектов (тип ZipInfo), метод getinfo() позволяет получить информацию о конкретном файле по его имени в архиве.

In [5]:
from zipfile import ZipFile

with ZipFile('test.zip') as zip_file:
    info = zip_file.namelist()  # получаем названия всех файлов архива
    last_file = zip_file.getinfo(info[-4])  # получаем информацию об отдельном файле
    print(last_file.file_size)
    print(last_file.compress_size)
    print(last_file.filename)
    print(last_file.date_time)

4955
1641
test/Программы/image_util.py
(2021, 11, 18, 12, 42, 22)


Работа с конкретными файлами из архива

Структуру архива мы получили, «вытащим» теперь и конкретный файл.

In [6]:
from zipfile import ZipFile

with ZipFile('test.zip') as zip_file:
    with zip_file.open('test/Разные файлы/astros.json') as file:
        print(file.read())

b'{"number": 10, "people": [{"craft": "ISS", "name": "Mark Vande Hei"}, {"craft": "ISS", "name": "Pyotr Dubrov"}, {"craft": "ISS", "name": "Thomas Pesquet"}, {"craft": "ISS", "name": "Megan McArthur"}, {"craft": "ISS", "name": "Shane Kimbrough"}, {"craft": "ISS", "name": "Akihiko Hoshide"}, {"craft": "ISS", "name": "Anton Shkaplerov"}, {"craft": "Shenzhou 13", "name": "Zhai Zhigang"}, {"craft": "Shenzhou 13", "name": "Wang Yaping"}, {"craft": "Shenzhou 13", "name": "Ye Guangfu"}], "message": "success"}'


Обратите внимание на символ b перед выводом. Это бинарная строка. Метод file.read() возвращает сырые байты (тип bytes). Для того чтобы преобразовать их в строку (тип str), нужно использовать метод decode(), указав нужную кодировку (файл astros.json имеет кодировку UTF-8).

Метод ZipFile.open() открывает файл именно в бинарном виде, не в текстовом.

In [7]:
from zipfile import ZipFile

with ZipFile('test.zip') as zip_file:
    with zip_file.open('test/Разные файлы/astros.json') as file:
        print(file.read().decode('utf-8'))

{"number": 10, "people": [{"craft": "ISS", "name": "Mark Vande Hei"}, {"craft": "ISS", "name": "Pyotr Dubrov"}, {"craft": "ISS", "name": "Thomas Pesquet"}, {"craft": "ISS", "name": "Megan McArthur"}, {"craft": "ISS", "name": "Shane Kimbrough"}, {"craft": "ISS", "name": "Akihiko Hoshide"}, {"craft": "ISS", "name": "Anton Shkaplerov"}, {"craft": "Shenzhou 13", "name": "Zhai Zhigang"}, {"craft": "Shenzhou 13", "name": "Wang Yaping"}, {"craft": "Shenzhou 13", "name": "Ye Guangfu"}], "message": "success"}


Обратите внимание на отсутствие символа b.

Запись в zip архив

По аналогии с чтением файлов из архива их можно туда и записывать, для этого необходимо создать объект ZipFile в режимах mode='w' или mode='a'.

Для записи файла в архив используется метод write(), который принимает имя существующего файла.

In [12]:
from zipfile import ZipFile

with ZipFile('archive.zip', mode='w') as zip_file:
    zip_file.write('program.py')
    zip_file.write('lse.jpeg')
    print(zip_file.namelist())

['program.py', 'lse.jpeg']


cоздает в папке с программой архив с именем archive.zip и записывает в него содержимое файлов program.py и lse.jpeg, которые так же находятся в папке с программой, а затем выводит список всех файлов данного архива:

['program.py', 'lse.jpeg']

Если файлы для записи в архив не будут найдены, то возникнет ошибка (исключение) FileNotFoundError.

Метод write() может принимать еще один строковый аргумент, задающий новое имя файла в архиве.

In [13]:
from zipfile import ZipFile

with ZipFile('archive.zip', mode='w') as zip_file:
    zip_file.write('program.py', 'new_program.py')  # первый аргумент - это имя файла
    zip_file.write('lse.jpeg', 'lse1.jpeg')  # второй аргумент - это имя файла в архиве
    print(zip_file.namelist())

['new_program.py', 'lse1.jpeg']


cоздает в папке с программой архив с именем archive.zip и записывает в него содержимое файлов program.py и lse.jpeg, которые так же находятся в папке с программой, а затем выводит список всех файлов данного архива:

['new_program.py', 'lse1.jpeg']

Для добавления файлов в уже существующий архив необходимо создать объект ZipFile в режиме mode='a'.

In [14]:
from zipfile import ZipFile

with ZipFile('test.zip', mode='a') as zip_file:
    zip_file.write('program.py', 'test/program.py')
    zip_file.write('lse.jpeg')
    print(*zip_file.namelist(), sep='\n')

test/
test/Картинки/
test/Картинки/1.jpg
test/Картинки/avatar.png
test/Картинки/certificate.png
test/Картинки/py.png
test/Картинки/World_Time_Zones_Map.png
test/Картинки/Снимок экрана.png
test/Неравенства.djvu
test/Программы/
test/Программы/image_util.py
test/Программы/sort.py
test/Разные файлы/
test/Разные файлы/astros.json
test/program.py
lse.jpeg


Извлечение содержимого zip-файла в каталог

Для извлечения данных из архива в каталог используются методы extract() и extractall().

Если требуется извлечь отдельные файлы, то используется метод extract(), он принимает два аргумента: название файла и путь, по которому требуется извлечь файл. Если путь не указывать, то файл будет извлечен в папку, где находится файл с программой.

In [15]:
from zipfile import ZipFile

with ZipFile('test.zip') as zip_file:
    zip_file.extract('test/Картинки/avatar.png')
    zip_file.extract('test/Программы/image_util.py')
    zip_file.extract('lse.jpeg')

извлекает файлы из обновленного архива test.zip

Если требуется извлечь все содержимое архива, то используется метод extractall(), он принимает в качестве аргумента путь, по которому требуется извлечь все файлы. Если путь не указывать, то файл будет извлечен в папку, где находится файл с программой.

In [16]:
from zipfile import ZipFile

with ZipFile('test.zip') as zip_file:
    zip_file.extractall()

извлекает все содержимое файла test.zip в папку, где находится файл с программой, при этом структура каталогов архива сохраняется.

Примечания

https://habr.com/ru/company/vk/blog/490790/

При создании объекта ZipFile мы также можем передать еще два необязательных аргумента:

compression, который определяет метод сжатия, который должен использоваться при записи в архив. Он принимает одно из значений: ZIP_STORED, ZIP_DEFLATED, ZIP_BZIP2, ZIP_LZMA. По умолчанию используется значение compression=ZIP_STORED

allowZip64, который позволяет разрешить использование расширений zip64, которые дают возможность создавать архивы размером больше 4 гигабайт. По умолчанию равен allowZip64=True

 Для того чтобы проверить является ли некоторый файл zip архивом, используется функция zipfile.is_zipfile(), которая принимает на вход путь к файлу (или сам файловый объект) и возвращает значение True, если указанный файл является zip архивом, или False в противном случае.

Количество файлов
Вам доступен архив workbook.zip, содержащий различные папки и файлы. Напишите программу, которая выводит единственное число — количество файлов в этом архиве.

Примечание 1. Обратите внимание, что папка не считается файлом.

In [34]:
from zipfile import ZipFile

with ZipFile('workbook.zip') as zip_file:
    # zip_file.printdir()
    # info = zip_file.namelist()                # получаем названия всех файлов архива
    info = zip_file.infolist()
    # print(*info, sep='\n')
    # print(len(info))
    counter = 0
    for i in range(len(info)):
        if not info[i].is_dir():
            counter += 1

print(counter)

18


Объем файлов
Вам доступен архив workbook.zip, содержащий различные папки и файлы. Напишите программу, которая выводит суммарный объем файлов этого архива в сжатом и не сжатом видах в байтах, в следующем формате:

Объем исходных файлов: <объем до сжатия> байт(а)
Объем сжатых файлов: <объем после сжатия> байт(а)
Примечание 1. Вывод на примере архива test.zip из конспекта:

Объем исходных файлов: 7810260 байт(а)
Объем сжатых файлов: 7798267 байт(а)

In [54]:
from zipfile import ZipFile

with ZipFile('workbook.zip') as zip_file:
    a = zip_file.infolist()
    # zip_file.printdir()
    # a = zip_file.filelist
    # a = zip_file.namelist()
    uncompressed_size = 0
    compressed_size = 0
    for info in zip_file.infolist():
        uncompressed_size += info.file_size
        compressed_size += info.compress_size

    print(f'Объем исходных файлов: {uncompressed_size} байт(а)')
    print(f'Объем сжатых файлов: {compressed_size} байт(а)')

Объем исходных файлов: 17118701 байт(а)
Объем сжатых файлов: 15693720 байт(а)


Наилучший показатель
Вам доступен архив workbook.zip, содержащий различные папки и файлы. Напишите программу, которая выводит название файла из этого архива, который имеет наилучший показатель степени сжатия.

Примечание 1. Если файл находится в папке, вывести следует только название без пути.

Примечание 2. Гарантируется, что в исходном архиве только один файл имеет наилучший показатель степени сжатия.

Примечание 3. Степень сжатия файла характеризуется коэффициентом K, определяемым как отношение объема сжатого файла Vc  к объему исходного файла Vo, выраженным в процентах:
K=Vc/Vo⋅100%

In [66]:
from zipfile import ZipFile
import os

with ZipFile('workbook.zip') as zip_file:
    dic = {}
    for info in zip_file.infolist():
        file_compression_ratio = 100 - (info.compress_size / info.file_size * 100) if info.file_size > 0 else 0
        # Получаем только имя файла
        filename = os.path.basename(info.filename)
        if file_compression_ratio:
            dic[filename] = file_compression_ratio

    print(max(dic, key=dic.get))
    # Когда вы передаете key=dic.get в min(), это означает, что для каждого ключа (имени файла) будет вызван метод get, чтобы получить соответствующее значение (коэффициент сжатия).


fontlist-v330.json


Избранные
Вам доступен архив workbook.zip, содержащий различные папки и файлы. Напишите программу, которая выводит названия файлов из этого архива, которые были созданы или изменены позднее 2021-11-30 14:22:00. Названия файлов должны быть расположены в лексикографическом порядке, каждое на отдельной строке.

Примечание 1. Если файл находится в папке, вывести следует только название без пути.

Примечание 2. Начальная часть ответа выглядит так:

countries.json
data_sample.csv
...

In [84]:
from zipfile import ZipFile
from datetime import datetime
import os

target_time = datetime(2021, 11, 30, 14, 22, 0)

with ZipFile('workbook.zip') as zip_file:
    l = []
    for info in zip_file.infolist():
        # Получаем только имя файла
        filename = os.path.basename(info.filename)

        file_time = datetime(*info.date_time)
        if file_time >= target_time and info.file_size > 0:
            l.append(filename)
    for i in sorted(l):
        print(i)

countries.json
data_sample.csv
earth.jpg
exam.txt
fipi_demo_2022.pdf
homework.py
python.pdf
readme.txt
shopping_list.txt
task_results.xlsx


In [None]:
from zipfile import ZipFile

with ZipFile('workbook.zip', mode='r') as file:
    info = file.infolist()
    compare = (2021, 11, 30, 14, 22, 0)

    result = [i.filename.split('/')[-1] for i in info if i.date_time > compare and not i.is_dir()]

    print(*sorted(result), sep='\n')

In [None]:
from zipfile import ZipFile
from datetime import datetime, timedelta

with ZipFile('workbook.zip') as zip_file:
    info = zip_file.infolist()
    info = filter(lambda y: datetime(*y.date_time) > datetime(2021,
                                                              11, 30, 14, 22, 00),
                  filter(lambda y: not y.is_dir(), info))
    info = sorted(map(lambda z: z.filename.split('/')[-1], info))
    for el in info:
        print(el)

Форматированный вывод
Вам доступен архив workbook.zip, содержащий различные папки и файлы. Напишите программу, которая выводит названия всех файлов из этого архива в лексикографическом порядке, указывая для каждого его дату изменения, а также объем до и после сжатия, в следующем формате:

<название файла>
  Дата модификации файла: <дата изменения>
  Объем исходного файла: <объем до сжатия> байт(а)
  Объем сжатого файла: <объем после сжатия> байт(а)
Между данными о двух файлах должна располагаться пустая строка.

Примечание 1. Если файл находится в папке, вывести следует только название без пути.

Примечание 2. Начальная часть ответа выглядит так (в качестве отступов используйте два пробела):

Alexandra Savior – Crying All the Time.mp3
  Дата модификации файла: 2021-11-30 13:27:02
  Объем исходного файла: 5057559 байт(а)
  Объем сжатого файла: 5051745 байт(а)

Hollow Knight Silksong.exe
  Дата модификации файла: 2013-08-22 08:20:06
  Объем исходного файла: 805992 байт(а)
  Объем сжатого файла: 494930 байт(а)

...

In [104]:
from zipfile import ZipFile
import os
from datetime import datetime

with ZipFile('workbook.zip') as zip_file:
    dic = {}
    for info in zip_file.infolist():
        name = os.path.basename(info.filename)
        modified = datetime.strftime(datetime(*info.date_time), '%Y-%m-%d %H:%M:%S')
        initial_size = info.file_size
        compressed_size = info.compress_size
        if not info.is_dir():
            dic[name] = (modified, initial_size, compressed_size)

    sorted_keys = sorted(dic.keys())
    # print(dic)

    for key in sorted_keys:
        print(key)
        print(f'  Дата модификации файла: {dic[key][0]}')
        print(f'  Объем исходного файла: {dic[key][1]} байт(а)')
        print(f'  Объем сжатого файла: {dic[key][2]} байт(а)')
        print()


Alexandra Savior – Crying All the Time.mp3
  Дата модификации файла: 2021-11-30 13:27:02
  Объем исходного файла: 5057559 байт(а)
  Объем сжатого файла: 5051745 байт(а)

Hollow Knight Silksong.exe
  Дата модификации файла: 2013-08-22 08:20:06
  Объем исходного файла: 805992 байт(а)
  Объем сжатого файла: 494930 байт(а)

Psychonauts 2.exe
  Дата модификации файла: 2013-08-22 08:20:06
  Объем исходного файла: 805992 байт(а)
  Объем сжатого файла: 494930 байт(а)

code.jpeg
  Дата модификации файла: 2021-11-30 13:18:26
  Объем исходного файла: 412414 байт(а)
  Объем сжатого файла: 410006 байт(а)

countries.json
  Дата модификации файла: 2021-11-30 19:42:40
  Объем исходного файла: 22 байт(а)
  Объем сжатого файла: 22 байт(а)

data_sample.csv
  Дата модификации файла: 2021-11-30 19:41:58
  Объем исходного файла: 15 байт(а)
  Объем сжатого файла: 15 байт(а)

earth.jpg
  Дата модификации файла: 2021-11-30 20:15:26
  Объем исходного файла: 335250 байт(а)
  Объем сжатого файла: 330037 байт(а)



Вам доступен набор различных файлов, названия которых представлены в списке file_names. Дополните приведенный ниже код, чтобы он создал архив files.zip и добавил в него все файлы из данного списка.

Примечание. Считайте, что файлы из списка file_names находятся в папке с программой.

In [None]:
from zipfile import ZipFile

file_names = ['how to prove.pdf', 'fipi_demo_2022.pdf', 'Hollow Knight Silksong.exe',
              'code.jpeg', 'stepik.png', 'readme.txt', 'shopping_list.txt',
              'Alexandra Savior – Crying All the Time.mp3', 'homework.py', 'test.py']

with ZipFile('files.zip', mode='w') as zip_file:
    for i in file_names:
        zip_file.write(i)

Вам доступен набор различных файлов, названия которых представлены в списке file_names. Также вам доступен архив files.zip. Дополните приведенный ниже код, чтобы он добавил в архив files.zip только те файлы из списка file_names, объем которых не превышает 100 байт.

Примечание 1. Получить объем файла в байтах позволяет функция getsize() из модуля os.path. Данная функция принимает в качестве аргумента путь к файлу и возвращает размер указанного файла в байтах.

Например, вычислить объем архива files.zip в байтах и сохранить его в переменную size можно следующим образом:

import os.path

size = os.path.getsize('files.zip')
Примечание 2. Вычислить объем файла в байтах можно и вручную, не прибегая к использованию сторонних модулей. Подумайте, как 😉.

Примечание 3. Считайте, что файлы из списка file_names и архив files.zip находятся в папке с программой.

In [None]:
from zipfile import ZipFile
import os

file_names = ['how to prove.pdf', 'fipi_demo_2022.pdf', 'Hollow Knight Silksong.exe',
              'code.jpeg', 'stepik.png', 'readme.txt', 'shopping_list.txt',
              'Alexandra Savior – Crying All the Time.mp3', 'homework.py', 'test.py']

new_list = []
with ZipFile('files.zip', mode='w') as zip_file:
    for item in file_names:
        size = os.path.getsize(item)
        if size < 100:
            zip_file.write(item)

In [None]:
from zipfile import ZipFile
import os.path

file_names = ['how to prove.pdf', 'fipi_demo_2022.pdf', 'Hollow Knight Silksong.exe',
              'code.jpeg', 'stepik.png', 'readme.txt', 'shopping_list.txt',
              'Alexandra Savior – Crying All the Time.mp3', 'homework.py', 'test.py']

with ZipFile('files.zip', 'a') as zip_file:
    [zip_file.write(i) for i in file_names if os.path.getsize(i) <= 100]

Функция extract_this()
Реализуйте функцию extract_this(), которая принимает один или более аргументов в следующем порядке:

zip_name — название zip архива, например, data.zip
*args — переменное количество позиционных аргументов, каждый из которых является названием некоторого файла
Функция должна извлекать файлы *args из архива zip_name в папку с программой. Если в функцию не передано ни одного названия файла для извлечения, то функция должна извлечь все файлы из архива.

Примечание 1. Например, следующий вызов функции

extract_this('workbook.zip', 'earth.jpg', 'exam.txt')
должен извлечь из архива workbook.zip файлы earth.jpg и exam.txt в папку с программой.

Вызов функции

extract_this('workbook.zip')
должен извлечь из архива workbook.zip все файлы в папку с программой.

Примечание 2. В тестирующую систему сдайте программу, содержащую только необходимую функцию extract_this(), но не код, вызывающий ее.

In [None]:
from zipfile import ZipFile


def extract_this(zip_name: str, *args: str) -> None:
    with ZipFile(zip_name) as zip_file:
        if len(args) == 0:
            zip_file.extractall()
        else:
            for i in args:
                zip_file.extract(i)

In [None]:
from zipfile import ZipFile


def extract_this(zip_name: str, *args):
    if not args:
        args = None
    with ZipFile(zip_name) as zf:
        zf.extractall(members=args)

Шахматы были лучше 🌶️
Вам доступен архив data.zip, содержащий различные папки и файлы. Среди них есть несколько JSON файлов, каждый из которых содержит информацию о каком-либо футболисте:

{
   "first_name": "Gary",
   "last_name": "Cahill",
   "team": "Chelsea",
   "position": "Defender"
}
У футболиста имеются следующие атрибуты: 

first_name — имя
last_name — фамилия
team — название футбольного клуба
position — игровая позиция
Напишите программу, которая обрабатывает только данные JSON файлы и выводит имена и фамилии футболистов, выступающих за футбольный клуб Arsenal. Футболисты должны быть расположены в лексикографическом порядке имен, а при совпадении — в лексикографическом порядке фамилий, каждый на отдельной строке.

Примечание 1. Обратите внимание, что наличие у файла расширения .json не гарантирует, что он является корректным текстовым файлом в формате JSON. Для того чтобы определить, является ли файл корректным текстовым файлом в формате JSON, воспользуйтесь конструкцией try-except и функцией is_correct_json() из предыдущего урока.

Примечание 2. Начальная часть ответа выглядит так:

Alex Iwobi
Alexis Sanchez
...

In [187]:
import json
from zipfile import ZipFile
import os
from io import TextIOWrapper


def is_correct_json(file: TextIOWrapper) -> bool:
    """
    Проверяет, является ли содержимое файла корректным JSON.
    
    :param file: Файл, который нужно проверить.
    :return: True, если файл является корректным JSON, иначе False.
    """
    try:
        json.load(file)
        return True
    except ValueError:
        return False


l = []
dic = {}
with ZipFile('data.zip') as zip_file:
    for item in zip_file.infolist():
        name = os.path.basename(item.filename)
        if not item.is_dir() and name.split('.')[-1] == 'json':
            # print(name)
            with zip_file.open(item) as file:
                if is_correct_json(file):
                    with open(zip_file.extract(item)) as f:
                        data = json.load(f)
                        # print(data)
                        if data['team'] == 'Arsenal':
                            dic[name] = (data['first_name'], data['last_name'])

dic_list = sorted(dic.values(), key=lambda x: (x[0], x[1]))
# print(dic_list)
for item in dic_list:
    print(item[0], item[1])

Alex Iwobi
Alexis Sanchez
Hector Bellerin
Laurent Koscielny
Mesut Ozil
Olivier Giroud
Petr Cech
Theo Walcott


Структура архива 🌶️🌶️
Вам доступен архив desktop.zip, содержащий различные папки и файлы. Напишите программу, которая выводит его файловую структуру и объем каждого файла.

Формат входных данных
На вход программе ничего не подается.

Формат выходных данных
Программа должна вывести файловую структуру архива desktop.zip и объем каждого файла в несжатом виде. Так как архив имеет собственную иерархию папок, каждый уровень вложенности должен быть выделен двумя пробелами.

Примечание 1. Вывод на примере архива test.zip из конспекта:

test
  Картинки
    1.jpg 88 KB
    avatar.png 19 KB
    certificate.png 43 KB
    py.png 33 KB
    World_Time_Zones_Map.png 2 MB
    Снимок экрана.png 11 KB
  Неравенства.djvu 5 MB
  Программы
    image_util.py 5 KB
    sort.py 61 B
  Разные файлы
    astros.json 505 B
Примечание 2. Объем файла записывается в самых крупных единицах измерения с округлением до целых.

Примечание 3. Значения единиц измерения такие же, какие приняты в информатике:

1 KB = 1024 B
1 MB = 1024 KB
1 GB = 1024 MB

In [255]:
from zipfile import ZipFile
import os


def format_file_size(size_in_bytes: int) -> str:
    """
    Преобразует размер файла из байтов в более крупные единицы измерения (KB, MB, GB),
    округляя результат до целого числа.

    :param size_in_bytes: Размер файла в байтах.
    :return: Строка с размером файла и соответствующей единицей измерения.
    """
    if size_in_bytes < 0:
        raise ValueError("Размер файла не может быть отрицательным.")

    # Определяем единицы измерения
    units = ["B", "KB", "MB", "GB"]

    # Начинаем с байтов
    size = size_in_bytes
    unit_index = 0

    # Делим на 1024 до тех пор, пока размер не станет меньше 1024
    while size >= 1024 and unit_index < len(units) - 1:
        size /= 1024
        unit_index += 1

    # Округляем и возвращаем результат
    return f"{round(size)} {units[unit_index]}"

with ZipFile('desktop.zip') as zip_file:
    for item in zip_file.infolist():
        file_name = os.path.basename(item.filename)
        if item.is_dir():
            folder_name = item.filename.split('/')[-2]
            division = len(item.orig_filename.split('/')) - 2
            # print(division)
            print(f'{division * "  "}{folder_name}')
        else:
            division = len(item.orig_filename.split('/')) - 1
            # print(division)
            # print(item.orig_filename.split('/'))
            print(f'{division * "  "}{file_name} {format_file_size(item.file_size)}')

fun
  movies
  songs
    Alexandra Savior Crying All the Time.mp3 5 MB
games
  not released
    Hollow Knight Silksong.exe 787 KB
  Psychonauts 2.exe 787 KB
images
  code.jpeg 403 KB
  stepik.png 11 KB
studying
  books
    how to prove.pdf 645 KB
  data_sets
    countries.json 22 B
    data_sample.csv 15 B
    fonts
      fontlist-v330.json 94 KB
    readme.txt 14 B
    task_results.xlsx 13 KB
  exam.txt 9 B
  fipi_demo_2022.pdf 666 KB
  homework.py 14 B
earth.jpg 327 KB
python.pdf 8 MB
shopping_list.txt 25 B
test.py 42 B
