<h1><b>Shutil</b></h1>

Модуль shutil содержит набор функций высокого уровня для обработки файлов, групп файлов, и папок. В частности, доступные здесь функции позволяют копировать, перемещать и удалять файлы и папки.

Официальная документация <a href="https://docs.python.org/3/library/shutil.html">тут</a>.

In [1]:
import shutil as sh

<h2>Операции над файлами и директориями</h2>

Функция <b>copyfileobj(fsrc: file, fdst: file, lenght: int) -> None</b> копирует содержание первого файла во второй файл. Но если позиция указателя в копируемом файле не 0, то будет производиться копирование, начиная с этой позиции. 


In [2]:
with open("shutil-1.txt", "r", encoding = "UTF-8") as fsrc:
    with open("shutil-2.txt", "w") as fdst:
        print(fsrc.read())
        sh.copyfileobj(fsrc, fdst, 3)

я люблю жевать траву!
чем зеленей, тем трава вкусней!


<b>shutil.copyfile(src: srting, dst: srting, follow_symlinks=True) -> string</b> - копирует содержимое (но не метаданные) файла src в файл dst. Возвращает dst (т.е. куда файл был скопирован). src и dst это строки - пути к файлам. dst должен быть полным именем файла.

Если src и dst представляют собой один и тот же файл, исключение shutil.SameFileError.

Если follow_symlinks=False и src является ссылкой на файл, то будет создана новая символическая ссылка вместо копирования файла, на который эта символическая ссылка указывает.

In [3]:
sh.copyfile("shutil-1.txt", "shutil-3.txt", follow_symlinks = True)

'shutil-3.txt'

<b>shutil.copymode(src: string, dst: string, follow_symlinks=True) -> None</b> - копирует права доступа из src в dst. Содержимое файла, владелец, и группа не меняются.

In [4]:
sh.copymode("shutil-1.txt", "shutil-3.txt", follow_symlinks=True)

<b>shutil.copy(src: string, dst: string, follow_symlinks=True) -> string</b> - копирует содержимое файла src в файл или папку dst. Если dst является директорией, файл будет скопирован с тем же названием, что было в src. Функция возвращает путь к местонахождению нового скопированного файла.

Если follow_symlinks=False, и src это ссылка, dst будет ссылкой.

Если follow_symlinks=True, и src это ссылка, dst будет копией файла, на который ссылается src

copy() копирует содержимое файла, и права доступа

In [5]:
path = "C:\\Users\\rpd13\\python\\hw\\modules\\11\\shutil_folder"

In [6]:
sh.copy("shutil-1.txt", path + "\\shutil-4.txt", follow_symlinks=True)

'C:\\Users\\rpd13\\python\\hw\\modules\\11\\shutil_folder\\shutil-4.txt'

<b>shutil.copy2(src: string, dst: string, follow_symlinks=True) -> string</b> - как copy(), но пытается копировать все метаданные.

<b>shutil.copytree(src: string, dst: string, symlinks=False, ignore=None, copy_function=copy2, ignore_dangling_symlinks=False) -> string</b> - рекурсивно копирует всё дерево директорий с корнем в src, возвращает директорию назначения.

Директория dst не должна существовать. Она будет создана, вместе с пропущенными родительскими директориями.

Права и времена у директорий копируются copystat(), файлы копируются с помощью функции copy_function (по умолчанию shutil.copy2()).

Если symlinks=True, ссылки в дереве src будут ссылками в dst, и метаданные будут скопированы настолько, насколько это возможно.

Если False (по умолчанию), будут скопированы содержимое и метаданные файлов, на которые указывали ссылки.

Если symlinks=False, если файл, на который указывает ссылка, не существует, будет добавлено исключение в список ошибок, в исключении shutil.Error в конце копирования.

Можно установить флаг ignore_dangling_symlinks=True, чтобы скрыть данную ошибку.

Если ignore не None, то это должна быть функция, принимающая в качестве аргументов имя директории, в которой сейчас copytree(), и список содержимого, возвращаемый os.listdir(). Т.к. copytree() вызывается рекурсивно, ignore вызывается 1 раз для каждой поддиректории. Она должна возвращать список объектов относительно текущего имени директории (т.е. подмножество элементов во втором аргументе). Эти объекты не будут скопированы.

In [7]:
sh.copytree(path, path + "-1", symlinks=False, ignore=None, copy_function = sh.copy2, ignore_dangling_symlinks=False)

'C:\\Users\\rpd13\\python\\hw\\modules\\11\\shutil_folder-1'

<b>shutil.ignore_patterns(*patterns)</b> - функция, которая создаёт функцию, которая может быть использована в качестве ignore для copytree(), игнорируя файлы и директории, которые соответствуют glob-style шаблонам.

Например, код 
<b>copytree(source, destination, ignore=ignore_patterns('*.pyc', 'tmp*'))</b>
скопирует все файлы, кроме заканчивающихся на .pyc или начинающихся с tmp

<b>shutil.move(src: string, dst: string, copy_function=shutil.copy2) -> string</b> - рекурсивно перемещает файл или директорию (src) в другое место (dst), и возвращает место назначения.

In [8]:
sh.move("shutil-2.txt", path, copy_function=sh.copy2)

'C:\\Users\\rpd13\\python\\hw\\modules\\11\\shutil_folder\\shutil-2.txt'

<h2>Архивация</h2>

Высокоуровневые функции для созданиия и чтения архивированных и сжатых файлов. Основаны на функциях из модулей zipfile и tarfile.

In [9]:
sh.get_archive_formats()

[('bztar', "bzip2'ed tar-file"),
 ('gztar', "gzip'ed tar-file"),
 ('tar', 'uncompressed tar file'),
 ('xztar', "xz'ed tar-file"),
 ('zip', 'ZIP file')]

shutil.make_archive(base_name, format, root_dir, base_dir, verbose, dry_run, owner, group, logger) - создаёт архив и возвращает его имя.

base_name это имя файла для создания, включая путь, но не включая расширения (не нужно писать ".zip" и т.д.).

format - формат архива.

root_dir - директория (относительно текущей), которую мы архивируем.

base_dir - директория, в которую будет архивироваться (т.е. все файлы в архиве будут в данной папке).

Если dry_run=True, архив не будет создан, но операции, которые должны были быть выполнены, запишутся в logger.

owner и group используются при создании tar-архива.

In [10]:
sh.make_archive("kek", "zip", path)

'C:\\Users\\rpd13\\python\\hw\\modules\\11\\kek.zip'

<b>shutil.unpack_archive(filename, extract_dir, format)</b> - распаковывает архив. filename - полный путь к архиву.

extract_dir - то, куда будет извлекаться содержимое (по умолчанию в текущую).

format - формат архива (по умолчанию пытается угадать по расширению файла).

In [11]:
sh.unpack_archive("kek.zip")

<h1><b>Filecmp</b></h1>

Модуль filecmp включает функции и класс для сравнения файлов и каталогов в файловой системе.

Официальная документация <a href="https://docs.python.org/3/library/filecmp.html">тут</a>.

In [12]:
import filecmp as fl

<b>filecmp.cmp(f1, f2 , shallow = True) -> bool</b> 
Сравнивает файлы с именами f1 и f2 и возвращает True or False.

Если shallow истинно, файлы с одинаковыми os.stat()подписями считаются равными. В противном случае сравнивается содержимое файлов.

Обратите внимание, что из этой функции не вызываются никакие внешние программы, что обеспечивает ее переносимость и эффективность.

Эта функция использует кеш для прошлых сравнений и результатов, причем записи кеша становятся недействительными, если os.stat()информация для файла изменяется. Весь кеш можно очистить с помощью clear_cache().

In [13]:
import os

In [14]:
os.stat(path + "//shutil-2.txt")

os.stat_result(st_mode=33206, st_ino=9288674231687876, st_dev=1350125538, st_nlink=1, st_uid=0, st_gid=0, st_size=0, st_atime=1603445653, st_mtime=1603445653, st_ctime=1603380949)

In [15]:
fl.cmp("shutil-1.txt", "shutil-3.txt" , shallow = True)

True

In [16]:
path[:-14]

'C:\\Users\\rpd13\\python\\hw\\modules\\11'

<b>filecmp.cmpfiles( dir1: string , dir2: string , common: list , shallow = True ) -> (list, list, list)</b>
Сравните файлы в двух каталогах dir1 и dir2 , имена которых даны как common .

Возвращает три списка имен файлов: match, mismatch, errors. match содержит список файлов, которые совпадают, mismatch содержит имена тех, которые не совпадают, а errors перечисляет имена файлов, которые нельзя сравнивать. Файлы попадают в список ошибок, если они не существуют в одном из каталогов, у пользователя нет разрешения на их чтение или если сравнение не может быть выполнено по какой-либо другой причине.

Параметр shallow имеет то же значение и значение по умолчанию, что и для filecmp.cmp().

In [17]:
fl.cmpfiles(path[:-14], path, ["shutil-4.txt"], shallow = True )

(['shutil-4.txt'], [], [])

In [18]:
[os.curdir, os.pardir]

['.', '..']

In [19]:
fl.DEFAULT_IGNORES

['RCS', 'CVS', 'tags', '.git', '.hg', '.bzr', '_darcs', '__pycache__']

<h2>Класс dircmp</h2>

<b>class filecmp.dircmp(a, b, ignore, hide)</b> 

Oбъект сравнения каталогов, чтобы сравнить каталоги a и b. ignore - это список имен, которые нужно игнорировать, по умолчанию, это  [os.curdir, os.pardir]. hide - это список имен, которые нужно скрыть, по умолчанию filecmp.DEFAULT_IGNORES.

Класс сравнивает файлы, делая неглубокие сравнения , как описано в filecmp.cmp().

In [20]:
cmp = fl.dircmp(path[:-14], path)

Доступны следующие методы:
- <b>report()</b> 
    
    Выводит (в sys.stdout) сравнение между a и b.
    
- <b>report_partial_closure()</b>

    Выводит сравнение между a и b и общими непосредственными подкаталогами.
    
- <b>report_full_closure()</b>

    Распечатайте сравнение между a и b и общими подкаталогами (рекурсивно).

In [21]:
cmp.report()

diff C:\Users\rpd13\python\hw\modules\11 C:\Users\rpd13\python\hw\modules\11\shutil_folder
Only in C:\Users\rpd13\python\hw\modules\11 : ['11.ipynb', 'kek.zip', 'large_text.txt', 'shutil-1.txt', 'shutil-3.txt', 'shutil_folder', 'shutil_folder-1']
Identical files : ['shutil-2.txt', 'shutil-4.txt']
Common subdirectories : ['.ipynb_checkpoints']


In [22]:
cmp.report_partial_closure()

diff C:\Users\rpd13\python\hw\modules\11 C:\Users\rpd13\python\hw\modules\11\shutil_folder
Only in C:\Users\rpd13\python\hw\modules\11 : ['11.ipynb', 'kek.zip', 'large_text.txt', 'shutil-1.txt', 'shutil-3.txt', 'shutil_folder', 'shutil_folder-1']
Identical files : ['shutil-2.txt', 'shutil-4.txt']
Common subdirectories : ['.ipynb_checkpoints']

diff C:\Users\rpd13\python\hw\modules\11\.ipynb_checkpoints C:\Users\rpd13\python\hw\modules\11\shutil_folder\.ipynb_checkpoints
Only in C:\Users\rpd13\python\hw\modules\11\.ipynb_checkpoints : ['11-checkpoint.ipynb', 'shutil-1-checkpoint.txt']


In [23]:
cmp.report_full_closure()

diff C:\Users\rpd13\python\hw\modules\11 C:\Users\rpd13\python\hw\modules\11\shutil_folder
Only in C:\Users\rpd13\python\hw\modules\11 : ['11.ipynb', 'kek.zip', 'large_text.txt', 'shutil-1.txt', 'shutil-3.txt', 'shutil_folder', 'shutil_folder-1']
Identical files : ['shutil-2.txt', 'shutil-4.txt']
Common subdirectories : ['.ipynb_checkpoints']

diff C:\Users\rpd13\python\hw\modules\11\.ipynb_checkpoints C:\Users\rpd13\python\hw\modules\11\shutil_folder\.ipynb_checkpoints
Only in C:\Users\rpd13\python\hw\modules\11\.ipynb_checkpoints : ['11-checkpoint.ipynb', 'shutil-1-checkpoint.txt']


Атрибуты класса:
-  <b>left</b>

Каталог a
-  <b>right</b>

Каталог b.
-  <b>left_list</b>

Файлы и подкаталоги в a, отфильтрованные по скрытию и игнорированию.
-  <b>right_list</b>

Файлы и подкаталоги в b, отфильтрованные по скрытию и игнорированию.
-  <b>common</b>

Файлы и подкаталоги как в a, так и в b.

-  <b>left_only</b>

Файлы и подкаталоги только в a.

-  <b>right_only</b>

Файлы и подкаталоги только в b.
-  <b>common_dirs</b>

Подкаталоги в a и b.
-  <b>common_files</b>

Файлы как в a, так и в b.
-  <b>same_files</b>

Файлы, которые идентичны как в a, так и в b, с использованием оператора сравнения файлов класса.
-  <b>diff_files</b>

Файлы, содержащиеся как в a, так и в b, содержимое которых различается в зависимости от оператора сравнения файлов класса.
-  <b>funny_files</b>

Файлы, которые есть как в a, так и в b , но не могут быть сравнены.


<h1><b>Mmap</b></h1>

Модуль mmap обеспечивает ввод и вывод файлов с отображением памяти (I / O). Это позволяет вам использовать функциональные возможности операционной системы нижнего уровня для чтения файлов, как если бы они были одной большой строкой или массивом . Это может обеспечить значительное повышение производительности кода, который требует большого количества файлового ввода-вывода.

Официальная документация <a href="https://docs.python.org/3.0/library/mmap.html">тут</a>.

Подробнее о преимуществах можно почитать <a href="https://realpython.com/python-mmap/">тут</a>.

Тогда привычная нам конструкция

In [24]:
with open("large_text.txt", "r") as file:
    text = file.read()
    print(file.fileno())

4


Может быть записана данным образом:

In [25]:
import mmap

In [26]:
with open("large_text.txt", "r", encoding = "utf-8") as file:
    with mmap.mmap(file.fileno(), length=0, access=mmap.ACCESS_READ) as mmap_obj:
        text_mmap = mmap_obj.read()

Однако, есть небольшие изменения:
-  open(); Недостаточно открыть файл с помощью . Вам также необходимо использовать, mmap.mmap()чтобы сообщить операционной системе, что вы хотите, чтобы файл был отображен в ОЗУ.
-  Вам необходимо убедиться, что используемый вами режим open()совместим с mmap.mmap(). Режим по умолчанию open()- для чтения, но режим по умолчанию mmap.mmap()- для чтения и записи. 
-  Вам необходимо выполнять все операции чтения и записи, используя mmapобъект вместо стандартного файлового объекта, возвращаемого open().

Класс <b>mmap.mmap(fileno, length, tagname, access, offset)</b>

fileno - файловый дескриптор, который нужен для ображения к файлу - file.fileno()

Если длина больше текущего размера файла, файл расширяется. Если длина равна 0, максимальная длина карты - это текущий размер файла, за исключением того, что, если файл пуст, Windows вызывает исключение.

tagname, если он указан и не указан None, представляет собой строку, дающую имя тега для отображения. Windows позволяет вам иметь много разных сопоставлений с одним и тем же файлом. Если вы указываете имя существующего тега, этот тег открывается, в противном случае создается новый тег с этим именем. Если этот параметр опущен или None, отображение создается без имени.

access принимает одно из трех значений: ACCESS_READ, ACCESS_WRITEили ACCESS_COPY указать только для чтения, записи через или копирования на записи памяти соответственно.

offset может быть указано как неотрицательное целое смещение. Ссылки mmap будут относиться к смещению от начала файла. offset по умолчанию равен 0.

Отображенные в память файловые объекты поддерживают следующие методы:
-  <b>close()</b>

Закрывает объект mmap. Последующие вызовы других методов объекта приведут к возникновению исключения ValueError.

-  <b>find(str, start, end)</b>

Возвращает наименьший индекс в объекте, в котором находится str в файле, так что строка содержится в диапазоне [ начало , конец ]. Необязательные аргументы start и end интерпретируются как в нотации среза. Возврат -1 в случае неудачи.
-  <b>flush(offset, size)</b> 

Сбрасывает изменения, внесенные в копию файла в памяти, обратно на диск. Без использования этого вызова нет гарантии, что изменения будут записаны до того, как объект будет уничтожен. Если указаны смещение и размер, на диск будут сброшены только изменения в заданном диапазоне байтов; в противном случае сбрасываются изменения.
-  <b>move(dest, src, count)</b>

Скопировать count байтов, начиная со смещения src, в целевой индекс dest. Если mmap был создан с ACCESS_READ, то вызовы move вызовут исключение TypeError
-  <b>read(num)</b>

Возвращает строку, содержащую num байтов, начиная с текущей позиции файла; позиция файла обновляется до точки после возвращенных байтов.
-  <b>read_byte()</b>

Возвращает строку длиной 1, содержащую символ в текущей позиции файла, и увеличивает позицию файла на 1.
-  <b>readline()</b>

Возвращает одну строку, начиная с текущей позиции файла и до следующей новой строки.
-  <b>resize(newsize)</b>

Изменяет размер mmap и базового файла, если таковой имеется. Если mmap был создан с ACCESS_READ или ACCESS_COPY, изменение размера mmap вызовет исключение TypeError.
-  <b>rfind(string, start, end)</b>

Возвращает наивысший индекс в объекте, где находится строка подстроки, так что строка содержится в диапазоне [start, end]. Необязательные аргументы start и end интерпретируются как в нотации среза. Возвращает -1 в случае неудачи.
-  <b>seek(pos)</b>

Установите текущую позицию файла. аргумент откуда не обязателен и по умолчанию равен 0.
-  <b>size()</b>

Возвращает длину файла, которая может быть больше, чем размер отображенной в память области.
-  <b>tell()</b>

Возвращает текущую позицию указателя файла.
-  <b>write(string)</b>

Записывает байты в строку в память в текущей позиции файлового указателя; позиция файла обновляется до точки после записанных байтов. Если mmap был создан с ACCESS_READ, тогда запись в него вызовет исключение TypeError.
-  <b>write_byte(byte)</b>

Записывает байт односимвольной строки в память в текущую позицию указателя файла; позиция файла увеличивается на 1. Если mmap был создан с ACCESS_READ, тогда запись в него вызовет исключение TypeError.

<h1><b>Codecs</b></h1>

Этот модуль определяет базовые классы для стандартных кодеков Python (кодировщики и декодеры) и предоставляет доступ к внутреннему реестру кодеков Python, который управляет процессом поиска кодеков и обработки ошибок.

Официальная документация <a href="https://docs.python.org/3/library/codecs.html">тут</a>.

Модуль определяет следующие функции для кодирования и декодирования любым codec

In [27]:
import codecs as cd

<b>codecs.encode(obj, encoding='utf-8', errors='strict')</b>

Кодирует obj с использованием кодека, зарегистрированного для кодирования. Кодировка по умолчанию - ascii.
Ошибки могут быть указаны для установки желаемой схемы обработки ошибок. Обработчик ошибок по умолчанию - «строгий», что означает, что ошибки кодирования вызывают ошибку ValueError (или более специфичный подкласс кодека, например UnicodeEncodeError). <a href="https://docs.python.org/2/library/codecs.html#codec-base-classes">Тут</a> можно посмотреть другие обработчики ошибок.
<a href="https://docs.python.org/2/library/codecs.html#standard-encodings">Здесь</a> можно посмотреть все доступные кодировки.

In [28]:
cd.encode("даааааааааа", encoding = 'utf-8', errors = 'strict')

b'\xd0\xb4\xd0\xb0\xd0\xb0\xd0\xb0\xd0\xb0\xd0\xb0\xd0\xb0\xd0\xb0\xd0\xb0\xd0\xb0\xd0\xb0'

<b>codecs.decode(obj, encoding, errors)</b>

Параметры такие же, как и у предыдущей функции.

In [31]:
cd.decode(b'\xd0\xb4\xd0\xb0\xd0\xb0\xd0\xb0\xd0\xb0\xd0\xb0\xd0\xb0\xd0\xb0\xd0\xb0\xd0\xb0\xd0\xb0', encoding = "utf-8", errors = "strict")

'даааааааааа'

<b>codecs.open(filename, mode, encoding, errors, buffering)</b>

Откройте закодированный файл, используя данный режим, и верните упакованную версию, обеспечивающую прозрачное кодирование / декодирование. Режим файла по умолчанию - «r», что означает открытие файла в режиме чтения.
encoding указывает кодировку, которая будет использоваться для файла.
Могут быть заданы правила для определения обработки ошибок. По умолчанию он имеет значение «strict», что приводит к возникновению ValueError в случае возникновения ошибки кодирования.
buffering имеет то же значение, что и встроенная функция open(). По умолчанию используется строчная буферизация.

In [32]:
cd.open("shutil-1.txt", "r", encoding = "utf-8", errors = "strict")

<codecs.StreamReaderWriter at 0x5df25b0>

Модуль <b>codecs</b> базовые классы, которые определяют интерфейс, а также могут быть использованы, чтобы легко создавать свои собственные кодеки для использования в Python.

Каждый кодек должен определять четыре интерфейса, чтобы его можно было использовать в качестве кодека в Python: кодировщик без сохранения состояния, декодер без состояния, средство чтения и записи потоков. Устройство чтения и записи потока обычно повторно использует кодировщик / декодер без сохранения состояния для реализации файловых протоколов.

<h3>Класс Codec</h3>

Класс <b>Codec</b> определяет методы, которые также определяют функциональные интерфейсы кодировщика и декодера без сохранения состояния (encode и decode).

<b>codecs.Codec.encode(input, errors)</b>

Кодирует объект input и возвращает кортеж (объект вывода, потребляемая длина).


<b>codecs.Codec.decode(input, errors)</b>

Декодирует ввод объекта и возвращает кортеж (объект вывода, потребляемая длина). В контексте Unicode декодирование преобразует простую строку, закодированную с использованием определенной кодировки набора символов, в объект Unicode.

input должен быть объектом, который предоставляет bf_getreadbufбуферный слот. Строки Python, буферные объекты и файлы с отображением памяти являются примерами объектов, предоставляющих этот слот.

<h1><b>Домашнее задание</b></h1>

С помощью представленных модулей выполнить следующие задания: 
-  предварительно создать в текущей директории произвольный текстовый файл, с которым будем работать
-  скопировать файл в другой файл и проверить, что они совпадают
-  создать архив из скопированного файла
-  с помощью mmap прочитать изначальный файл (получится байт строка) и декодировать её (дабы избежать ошибок, рекомендую использовать errors = "ignore")