МОДУЛЬ GLOB


Он полезен в ситуациях, когда программе требуется доступ к списку файлов c именами, соответствующими указанному шаблону. Чтобы получить список имен файлов, имеющих определенное расширение либо префикс или содержащих определенную подстроку в имени, достаточно использовать модуль glob, что избавит от необходимости написания собственного кода для просмотра содержимого каталогов.

In [64]:
import glob
for name in sorted(glob.glob("dir/*")):
    print(name)

dir\file.txt
dir\file1.txt
dir\file2.txt
dir\file[.txt
dir\filea.txt
dir\fileb.txt
dir\subdir


Этому шаблону соответствует имя любого пути (к файлу или каталогу) в каталоге dir, причем рекурсивный просмотр подкаталогов не выполняется. Данные,возвращенные методом glob (), не сортируются, поэтому в примерах их приходится дополнительно сортировать, чтобы упростить чтение результатов.

Чтобы получить список файлов, находящихся в определенном подкаталоге, следует включить имя этого подкаталога в шаблон.

In [26]:
print('Имя каталога явно:')
for name in sorted(glob.glob('dir/subdir/*')):
    print(' {}'.format(name))
    
print('Имя каталога неявно:')
for name in sorted(glob.glob('dir/*/*')):
    print(' {}'.format(name))

Имя каталога явно:
 dir/subdir\subfile.txt
Имя каталога неявно:
 dir\subdir\subfile.txt


Другим метасимволом является вопросительный знак (?). В имени ему соответствуетлюбой одиночный символ, находящийся в данной позиции.

In [30]:
for name in sorted(glob.glob("dir/file?.txt")):
    print(name)

dir\file1.txt
dir\file2.txt
dir\file[.txt
dir\filea.txt
dir\fileb.txt


В этом примере отыскиваются все файлы c именами, начинающимися c подстроки file, за которой может следовать один произвольный символ, и имеющими расширение .txt.

Для поиска соответствия одному из нескольких возможных символов используется диапазон символов ([a-z]). В следующем примере выполняется поиск всех файлов, имена которых содержат цифру перед расширением.

In [31]:
for name in sorted(glob.glob("dir/*[0-9].*")):
    print(name)

dir\file1.txt
dir\file2.txt


Диапазону [0-9] соответствуетлюбая одиночная цифра. Диапазоны упорядочиваются на основе числовых кодов символов, а дефис обозначает непрерывную последовательность символов. Тот же самый диапазон можно было бы записать в виде [0123456789].

Иногда возникает необходимость в поиске файлов, имена которых содержат специальные символы, используемые в шаблонах модуля glob. Метод escape() позволяет создать подходящий шаблон, в котором специальные символы экранируются таким образом, чтобы они не заменялись никакими другими значениями и не интерпретировались как специальные модулем glob.

In [43]:
specials = "?*["

for char in specials:
    pattern = 'dir/*' + glob.escape(char) + '.txt'
    print('Поиск по: {!r}'.format(pattern))
    for name in sorted(glob.glob(pattern)):
        print(name)
    print()

Поиск по: 'dir/*[?].txt'

Поиск по: 'dir/*[*].txt'

Поиск по: 'dir/*[[].txt'
dir\file[.txt



МОДУЛЬ LINECACHE

Модуль linecache используется другими компонентами стандартной библиотеки Python при работе c исходными файлами на языке Python. Реализация кеша сохраняет содержимое файлов, разобранное на отдельные строки, в памяти. Соответствующий API возвращает затребованные строки в виде индексированного списка, экономя время при повторных попытках чтения файлов и поиске нужных строк. Этот модуль особенно полезен в тех случаях, когда приходится просматривать множество строк одного и того же файла, например c целью получения трассировочной информации для вывода отчета об ошибке.

In [3]:
import os
import tempfile

lorem = '''Lorem ipsum dolor sit amet, consectetuer
adipiscing elit.  Vivamus eget elit. In posuere mi non
risus. Mauris id quam posuere lectus sollicitudin
varius. Praesent at mi. Nunc eu velit. Sed augue massa,
fermentum id, nonummy a, nonummy sit amet, ligula. Curabitur
eros pede, egestas at, ultricies ac, apellentesque eu,
tellus.

Sed sed odio sed mi luctus mollis. Integer et nulla ac augue
convallis accumsan. Ut felis. Donec lectus sapien, elementum
nec, condimentum ac, interdum non, tellus. Aenean viverra,
mauris vehicula semper porttitor, ipsum odio consectetuer
lorem, ac imperdiet eros odio a sapien. Nulla mauris tellus,
aliquam non, egestas a, nonummy et, erat. Vivamus sagittis
porttitor eros.'''


def make_tempfile():
    fd, temp_file_name = tempfile.mkstemp()
    os.close(fd)
    with open(temp_file_name, 'wt') as f:
        f.write(lorem)
    return temp_file_name


def cleanup(filename):
    os.unlink(filename)

Нумерация строк, которые читаются c помощью модуля linecache, начинается c 1, хотя обычно отсчет индексов элементов массива начинается c 0.

In [4]:
import linecache

filename = make_tempfile()

print('SOURCE:')
print('{!r}'.format(lorem.split('\n')[4]))
print()
print('CACHE:')
print('{!r}'.format(linecache.getline(filename, 5)))

cleanup(filename)

SOURCE:
'fermentum id, nonummy a, nonummy sit amet, ligula. Curabitur'

CACHE:
'fermentum id, nonummy a, nonummy sit amet, ligula. Curabitur\n'


Возвращаемое значение всегда содержит завершающий символ перевода строки. Таким образом, в случае пустой строки этот символ является единственным в возвращенном значении.

In [5]:
filename = make_tempfile()

# Пустые строки включают символ перевода строки

print('BLANK : {!r}'.format(linecache.getline(filename, 8)))

cleanup(filename)

BLANK : '\n'


Строка 8 во входном файле не содержит текста.

Если запрошенный номер строки превышает общее количество строк, содержащихся в файле, функция getline () возвращает пустую строку.

In [6]:
filename = make_tempfile()

# Кеш всегда возвращает строку, используя пустую строку для
# указания того, что запрошенная строка не существует

not_there = linecache.getline(filename, 500)
print('NOT THERE: {!r} includes {} characters'.format(not_there, len(not_there)))

cleanup(filename)


NOT THERE: '' includes 0 characters


Входной файл содержит только 15 строк, поэтому запрашивать строку 500 — это все равно что пытаться выполнить чтение за пределами файла.

Точно так же обрабатываются попытки чтения из файла, которого не существует.

In [7]:
#Если модулю linecache не удается найти файл, то ошибка скрывается
no_such_file = linecache.getline("this_file_does_not_exist.txt", 1,)
print("NO FILE: {!r}".format(no_such_file)) 

NO FILE: ''


MОДУЛЬ TEMPFILE

Создание временных файлов c надежными уникальными именами, загрудняющими определение назначения файлов злоумышленниками c целью взлома триложения или кражи данных, — непростая задача. Модуль tempfile предоcтавляет несколько функций, обеспечивающих безопасное создание временных файлов системных ресурсов. Функция TemporaryFile () открывает и возвращает теименованный файл, функция NamedTemporaryFile () открывает и возвращает именованный файл, функция SpooledTemporaryFile () сохраняет содержимое в памяти перед записью на диск, тогда как функция TemporaryDirectory() — это менеджер контекста, удаляющий каталог, когда контекст закрывается.

Приложения, нуждающиеся во временных файлах для сохранения промежугочных данных в условиях, когда не требуется совместное использование файта другими приложениями, должны создавать такие файлы c помощью функции remporaryFile(). На тех платформах, где это возможно, соответствующая запись в каталоге уничтожается сразу же после создания файла. Как следствие, другие программы не могут найти или открыть этот файл ввиду отсутствия ссылки на него в таблице файловой системы. Созданный функцией TemporaryFile() файл автоматически уничтожается при его закрытии как в случае использования метода close (), так и совместного использования API менеджера контекста c инструкцией with.

In [33]:
import os
import tempfile

print('Building а filename with PID:')
filename = 'file.txt'.format(os.getpid())
with open(filename, 'w+b') as temp:
    print('temp:')
    print(' {!r}'.format(temp))
    print('temp.name:')
    print(' {!r}'.format(temp.name))
             
# Самостоятельное удаление временного файла            
os.remove(filename)
             
print()
print('TemporaryFile:')
with tempfile.TemporaryFile() as temp:
    print('temp:')
    print(' {!r}'.format(temp))
    print('temp.name:')
    print(' {!r}'.format(temp.name))
# Автоматическое уничтожение файла

Building а filename with PID:
temp:
 <_io.BufferedRandom name='file.txt'>
temp.name:
 'file.txt'

TemporaryFile:
temp:
 <tempfile._TemporaryFileWrapper object at 0x00000258273EB088>
temp.name:
 'C:\\Users\\Dinar\\AppData\\Local\\Temp\\tmp7xiied02'


Этот пример иллюстрирует различие в способах создания временного файла c помощью общего шаблона для конструирования имен и c помощью функции TemporaryFile(). У файла, возвращенного функцией TemporaryFile(), нет имени.

По умолчанию дескриптор файла создается c использованием режима " w+b ",что обеспечивает его согласованное поведение на всех платформах и позволяет вызывающему коду использовать его для выполнения файловых операций чтения и записи.

In [35]:
with tempfile.TemporaryFile() as temp:
    temp.write(b'Some data')
    
    temp.seek(0)
    print(temp.read())

b'Some data'


После выполнения записи файловый дескриптор следует “перемотать назад” c помощью метода seek (), чтобы обеспечить возможность последующего чтения данных.

Чтобы открыть файл в текстовом режиме, при его создании следует задать аргумент mode равным "w+t".

In [38]:
with tempfile.TemporaryFile(mode="w+t") as f:
    f.writelines(["first\n", "second\n"])
    
    f.seek(0)
    for line in f:
        print(line.rstrip())

first
second


В этом случае данные обрабатываются как текстовые.

В некоторых случаях наличие именованного временного файла играет важную роль. В случае приложений, охватывающих несколько процессов или даже хостов, именование файла является простейшим способом организации его передачи между различными частями приложения. Функция NamedTemporaryFile () создает файл без разрыва его связи c файловой системой, поэтому он сохраняет свое имя (доступное через атрибут name).

In [41]:
import pathlib

with tempfile.NamedTemporaryFile() as temp:
    print('temp:')
    print(' {!r}'.format(temp))
    print('temp.name:')
    print(' {!r}'.format(temp.name))
              
    f = pathlib.Path(temp.name)
              
print('Exists after close:', f.exists())

temp:
 <tempfile._TemporaryFileWrapper object at 0x00000258273D65C8>
temp.name:
 'C:\\Users\\Dinar\\AppData\\Local\\Temp\\tmp8r_i7d42'
Exists after close: False


После закрытия дескриптора этот файл удаляется.

В случае временных файлов, содержащих относительно небольшие объемы данных, более эффективным будет использование функции SpooledTemporaryFile(), поскольку она сохраняет содержимое файла в буферных объектах  BytesIO или StringIO, где оно будет храниться, пока объем данных не превысит заданного порогового значения. По достижении этого значения данные записываются на диск, а буфер заменяется обычным объектом TemporaryFile.

In [42]:
with tempfile.SpooledTemporaryFile(max_size=100,mode='w+t',encoding='utf-8') as temp:
    print('temp: {!r}'.format(temp))
    for i in range(3):
        temp.write('This line is repeated over and over.\n')
        print(temp._rolled, temp._file)

temp: <tempfile.SpooledTemporaryFile object at 0x0000025827322448>
False <_io.StringIO object at 0x00000258273CB798>
False <_io.StringIO object at 0x00000258273CB798>
True <tempfile._TemporaryFileWrapper object at 0x00000258273D65C8>


В этом примере для определения того момента, когда данные сбрасываются на диск, используются закрытые атрибуты объекта SpooledTemporaryFile. Необходимость в этом возникает лишь изредка, за исключением случаев, когда требуется настройка размера буфера.

Для принудительного сброса содержимого буфера и записи его на диск следует вызвать метод rollover () или fileno ().

In [43]:
with tempfile.SpooledTemporaryFile(max_size=1000,mode='w+t',encoding='utf-8') as temp:
                                   
    print('temp: {!r}'.format(temp))
                                   
    for i in range(3):
        temp.write('This line is repeated over and over.\n')
        print(temp._rolled, temp._file)
    print('rolling over')
    temp.rollover()
    print(temp._rolled, temp._file)

temp: <tempfile.SpooledTemporaryFile object at 0x00000258273BC348>
False <_io.StringIO object at 0x00000258273E04C8>
False <_io.StringIO object at 0x00000258273E04C8>
False <_io.StringIO object at 0x00000258273E04C8>
rolling over
True <tempfile._TemporaryFileWrapper object at 0x00000258273D6108>


Поскольку размер буфера в этом примере намного превышает объем имеющихся данных, файл не создается до тех пор, пока не вызывается метод rollover().

Задание № 1

Создайте такую же структуру файлов,как указанно в начале, и с помощбю модуля glob выведите одним ответом файлы file[.txt, filel.txt
file2.txt, filea.txt

Задание № 2

Возьмите произвольный текст и с помощью модуля linecache выведите из этого текста первую и последнюю строчку, несуществующую строчку(по номеру), а также попробуйте открывать файл,которого не существует.