# Глава 5 Файлы и ввод-вывод(Python Дэвид Бизли)

# Чтение и запись текстовых данных 

Вам нужно прочитать или записать текстовые данные, представленные, возможно, в различных кодировках, таких как ASCII, UTF­8 или UTF­16. 

Используйте функцию open() в режиме rt для чтения текстового файла. Например:

In [2]:
# Прочесть остаток файла в одну строку
with open('somefile.txt', 'rt') as f:
    data = f.read()

In [5]:
# Итерируем по строчкам файла
with open('somefile.txt', 'rt') as f:
    for line in f:
        print(line)

#12345

#

###python

##6789

python

text

password

python


Похожим образом для записи в текстовый файл используйте open() в режиме wt (стирает и перезаписывает любое предыдущее содержание файла, если оно было): 

In [23]:
# Пишем чанки (кусочки) текстовых данных 
with open('somefile.txt', 'wt') as f:
    f.write('10.12.19\n')
    f.write('План работы\n')
    f.write('Прочитать книгу')

In [9]:
with open('somefile.txt', 'rt') as f:
    for line in f:
        print(line)

10.12.19

План работы

Прочитать книгу


In [13]:
# Перенаправленная инструкция print 
with open('somefile1.txt', 'wt') as f1:
    print("line1", file=f1)
    print("line2", file=f1)
    print("line3", file=f1)

In [14]:
with open('somefile1.txt', 'rt') as f1:
    for line in f1:
        print(line)

line1

line2

line3



Чтобы добавить записываемый текст к концу существующего файла, используйте open() в режиме at. 

По умолчанию файлы читаются и записываются в дефолтной системной кодировке, информацию о которой можно получить из sys.getdefaultencoding(). На большинстве компьютеров это будет utf-8. Если вы знаете, что текст, который вы читаете или пишете, представлен в другой кодировке, передайте необязательный параметр encoding функции open(). 

In [16]:
import sys
sys.getdefaultencoding()

'utf-8'

In [24]:
with open('somefile.txt', 'rt') as f:
    for line in f:
        print(line)
    

10.12.19

План работы

Прочитать книгу


In [29]:
with open('somefile.txt', 'rt', encoding='latin-1') as f:
    print(f.readlines())

['10.12.19\n', 'Ïëàí ðàáîòû\n', 'Ïðî÷èòàòü êíèãó']


Python понимает несколько сотен текстовых кодировок. Однако самые распространенные – ascii, latin-1, utf-8 и utf-16. 

UTF-8 обычно является безопасным выбором для работы с веб-приложениями. 

ascii соответствует 7-битным символам в диапазоне от U+0000 до U+007F. 

latin-1 – это прямое отображение байтов 0–255 на символы Unicode от U-0000 до U-00FF. latin-1 известна тем, что она никогда не вызовет ошибку декодирования при чтении текста в потенциально неизвестной кодировке. Чтение файла как latin-1 может не привести к получению полностью правильно декодированного текста, но этого бывает достаточно для извлечения полезных данных. Также если вы позже запишете данные обратно, первоначальные данные будут сохранены. 

Чтение и запись файлов в большинстве случаев совершенно бесхитростны. Однако есть и тонкости. 

Во-первых, использование инструкции with в примере устанавливает контекст, в котором будут использованы файлы. Когда поток управления покидает блок with, файл будет автоматически закрыт. Вы не обязаны использовать инструкцию with, но если вы ее не применяете, то не забудьте закрыть файл: 

In [30]:
f = open('somefile.txt', 'rt')
data = f.read()
f.close()

Еще одна небольшая сложность касается распознавания новых строк, символы которых отличаются в Unix и Windows (\n и \r\n). По умолчанию Python работает в так называемом «универсальном режиме новых строк». В этом режиме все распространенные символы новой строки распознаются, и все они конвертируются в единственный \n при чтении. Похожим образом символ новой строки \n конвертируется в дефолтный системный символ при выводе. Если вы не хотите использовать такую трансляцию, передайте функции open() аргумент newline='': 

Чтобы продемонстрировать разницу, покажем, что вы увидите на компьютере с Unix, если вы читаете содержание файла в Windows-кодировке, в котором присутствуют сырые данные hello world!\r\n: 

In [31]:
#Читаем с отключенной трансляцией новой строки 
with open('somefile.txt', 'rt', newline='') as f:  
    print(f.readlines())

['10.12.19\r\n', 'План работы\r\n', 'Прочитать книгу']


In [32]:
#Читаем с отключенной трансляцией новой строки 
with open('somefile.txt', 'rt') as f:  
    print(f.readlines())

['10.12.19\n', 'План работы\n', 'Прочитать книгу']


Последняя проблема касается возможных ошибок кодировки в текстовых файлах. При чтении или записи текстового файла вы можете натолкнуться на ошибку кодирования или декодирования. Например: 

In [33]:
f = open('sample.txt', 'rt', encoding='ascii') 
f.read()

FileNotFoundError: [Errno 2] No such file or directory: 'sample.txt'

Если вы получили эту ошибку, это обычно означает, что вы не используете правильную кодировку для чтения файла. Вы должны внимательно прочитать спецификацию того, что вы пытаетесь прочесть, и удостовериться, что вы делаете это правильно (то есть не читаете данные как UTF-8 вместо Latin-1 и т. п.). Если ошибки кодирования все еще возникают, вы можете передать необязательный аргумент errors функции open(), чтобы обрабатывать ошибки. Вот несколько примеров типичных схем обработки ошибок: 

In [34]:
# Заменяем плохие символы символом замены Unicode U+fffd 
f = open('somefile.txt', 'rt', encoding='ascii', errors='replace')
f.read()

'10.12.19\n���� ������\n��������� �����'

In [35]:
# Полностью игнорируем плохие символы 
g = open('somefile.txt', 'rt', encoding='ascii', errors='ignore')
g.read()

'10.12.19\n \n '

Если вы постоянно ловите блох с кодировками, аргументом errors функции open() и изобретаете хаки, вы, вероятно, зря усложняете себе жизнь. 

Первое правило работы с текстом: убедитесь, что вы используете правильную кодировку. А если сомневаетесь, какую выбрать, используйте системную установку по умолчанию (обычно это UTF-8). 

# Перенаправление вывода в файл 

Вы хотите перенаправить в файл вывод функции print().

Используйте print() c именованным аргументом file:


In [37]:
with open('somefile.txt', 'wt') as f:     
    print('Hello World!', file=f) 

In [38]:
with open('somefile.txt', 'rt') as f:  
    print(f.readlines())

['Hello World!\n']


Про вывод в файл добавить больше и нечего. Разве что убедитесь, что файл открыт в текстовом режиме. Выводить в бинарном режиме так нельзя. 

#  Вывод с другим разделителем или символом конца строки 

Вы хотите вывести данные с помощью print(), но вы также хотите поменять символ-разделитель или символ конца строки. 

Используйте именнованные аргументы sep и end с функцией print(), чтобы изменить вывод так, как вам нужно. Например:


In [1]:
print('ACME', 50, 91.5)

ACME 50 91.5


In [2]:
print('ACME', 50, 91.5, sep=',')

ACME,50,91.5


In [3]:
print('ACME', 50, 91.5, sep=',', end='!!\n')

ACME,50,91.5!!


Использование аргумента end также позволяет подавить добавление символа новой строки при выводе. Например:


In [4]:
for i in range(5):
    print(i, end=' ')

0 1 2 3 4 

Использование print() с разными разделителями элементов часто является самым простым способом вывести данные, когда вам нужно сделать это с другим разделителем элементов. 

Однако иногда вы можете увидеть, как программисты используют str.join() для выполнения этой же задачи: 

In [6]:
print(','.join(('ACME', '50', '91.5')))

ACME,50,91.5


Проблема str.join() в том, что он работает только со строками. Это значит, что часто необходимо выполнить различные акробатические трюки, чтобы заставить его работать. Например: 

In [8]:
row = ('ACME', 50, 91.5)
print(','.join(row))

TypeError: sequence item 1: expected str instance, int found

In [9]:
print(','.join(str(x) for x in row))

ACME,50,91.5


Вместо этого вы могли бы просто написать так: 

In [10]:
print(*row, sep=',')

ACME,50,91.5


# Чтение и запись бинарных данных 

Вам нужно прочесть или записать бинарные данные, такие как содержимое картинок, звуковых файлов и т. п. 

In [12]:
# Прочесть весь файл как одну байтовую строку 
with open('somefile.txt', 'rb') as f:
    data = f.read()

In [16]:
# Записать бинарные данные в файл
with open('somefile.bin', 'wb') as f:
    f.write(b'Hello Word!')

In [18]:
# Прочесть весь файл как одну байтовую строку 
with open('somefile.bin', 'rb') as f:
    data = f.read()
    print(data)


b'Hello Word!'


При чтении бинарных данных важно подчеркнуть, что все получаемые данные будут в форме байтовых, а не текстовых строк. Похожим образом при записи вы должны предоставить данные в форме объектов, которые представляют данные в форме байтов (байтовые строки, объекты bytearray и т. д.). 

При чтении бинарных данных тонкие сематические различия между байтовыми и текстовыми строками могут привести к проблемам. Нужно помнить, что индексирование и итерирование возвращают целочисленное байтовое значение, а не байтовые строки. Например: 

In [19]:
# Текстовая строка 
t = 'Hello World'
t[0]

'H'

In [20]:
for c in t:
    print(c)

H
e
l
l
o
 
W
o
r
l
d


In [21]:
# Байтовая строка
b = b'Hello World'
b[0]

72

In [22]:
for c in b:
    print(c)

72
101
108
108
111
32
87
111
114
108
100


Если вам когда-либо потребуется прочесть текст из или записать в открытый в бинарном режиме файл, убедитесь, что не забыли декодировать или закодировать его. Например: 

In [24]:
with open('somefile.bin', 'rb') as f:
    data = f.read(16)
    text = data.decode('utf-8')
    print(text)

Hello Word!


In [25]:
with open('somefile.bin', 'wb') as f:
    text = 'Hello World111'
    f.write(text.encode('utf-8'))
    
with open('somefile.bin', 'rb') as f:
    data = f.read(16)
    text = data.decode('utf-8')
    print(text)

Hello World111


Менее известный аспект бинарного ввода-вывода заключается в том, что такие объекты, как массивы и структуры языка C, могут быть использованы для записи без какого-либо промежуточного преобразования в объект bytes. Например: 

In [26]:
import array
nums = array.array('i', [1, 2, 3, 4])
with open('data.bin', 'wb') as f:
    f.write(nums)

In [28]:
with open('data.bin', 'rb') as f:
    data = f.read()
    print(data)

b'\x01\x00\x00\x00\x02\x00\x00\x00\x03\x00\x00\x00\x04\x00\x00\x00'


Это применимо к любому объекту, в котором реализован так называемый «буферный интерфейс», который напрямую дает доступ к собственному буферу памяти операциям, которые могут с ним работать. Запись бинарных данных – одна из таких операций. 

Многие объекты также позволяют бинарным данным напрямую быть прочитанными в их память с помощью файлового метода readinto(). Например: 

In [30]:
import array
a = array.array('i', [0, 0, 0, 0, 0, 0, 0, 0])
with open('data.bin', 'rb') as f:
    print(f.readinto(a))

16


In [31]:
a

array('i', [1, 2, 3, 4, 0, 0, 0, 0])

Однако нужно принять все меры предосторожности при использовании этого приема, поскольку он часто является платформозависимым и зависит от таких вещей, как размер слова, порядок следования байтов (big-endian или littleendian). Далее приведен другой пример чтения бинарных данных в изменяемый (mutable) буфер. 

# Запись в файл, которого еще нет 

Вы хотите записать данные в файл, но только в том случае, если его еще нет в файловой системе. 

Эта задача легко решается с помощью использования малоизвестного режима x работы open() (вместо обычного режима w): 

In [1]:
with open('somefile8.txt', 'wt') as f:
    f.write('Helli\n')

In [2]:
#уже записать нельзя
#проверили, что такой файл есть и больше не записываем
with open('somefile8.txt', 'xt') as f:
    f.write('Hello\n')

FileExistsError: [Errno 17] File exists: 'somefile8.txt'

Если файл в бинарном режиме, используйте режим xb вместо xt. 

Этот рецепт демонстрирует удивительно элегантное решение проблемы, иногда возникающей при записи в файлы (например, случайной перезаписи существующего файла). Альтернативное решение – предварительная проверка:

In [4]:
import os
if not os.path.exists('somefile9.txt'):
    with open('somefile9.txt', 'wt') as f:
        f.write('Hello\n')
else:
    print('File already exists!')

File already exists!


Очевидно, что использование режима x намного проще. Важно отметить, что режим x доступен для функции open() только в Python 3. Этот режим не существовал в ранних версиях Python или низкоуровневневых библиотеках на языке C, использованных в реализации Python. 

# Выполнение операций ввода-вывода над строками

Вы хотите скормить текст или бинарную строку программе, которая способна работать с файлоподобными объектами. 

Используйте классы io.StringIO() и io.BytesIO() для создания файлоподобных объектов, которые могут работать со строковыми данными. Например: 

In [6]:
import io
s = io.StringIO()
s.write('Hello World\n')

12

In [7]:
print('This is a test', file=s) 

In [8]:
#Получить все уже записанные данные
s.getvalue()

'Hello World\nThis is a test\n'

In [9]:
#Обернуть существующую строку файловым интерфейсом 
s = io.StringIO('Hello\nWorld\n')
s.read(4)

'Hell'

In [10]:
s.read()

'o\nWorld\n'

Класс io.StringIO должен быть использован только для работы с текстом. Если вы работаете с бинарными данными, используйте io.BytesIO.

In [11]:
s = io.BytesIO() 
s.write(b'binary data')
s.getvalue()

b'binary data'

Классы StringIO и BytesIO наиболее полезны в случаях, когда вам нужно подменить обычный файл. Например, в юнит-тестах вы могли бы использовать StringIO для создания файлоподобного объекта, содержащего тестовые данные, которые скармливаются функции, предназначенной для работы с файлами. Обратите внимание, что экземпляры StringIO и BytesIO не имеют настоящего целочисленного файлового дескриптора. Поэтому они не будут работать с программами, которые требуют использования настоящих системных файлов (файлов, каналов, сокетов). 

#  Чтение и запись сжатых файлов с данными 

Вам нужно прочесть или записать данные в файл, сжатый gzip или bz2. 

Модули gzip и bz2 делают работу с такими файлами очень легкой. Оба модуля предо ставляют альтернативную реализацию функции open(). Например, чтобы прочесть сжатые файлы как текст, сделайте так: 

In [None]:
# Сжатие с помощью gzip 
import gzip
with gzip.open('somefile.gz', 'rt') as f:
    text = f.read()

In [None]:
# Сжатие с помощью bz2 
import bz2
with bz2.open('somefile.bz2', 'rt') as f:
    text = f.read()

Как показано выше, весь ввод и вывод будет использовать текст и проводить кодирование/декодирование в Unicode. Если же вы хотите работать с бинарными данными, используйте файловый режим rb или wb. 

Чтение и запись сжатых данных по большей части просты. Однако стоит знать, что выбор правильного файлового режима критически важен. Если вы не обозначите режим явно, то будет выбран режим по умолчанию, то есть бинарный, а это сломает программы, которые ожидают получить текст. gzip.open() и bz2.open() принимают те же параметры, что и встроенная функция open(), включая encoding, errors, newline и т. д. При записи сжатых данных с помощью необязательного именованного аргумента compresslevel может быть установлен уровень компрессии.

In [None]:
with gzip.open('somefile.gz', 'wt', compresslevel=5) as f:     
    f.write(text)

Уровень по умолчанию – это 9, то есть наивысший. Более низкие уровни увеличивают скорость, но снижают степень сжатия данных.

И последнее: малоизвестная особенность gzip.open() и bz2.open() заключается в том, что они могут работать уровнем выше существующего файла, открытого в бинарном режиме. Например, такой код работает:


In [None]:
import 
 
f = open('somefile.gz', 'rb') 
with gzip.open(f, 'rt') as g:     
    text = g.read() 

Это позволяет модулям gzip и bz2 работать с различными файлоподобными объектами, такими как сокеты, каналы и файлы в оперативной памяти. 

#  Итерирование по записям фиксированного размера 

Вместо того чтобы итерировать по файлу построчно, вы хотите итерировать по коллекции записей фиксированного размера или кусочкам ("chunk"). 

Используйте функции iter() и functools.partial(), чтобы выполнить этот клевый фокус:


In [3]:
 with open('somefile777.data', 'w') as f:     
    f.write("Малоизвестная возможность функции iter() заключается в том, что она может создать итератор, если вы передадите ей вызываемый объект и пороговое значение. Получившийся итератор просто снова и снова вызывает предоставленный вызываемый объект, пока он не вернет пороговое значение, что приведет к завершению итерирования. В вышеприведенном решении functools.partial используется для создания вызываемого объекта, который читает фиксированное количество байтов из файла каждый раз, когда вызывается. Пороговое значение b'' – то, что будет возвращено при попытке чтения файла, когда будет достигнут его конец.")

In [4]:
from functools import partial 
 
RECORD_SIZE = 32 
 
with open('somefile777.data', 'rb') as f:     
    records = iter(partial(f.read, RECORD_SIZE), b'')     
    for r in records:  
        print(r)

b'\xcc\xe0\xeb\xee\xe8\xe7\xe2\xe5\xf1\xf2\xed\xe0\xff \xe2\xee\xe7\xec\xee\xe6\xed\xee\xf1\xf2\xfc \xf4\xf3\xed\xea\xf6\xe8'
b'\xe8 iter() \xe7\xe0\xea\xeb\xfe\xf7\xe0\xe5\xf2\xf1\xff \xe2\xa0\xf2\xee\xec, \xf7\xf2\xee '
b'\xee\xed\xe0 \xec\xee\xe6\xe5\xf2 \xf1\xee\xe7\xe4\xe0\xf2\xfc \xe8\xf2\xe5\xf0\xe0\xf2\xee\xf0, \xe5\xf1\xeb\xe8'
b' \xe2\xfb \xef\xe5\xf0\xe5\xe4\xe0\xe4\xe8\xf2\xe5 \xe5\xe9 \xe2\xfb\xe7\xfb\xe2\xe0\xe5\xec\xfb\xe9 \xee\xe1\xfa'
b'\xe5\xea\xf2 \xe8\xa0\xef\xee\xf0\xee\xe3\xee\xe2\xee\xe5 \xe7\xed\xe0\xf7\xe5\xed\xe8\xe5. \xcf\xee\xeb\xf3\xf7\xe8'
b'\xe2\xf8\xe8\xe9\xf1\xff \xe8\xf2\xe5\xf0\xe0\xf2\xee\xf0 \xef\xf0\xee\xf1\xf2\xee \xf1\xed\xee\xe2\xe0 \xe8\xa0\xf1'
b'\xed\xee\xe2\xe0 \xe2\xfb\xe7\xfb\xe2\xe0\xe5\xf2 \xef\xf0\xe5\xe4\xee\xf1\xf2\xe0\xe2\xeb\xe5\xed\xed\xfb\xe9 \xe2\xfb'
b'\xe7\xfb\xe2\xe0\xe5\xec\xfb\xe9 \xee\xe1\xfa\xe5\xea\xf2, \xef\xee\xea\xe0 \xee\xed \xed\xe5 \xe2\xe5\xf0\xed'
b'\xe5\xf2 \xef\xee\xf0\xee\xe3\xee\xe2\xee\xe5 \xe7\xed\xe0\xf7\xe

In [6]:
from functools import partial 
 
RECORD_SIZE = 10 
 
with open('somefile777.data', 'r') as f:     
    records = iter(partial(f.read, RECORD_SIZE), '')     
    for r in records:  
        print(r)

Малоизвест
ная возмож
ность функ
ции iter()
 заключает
ся в том, 
что она мо
жет создат
ь итератор
, если вы 
передадите
 ей вызыва
емый объек
т и порого
вое значен
ие. Получи
вшийся ите
ратор прос
то снова и
 снова выз
ывает пред
оставленны
й вызываем
ый объект,
 пока он н
е вернет п
ороговое з
начение, ч
то приведе
т к заверш
ению итери
рования. В
 вышеприве
денном реш
ении funct
ools.parti
al использ
уется для 
создания в
ызываемого
 объекта, 
который чи
тает фикси
рованное к
оличество 
байтов из 
файла кажд
ый раз, ко
гда вызыва
ется. Поро
говое знач
ение b'' –
 то, что б
удет возвр
ащено при 
попытке чт
ения файла
, когда бу
дет достиг
нут его ко
нец.


Объект records в этом примере является итерируемым; он будет производить кусочки фиксированного размера, пока не будет достигнут конец файла. Однако стоит отметить, что в последнем элементе может быть на несколько байтов меньше, чем ожидается, если размер файла не делится на точную длину размера записи. 

Малоизвестная возможность функции iter() заключается в том, что она может создать итератор, если вы передадите ей вызываемый объект и пороговое значение. Получившийся итератор просто снова и снова вызывает предоставленный вызываемый объект, пока он не вернет пороговое значение, что приведет к завершению итерирования. 

В вышеприведенном решении functools.partial используется для создания вызываемого объекта, который читает фиксированное количество байтов из файла каждый раз, когда вызывается. Пороговое значение b'' – то, что будет возвращено при попытке чтения файла, когда будет достигнут его конец. 

И последнее: в показанном выше решении файл был открыт в бинарном режиме. Для чтений записей фиксированного размера это является наиболее распространенным случаем. В случае же текстовых файлов более распространенным будет построчное чтение (итератор выполняет его по умолчанию). 