# Глава 5 Файлы и ввод-вывод(Python Дэвид Бизли)

# Чтение и запись текстовых данных 

Вам нужно прочитать или записать текстовые данные, представленные, возможно, в различных кодировках, таких как ASCII, UTF­8 или UTF­16. 

Используйте функцию open() в режиме rt для чтения текстового файла. Например:

In [2]:
# Прочесть остаток файла в одну строку
with open('somefile.txt', 'rt') as f:
    data = f.read()

In [5]:
# Итерируем по строчкам файла
with open('somefile.txt', 'rt') as f:
    for line in f:
        print(line)

#12345

#

###python

##6789

python

text

password

python


Похожим образом для записи в текстовый файл используйте open() в режиме wt (стирает и перезаписывает любое предыдущее содержание файла, если оно было): 

In [23]:
# Пишем чанки (кусочки) текстовых данных 
with open('somefile.txt', 'wt') as f:
    f.write('10.12.19\n')
    f.write('План работы\n')
    f.write('Прочитать книгу')

In [9]:
with open('somefile.txt', 'rt') as f:
    for line in f:
        print(line)

10.12.19

План работы

Прочитать книгу


In [13]:
# Перенаправленная инструкция print 
with open('somefile1.txt', 'wt') as f1:
    print("line1", file=f1)
    print("line2", file=f1)
    print("line3", file=f1)

In [14]:
with open('somefile1.txt', 'rt') as f1:
    for line in f1:
        print(line)

line1

line2

line3



Чтобы добавить записываемый текст к концу существующего файла, используйте open() в режиме at. 

По умолчанию файлы читаются и записываются в дефолтной системной кодировке, информацию о которой можно получить из sys.getdefaultencoding(). На большинстве компьютеров это будет utf-8. Если вы знаете, что текст, который вы читаете или пишете, представлен в другой кодировке, передайте необязательный параметр encoding функции open(). 

In [16]:
import sys
sys.getdefaultencoding()

'utf-8'

In [24]:
with open('somefile.txt', 'rt') as f:
    for line in f:
        print(line)
    

10.12.19

План работы

Прочитать книгу


In [29]:
with open('somefile.txt', 'rt', encoding='latin-1') as f:
    print(f.readlines())

['10.12.19\n', 'Ïëàí ðàáîòû\n', 'Ïðî÷èòàòü êíèãó']


Python понимает несколько сотен текстовых кодировок. Однако самые распространенные – ascii, latin-1, utf-8 и utf-16. 

UTF-8 обычно является безопасным выбором для работы с веб-приложениями. 

ascii соответствует 7-битным символам в диапазоне от U+0000 до U+007F. 

latin-1 – это прямое отображение байтов 0–255 на символы Unicode от U-0000 до U-00FF. latin-1 известна тем, что она никогда не вызовет ошибку декодирования при чтении текста в потенциально неизвестной кодировке. Чтение файла как latin-1 может не привести к получению полностью правильно декодированного текста, но этого бывает достаточно для извлечения полезных данных. Также если вы позже запишете данные обратно, первоначальные данные будут сохранены. 

Чтение и запись файлов в большинстве случаев совершенно бесхитростны. Однако есть и тонкости. 

Во-первых, использование инструкции with в примере устанавливает контекст, в котором будут использованы файлы. Когда поток управления покидает блок with, файл будет автоматически закрыт. Вы не обязаны использовать инструкцию with, но если вы ее не применяете, то не забудьте закрыть файл: 

In [30]:
f = open('somefile.txt', 'rt')
data = f.read()
f.close()

Еще одна небольшая сложность касается распознавания новых строк, символы которых отличаются в Unix и Windows (\n и \r\n). По умолчанию Python работает в так называемом «универсальном режиме новых строк». В этом режиме все распространенные символы новой строки распознаются, и все они конвертируются в единственный \n при чтении. Похожим образом символ новой строки \n конвертируется в дефолтный системный символ при выводе. Если вы не хотите использовать такую трансляцию, передайте функции open() аргумент newline='': 

Чтобы продемонстрировать разницу, покажем, что вы увидите на компьютере с Unix, если вы читаете содержание файла в Windows-кодировке, в котором присутствуют сырые данные hello world!\r\n: 

In [31]:
#Читаем с отключенной трансляцией новой строки 
with open('somefile.txt', 'rt', newline='') as f:  
    print(f.readlines())

['10.12.19\r\n', 'План работы\r\n', 'Прочитать книгу']


In [32]:
#Читаем с отключенной трансляцией новой строки 
with open('somefile.txt', 'rt') as f:  
    print(f.readlines())

['10.12.19\n', 'План работы\n', 'Прочитать книгу']


Последняя проблема касается возможных ошибок кодировки в текстовых файлах. При чтении или записи текстового файла вы можете натолкнуться на ошибку кодирования или декодирования. Например: 

In [33]:
f = open('sample.txt', 'rt', encoding='ascii') 
f.read()

FileNotFoundError: [Errno 2] No such file or directory: 'sample.txt'

Если вы получили эту ошибку, это обычно означает, что вы не используете правильную кодировку для чтения файла. Вы должны внимательно прочитать спецификацию того, что вы пытаетесь прочесть, и удостовериться, что вы делаете это правильно (то есть не читаете данные как UTF-8 вместо Latin-1 и т. п.). Если ошибки кодирования все еще возникают, вы можете передать необязательный аргумент errors функции open(), чтобы обрабатывать ошибки. Вот несколько примеров типичных схем обработки ошибок: 

In [34]:
# Заменяем плохие символы символом замены Unicode U+fffd 
f = open('somefile.txt', 'rt', encoding='ascii', errors='replace')
f.read()

'10.12.19\n���� ������\n��������� �����'

In [35]:
# Полностью игнорируем плохие символы 
g = open('somefile.txt', 'rt', encoding='ascii', errors='ignore')
g.read()

'10.12.19\n \n '

Если вы постоянно ловите блох с кодировками, аргументом errors функции open() и изобретаете хаки, вы, вероятно, зря усложняете себе жизнь. 

Первое правило работы с текстом: убедитесь, что вы используете правильную кодировку. А если сомневаетесь, какую выбрать, используйте системную установку по умолчанию (обычно это UTF-8). 

# Перенаправление вывода в файл 

Вы хотите перенаправить в файл вывод функции print().

Используйте print() c именованным аргументом file:


In [37]:
with open('somefile.txt', 'wt') as f:     
    print('Hello World!', file=f) 

In [38]:
with open('somefile.txt', 'rt') as f:  
    print(f.readlines())

['Hello World!\n']


Про вывод в файл добавить больше и нечего. Разве что убедитесь, что файл открыт в текстовом режиме. Выводить в бинарном режиме так нельзя. 

#  Вывод с другим разделителем или символом конца строки 

Вы хотите вывести данные с помощью print(), но вы также хотите поменять символ-разделитель или символ конца строки. 

Используйте именнованные аргументы sep и end с функцией print(), чтобы изменить вывод так, как вам нужно. Например:


In [1]:
print('ACME', 50, 91.5)

ACME 50 91.5


In [2]:
print('ACME', 50, 91.5, sep=',')

ACME,50,91.5


In [3]:
print('ACME', 50, 91.5, sep=',', end='!!\n')

ACME,50,91.5!!


Использование аргумента end также позволяет подавить добавление символа новой строки при выводе. Например:


In [4]:
for i in range(5):
    print(i, end=' ')

0 1 2 3 4 

Использование print() с разными разделителями элементов часто является самым простым способом вывести данные, когда вам нужно сделать это с другим разделителем элементов. 

Однако иногда вы можете увидеть, как программисты используют str.join() для выполнения этой же задачи: 

In [6]:
print(','.join(('ACME', '50', '91.5')))

ACME,50,91.5


Проблема str.join() в том, что он работает только со строками. Это значит, что часто необходимо выполнить различные акробатические трюки, чтобы заставить его работать. Например: 

In [8]:
row = ('ACME', 50, 91.5)
print(','.join(row))

TypeError: sequence item 1: expected str instance, int found

In [9]:
print(','.join(str(x) for x in row))

ACME,50,91.5


Вместо этого вы могли бы просто написать так: 

In [10]:
print(*row, sep=',')

ACME,50,91.5


# Чтение и запись бинарных данных 

Вам нужно прочесть или записать бинарные данные, такие как содержимое картинок, звуковых файлов и т. п. 

In [12]:
# Прочесть весь файл как одну байтовую строку 
with open('somefile.txt', 'rb') as f:
    data = f.read()

In [16]:
# Записать бинарные данные в файл
with open('somefile.bin', 'wb') as f:
    f.write(b'Hello Word!')

In [18]:
# Прочесть весь файл как одну байтовую строку 
with open('somefile.bin', 'rb') as f:
    data = f.read()
    print(data)


b'Hello Word!'


При чтении бинарных данных важно подчеркнуть, что все получаемые данные будут в форме байтовых, а не текстовых строк. Похожим образом при записи вы должны предоставить данные в форме объектов, которые представляют данные в форме байтов (байтовые строки, объекты bytearray и т. д.). 

При чтении бинарных данных тонкие сематические различия между байтовыми и текстовыми строками могут привести к проблемам. Нужно помнить, что индексирование и итерирование возвращают целочисленное байтовое значение, а не байтовые строки. Например: 

In [19]:
# Текстовая строка 
t = 'Hello World'
t[0]

'H'

In [20]:
for c in t:
    print(c)

H
e
l
l
o
 
W
o
r
l
d


In [21]:
# Байтовая строка
b = b'Hello World'
b[0]

72

In [22]:
for c in b:
    print(c)

72
101
108
108
111
32
87
111
114
108
100


Если вам когда-либо потребуется прочесть текст из или записать в открытый в бинарном режиме файл, убедитесь, что не забыли декодировать или закодировать его. Например: 

In [24]:
with open('somefile.bin', 'rb') as f:
    data = f.read(16)
    text = data.decode('utf-8')
    print(text)

Hello Word!


In [25]:
with open('somefile.bin', 'wb') as f:
    text = 'Hello World111'
    f.write(text.encode('utf-8'))
    
with open('somefile.bin', 'rb') as f:
    data = f.read(16)
    text = data.decode('utf-8')
    print(text)

Hello World111


Менее известный аспект бинарного ввода-вывода заключается в том, что такие объекты, как массивы и структуры языка C, могут быть использованы для записи без какого-либо промежуточного преобразования в объект bytes. Например: 

In [26]:
import array
nums = array.array('i', [1, 2, 3, 4])
with open('data.bin', 'wb') as f:
    f.write(nums)

In [28]:
with open('data.bin', 'rb') as f:
    data = f.read()
    print(data)

b'\x01\x00\x00\x00\x02\x00\x00\x00\x03\x00\x00\x00\x04\x00\x00\x00'


Это применимо к любому объекту, в котором реализован так называемый «буферный интерфейс», который напрямую дает доступ к собственному буферу памяти операциям, которые могут с ним работать. Запись бинарных данных – одна из таких операций. 

Многие объекты также позволяют бинарным данным напрямую быть прочитанными в их память с помощью файлового метода readinto(). Например: 

In [30]:
import array
a = array.array('i', [0, 0, 0, 0, 0, 0, 0, 0])
with open('data.bin', 'rb') as f:
    print(f.readinto(a))

16


In [31]:
a

array('i', [1, 2, 3, 4, 0, 0, 0, 0])

Однако нужно принять все меры предосторожности при использовании этого приема, поскольку он часто является платформозависимым и зависит от таких вещей, как размер слова, порядок следования байтов (big-endian или littleendian). Далее приведен другой пример чтения бинарных данных в изменяемый (mutable) буфер. 

# Запись в файл, которого еще нет 

Вы хотите записать данные в файл, но только в том случае, если его еще нет в файловой системе. 

Эта задача легко решается с помощью использования малоизвестного режима x работы open() (вместо обычного режима w): 

In [1]:
with open('somefile8.txt', 'wt') as f:
    f.write('Helli\n')

In [2]:
#уже записать нельзя
#проверили, что такой файл есть и больше не записываем
with open('somefile8.txt', 'xt') as f:
    f.write('Hello\n')

FileExistsError: [Errno 17] File exists: 'somefile8.txt'

Если файл в бинарном режиме, используйте режим xb вместо xt. 

Этот рецепт демонстрирует удивительно элегантное решение проблемы, иногда возникающей при записи в файлы (например, случайной перезаписи существующего файла). Альтернативное решение – предварительная проверка:

In [4]:
import os
if not os.path.exists('somefile9.txt'):
    with open('somefile9.txt', 'wt') as f:
        f.write('Hello\n')
else:
    print('File already exists!')

File already exists!


Очевидно, что использование режима x намного проще. Важно отметить, что режим x доступен для функции open() только в Python 3. Этот режим не существовал в ранних версиях Python или низкоуровневневых библиотеках на языке C, использованных в реализации Python. 

# Выполнение операций ввода-вывода над строками

Вы хотите скормить текст или бинарную строку программе, которая способна работать с файлоподобными объектами. 

Используйте классы io.StringIO() и io.BytesIO() для создания файлоподобных объектов, которые могут работать со строковыми данными. Например: 

In [6]:
import io
s = io.StringIO()
s.write('Hello World\n')

12

In [7]:
print('This is a test', file=s) 

In [8]:
#Получить все уже записанные данные
s.getvalue()

'Hello World\nThis is a test\n'

In [9]:
#Обернуть существующую строку файловым интерфейсом 
s = io.StringIO('Hello\nWorld\n')
s.read(4)

'Hell'

In [10]:
s.read()

'o\nWorld\n'

Класс io.StringIO должен быть использован только для работы с текстом. Если вы работаете с бинарными данными, используйте io.BytesIO.

In [11]:
s = io.BytesIO() 
s.write(b'binary data')
s.getvalue()

b'binary data'

Классы StringIO и BytesIO наиболее полезны в случаях, когда вам нужно подменить обычный файл. Например, в юнит-тестах вы могли бы использовать StringIO для создания файлоподобного объекта, содержащего тестовые данные, которые скармливаются функции, предназначенной для работы с файлами. Обратите внимание, что экземпляры StringIO и BytesIO не имеют настоящего целочисленного файлового дескриптора. Поэтому они не будут работать с программами, которые требуют использования настоящих системных файлов (файлов, каналов, сокетов). 

#  Чтение и запись сжатых файлов с данными 

Вам нужно прочесть или записать данные в файл, сжатый gzip или bz2. 

Модули gzip и bz2 делают работу с такими файлами очень легкой. Оба модуля предо ставляют альтернативную реализацию функции open(). Например, чтобы прочесть сжатые файлы как текст, сделайте так: 

In [None]:
# Сжатие с помощью gzip 
import gzip
with gzip.open('somefile.gz', 'rt') as f:
    text = f.read()

In [None]:
# Сжатие с помощью bz2 
import bz2
with bz2.open('somefile.bz2', 'rt') as f:
    text = f.read()

Как показано выше, весь ввод и вывод будет использовать текст и проводить кодирование/декодирование в Unicode. Если же вы хотите работать с бинарными данными, используйте файловый режим rb или wb. 

Чтение и запись сжатых данных по большей части просты. Однако стоит знать, что выбор правильного файлового режима критически важен. Если вы не обозначите режим явно, то будет выбран режим по умолчанию, то есть бинарный, а это сломает программы, которые ожидают получить текст. gzip.open() и bz2.open() принимают те же параметры, что и встроенная функция open(), включая encoding, errors, newline и т. д. При записи сжатых данных с помощью необязательного именованного аргумента compresslevel может быть установлен уровень компрессии.

In [None]:
with gzip.open('somefile.gz', 'wt', compresslevel=5) as f:     
    f.write(text)

Уровень по умолчанию – это 9, то есть наивысший. Более низкие уровни увеличивают скорость, но снижают степень сжатия данных.

И последнее: малоизвестная особенность gzip.open() и bz2.open() заключается в том, что они могут работать уровнем выше существующего файла, открытого в бинарном режиме. Например, такой код работает:


In [None]:
import 
 
f = open('somefile.gz', 'rb') 
with gzip.open(f, 'rt') as g:     
    text = g.read() 

Это позволяет модулям gzip и bz2 работать с различными файлоподобными объектами, такими как сокеты, каналы и файлы в оперативной памяти. 

#  Итерирование по записям фиксированного размера 

Вместо того чтобы итерировать по файлу построчно, вы хотите итерировать по коллекции записей фиксированного размера или кусочкам ("chunk"). 

Используйте функции iter() и functools.partial(), чтобы выполнить этот клевый фокус:


In [3]:
 with open('somefile777.data', 'w') as f:     
    f.write("Малоизвестная возможность функции iter() заключается в том, что она может создать итератор, если вы передадите ей вызываемый объект и пороговое значение. Получившийся итератор просто снова и снова вызывает предоставленный вызываемый объект, пока он не вернет пороговое значение, что приведет к завершению итерирования. В вышеприведенном решении functools.partial используется для создания вызываемого объекта, который читает фиксированное количество байтов из файла каждый раз, когда вызывается. Пороговое значение b'' – то, что будет возвращено при попытке чтения файла, когда будет достигнут его конец.")

In [4]:
from functools import partial 
 
RECORD_SIZE = 32 
 
with open('somefile777.data', 'rb') as f:     
    records = iter(partial(f.read, RECORD_SIZE), b'')     
    for r in records:  
        print(r)

b'\xcc\xe0\xeb\xee\xe8\xe7\xe2\xe5\xf1\xf2\xed\xe0\xff \xe2\xee\xe7\xec\xee\xe6\xed\xee\xf1\xf2\xfc \xf4\xf3\xed\xea\xf6\xe8'
b'\xe8 iter() \xe7\xe0\xea\xeb\xfe\xf7\xe0\xe5\xf2\xf1\xff \xe2\xa0\xf2\xee\xec, \xf7\xf2\xee '
b'\xee\xed\xe0 \xec\xee\xe6\xe5\xf2 \xf1\xee\xe7\xe4\xe0\xf2\xfc \xe8\xf2\xe5\xf0\xe0\xf2\xee\xf0, \xe5\xf1\xeb\xe8'
b' \xe2\xfb \xef\xe5\xf0\xe5\xe4\xe0\xe4\xe8\xf2\xe5 \xe5\xe9 \xe2\xfb\xe7\xfb\xe2\xe0\xe5\xec\xfb\xe9 \xee\xe1\xfa'
b'\xe5\xea\xf2 \xe8\xa0\xef\xee\xf0\xee\xe3\xee\xe2\xee\xe5 \xe7\xed\xe0\xf7\xe5\xed\xe8\xe5. \xcf\xee\xeb\xf3\xf7\xe8'
b'\xe2\xf8\xe8\xe9\xf1\xff \xe8\xf2\xe5\xf0\xe0\xf2\xee\xf0 \xef\xf0\xee\xf1\xf2\xee \xf1\xed\xee\xe2\xe0 \xe8\xa0\xf1'
b'\xed\xee\xe2\xe0 \xe2\xfb\xe7\xfb\xe2\xe0\xe5\xf2 \xef\xf0\xe5\xe4\xee\xf1\xf2\xe0\xe2\xeb\xe5\xed\xed\xfb\xe9 \xe2\xfb'
b'\xe7\xfb\xe2\xe0\xe5\xec\xfb\xe9 \xee\xe1\xfa\xe5\xea\xf2, \xef\xee\xea\xe0 \xee\xed \xed\xe5 \xe2\xe5\xf0\xed'
b'\xe5\xf2 \xef\xee\xf0\xee\xe3\xee\xe2\xee\xe5 \xe7\xed\xe0\xf7\xe

In [6]:
from functools import partial 
 
RECORD_SIZE = 10 
 
with open('somefile777.data', 'r') as f:     
    records = iter(partial(f.read, RECORD_SIZE), '')     
    for r in records:  
        print(r)

Малоизвест
ная возмож
ность функ
ции iter()
 заключает
ся в том, 
что она мо
жет создат
ь итератор
, если вы 
передадите
 ей вызыва
емый объек
т и порого
вое значен
ие. Получи
вшийся ите
ратор прос
то снова и
 снова выз
ывает пред
оставленны
й вызываем
ый объект,
 пока он н
е вернет п
ороговое з
начение, ч
то приведе
т к заверш
ению итери
рования. В
 вышеприве
денном реш
ении funct
ools.parti
al использ
уется для 
создания в
ызываемого
 объекта, 
который чи
тает фикси
рованное к
оличество 
байтов из 
файла кажд
ый раз, ко
гда вызыва
ется. Поро
говое знач
ение b'' –
 то, что б
удет возвр
ащено при 
попытке чт
ения файла
, когда бу
дет достиг
нут его ко
нец.


Объект records в этом примере является итерируемым; он будет производить кусочки фиксированного размера, пока не будет достигнут конец файла. Однако стоит отметить, что в последнем элементе может быть на несколько байтов меньше, чем ожидается, если размер файла не делится на точную длину размера записи. 

Малоизвестная возможность функции iter() заключается в том, что она может создать итератор, если вы передадите ей вызываемый объект и пороговое значение. Получившийся итератор просто снова и снова вызывает предоставленный вызываемый объект, пока он не вернет пороговое значение, что приведет к завершению итерирования. 

В вышеприведенном решении functools.partial используется для создания вызываемого объекта, который читает фиксированное количество байтов из файла каждый раз, когда вызывается. Пороговое значение b'' – то, что будет возвращено при попытке чтения файла, когда будет достигнут его конец. 

И последнее: в показанном выше решении файл был открыт в бинарном режиме. Для чтений записей фиксированного размера это является наиболее распространенным случаем. В случае же текстовых файлов более распространенным будет построчное чтение (итератор выполняет его по умолчанию). 

#  Чтение бинарных данных в изменяемый(мутабельный) буфер

Вы хотите читать бинарные данные непосредственно в изменяемый буфер без какого-либо промежуточного копирования. Возможно, вы хотите изменить данные
на месте и записать их обратно в файл.

Чтобы прочесть данные в  изменяемый массив, используйте файловый метод
readinto(). Например:

In [6]:
import os.path

In [10]:
def read_into_buffer(filename):
    buf =  bytearray(os.path.getsize(filename))
    with open(filename, 'rb') as f:
        f.readinto(buf)
        return buf

Вот пример использования:


In [11]:
# Записываем файл примера
with open('somefile555.txt', 'wb') as f:
    f.write(b'Hello Word')

In [12]:
buf = read_into_buffer('somefile555.txt')
buf

bytearray(b'Hello Word')

In [13]:
buf[0:5]

bytearray(b'Hello')

In [14]:
buf

bytearray(b'Hello Word')

In [16]:
with open('newsomefile555.txt', 'wb') as f:
    f.write(buf)

Метод readinto() может быть использован для заполнения данными любого предварительно выделенного (preallocated) массива. Это даже включает массивы, созданные с помощью модуля array или библиотек типа numpy. В отличие от обычного метода read(), метод readinto() заполняет содержание текущего буфера вместо
выделения и возвращения новых объектов. Так что вы можете использовать его,
чтобы избежать излишних выделений памяти. Например, если вы читаете бинарный файл, состоящий из записей одинакового размера, то можете написать такую программу:

In [None]:
record_size = 32

buf = bytearray(record_size)
with open('somefile', 'rb') as f:
    while True:
        n = f.readinto(buf)
        if n < record_size:
            break
            
        #Используем содержимое буфера
        

Еще одна интересная возможность – функция memoryview(), которая позволяет
делать срезы zero-copy1
 существующего буфера и даже менять его содержимое.
Например:

https://ru.wikipedia.org/wiki/Zero-copy

In [17]:
buf

bytearray(b'Hello Word')

In [18]:
m1 = memoryview(buf)

In [19]:
m2 = m1[-5:]
m2

<memory at 0x03DBE5E0>

In [23]:
m2[:] = b'WORLD'
buf

bytearray(b'HelloWORLD')

При использовании метода f.readinto() нужно соблюдать осторожность: вы
должны всегда проверять его код возврата, который является количеством фактически прочтенных байтов.
Если число байтов меньше размера предоставленного буфера, это может указывать на повреждение данных (например, если вы ожидали, что будет прочитано
точное количество байтов).

И последнее: посмотрите на другие функции типа «into» в различных библиотечных модулях (например, recv_into(), pack_into() и т. д.). 

Многие другие компоненты Python имеют поддержку прямого ввода-вывода и доступа к данным, которая
может быть использована для заполнения или изменения содержания массивов и буферов.

Далее будет приведен значительно более продвинутый пример интерпретации бинарных структур и использования представлений памяти (memoryviews)

https://stackoverflow.com/questions/15962119/using-bytearray-with-socket-recv-into

#  Отображаемые в память бинарные файлы

https://ru.wikipedia.org/wiki/%D0%9E%D1%82%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5_%D1%84%D0%B0%D0%B9%D0%BB%D0%B0_%D0%B2_%D0%BF%D0%B0%D0%BC%D1%8F%D1%82%D1%8C

Вы хотите отобразить в  память бинарный файл в  форме изменяемого массива
байтов – вероятно, для произвольного доступа к его содержимому или изменений
прямо на месте.

Используйте модуль mmap для отображения файлов в память. Вот полезная функция, с помощью которой можно открыть файл и отобразить его в память переносимым способом:

In [2]:
import os
import mmap

In [6]:
def memory_map(filename, access=mmap.ACCESS_WRITE):
    size = os.path.getsize(filename)
    fd = os.open(filename, os.O_RDWR)
    return mmap.mmap(fd, size, access=access)

Чтобы использовать эту функцию, вам нужен уже созданный и наполненный
данными файл. Вот пример того, как вы можете сначала создать файл и увеличить
его до нужного размера:

https://www.tutorialspoint.com/python/os_open.htm

In [7]:
size = 1000000
with open('data', 'wb') as f:
    f.seek(size-1)
    f.write(b'x00')

А вот пример отображения содержимого в память с помощью функции memory_
map():

In [8]:
m = memory_map('data')
len(m)

1000002

In [9]:
m[0:10]

b'\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00'

In [10]:
m[0]

0

In [12]:
# Переприсваивание среза
m[0:11] = b'Hello World'

In [13]:
m.close()

In [14]:
# Проверка того, что изменения были сделаны
with open('data', 'rb') as f:
    print(f.read(11))

b'Hello World'


Объект mmap, возвращаемый функцией mmap(), может быть также использован в качестве менеджера контекста. В этом случае отображенный файл закрывается автоматически. Например:

In [15]:
with memory_map('data') as m:
    print(len(m))
    print(m[0:10])

1000002
b'Hello Worl'


In [16]:
m.close

<function mmap.close>

По умолчанию показанная функция memory_map() открывает файл и на чтение,
и на запись. Любые изменения данных копируются в исходный файл. Если требуется организовать доступ только для чтения, предоставьте mmap.ACCESS_READ
в качестве аргумента access. Например:


In [None]:
#filename это 'data'
m = memory_map(filename, mmap.ACCESS_READ)

Если вы намерены локально изменять данные, но не хотите, чтобы изменения
записывались в исходный файл, используйте mmap.ACCESS_COPY:

In [None]:
m = memory_map(filename, mmap.ACCESS_COPY)

Использование mmap для отображения файлов в память может стать элегантным
и эффективным решением для произвольного доступа к содержимому файла. Например, вместо открытия файла и выполнения различных комбинаций вызовов
seek(), read() и write() вы просто отображаете файл и получаете доступ к любым
данным через операции извлечения срезов.
Обычно память, выделяемая mmap(), выглядит как объект bytearray. Однако вы
можете интерпретировать данные по-разному, используя функцию memoryview.
Например:

In [18]:
m = memory_map('data')

In [None]:
# Представление памяти беззнаковых целых чисел
v = memoryview(m).cast('I')
v[0] = 7
m[0:4]

In [None]:
m[0:4] = b'\x07\x01\x00\x00'
v[0]
#263

Стоит отметить, что отображение файла в память не вызывает чтения файла
в память целиком. Он не копируется в некий буфер памяти или массив. Вместо
этого операционная система выделяет участок виртуальной памяти под содержимое файла. По мере того как вы обращаетесь к различным участкам, эти куски
файла будут читаться и отображаться в участок памяти по мере необходимости.
Однако части файла, к  которым никогда не производился доступ, останутся на
диске.
Если не единственный интерпретатор Python отображает в память один и тот
же файл, получившийся объект mmap может быть использован для обмена данными между интерпретаторами. Интерпретаторы могут читать и  записывать
данные одновременно, и изменения, которые были сделаны в одном интерпретаторе, автоматически будут доступны в других. Очевидно, что синхронизация требует дополнительного внимания, но этот подход иногда используется в качестве
альтернативы передаче данных через каналы или сокеты.

Показанный выше рецепт написан максимально обобщенно, он работает
и в Windows, и в Unix. Однако стоит отметить, что есть специфические для каждой
платформы отличия в том, как «под капотом» работает mmap(). Также есть возможности по созданию анонимно отображенных участков памяти. Если вас это
интересует, прочтите соответствующий раздел документации Python1
.

https://docs.python.org/3/library/mmap.html

# Манипулирование путями к файлам

Вам нужно манипулировать путями к файлам, чтобы найти имя файла, название
каталога, абсолютный путь и т. д.

Для работы с  файловыми путями используйте функции из модуля os.path. Вот
пример, который иллюстрирует несколько ключевых возможностей:

In [1]:
import os

In [3]:
path = r'C:\Users\user\data'

In [4]:
# Получение последнего компонента пути
os.path.basename(path)
    

'data'

In [5]:
# Получение имени каталога
os.path.dirname(path)

'C:\\Users\\user'

In [6]:
# Соединение компонентов пути
os.path.join('tmp', 'data', os.path.basename(path))

'tmp\\data\\data'

In [None]:
# Раскрытие домашнего каталога пользователя
path = '~/user/data'

In [7]:
os.path.expanduser(path)

'C:\\Users\\user\\data'

In [9]:
# Отделение расширения файла
os.path.splitext(path)

('C:\\Users\\user\\data', '')

Для любых манипуляций с  именами файлов вы должны использовать модуль
os.path, а  не изобретать собственный код из стандартных строковых операций.
Во-первых, это важно для переносимости. Модуль os.path понимает различия
между Unix и Windows и  может надежно работать с  именами типа Data/data.csv
и Data\data.csv. Во-вторых, вы не должны тратить время на изобретение колеса.
Обычно лучше использовать готовые решения.

Стоит отметить, что в модуле os.path намного больше возможностей, чем показано в этом рецепте. Обратитесь к документации, чтобы узнать о функциях для
тестирования файлов, работы с символическими ссылками и тд

# Проверка существования файла


Вам нужно выяснить, существует ли файл или каталог

Используйте os.path, чтобы проверить, существует ли файл или каталог. Например:

In [10]:
import os
os.path.exists('/etc/passwd')

False

In [12]:
os.path.exists(r'C:\Users\user\data')

True

Вы можете выполнить дополнительные тесты, чтобы проверить тип файла. Эти
проверки возвращают False, если файл не существует:

In [13]:
# Это обычный файл?
os.path.isfile(r'C:\Users\user\data')

True

In [14]:
# Это каталог?
os.path.isdir(r'C:\Users\user\data')

False

In [15]:
# Это символическая ссылка?
os.path.islink(r'C:\Users\user\data')

False

In [16]:
# Получить прилинкованный файл
os.path.realpath(r'C:\Users\user\data')

'C:\\Users\\user\\data'

Если вам нужно получить метаданные (например, размер или дату изменения
файла), это тоже можно сделать с помощью модуля os.path:

In [17]:
os.path.getsize(r'C:\Users\user\data')

1000002

In [18]:
os.path.getmtime(r'C:\Users\user\data')

1576584624.7296865

In [21]:
import time
time.ctime(os.path.getmtime(r'C:\Users\user\data'))

'Tue Dec 17 12:10:24 2019'

Проверка файлов с помощью os.path становится очень простой операцией. Единственное, о чем стоит помнить, – так это о разрешениях, особенно при операциях
получения метаданных. Например:


In [None]:
#os.path.getsize('/Users/guido/Desktop/foo.txt')

# Получение содержимого каталога

Вы хотите получить список файлов, содержащихся в каталоге файловой системы.

Используйте функцию os.listdir() для получения списка файлов в каталоге:

In [1]:
import os
names = os.listdir(r'C:\Users\user\Desktop\tocit')

Вы получите «сырой» список содержимого каталога, включающий все файлы,
подкаталоги, символические ссылки и т. п. Если вам нужно как-то отфильтровать
эти данные, используйте генератор списков вместе с  различными функциями
библиотеки os.path(). Например:

In [2]:
import os.path
tocit = r'C:\Users\user\Desktop\tocit'
#Получить все обычные файлы
names = [name for name in os.listdir(tocit)
        if os.path.isfile(os.path.join(tocit, name))]

In [4]:
names

['.DS_Store',
 '.gitignore',
 'about.txt',
 'admin.py',
 'api.py',
 'index.py',
 'init-db',
 'models.py',
 'run.py',
 'settings.py',
 'test.py']

In [3]:
# Получить все каталоги
dirnames = [name for name in os.listdir(tocit)
           if os.path.isdir(os.path.join(tocit, name))]

In [5]:
dirnames

['.git', 'static', 'templates', 'utils', '__pycache__']

Строковые методы startswith() и endswith() также могут быть полезны для фильтрации содержимого каталога. Например:

In [6]:
pyfiles = [name for name in os.listdir(tocit)
          if name.endswith('.py')]
pyfiles

['admin.py',
 'api.py',
 'index.py',
 'models.py',
 'run.py',
 'settings.py',
 'test.py']

Для поиска совпадений по имени файла вы можете использовать модули glob
или fnmatch. Например:

In [11]:
import glob
pyfiles = glob.glob(os.path.join(tocit, '*.py'))
pyfiles

['C:\\Users\\user\\Desktop\\tocit\\admin.py',
 'C:\\Users\\user\\Desktop\\tocit\\api.py',
 'C:\\Users\\user\\Desktop\\tocit\\index.py',
 'C:\\Users\\user\\Desktop\\tocit\\models.py',
 'C:\\Users\\user\\Desktop\\tocit\\run.py',
 'C:\\Users\\user\\Desktop\\tocit\\settings.py',
 'C:\\Users\\user\\Desktop\\tocit\\test.py']

In [12]:
from fnmatch import fnmatch
pyfile = [name for name in os.listdir(tocit)
         if fnmatch(name, '*.py')]
pyfile

['admin.py',
 'api.py',
 'index.py',
 'models.py',
 'run.py',
 'settings.py',
 'test.py']

In [14]:
from fnmatch import fnmatch
pyfile = [name for name in os.listdir(tocit)
         if fnmatch(name, 'set*')]
pyfile

['settings.py']

In [16]:
from fnmatch import fnmatch
pyfile = [name for name in os.listdir(tocit)
         if fnmatch(name, 'test*')]
pyfile

['test.py']

Получить содержимое каталога просто, но эта операция дает вам просто имена
элементов в каталоге. Если вы хотите получить дополнительные метаданные, такие как размеры файлов, даты изменений и т. д., вам нужны либо дополнительные функции модуля os.path, либо функция os.stat(). Например:


In [22]:
# Пример получения содержимого каталога
import os
import os.path
import glob


pyfiles = glob.glob(os.path.join(tocit, '*.py'))

Получение размеров файлов и дат модификации

In [24]:
name_sz_date = [(name, os.path.getsize(name), os.path.getmtime(name))
    for name in pyfiles]

for name, size, mtime in name_sz_date:
    print(name, size, mtime)
    
#print(pyfiles)

C:\Users\user\Desktop\tocit\admin.py 4933 1575554599.9916384
C:\Users\user\Desktop\tocit\api.py 19560 1575554599.9926395
C:\Users\user\Desktop\tocit\index.py 4811 1575554599.9926395
C:\Users\user\Desktop\tocit\models.py 7830 1575554599.9936404
C:\Users\user\Desktop\tocit\run.py 3350 1575554599.9946408
C:\Users\user\Desktop\tocit\settings.py 257 1575554599.9946408
C:\Users\user\Desktop\tocit\test.py 421 1575554600.0366712


In [25]:
# Альтернатива: получение метаданных
file_metadata = [(name, os.stat(name)) for name in pyfiles]
for name, meta in file_metadata:
    print(name, meta.st_size, meta.st_mtime)

C:\Users\user\Desktop\tocit\admin.py 4933 1575554599.9916384
C:\Users\user\Desktop\tocit\api.py 19560 1575554599.9926395
C:\Users\user\Desktop\tocit\index.py 4811 1575554599.9926395
C:\Users\user\Desktop\tocit\models.py 7830 1575554599.9936404
C:\Users\user\Desktop\tocit\run.py 3350 1575554599.9946408
C:\Users\user\Desktop\tocit\settings.py 257 1575554599.9946408
C:\Users\user\Desktop\tocit\test.py 421 1575554600.0366712


И последнее: в работе с именами файлов есть тонкие моменты, связанные с кодировками. Обычно записи, возвращаемые функциями типа os.listdir(), декодируются согласно установленной по умолчанию в системе кодировке имен файлов.
Однако возможно, что при некоторых обстоятельствах вам придется столкнуться
с недекодируемыми именами файлов. 

https://www.tutorialspoint.com/python/os_stat.htm

#  Обход кодировки имен файлов

Вы хотите выполнить операции ввода-вывода, используя «сырые» имена файлов, которые не декодируются и не кодируются с помощью системной кодировки
имен файлов по умолчанию.

По умолчанию все имена файлов кодируются и декодируются согласно кодировке,
возвращаемой sys.getfilesystemencoding(). Например:

In [15]:
import sys
sys.getfilesystemencoding()

'utf-8'

Если вы по какой-то причине хотите обойти эту кодировку, определите имя
файла, используя «сырую» строку байтов. Например:

In [16]:
# Запись файла с использованием имени в Unicode
with open('jalape\xf1o.txt', 'w') as f:
    f.write('Spicy')

In [17]:
# Содержимое каталога (декодировано)
import os
os.listdir('.')

['.anaconda',
 '.atom',
 '.conda',
 '.condarc',
 '.gitconfig',
 '.idlerc',
 '.ipynb_checkpoints',
 '.ipython',
 '.jupyter',
 '.pgAdmin4.1057243102.addr',
 '.pgAdmin4.1057243102.log',
 '.pgAdmin4.startup.log',
 'AppData',
 'Application Data',
 'Contacts',
 'Cookies',
 'data',
 'Desktop',
 'Documents',
 'Downloads',
 'Favorites',
 'GCSE_Computer_Science_10_The_internet.ipynb',
 'GCSE_Computer_Science_11_Software.ipynb',
 'GCSE_Computer_Science_12_Systems_software.ipynb',
 'GCSE_Computer_Science_13_Computational_thinking_and_algorithms.ipynb',
 'GCSE_Computer_Science_14_Programming_techniques.ipynb',
 'GCSE_Computer_Science_15_Writing_reliable_programs.ipynb',
 'GCSE_Computer_Science_16_Data_representation_conversion_and_arithmetic.ipynb',
 'GCSE_Computer_Science_17_Logic.ipynb',
 'GCSE_Computer_Science_18_Translators_and_proogramming_tools.ipynb',
 'GCSE_Computer_Science_19_Legal_ethical_cultural_and_environmental_issues.ipynb',
 'GCSE_Computer_Science_1_The importance_of_computational_t

In [19]:
# Содержимое каталога (сырое)
os.listdir(b'.')   #байтовая строка

[b'.anaconda',
 b'.atom',
 b'.conda',
 b'.condarc',
 b'.gitconfig',
 b'.idlerc',
 b'.ipynb_checkpoints',
 b'.ipython',
 b'.jupyter',
 b'.pgAdmin4.1057243102.addr',
 b'.pgAdmin4.1057243102.log',
 b'.pgAdmin4.startup.log',
 b'AppData',
 b'Application Data',
 b'Contacts',
 b'Cookies',
 b'data',
 b'Desktop',
 b'Documents',
 b'Downloads',
 b'Favorites',
 b'GCSE_Computer_Science_10_The_internet.ipynb',
 b'GCSE_Computer_Science_11_Software.ipynb',
 b'GCSE_Computer_Science_12_Systems_software.ipynb',
 b'GCSE_Computer_Science_13_Computational_thinking_and_algorithms.ipynb',
 b'GCSE_Computer_Science_14_Programming_techniques.ipynb',
 b'GCSE_Computer_Science_15_Writing_reliable_programs.ipynb',
 b'GCSE_Computer_Science_16_Data_representation_conversion_and_arithmetic.ipynb',
 b'GCSE_Computer_Science_17_Logic.ipynb',
 b'GCSE_Computer_Science_18_Translators_and_proogramming_tools.ipynb',
 b'GCSE_Computer_Science_19_Legal_ethical_cultural_and_environmental_issues.ipynb',
 b'GCSE_Computer_Science_1_T

In [21]:
with open(b'jalape\xc3\xb1o.txt') as f:
    print(f.read())

Spicy


Как вы можете видеть в двух последних операциях, обращение с именами файлов немного меняется, когда байтовые строки передаются связанным с файлами
функциям, таким как open() и os.listdir().

В обычных обстоятельствах вам не нужно волноваться о кодировании и декодировании имен файлов – обычные операции с именами файлов «просто работают».
Однако многие операционные системы могут позволить пользователю случайно
или по злому умыслу создать файлы, которые не соответствуют ожидаемым правилам кодировки. Такие имена файлов могут загадочным образом сломать программы на Python, которые работают с большим количеством файлов.
Чтение каталогов и работа с именами файлов как сырыми недекодированными
байтами может решить эту проблему, хотя и за счет некоторых неудобств при программировании

# Вывод "плохих" имен файлов

Ваша программа получила список содержимого каталога, но когда она попыталась вывести эти имена файлов, то упала с исключением UnicodeEncodeError и загадочным сообщением “surrogates not allowed”. 

При выводе имен файлов неизвестного происхождения используйте преобразование, чтобы избежать ошибок:

In [None]:
def bad_filename(filename):
    return repr(filename)[1:-1]

try: 
    print(filename)
except UnicodeEncodeError:
    print(bad_filename(filename))

Этот рецепт решает редкую, но очень раздражающую проблему, которая касается программ, работающих с файловой системой. По умолчанию Python предполагает, что все имена файлов закодированы согласно установке, которая возвращается функцией sys.getfilesystemencoding(). 

Однако некоторые файловые системы не заставляют соблюдать это ограничение, позволяя создавать файлы с неправильной кодировкой. Это не частый случай, но все же есть опасность, что некий пользователь сделает что-то глупое и случайно создаст такой файл (например, передаст неправильное имя файла функции open() в какой-то забагованной программе). 

При выполнении команд типа os.listdir() неправильные имена файлов загоняют Python в безвыходную ситуацию. С одной стороны, он не может просто отбросить неправильное имя. С другой стороны, он не может превратить имя файла в правильную текстовую строку. Python действует так: берет недекодируемое байтовое значение \xhh в имени файла и отображает его в так называемую «суррогатную кодировку», представленную символом Unicode \udchh. 

Вот пример того, как неправильный список содержимого каталога может выглядеть, если он содержит имя файла bäd.txt, закодированное в Latin-1 вместо UTF-8: 

In [1]:
import os
files = os.listdir('.')
files

['.anaconda',
 '.atom',
 '.babel.json',
 '.bash_history',
 '.conda',
 '.condarc',
 '.config',
 '.git',
 '.gitconfig',
 '.idea',
 '.idlerc',
 '.ipfs',
 '.ipynb_checkpoints',
 '.ipython',
 '.jupyter',
 '.keras',
 '.local',
 '.matplotlib',
 '.node-gyp',
 '.node_repl_history',
 '.PyCharm2017.2',
 '.PyCharmCE2017.2',
 '.ssh',
 '.surprise_data',
 '.viminfo',
 '.windows-build-tools',
 '001-colorspace.ipynb',
 '001-filtering.ipynb',
 '001-medianfilter.ipynb',
 '001-sobel.ipynb',
 '002-cbir.ipynb',
 '002-digit.ipynb',
 '002-digit_old.ipynb',
 '002-matching.ipynb',
 '002-pca.ipynb',
 '003-graphcut.ipynb',
 '003-tracking.ipynb',
 '003-viola-jones.ipynb',
 '003-watershed.ipynb',
 '004-classification.ipynb',
 '004-logic.ipynb',
 '004-mnist.ipynb',
 '004-regression.ipynb',
 '005-cnn-mnist.ipynb',
 '005-neural-style.ipynb',
 '006-dogs-vs-cats.ipynb',
 '007-detection.ipynb',
 '007-segmentation.ipynb',
 '1 decision trees.ipynb',
 '1. kNN.ipynb',
 '1_boston.ipynb',
 '1_intro.ipynb',
 '2 competition.ipyn

Если у вас есть код, который манипулирует именами файлов или даже передает их функциям (таким как open()), все работает нормально. Вы попадете в неприятности только в ситуациях, где вы хотите вывести имя файла (вывод, логирование и т. п.). Ваша программа упадет, если вы захотите вывести показанный выше список: 

In [2]:
for name in files:
    print(name)

.anaconda
.atom
.babel.json
.bash_history
.conda
.condarc
.config
.git
.gitconfig
.idea
.idlerc
.ipfs
.ipynb_checkpoints
.ipython
.jupyter
.keras
.local
.matplotlib
.node-gyp
.node_repl_history
.PyCharm2017.2
.PyCharmCE2017.2
.ssh
.surprise_data
.viminfo
.windows-build-tools
001-colorspace.ipynb
001-filtering.ipynb
001-medianfilter.ipynb
001-sobel.ipynb
002-cbir.ipynb
002-digit.ipynb
002-digit_old.ipynb
002-matching.ipynb
002-pca.ipynb
003-graphcut.ipynb
003-tracking.ipynb
003-viola-jones.ipynb
003-watershed.ipynb
004-classification.ipynb
004-logic.ipynb
004-mnist.ipynb
004-regression.ipynb
005-cnn-mnist.ipynb
005-neural-style.ipynb
006-dogs-vs-cats.ipynb
007-detection.ipynb
007-segmentation.ipynb
1 decision trees.ipynb
1. kNN.ipynb
1_boston.ipynb
1_intro.ipynb
2 competition.ipynb
2. barley-break.ipynb
2_classification.ipynb
2_newspapers.ipynb
2_RussianNER.ipynb
2_syntax.ipynb
2_titanic.ipynb
3 metrics.ipynb
3. Levenshtein distance.ipynb
3D Objects
4 vedomosti parsing.ipynb
4. Jaccard.

Причина падения в том, что символ \udce4 не является валидным в Unicode. Это вторая половина двухсимвольной комбинации, известной как «суррогатная пара». Поскольку первая часть отсутствует, это не валидный Unicode. Поэтому единственный способ успешно произвести вывод – предпринять корректирующее действие, если встретится неправильное имя файла. Например: 

In [3]:
for name in files:
    try:
        print(name)
    except UniccodeEncodeError:
        print(bad_filename(name))

.anaconda
.atom
.babel.json
.bash_history
.conda
.condarc
.config
.git
.gitconfig
.idea
.idlerc
.ipfs
.ipynb_checkpoints
.ipython
.jupyter
.keras
.local
.matplotlib
.node-gyp
.node_repl_history
.PyCharm2017.2
.PyCharmCE2017.2
.ssh
.surprise_data
.viminfo
.windows-build-tools
001-colorspace.ipynb
001-filtering.ipynb
001-medianfilter.ipynb
001-sobel.ipynb
002-cbir.ipynb
002-digit.ipynb
002-digit_old.ipynb
002-matching.ipynb
002-pca.ipynb
003-graphcut.ipynb
003-tracking.ipynb
003-viola-jones.ipynb
003-watershed.ipynb
004-classification.ipynb
004-logic.ipynb
004-mnist.ipynb
004-regression.ipynb
005-cnn-mnist.ipynb
005-neural-style.ipynb
006-dogs-vs-cats.ipynb
007-detection.ipynb
007-segmentation.ipynb
1 decision trees.ipynb
1. kNN.ipynb
1_boston.ipynb
1_intro.ipynb
2 competition.ipynb
2. barley-break.ipynb
2_classification.ipynb
2_newspapers.ipynb
2_RussianNER.ipynb
2_syntax.ipynb
2_titanic.ipynb
3 metrics.ipynb
3. Levenshtein distance.ipynb
3D Objects
4 vedomosti parsing.ipynb
4. Jaccard.

Выбор того, что будет делать функция bad_filename(), во многом зависит от вас. Другая возможность – как-то перекодировать значение: 

In [4]:
def bad_filename(filename):
    temp = filename.encode(sys.getfilesystemencoding(), \
                          errors = 'surrogateescape')
    return temp.decode('latin-1')

При использовании этой версии вы получите следующее: 

In [5]:
for name in files:
    try:
        print(name)
    except UniccodeEncodeError:
        print(bad_filename(name))

.anaconda
.atom
.babel.json
.bash_history
.conda
.condarc
.config
.git
.gitconfig
.idea
.idlerc
.ipfs
.ipynb_checkpoints
.ipython
.jupyter
.keras
.local
.matplotlib
.node-gyp
.node_repl_history
.PyCharm2017.2
.PyCharmCE2017.2
.ssh
.surprise_data
.viminfo
.windows-build-tools
001-colorspace.ipynb
001-filtering.ipynb
001-medianfilter.ipynb
001-sobel.ipynb
002-cbir.ipynb
002-digit.ipynb
002-digit_old.ipynb
002-matching.ipynb
002-pca.ipynb
003-graphcut.ipynb
003-tracking.ipynb
003-viola-jones.ipynb
003-watershed.ipynb
004-classification.ipynb
004-logic.ipynb
004-mnist.ipynb
004-regression.ipynb
005-cnn-mnist.ipynb
005-neural-style.ipynb
006-dogs-vs-cats.ipynb
007-detection.ipynb
007-segmentation.ipynb
1 decision trees.ipynb
1. kNN.ipynb
1_boston.ipynb
1_intro.ipynb
2 competition.ipynb
2. barley-break.ipynb
2_classification.ipynb
2_newspapers.ipynb
2_RussianNER.ipynb
2_syntax.ipynb
2_titanic.ipynb
3 metrics.ipynb
3. Levenshtein distance.ipynb
3D Objects
4 vedomosti parsing.ipynb
4. Jaccard.

#  Добавление или изменение кодировки уже открытого файла 

Вы хотите добавить или изменить кодировку Unicode уже открытого файла, не закрывая его.

Если вы хотите добавить кодирование/декодирование в Unicode уже существующему файловому объекту, открытому в бинарном режиме, оберните его объектом io.TextIOWrapper(). Например: 

In [1]:
import urllib.request
import io

In [2]:
u = urllib.request.urlopen('http://www.python.org')
f = io.TextIOWrapper(u, encoding='utf-8')
text = f.read()

In [3]:
len(text)

48687

Если вы хотите изменить кодировку файла, открытого в текстовом режиме, используйте метод detach() для удаления существующего слоя текстовой кодировки перед заменой его новым. Вот пример изменения кодировки в sys.stdout: 

In [None]:
stdout = sys.stdout

In [4]:
import sys
sys.stdout.encoding

'UTF-8'

In [5]:
sys.stdout = io.TextIOWrapper(sys.stdout.detach(), encoding='latin-1')
sys.stdout.encoding

UnsupportedOperation: detach

Если вы это сделаете, то можете «сломать» вывод вашего терминала. Приведенный выше пример – это просто иллюстрация подхода. 

Система ввода-вывода построена на последовательности слоев. Вы можете увидеть эти слои, если попробуете сделать следующее: 

In [6]:
f = open('book1.txt', 'w')
f

<_io.TextIOWrapper name='book1.txt' mode='w' encoding='cp1251'>

In [7]:
f.buffer

<_io.BufferedWriter name='book1.txt'>

In [8]:
f.buffer.raw

<_io.FileIO name='book1.txt' mode='wb' closefd=True>

В этом примере io.TextIOWrapper – это слой для обработки текста, который кодирует и декодирует в Unicode, ioBufferedWriter – буферизированный слой ввода-вывода, который работает с бинарными данными, а ioFileIO – «сырой файл», представляющий низкоуровневый файловый дескриптор в операционной системе. 

Добавление или изменение текстовой кодировки вовлекает добавление и изменение только верхнего слоя – io.TextIOWrapper. Общее правило: небезопасно напрямую манипулировать слоями, используя показанные выше атрибуты. Например, вот что произойдет, если вы попытаетесь изменить кодировку с помощью этого приема:

In [9]:
f

<_io.TextIOWrapper name='book1.txt' mode='w' encoding='cp1251'>

In [10]:
f = io.TextIOWrapper(f.buffer, encoding='latin-1')
f

<_io.TextIOWrapper name='book1.txt' encoding='latin-1'>

In [13]:
f = io.TextIOWrapper(f.buffer, encoding='latin-1')
f

<_io.TextIOWrapper name='book1.txt' encoding='latin-1'>

In [14]:
f.write('Hello')

5

In [15]:
f.close()

Метод detach() отделяет верхний слой файла и возвращает следующий, более низкоуровневый слой. Далее высший слой уже нельзя использовать. Например: 

In [16]:
f = open('book2.txt', 'w')
f

<_io.TextIOWrapper name='book2.txt' mode='w' encoding='cp1251'>

In [17]:
b = f.detach()
b

<_io.BufferedWriter name='book2.txt'>

In [18]:
f.write('hello')

ValueError: underlying buffer has been detached

Однако после отделения вы можете добавить новый верхний слой возвращаемому результату. Например: 

In [19]:
f = io.TextIOWrapper(b, encoding='latin-1')
f

<_io.TextIOWrapper name='book2.txt' encoding='latin-1'>

Хотя здесь мы показали изменение кодировки, этот прием может быть использован для изменения обработки строк, политики обработки ошибок и других аспектов работы с файлами. Например: 

In [20]:
sys.stdout = io.TextIOWrapper(sys.stdout.detach(), encoding='ascii', errors='xmlcharrefreplace')
print('Jalape\u00f1o')

UnsupportedOperation: detach

Заметьте, как не входящий в ASCII символ ñ был заменен на &#241; в выводе. 5.17. запись байтов 

# Запись байтов в текстовый файл 

Вы хотите записать «сырые» байты в файл, открытый в текстовом режиме.

Просто запишите байтовые данные в buffer. Например: 

In [21]:
#в терминале так не работает
import sys
sys.stdout.write(b'Hello\n')

Hello


In [22]:
#в терминале так работает
sys.stdout.buffer.write(b'Hello\n')

AttributeError: 'OutStream' object has no attribute 'buffer'

Похожим образом бинарные данные могут быть прочитаны из текстового файла путем чтения из атрибута buffer. 

Система ввода-вывода построена на слоях. Текстовые файлы конструируются путем добавления слоя кодирования/декодирования в Unicode поверх буферизованного файла, открытого в бинарном режиме. Атрибут buffer просто ссылается на этот файл. Если вы обращаетесь к нему, то обходите слой текстового кодирования/ декодирования. Пример с sys.stdout может быть рассмотрен как особый случай. По умолчанию sys.stdout всегда открывается в текстовом режиме. Однако если вы пишете скрипт, которому на самом деле нужно сбрасывать бинарные данные в стандартный вывод, то можете использовать показанный прием для обхода текстовой кодировки. 

#  Оборачивание существующего дескриптора файла для использования в качестве объекта файла 

У вас есть целочисленный файловый дескриптор, соответствующий уже открытому каналу ввода­вывода операционной системы (например, файлу, каналу, сокету и т. п.), и вы хотите обернуть его высокоуровневым объектом файла Python. 

Файловый дескриптор отличается от обычного открытого файла тем, что это просто целочисленный идентификатор, назначенный операционной системой, чтобы ссылаться на какой-то системный канал ввода-вывода. 

Если у вас есть дескриптор, вы можете обернуть его файловым объектом Python с помощью функции open(). Вы просто предоставляете целочисленный файловый дескриптор в качестве первого аргумента (вместо имени файла). Например: 

In [5]:
# Открыть низкоуровневый файловый дескриптор 
import os
fd = os.open('book2.txt', os.O_WRONLY | os.O_CREAT)

In [3]:
# Превратить в настоящий файл 
f = open(fd, 'wt')
f.write('hello word\n')
f.close()

Когда высокоуровневый файловый объект закрывается или разрушается, его файловый дескриптор тоже будет закрыт. Если это нежелательное поведение, передайте необязательный аргумент closefd=False функции open(). Например: 

In [6]:
# Создать файловый объект, но не закрывать дескриптор по завершении 
f = open(fd, 'wt', closefd=False)

In [7]:
f.close()

In [8]:
os.close(fd)

В Unix этот прием оборачивания файлового дескриптора может быть удобным способом для подключения файлоподобного интерфейса на существующий канал ввода-вывода, открытый другим способом (например, каналы, сокеты и т. д.). Вот пример с использованием сокетов:

In [9]:
from socket import socket, AF_INET, SOCK_STREAM

In [10]:
def echo_client(client_sock, addr):
    print('Got connection from', addr)
    #Создать файловые обертки текстового режима для чтения/записи в сокет
    
    client_in =  open(client_sock.fileno(), 'rt', encoding='latin-1', closefd=False) 
    client_out = open(client_sock.fileno(), 'wt', encoding='latin-1', closefd=False)
    
    #Отправить клиенту, используя Echo-строки, применяя файловый ввод-вывод 
    for line in client_in:
        client_out.write(line)
        client_out.flush()
    client_sock.close()
        
        

In [11]:
def echo_server(address):
    sock = socket(AF_INET, SOCK_STREAM)
    sock.bind(address)
    sock.listen(1)
    while True:
        client, addr = sock.accept()
        echo_client(client, addr)

Важно подчеркнуть, что вышеприведенный пример нужен только для иллюстрации возможностей встроенной функции open(), и он работает kbim в Unix. 

Если вы пытаетесь применить файлоподобный интерфейс к сокету и хотите, чтобы ваш код был кроссплатформенным, используйте метод сокета makefile(). 

Однако если переносимость вас не беспокоит, вы можете обнаружить, что представленное выше решение обладает намного большей производительностью, нежели makefile().

Вы также можете использовать этот прием для создания псевдонима, который позволит уже открытому файлу использоваться немного другим способом, нежели тот, каким он был изначально открыт. 

Например, вот так вы можете создать файловый объект, который позволит выводить бинарные данные в stdout (который по умолчанию открыт в текстовом режиме): 

In [None]:
import sys
#Создать файл в бинарном режиме для stdout 

bstdout = open(sys.stdout.fileno(), 'wb', closefd=False) 
bstdout.write(b'Hello World\n') 
bstdout.flush() 


Хотя можно обернуть существующий файловый дескриптор и использовать его в качестве настоящего файла, обратите внимание, что не все файловые режимы могут поддерживаться и что некоторые типы файловых дескрипторов могут обладать забавными побочными эффектами (особенно по отношению к обработке ошибок, условиям достижения конца файла и т. д.). 

Это поведение также может изменяться в зависимости от операционной системы. В частности, ни один из приведенных примеров не будет работать за пределами Unix. Суть в том, что вам нужно тщательно тестировать свою реализацию, чтобы убедиться в том, что она работает так, как вы ожидаете. 

# Создание временных файлов и каталогов 

Вам нужно создать временный файл или каталог, которые будут использоваться во время выполнения вашей программы. После, возможно, вы захотите, чтобы они были удалены. 

В модуле tempfile есть различные функции, которые помогут решить эту задачу. Чтобы создать безымянный временный файл, используйте tempfile.T

In [1]:
from tempfile import TemporaryFile

with TemporaryFile('w+t') as f:
    #Чтение/запись в файл 
    f.write('Hello World\n')
    f.write('Testing\n')
    
    #Перейти в начало и прочесть данные 
    f.seek(0)
    data = f.read()
    
#Временный файл уничтожен 

In [2]:
data

'Hello World\nTesting\n'

Также вы можете использовать файл таким образом: 

In [3]:
f = TemporaryFile('w+t')
#Использовать временный файл 
f.close()

Первый аргумент, передаваемый в TemporaryFile(), – это режим файла: обычно для текстовых файлов это w+t, а для бинарных – w+b. Этот режим одновременно поддерживает чтение и запись, что в данном случае полезно, поскольку закрытие файла для смены режима разрушило бы его. TemporaryFile() дополнительно принимает те же аргументы, что и встроенная функция open(). Например: 

In [None]:
with TemporaryFile('w+t', encoding='utf-8', errors='ignore') as f:
    

На большинстве Unix-систем файл, созданный функцией TemporaryFile(), является безымянным и даже не имеет местоположения в каталоге. Если вы хотите преодолеть это ограничение, используйте NamedTemporaryFile(). Например: 

In [4]:
from tempfile import NamedTemporaryFile

with NamedTemporaryFile('w+t') as f:
    print('filename is:', f.name)
    
# Файл автоматически уничтожается     

filename is: C:\Users\user\AppData\Local\Temp\tmpify1e489


Здесь атрибут f.name открытого файла содержит имя временного файла. Это может быть полезно, если оно передается какой-то другой программе, которой нужно будет открыть этот файл. Как и в случае TemporaryFile(), получившийся файл будет автоматически уничтожен после закрытия. Если вы не хотите, чтобы это произошло, передайте в функцию именованный аргумент delete=False. Например: 

In [5]:
with NamedTemporaryFile('w+t', delete=False) as f:
    print('filename is:', f.name)

filename is: C:\Users\user\AppData\Local\Temp\tmp876w2ex5


Чтобы создать временный каталог, используйте tempfile.TemporaryDirectory(). Например: 

In [6]:
from tempfile import TemporaryDirectory
with TemporaryDirectory() as dirname:
    print('dirname is:', dirname)
    #Использовать каталог 
    
# Каталог и все его содержимое уничтожается 

dirname is: C:\Users\user\AppData\Local\Temp\tmptt5qh2ya


Функции TemporaryFile(), NamedTemporaryFile() и TemporaryDirectory() – вероятно, самый удобный способ работы с временными файлами и каталогами, потому что они автоматически управляются со всеми шагами создания и последующей чистки. На низком уровне вы также можете использовать mkstemp() и mkdtemp() для создания временных файлов и каталогов: 

In [7]:
import tempfile
#создание временного файла
tempfile.mkstemp()

(4, 'C:\\Users\\user\\AppData\\Local\\Temp\\tmp5592jbmo')

In [8]:
#создание временной директории
tempfile.mkdtemp()

'C:\\Users\\user\\AppData\\Local\\Temp\\tmpx2lxs5_3'

Однако эти функции не заботятся о  последующем управлении. Например, функция mkstemp() просто возвращает сырой файловый дескриптор операционной системы и оставляет всю работу по превращению его в настоящий файл вам. Похожим образом вам нужно самостоятельно удалять файлы. Обычно временные файлы создаются в определенном операционной системой месте сохранения по умолчанию, таком как /var/tmp и т. п. Чтобы получить путь, используйте функцию tempfile.gettempdir(). Например: 

In [9]:
tempfile.gettempdir()

'C:\\Users\\user\\AppData\\Local\\Temp'

Все функции, связанные с временными файлами, позволяют вам менять этот каталог и принципы именования файлов с помощью именованных аргументов prefix, suffix и dir. Например: 

In [10]:
f = NamedTemporaryFile(prefix='mytemp', suffix='.txt', dir='/tmp')
f.name

'C:\\tmp\\mytempn8vo5vtm.txt'

И последнее: модуль tempfile() создает временные файлы наиболее безопасным способом из всех возможных. Это включает предоставление доступа только текущему пользователю и предпринятие шагов, предотвращающих состояние гонки (race condition) при создании файлов. Однако стоит знать, что на различных платформах этот модуль работает по-разному. Чтобы уточнить свое понимание, обратитесь к официальной документации1. 

# Работа с последовательными портами

Вы хотите читать и  записывать данные в  последовательный порт. Обычно это
нужно для взаимодействия с каким-то устройством (например, роботом или сенсором).

Хотя вы могли бы сделать это напрямую, используя примитивы ввода-вывода
Python, лучшим выбором для последовательного взаимодействия является пакет
pySerial. 

Начать работать с пакетом очень легко. Вы просто открываете последовательный порт:

In [2]:
import serial

In [None]:
ser = serial.Serial('/dev/tty.usbmodem641', baudrate=9600, bytesize=8, parity='N', stopbits=1)

Имя устройства меняется в зависимости от его типа и операционной системы.
Например, в Windows вы можете использовать устройство 0, 1 и т. д., чтобы открыть такие порты, как “COM0” и “COM1”. Когда они открыты, вы можете читать
и записывать данные, используя вызовы read(), readline() и write(). Например:

In [None]:
ser.write(b'G1 X50 Y50\r\n')
resp = ser.readline()

По большей части простой последовательный обмен данными весьма незамысловат.

Простая на первый взгляд, последовательная коммуникация все же может быть
достаточно запутанной. 

Причина использовать пакеты типа pySerial в том, что
они поддерживают продвинутые возможности (например, тайм-ауты, контроль
потока, сбрасывание буфера, хендшейкинг и  т. п.). 

Например, если вы хотите
включить RTS-CTS-хендшейкинг, просто передайте Serial() аргумент rtscts=True.

У пакета отличная документация, поэтому нет смысла ее здесь пересказывать.
Помните, что весь ввод-вывод с использованием последовательных портов является бинарным. Поэтому убедитесь, что ваша программа использует байты, а не
текст (или производит правильное кодирование/декодирование). 

Модуль struct
может также оказаться полезным, если вам нужно будет создавать бинарные команды или пакеты.

#  Сериализация объектов Python

Вам нужно сериализировать объект Python в поток байтов, чтобы вы смогли сохранить их в файл либо базу данных или же передать их по сети.

Наиболее распространенный подход к сериализации данных – это использование
модуля pickle. Чтобы сохранить объект в файл, сделайте так:

In [1]:
import pickle

In [2]:
data = {'a': 1, 'b': 2, 'c': 3}

In [3]:
f = open('pickle-file', 'wb')
pickle.dump(data, f)

Чтобы сохранить объект в строку, используйте pickle.dumps():

In [4]:
s = pickle.dumps(data)

Чтобы воссоздать объект из потока байтов (byte stream), используйте либо
pickle.load(), либо pickle.loads(). Например:

In [6]:
# Восстановление из файла
f = open('pickle-file', 'rb')
data = pickle.load(f)

In [None]:
# Восстановление из строки
data = pickle.loads(s)

Для большинства программ использование функций dump() и load() – все, что требуется от модуля pickle. Он «просто работает» – с  большинством типов данных
Python и экземплярами ваших собственных классов. 

Если вы работаете с какой-либо библиотекой, которая позволяет вам делать такие вещи, как сохранение
и восстановление объектов Python в базах данных или передача объектов по сети,
то очень велик шанс, что именно pickle используется для этого.

pickle – это самоописывающаяся кодировка данных, специфическая для Python.

Под самоописыванием мы подразумеваем, что сериализованные данные содержат информацию о начале и конце каждого объекта, а также и информацию об их
типе. 

Поэтому вам не нужно переживать об определении формата записей – все
работает «из коробки». Например, при работе с несколькими объектами вы можете сделать так:

In [7]:
import pickle
f = open('pickle-file1', 'wb')
pickle.dump([1, 2, 3, 4], f)
pickle.dump('hello', f)
pickle.dump({'Apple', 'Pear', 'Banana'}, f)
f.close()

In [8]:
f = open('pickle-file1', 'rb')
pickle.load(f)

[1, 2, 3, 4]

In [9]:
pickle.load(f)

'hello'

In [10]:
pickle.load(f)

{'Apple', 'Banana', 'Pear'}

Вы можете сериализировать функции, классы и  экземпляры, однако получающиеся данные кодируют только имена ссылок на связанные объекты кода. Например:

In [11]:
import math
import pickle
#dump - запись файла, dumps - запись переменной
pickle.dumps(math.cos)

b'\x80\x03cmath\ncos\nq\x00.'

Когда данные десериализуются, то предполагается, что требуемый источник
доступен. Модули, классы и функции будут автоматически импортированы при
необходимости. 

Для приложений, где данные Python разделяются между интерпретаторами или разными компьютерами, это потенциально может оказаться
проблемой, поскольку все машины должны иметь доступ к одному и тому же исходному коду.

pickle.load() никогда нельзя использовать на данных из непроверенных источников. В качестве побочного эффекта загрузки pickle автоматически загрузит
модули и создаст экземпляры. 

Однако злоумышленник, который знает принцип
работы pickle, может создать специальные данные, которые заставят Python выполнить произвольные системные команды. Так что pickle можно использовать
только внутренними данными и интерпретаторами, которые могут каким-то образом проводить аутентификацию друг друга.

Некоторые типы объектов не могут быть сериализованы. Это обычно те объекты, которые используют некоторое внешнее системное состояние, такие как
открытые файлы, открытые сетевые соединения, потоки, процессы, фреймы стека и т. д. Определенные пользователем классы могут иногда обойти эти ограничения, предоставляя методы __getstate__() и  __setstate__(). 

Если они определены,
pickle.dump() вызовет __getstate__(), чтобы получить объект, пригодный для сериализации. Похожим образом __setstate__() будет вызван при десериализации. 

Чтобы
проиллюстрировать возможности, ниже приведен класс, который внутри определяет поток, но при этом может быть сериализован и десериализован:

In [None]:
import time
import threading

class Countdown:
    def __init__(self, n):
        self.n = n
        self.thr = threading.Thread(target=self.run)
        self.thr.daemon = True
        self.thr.start()
        
    def run(self):
        while self.n > 0:
            print('T-minus', self.n)
            self.n -= 1
            time.sleep(5)
        
    def __getstate__(self):
        return self.n
    
    def __setstate__(self, n):
        self.__init__(n)

Попробуйте применить pickle:

In [None]:
c = Countdown(30)

In [None]:
# After a few moments
f = open('cstate.p', 'wb')
import pickle
pickle.dump(c, f)
f.close()

Теперь выйдите из Python и после перезапуска попробуйте вот это:

In [None]:
f = open('cstate.p', 'rb')
pickle.load(f)

Еще один пример:

In [16]:
class Car:
    def __init__(self, gas):
        self.gas = gas
    def move(self):
        self.gas -= 1
    def __getstate__(self):
        return self.gas
    def __setstate__(self, gas):
        self.gas = 2*gas

In [17]:
car1 = Car(30)
car1.move()
car1_bytes = pickle.dumps(car1)
car2 = pickle.loads(car1_bytes)
car2.gas

58

Вы должны увидеть, как поток волшебным образом возрождается к жизни, поднимаясь на том же месте, где он был, когда вы его сериализовали.

pickle не особенно эффективен для сериализации крупных структур данных,
таких как бинарные массивы, созданные библиотеками типа numpy или модуля
array. 

Если вы перемещаете большие объемы данных в массивах туда-сюда, вам
лучше просто сохранять массивы в файлы или использовать более стандартизованную кодировку, такую как HDF5 (поддерживается не входящими в  поставку
Python библиотеками).

pickle по своей природе привязан к Python и исходному коду, поэтому вам не
стоит использовать его для долговременного хранения данных. 

Например, если
исходный код изменится, все ваши сохраненные данные могут «сломаться»
и стать нечитаемыми. 

Если честно, для хранения данных в базах данных и архивных хранилищах вам лучше использовать более стандартные кодировки, такие
как XML, CSV или JSON. Они поддерживаются большим количеством языков программирования и более адаптируемы к изменениям в вашем исходном коде.

И последнее: стоит помнить, что у pickle огромное количество различных параметров и хитрых случаев применения. 

В большинстве обычных ситуаций вам
не нужно о них волноваться, но если вы создаете серьезное приложение, использующее pickle для сериализации, не забудьте прочитать официальную документацию.
