# Лекция 5 часть 2 "Работа с файлами"

### Финансовый университет при Правительстве РФ, лектор С.В. Макрушин

### Файл

Файл  — именованная область данных на носителе информации. Работа с файлами реализуется средствами операционных систем. 
Операционная система предоставляет приложениям набор функций и структур (API) для работы с файлами. На уровне API уже не существенно, существует ли файл как объект файловой системы или является, например, устройством ввода-вывода.

Можно выделить два типа операций с файлом — связанные с его открытием и выполняющиеся без его открытия. 

* Операции первого типа обычно служат для чтения и записи информации или подготовки к чтению или записи. 
* Операции второго типа выполняются с файлом как с «объектом» файловой системы, в котором файл является наименьшим элементом структурирования.

В большинстве современных операционных систем файлы организованы в виде одномерных массивов байтов.

Обычно выделяют следующие сущности, связанные с работой с файлом:

* **Дескриптор файла** (хэндлер, описатель). При открытии файла, операционная система возвращает число (или указатель на структуру), с помощью которого выполняются все остальные файловые операции. По их завершении файл закрывается, а дескриптор теряет смысл.

* **Файловый указатель**. Число, являющееся смещением относительно нулевого байта в файле. Обычно по этому адресу осуществляется чтение/запись, в случае, если вызов операции чтения или записи не предусматривает указание адреса. При выполнении операций чтения или записи файловый указатель увеличивается на число прочитанных или записанных байт. Последовательный вызов операций чтения таким образом позволяет прочитать весь файл последовательно, не заботясь о позиционировании.

* **Файловый буфер**. Операционная система (или библиотека языка программирования) осуществляет кэширование файловых операций в специальном буфере (участке памяти). При закрытии файла буфер сбрасывается.

* **Режим доступа**. В зависимости от потребностей программы, файл может быть открыт на чтение или запись. Кроме того, некоторые операционные системы и библиотеки предусматривают режим работы с текстовыми файлами. Режим обычно указывается при открытии файла.

* **Режим общего доступа**. Предназначен для регулирования совместного доступа к одному файлу несколькими программами в многозадачной операционной системе.

Базовые операции для работы с файлом:

* Открытие файла (обычно в качестве параметров передается имя файла, режим доступа и режим совместного доступа, а в качестве результата выступает файловый дескриптор), кроме того обычно имеется возможность в случае открытия на запись указать на то, должен ли размер файла изменяться на нулевой.
* Закрытие файла. В качестве аргумента выступает значение, полученное при открытии файла. При закрытии все файловые буферы сбрасываются.
* Запись — в файл помещаются данные.
* Чтение — данные из файла помещаются в область памяти.
* Перемещение указателя — указатель перемещается на указанное число байт вперёд или назад или перемещается по указанному смещению относительно начала или конца. Не все файлы позволяют выполнение этой операции (например, файл на ленточном накопителе может не «уметь» перематываться назад).
* Сброс буферов — содержимое файловых буферов с не записанной в файл информацией записывается. Используется обычно для указания на завершение записи логического блока (для сохранения данных в файле на случай сбоя).
* Получение текущего значения файлового указателя.

### Открытие файла

Прежде чем работать с файлом, необходимо создать объект файла с nомощью функции 
open(). Функция имеет следующий формат: 

ореn(<Путь к файлу>[, mode='r'] [, buffering=-1] [, encoding=None] [,errors=None] [, newline=None] [, closefd=True])

В nервом nараметре указывается путь к файлу. Путь может быть абсолютным или относительным. В Wiпdows следует учитывать, что слэш является специальным символом. По этой причине слэш необходимо удваивать или вместо обычных 
строк использовать неформатированные строки. 

In [1]:
# Правильно
fn = "C:\\temp\\new\\file.txt"
fn

'C:\\temp\\new\\file.txt'

In [2]:
# Правильно
fn = r"C:\temp\new\file.txt"
fn

'C:\\temp\\new\\file.txt'

In [3]:
# Неправильно!
# В этом пути присутствуют сразу три специальных символа: \t, \n и \f. После преобразования специальных символов nуть 
# будет выглядеть следующим образом: С:<Табуляция>еmр<Перевод строки>еw<Перевод формата>ilе.tхt 
fn = "C:\temp\new\file.txt" 
fn

'C:\temp\new\x0cile.txt'

Если путь к файлу начинаетсяя со слеша или с имени диска, то файл находится по абсолютному пути и текущий путь не имеет значения. В обратном случае для поиска файла используется относительный путь, построение которого начинается с текущего пути. Текущий путь определяется окружением в котором производился зпуск скрипта. В Jupyter notebook текущий путь можно узнать при помощи команды `ls`.

In [54]:
ls

 ’®¬ ў гбва®©бвўҐ E Ё¬ҐҐв ¬ҐвЄг Data
 ‘ҐаЁ©­л© ­®¬Ґа в®¬ : 1C8C-28F1

 ‘®¤Ґа¦Ё¬®Ґ Ї ЇЄЁ E:\YandexDisk\Python\Ipynb\fa1_2018\lec_6

19.11.2018  20:49    <DIR>          .
19.11.2018  20:49    <DIR>          ..
19.11.2018  19:04    <DIR>          .ipynb_checkpoints
19.11.2018  19:02    <DIR>          folder1
19.11.2018  20:46             8я344 lec6_test_v1.ipynb
19.11.2018  20:48           290я683 lec6_v2018s2_v3.ipynb
19.11.2018  18:45                16 my.txt
19.11.2018  20:44                20 my2.txt
19.11.2018  19:25                 0 new_file.txt
19.11.2018  19:03                 0 new_file3.txt
19.11.2018  19:05                16 new_file4.txt
19.11.2018  19:10                 8 new_file5.txt
19.11.2018  19:17                28 new_file7.txt
19.11.2018  19:16                94 new_file8.txt
09.11.2015  10:43           220я029 participants.csv
09.11.2015  10:43           220я029 participants_.csv
              12 д ©«®ў        739я267 Ў ©в
               4 Ї Ї®Є  47я346я593я792 Ў ©в

Eсли открываемый файл находится в текущем рабочем каталоге, то можно указать только название файла. Пример: 

In [55]:
f1 = open('new_file.txt', mode='w')
f1.close()

In [56]:
ls

 ’®¬ ў гбва®©бвўҐ E Ё¬ҐҐв ¬ҐвЄг Data
 ‘ҐаЁ©­л© ­®¬Ґа в®¬ : 1C8C-28F1

 ‘®¤Ґа¦Ё¬®Ґ Ї ЇЄЁ E:\YandexDisk\Python\Ipynb\fa1_2018\lec_6

19.11.2018  20:49    <DIR>          .
19.11.2018  20:49    <DIR>          ..
19.11.2018  19:04    <DIR>          .ipynb_checkpoints
19.11.2018  19:02    <DIR>          folder1
19.11.2018  20:46             8я344 lec6_test_v1.ipynb
19.11.2018  20:48           290я683 lec6_v2018s2_v3.ipynb
19.11.2018  18:45                16 my.txt
19.11.2018  20:44                20 my2.txt
19.11.2018  20:52                 0 new_file.txt
19.11.2018  19:03                 0 new_file3.txt
19.11.2018  19:05                16 new_file4.txt
19.11.2018  19:10                 8 new_file5.txt
19.11.2018  19:17                28 new_file7.txt
19.11.2018  19:16                94 new_file8.txt
09.11.2015  10:43           220я029 participants.csv
09.11.2015  10:43           220я029 participants_.csv
              12 д ©«®ў        739я267 Ў ©в
               4 Ї Ї®Є  47я346я593я792 Ў ©в

Если открываемый файл расположен во вложенной папке, то перед названием файла перечисляются названия вложенных папок через слэш:

In [57]:
f2 = open('folder1\\new_file2.txt', mode='w')
f2.close()

In [58]:
ls

 ’®¬ ў гбва®©бвўҐ E Ё¬ҐҐв ¬ҐвЄг Data
 ‘ҐаЁ©­л© ­®¬Ґа в®¬ : 1C8C-28F1

 ‘®¤Ґа¦Ё¬®Ґ Ї ЇЄЁ E:\YandexDisk\Python\Ipynb\fa1_2018\lec_6

19.11.2018  20:49    <DIR>          .
19.11.2018  20:49    <DIR>          ..
19.11.2018  19:04    <DIR>          .ipynb_checkpoints
19.11.2018  19:02    <DIR>          folder1
19.11.2018  20:46             8я344 lec6_test_v1.ipynb
19.11.2018  20:48           290я683 lec6_v2018s2_v3.ipynb
19.11.2018  18:45                16 my.txt
19.11.2018  20:44                20 my2.txt
19.11.2018  20:52                 0 new_file.txt
19.11.2018  19:03                 0 new_file3.txt
19.11.2018  19:05                16 new_file4.txt
19.11.2018  19:10                 8 new_file5.txt
19.11.2018  19:17                28 new_file7.txt
19.11.2018  19:16                94 new_file8.txt
09.11.2015  10:43           220я029 participants.csv
09.11.2015  10:43           220я029 participants_.csv
              12 д ©«®ў        739я267 Ў ©в
               4 Ї Ї®Є  47я346я593я792 Ў ©в

Перемещение между папками в Jupyter notebook:

In [59]:
cd folder1

E:\YandexDisk\Python\Ipynb\fa1_2018\lec_6\folder1


In [60]:
ls

 ’®¬ ў гбва®©бвўҐ E Ё¬ҐҐв ¬ҐвЄг Data
 ‘ҐаЁ©­л© ­®¬Ґа в®¬ : 1C8C-28F1

 ‘®¤Ґа¦Ё¬®Ґ Ї ЇЄЁ E:\YandexDisk\Python\Ipynb\fa1_2018\lec_6\folder1

19.11.2018  19:02    <DIR>          .
19.11.2018  19:02    <DIR>          ..
19.11.2018  20:52                 0 new_file2.txt
               1 д ©«®ў              0 Ў ©в
               2 Ї Ї®Є  47я346я593я792 Ў ©в бў®Ў®¤­®


При указании пути можно ссылаться на текущую папку с помощью символа `.` и на родительскую папку с помощью символа `..`.

Если папка с файлом расположена выше уровнем, то перед названием файла указываются две точки и слэш `..\\`:

In [61]:
f3 = open('..\\new_file3.txt', mode='w')
f3.close()

In [62]:
cd ..

E:\YandexDisk\Python\Ipynb\fa1_2018\lec_6


In [63]:
ls

 ’®¬ ў гбва®©бвўҐ E Ё¬ҐҐв ¬ҐвЄг Data
 ‘ҐаЁ©­л© ­®¬Ґа в®¬ : 1C8C-28F1

 ‘®¤Ґа¦Ё¬®Ґ Ї ЇЄЁ E:\YandexDisk\Python\Ipynb\fa1_2018\lec_6

19.11.2018  20:49    <DIR>          .
19.11.2018  20:49    <DIR>          ..
19.11.2018  19:04    <DIR>          .ipynb_checkpoints
19.11.2018  19:02    <DIR>          folder1
19.11.2018  20:46             8я344 lec6_test_v1.ipynb
19.11.2018  20:48           290я683 lec6_v2018s2_v3.ipynb
19.11.2018  18:45                16 my.txt
19.11.2018  20:44                20 my2.txt
19.11.2018  20:52                 0 new_file.txt
19.11.2018  20:52                 0 new_file3.txt
19.11.2018  19:05                16 new_file4.txt
19.11.2018  19:10                 8 new_file5.txt
19.11.2018  19:17                28 new_file7.txt
19.11.2018  19:16                94 new_file8.txt
09.11.2015  10:43           220я029 participants.csv
09.11.2015  10:43           220я029 participants_.csv
              12 д ©«®ў        739я267 Ў ©в
               4 Ї Ї®Є  47я346я593я792 Ў ©в

Функция `listdir(path)` возвращает все объекты (и файлы и папки), располагающиеся по указанному пути. 

Для проверки, является ли найденный объект файлом можно использовать функцию `isfile`.

In [64]:
from os import listdir
from os.path import isfile, join

# получение имен всех файлов, находящихся по определенному пути:
mypath = '.'
onlyfiles = [f for f in listdir(mypath) if isfile(join(mypath, f))]

onlyfiles

['lec6_test_v1.ipynb',
 'lec6_v2018s2_v3.ipynb',
 'my.txt',
 'my2.txt',
 'new_file.txt',
 'new_file3.txt',
 'new_file4.txt',
 'new_file5.txt',
 'new_file7.txt',
 'new_file8.txt',
 'participants.csv',
 'participants_.csv']

**Дополнительные параметры функции `open`**

Необязательный nараметр mode в функции open() может nринимать следующие значения: 

* r - только чтение (значение по умолчанию). После открытия файла указатель устанавливается на начало файла. Если файл не существует, то возбуждается исключение IOError; 
* r+ - чтение и заnись. После открытия файла указатель устанавливается на начало файла. Если файл не существует, то возбуждается исключение IOError; 
* w - заnись. Если файл не существует, то он будет создан. Если файл существует, то он будет nерезаnисан. После открытия файла указатель устанавливается на начало файла; 
* w+ - чтение и заnись. Если файл не существует, то он будет создан. Если файл существует, то он будет nерезаnисан. После открытия файла указатель устанавливается на начало файла; 
* а - заnись. Если файл не существует, то он будет создан. Заnись осуществляется в конец файла. Содержимое файла не удаляется; 
* а+ - чтение и заnись. Если файл не существует, то он будет создан. Заnись осуществляется в конец файла. Содержимое файла не удаляется. 

Кроме того, nосле режима может следовать модификатор: 
* b - файл будет открыт в бинарном режиме. Файловые методы принимают и возвращают объекты тиnа bytes; 
* t - файл будет открыт в текстовом режиме (значение по умолчанию в Windows). Файловые методы nринимают и возвращают объекты тиnа str. В этом режиме в Windows nри чтении символ \r будет удален, а nри заnиси, наоборот, добавлен. 

In [14]:
f4 = open('new_file4.txt', mode='w')

In [15]:
f4.write ( "String1\nString2") # возвращается количество записанных символов (значение всегда совпадает с длиной строки)

15

In [16]:
f4.close()

In [58]:
ls

 ’®¬ ў гбва®©бвўҐ E Ё¬ҐҐв ¬ҐвЄг Data
 ‘ҐаЁ©­л© ­®¬Ґа в®¬ : 1C8C-28F1

 ‘®¤Ґа¦Ё¬®Ґ Ї ЇЄЁ E:\YandexDisk\Python\Ipynb\fa1_2016\lec_5

06.11.2016  21:04    <DIR>          .
06.11.2016  21:04    <DIR>          ..
06.11.2016  20:53    <DIR>          folder1
06.11.2016  19:33               616 lec5_v2016s2_v1.ipynb
06.11.2016  20:54            88я604 lec5_v2016s2_v2.ipynb
06.11.2016  20:51                 0 new_file.txt
06.11.2016  20:55                 0 new_file3.txt
06.11.2016  21:04                16 new_file4.txt
               5 д ©«®ў         89я236 Ў ©в
               3 Ї Ї®Є   3я274я387я456 Ў ©в бў®Ў®¤­®


## Инструкция with ... as

Python поддерживает протокол менеджеров контекста. Этот протокол гарантирует выполнение завершающих действий (например, закрытие файла) вне зависимости от того, произошло исключение внутри блока кода или нет. 

Для работы с протоколом предназначена инструкuия with ... as. Инструкuия имеет следующий формат: 

`with <Выражение1>[ as <Переменная>] [, ... , 
    <ВыражениеN>[ as <Переменная>]]: 
    <Блок, в котором перехватьтаем исключения>`
    
Вначале вычисляется <Выражение1>, которое должно возвращать объект, поддерживающий протокол. Этот объект должен иметь два метода: \_\_enter\_\_() и \_\_exit\_\_(). Метод \_\_enter\_\_() вызывается после создания объекта. Значение, возвращаемое этим методом, nрисваивается nеременной, указанной после ключевого слова as. Далее выnолняются инструкции внутри тела инструкции with. Если nри выnолнении возникло исключение, то управление передается методу \_\_exit\_\_(). Если nри выnолнении инструкций, расположенных внутри тела инструкции with, исключение не возникло, то уnравление все равно передается методу \_\_exit\_\_(). В функции \_\_exit\_\_() решаются все задачи освобождения ресурсов, если это необходимо.

Некоторые встроенные объекты по умолчанию поддерживают протокол, например, файлы. 

In [19]:
with open("new_file4.txt", "rb") as f: 
    for line in f:
        print(type(line))
        print(repr(line)) 

<class 'bytes'>
b'String1\r\n'
<class 'bytes'>
b'String2'


Для ускорения работы производится буферизация записываемых данных. Информация из буфера записывается в файл полностью только в момент закрытия файла. В необязательном параметре buffering можно указать размер буфера. Если в качестве значения указан 0, то данные будут сразу записываться в файл (значение допустимо только в бинарном режиме). 

Значение 1 используется при построчной записи в файл (значение допустимо только в текстовом режиме), другое положительное число задает примерный размер буфера, а отрицательное значение (или отсутствие значения) означает установку размера, применяемого в системе по умолчанию. 

При использовании текстового режима (используется по умолчанию) при чтении производится попытка преобразовать данные в кодировку Unicode, а при записи выполняется обратная операция: строка преобразуется в последовательность байтов в определенной кодировке. По умолчанию используется· кодировка, используемая в системе. Если преобразование невозможно, то возбуждается исключение. Указать кодировку, которая будет использоваться при записи и чтении файла, позволяет параметр encoding. В качестве примера запишем данные в кодировке UTF-8: 

In [20]:
with open("new_file5.txt", "w", encoding="utf-8") as f: #указываем кодировку файла
    f.write("Cтpoкa") # Заnисываем строку в файп

In [21]:
with open("new_file5.txt", "r", encoding="utf-8") as f: 
    for line in f:
        print(line)

Cтpoкa


## Методы для работы с файлами 

close() - закрывает файл. Так как интерпретатор автоматически удаляет объект, когда 
отсутствуют ссылки на него, можно явно не закрывать файл в небольших программах. Тем не менее явное закрытие файла является признаком хорошего стиля nрограммирования. Протокол менеджеров контекста гарантирует закрытие файла вне зависимости от того, nроизошло исключение внутри блока кода или нет.

write (<Данные>) - записывает строку или последовательность байтов в файл. Если в качестве nараметра указана строка, то файл должен быть открыт в текстовом режиме. Для заnиси nоследовательности байтов необходимо открыть файл в бинарном режиме. 

Помните, что нельзя записывать строку в бинарном режиме и последовательность байтов в текстовом режиме. Метод возвращает количество записанных символов или байтов.

In [66]:
# бинарный режим:
with open("new_file6.txt", "wb") as f: 
    f.write(bytes("Строка1\nСтрока2", "cp1251")) 
    f.write(bytearray("\nCтpoкaЗ", "cp1251")) 

In [22]:
# обязательные параметры конструктора bytes: строка и кодировка строки
bytes("Строка1\nСтрока2", "cp1251") 

b'\xd1\xf2\xf0\xee\xea\xe01\n\xd1\xf2\xf0\xee\xea\xe02'

In [50]:
bs = bytes(range(20))
bs

b'\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\x0c\r\x0e\x0f\x10\x11\x12\x13'

In [53]:
for b in bs:
    print(b)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19


In [48]:
bytes(range(255, 265))

ValueError: bytes must be in range(0, 256)

In [23]:
bytes("Строка1\nСтрока2", "utf-8")

b'\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb01\n\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb02'

writelines(<Последовательность>) - записывает последовательность в файл. Если все элементы последовательности являются строками, то файл должен быть открыт в текстовом режиме. Если все элементы являются последовательностями байтов, то файл должен быть открыт в бинарном режиме.

Запись в файл можно призводить при помощи функции print(), передав файл в необязательный атрибут file:

In [28]:
with open("new_file8.txt", "w", encoding="cp1251") as f: 
    print('Строка1\nСтрока2', file=f)
    print('Строка3', end='', file=f) # значение по умолчанию end='\n'
    print(' продолжение строки3', file=f)
    v = 4
    print(f'Простой способ записать в файл f-строку v={v} .', file=f)

In [29]:
with open("new_file8.txt", "r", encoding="cp1251") as f: 
    print(f.read())

Строка1
Строка2
Строка3 продолжение строки3
Простой способ записать в файл f-строку v=4 .



In [30]:
with open("new_file7.txt", "w", encoding="utf-8") as f: 
    f.writelines(["Строка1\n", "Строка2"])

read( [<Количество>])- считывает данные из файла. Если файл открыт в текстовом режиме, то возвращается строка, а если в бинарном - последовательность байтов. Если параметр не указан, то возвращается содержимое файла от текущей позиции указателя до конца файла: 

In [31]:
with open("new_file7.txt", "r", encoding="utf-8") as f: 
    print(f.read())

Строка1
Строка2


In [32]:
with open("new_file7.txt", "r", encoding="utf-8") as f: 
    print(f.read(4))
    print(f.read(4))

Стро
ка1



In [33]:
with open("new_file7.txt", "rb") as f: 
    print(f.read())

b'\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb01\r\n\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb02'


In [34]:
with open("new_file7.txt", "rb") as f: 
    print(f.read(4))

b'\xd0\xa1\xd1\x82'


readline ( [<Количество>] ) - считывает из файла одну строку при каждом вызове. Если файл открыт в текстовом режиме, то возвращается строка, а если в бинарном - последовательность байтов. Возвращаемая строка включает символ перевода строки. Исключением является последняя строка. Если она не завершается символом перевода строки, то символ перевода строки добавлен не будет. При достижении конца файла возвращается пустая строка.

Если в необязательном параметре указано число, то считывание будет выполняться до тех пор, пока не встретится символ новой строки (\n), символ конца файла или из файла не будет прочитано указанное количество символов. Иными словами, если количество символов в строке меньше значения параметра, то будет считана одна строка, а не указанное количество символов. Если количество символов в строке больше, то возвращается указанное количество символов. 

In [35]:
with open("new_file7.txt", "r", encoding="utf-8") as f: 
    print(f.readline())
    print('----')
    print(f.readline())
    print('----')
    print(f.readline())

Строка1

----
Строка2
----



In [36]:
with open("new_file7.txt", "rb") as f: 
    print(f.readline())
    print('----')
    print(f.readline())
    print('----')
    print(f.readline())

b'\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb01\r\n'
----
b'\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb02'
----
b''


readlines () - считывает все содержимое файла в список. Каждый элемент списка будет содержать одну строку, включая символ перевода строки. Исключением является последняя строка. Если она не завершается символом перевода строки, то символ перевода строки добавлен не будет. Если файл открыт в текстовом режиме, то возвращается список строк, а если в бинарном - список объектов типа bytes. 

In [37]:
with open("new_file7.txt", "r", encoding="utf-8") as f: 
    lines = f.readlines()
lines

['Строка1\n', 'Строка2']

\_\_next\_\_() - считывает одну строку при каждом вызове. Если файл открыт в текстовом режиме, то возвращается строка, а если в бинарном - последовательность байтов. При достижении конца файла возбуждается исключение Stopiteration. Пример: 

In [38]:
with open("new_file7.txt", "r", encoding="utf-8") as f: 
    for l in f:
        print(l)

Строка1

Строка2


flush () - записывает данные из буфера на диск; 

tell() - возвращает позицию указателя относительно начала файла в виде целого числа. Обратите внимание на то, что в Windows метод tell () считает символ \r как дополнительный байт, хотя этот символ удаляется при открытии файла в текстовом режиме, чтобы избежать этого несоответствия, следует открывать файл в бинарном режиме, а не 
в текстовом.

seek (<Смещение> [, <Позиция>]) - устанавливает указатель в позицию, имеющую сме­
щение <Смещение> относительно позиции <Позиция>. В параметре <Поз~ция> могут быть 
указаны следующие атрибуты из модуля io или соответствующие им значения: 
* io.SEEK_SET или 0 - начало файла (значение по умолчанию); 
* io.SEEK_CUR или 1 - текущая позиция указателя; 
* io.SEEK_END или 2 - конец файла. 

Помимо методов объекты файлов поддерживают несколько атрибутов: 
* name - содержит название файла; 
* mode - режим, в котором был открыт файл; 
* closed - возвращает True, если файл был закрыт, и False в противном случае. 
* encoding - название кодировки, которая будет использоваться для преобразования строк перед записью в файл или при чтении. Обратите внимание на то, что изменить значение атрибута нельзя, т. к. атрибут доступен только мя чтения. Атрибут доступен только в текстовом режиме. 
* buffer - позволяет получить доступ к буферу. Атрибут доступен только в текстовом режиме. С помощью этого объекта можно записать последовательность байтов в текстовый поток.

## Сохранение объектов в файл

Сохранить объекты в файл и в дальнейшем восстановить объекты из файла позволяют модули pickle и shelve.

Модуль pickle предоставляет следующие функции: 
* dump(<Объект>, <Файл> [, <Протокол>] [, fix _ imports=True]) - производит сериализацию объекта и записывает данные в указанный файл. В параметре <Файл> указывается файловый объект, открытый на запись в бинарном режиме. 
* load() - читает данные из файла и преобразует их в объект. В параметре <Файл> указывается файловый объект. открытый на чтение в бинарном режиме. Формат функции: load (<Файл> [, fix _ imports=True] [, encoding="ASCII"] [, errors="strict"]) 

In [88]:
obj = ["Строка", (12, 3)] # объект для сохранения

In [89]:
import pickle # подключаем модуль pickle

In [90]:
with open('obj1.txt', 'wb') as f:
    pickle.dump(obj, f)

In [91]:
with open('obj1.txt', 'rb') as f:
    obj_l = pickle.load(f)
obj_l

['Строка', (12, 3)]

В один файл можно сохранить сразу несколько объектов, последовательно вызывая функцию dump(). 

In [92]:
obj2 = (6, 7, 8, 9, 10) 

In [93]:
with open('obj2.txt', 'wb') as f:
    pickle.dump(obj, f)
    pickle.dump(obj2, f)

In [95]:
with open('obj2.txt', 'rb') as f:
    obj_l2 = pickle.load(f)
    obj2_l = pickle.load(f)
obj_l2, obj2_l

(['Строка', (12, 3)], (6, 7, 8, 9, 10))

Модуль pickle позволяет также преобразовать объект в строку байтов и восстановить объект из строки. Для этого предназначены две функции: 
* dumps(<Объект> [, <Протокол>] [, fix_imports=True]) - производит сериализацию объекта и возвращает последовательность байтов специального формата. 
* lоаds(<Последовательность байтов>[, fix_imports=True] [, errors="strict"])- преобразует последовательность байтов 
обратно в объект. 

In [96]:
bs = pickle.dumps(obj)
bs

b'\x80\x03]q\x00(X\x0c\x00\x00\x00\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0q\x01K\x0cK\x03\x86q\x02e.'

In [97]:
pickle.loads(bs)

['Строка', (12, 3)]

Модуль shelve позволяет сохранять объекты под определенным ключом (задается в виде строки) и предоставляет интерфейс доступа, сходный со словарями. Для сериализации объекта используются возможности модуля pickle, а чтобы записать получивщуюся строку пo ключу в файл, применяется модуль pickle. Все эти действия модуль shelve производит незаметно для нас. 

Чтобы открыть файл с базой объектов, используется функция open(). Функция имеет следующий формат: 

open (<Путь к файлу> [, flag="c"] [, protoco1=None] [, writeback=Fa1se]) 

В необязательном параметре flag можно указать один из режимов открытия файла: 
* r - только чтение; 
* w - чтение и запись; 
* с - чтение и запись (значение по умолчанию). Если файл не существует, он будет создан; 
* n - чтение и запись. Если файл не существует, он будет создан. Если файл существует, он будет перезаписан. 

Функция open() возвращает объект, с помощью которого производится дальнейшая работа с базой данных. Этот объект имеет следующие методы: 
* close() - закрывает файл с базой данных.
* keys() - возвращает объект с ключами; 
* values() - возвращает объект to значениями; 
* items() - возвращает объект, поддерживающий итерации. На каждой итерации возвращается кортеж, содержащий ключ и значение. 

* get(<Ключ> [, <Значение по умолчанию>] ) - если ключ присутствует; то метод возвращает значение, соответствующее этому ключу. Если ключ отсутствует, то возвращается начение None или значение, указанное во втором nараметре; 
* setdefault(<Ключ> [, <Значение по умолчанию>] ) ---: если ключ nрисутствует, то метод возвращает значение, соответствующее этому ключу. Если ключ отсутствует, то вставляет новый элемент со значением, указанным во втором параметре, и возвращает это значение. Если второй nараметр не указан, значением нового элемента будет None;  
* рор (<Ключ> [, <Значение по умолчанию>] ) - удаляет элемент с указанным ключом и возвращает его значение. Если ключ отсутствует, то возвращается значение из второго nараметра. Если ключ отсутствует, и второй nараметр не указан, то возбуждается исключение KeyError; 
* popitem() - удаляет произвольный элемент и возвращает кортеж из ключа и значения. Если файл nустой, возбуждается исключение KeyError; 
* clear () - удаляет все элементы. Метод ничего не возвращает в качестве значения; 
* update () - добавляет элементы. Метод изменяет текущий объект и ничего не возвращает. Если элемент с указанным ключом уже присутствует, то его значение будет перезаписано.

Помимо этих методов можно воспользоваться функцией len() для nолучения количества 
элементов и оnератором del для удаления оnределенного элемента, а также оnератором in 
для nроверки существования ключа. 

In [106]:
import shelve

In [107]:
db = shelve.open("shl_1")

In [108]:
db["obj1"] = [1, 2, 3, 4, 5] 
db["obj2"] = (6, 7, 8, 9, 10) 

In [109]:
db["obj1"]

[1, 2, 3, 4, 5]

In [110]:
db["obj2"]

(6, 7, 8, 9, 10)

In [111]:
db.close()

In [112]:
db = shelve.open('shl_1')

In [114]:
db.keys()

KeysView(<shelve.DbfilenameShelf object at 0x000000A73CA82630>)

In [115]:
list(db.keys())

['obj2', 'obj1']

In [116]:
list(db.values())

[(6, 7, 8, 9, 10), [1, 2, 3, 4, 5]]

In [117]:
for k, v in db.items():
    print('key: {}, value: {}'.format(k, v))

key: obj2, value: (6, 7, 8, 9, 10)
key: obj1, value: [1, 2, 3, 4, 5]


## Модуль CSV

https://docs.python.org/2/library/csv.html

https://pymotw.com/2/csv/

In [119]:
import csv

In [120]:
with open('participants.csv') as f:
    f_csv = csv.reader(f, delimiter=';')
    header = next(f_csv)
    rows = [r for r in f_csv]

In [122]:
header

['Last Name',
 'First Name',
 'Company Name',
 'Company Department',
 'Assigned Classifications',
 'City',
 'State',
 'Country']

In [121]:
rows

[['AALTONEN',
  'Wanida',
  'University',
  'Graduate student',
  'School or university (student)',
  'London',
  '',
  'United Kingdom'],
 ['ABDELHAMID',
  'Mohamed',
  'alexandria university',
  'student',
  'School or university (student)',
  'alexandria',
  '',
  'Egypt'],
 ['ABDELMEGUID',
  'Sheref',
  'IBM EGYPT BRANCH',
  'Software Engineer',
  'School or university (staff)',
  'Alexandria',
  'Esatern',
  'Egypt'],
 ['ABDOU',
  'Lahadji',
  'TIFAKI HAZI',
  'MANAGER',
  'Association',
  'MAMOUDZOU',
  '',
  'France'],
 ['ABEJIDE',
  'Oluwaseun Adeyemi',
  'Individual',
  'Project Officer',
  'National government (members + staff)',
  'Ido-Osi',
  'Ekiti State',
  'Nigeria'],
 ['ABTAHIFOROUSHANI',
  'Seyedehasieh',
  'Student',
  'Student',
  'School or university (student)',
  'ROMAINVILLE',
  '',
  'France'],
 ['ABUELALA',
  'Sherif',
  'AGAP company',
  'Architect',
  'Other company',
  'Alexandria',
  '',
  'Egypt'],
 ['ABUNEMEH',
  'Omar',
  'omar kamal',
  'social worker',

# Подготовка к следующей лекции:

Саммерфильд: гл. 5 Модули

Прохоренок: гл. 12 Модули и пакеты

#### Встроенные функции
Материалы по ссылкам:

https://docs.python.org/3/library/functions.html

http://python-reference.readthedocs.io/en/latest/docs/functions/