<a href="https://colab.research.google.com/github/sudlenia/Python-lections/blob/main/%D0%9B%D0%B5%D0%BA%D1%86%D0%B8%D1%8F_%E2%84%965_%D0%A4%D0%B0%D0%B9%D0%BB%D1%8B.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Файлы

Переменные - отличное средство хранения данных на этапе выполнения программы, но если требуется, чтобы данные существовали и после ее завершения, их необходимо сохранить в файле. Содержимое файла можно рассматривать как огромную строку, размер которой способен исчисляться гигабайтами. В данной лекции мы поговорим о том, как использовать Python для создания, чтения и сохранения файлов на жестком диске.

**Файл** - набор данных на диске, имеющий имя.

## Файлы и папки

Две ключевые характеристики файла - *имя* (обычно записывается в виде одного слова) и *путь*. Путь определяет, где именно в структуре каталогов располагается файл. Например, у нас хранится на компьютере файл с именем *project.docx*, который находится в каталоге *C:\Users\Andrey\Documents*. Часть имени файла, стоящая после точки, называется *расширением*. Оно определяет тип файла. Файл *project.docx* - это документ Word, а *Users*, *Andrey* и *Documents* - названия папок. Папки могут содержать файлы и другие папки. Например, файл *project.docx* находится в папке *Documents*, которая сама находится в папке *Andrey*, а та, в свою очередь, содержится в папке *Users*.

Компонент `C:\` - это *корневая папка*, которая содержит все остальные папки. В Windows корневая папка - `C:\`, в macOS и Linux - `/`.

Дополнительные *тома*, соответствующие DVD-приводу или USB-носителям, будут отображаться по-разному в разных операционных системах. В Windows они представлены буквами дисков: `D:\`, `E:\` и т.д. В macOS они отображаются в виде новых папок в папке `/Volumes`, а в Linux - в виде новых папок в папке `/mnt` (точки монтирования). Кроме того, необходимо помнить, что в Linux имена файлов и папок чувствительны к регистру символов, а в Windows и macOS - нет.

## Использование обратной косой черты

В Windows имена папок разделяются обратной косой чертой (`\`). В macOS и Linux разделителем служит косая черта (`/`). Если нам нужно, чтобы программа работала во всех операционных системах, то ее нужно написать так, чтобы обрабатывались оба случая.

К счастью, это делается очень просто - с помощью функции `Path()` из модуля `pathlib`. Если передать ей строки с именами папок, то она вернет строку пути с использованием корректной версии разделителя.

In [None]:
import sys
sys.platform # ОС среды Google Colab

'linux'

In [None]:
from pathlib import Path
Path('documents','python','lec5')

PosixPath('documents/python/lec5')

В Windows функция `Path()` возвращает объект `WindowsPath`, а в Linux - объект `PosixPath` (`POSIX` - набор стандартов для Unix-подобных операционных систем, таких как Linux).

Эти объекты `Path` можно передавать различным функциям. Например, можно добавить имена из списка имен файлов к концу имени папки:

In [None]:
from pathlib import Path
for filename in ['accounts.txt', 'details.csv', 'invite.docx']:
  print(Path(r'/Documents/Andrey', filename)) # путь для ОС Linux

/Documents/Andrey/accounts.txt
/Documents/Andrey/details.csv
/Documents/Andrey/invite.docx


В Windows имена папок разделяются обратной косой чертой, поэтому использовать ее в именах файлов нельзя. Но ее можно использовать в именах файлов в macOS и Linux. Таким образом, в Windows вызов `Path(r'documents\lec5')` относится к двум разным папкам, но в macOS или Linux этот же вызов будет относиться к одной папке с именем `documents\lec5`. Модуль `pathlib` гарантирует работоспособность такого кода во всех операционных системах.

## Текущий каталог

Каждой программе, выполняемой на компьютере, назначается *текущий* каталог. Предполагается, что любые имена файлов и папок, которые не начинаются с указания корневой папки, заданы относительно текущего каталога.

**Примечание.** Несмотря на то что более современный эквивалент термина каталог - папка, обычно говорят текущий каталог (или рабочий каталог), а не текущая папка.

Функция `Path.cwd()` возвращает объект текущего каталога. Сменить текущий каталог можно с помощью функции `os.chdir()`.

In [None]:
from pathlib import PurePath
import os
Path.cwd()

PosixPath('/content')

In [None]:
os.chdir('/content/sample_data')
Path.cwd()

PosixPath('/content/sample_data')

Если попытаться перейти в несуществующий каталог, Python выдаст сообщение об ошибке.

In [None]:
os.chdir('/content/data')

FileNotFoundError: ignored

В модуле `pathlib` не существует функции для смены текущего каталога. Это связано с тем, что смена текущего каталога во время работы программы часто приводит к трудно обнаруживаемым ошибкам.

## Домашний каталог

У каждого пользователя системы имеется папка для собственных файлов, называемая *домашним каталогом*. Функция `Path.home()` возвращает объект `Path` домашнего каталога.

In [None]:
Path.home()

PosixPath('/root')

## Расположение домашних каталогов пользователей зависит от операционной системы:

* Windows - папка C:\Users;
* macOS - папка /Users;
* Linux - папка /home.

## Абсолютные и относительные пути

Есть два способа задать путь к файлу:

* *абсолютный путь* - всегда начинается с имени корневой папки;
* *относительный путь* - указывается относительно текущего каталога программы.

Существуют также каталоги, обозначаемые одной (.) или двумя (..) точками. Это не реальные папки, а специальные имена, которые можно использовать при задании путей. Одиночная точка соответствует текущей папке, а двойная точка - родительской папке.

## Создание новых папок с помощью функции os.makedirs()

В программе можно создавать новые папки с помощью функции `os.makedirs()`.

In [None]:
import os
os.makedirs('../data/lec')

В результате была создана не только папка `data`, но и расположенная в ней папка `lec`. Таким образом данная функция создает все необходимые промежуточные папки, гарантируя существование полного пути.

Для создания каталога из объекта `Path`, необходимо вызвать для него метод `mkdir()`.

In [None]:
Path("../data/lec/lec5").mkdir()

Обратите внимание, что метод `mkdir()` способен за один раз создать всего один каталог. Он не может создавать несколько подкаталогов одновременно, в отличие от функции `os.makedirs()`.

## Обработка абсолютных и относительных путей

Модуль `pathlib` содержит методы, позволяющие проверить, является ли данный путь абсолютным, и получить абсолютный путь из относительного.

Метод `is_absolute()` объекта `Path` вернет `True`, если объект представляет абсолютный путь, или `False`, если объект представляет относительный путь.

In [None]:
Path.cwd()

PosixPath('/content/sample_data')

In [None]:
Path.cwd().is_absolute()

True

In [None]:
Path('lec/lec5').is_absolute()

False

Чтобы получить абсолютный путь на основе относительного, можно поместить `Path.cwd() /` перед объектом `Path` относительного пути. Когда говорят "относительный путь", почти всегда подразумевают путь относительно текущего каталога.


In [None]:
Path.cwd()

PosixPath('/content/sample_data')

In [None]:
os.chdir('/content/data')

In [None]:
Path('lec/lec5')

PosixPath('lec/lec5')

In [None]:
Path.cwd() / Path('lec/lec5')

PosixPath('/content/data/lec/lec5')

Оператор '/', который обычно обозначает деление, в данном случае позволяет объединить объекты `Path' и строки.

## Получение отдельных частей пути

С помощью атрибутов объекта `Path` можно извлекать различные фрагменты пути в строковом виде. Это может быть полезно для создания новых каталогов на основе существующих.

Полное имя файла состоит из следующих частей:
* *Якорь* `anchor` - корневой каталог файловой системы;
* В Windows *диск* `drive` - одиночная буква, которая обычно обозначает физический жесткий диск или другое устройство хранения;
* *Родительская папка* `(parent)` - папка, содержащая файл;
* *Имя файла* `name` - имя.расширение.

Обратите внимание, что в Windows объекты `Path` включают атрибут *диск*, которого нет у объектов `Path` в macOS и Linux. Атрибут *диск* не содержит начальную обратную косую черту.


In [None]:
p = Path('/home/Python/lec/lec5.ipynb')

In [None]:
p.anchor

'/'

In [None]:
p.parent

PosixPath('/home/Python/lec')

In [None]:
p.name

'lec5.ipynb'

In [None]:
p.stem # основа имени файла

'lec5'

In [None]:
p.suffix # суффикс (расширение) имени файла

'.ipynb'

Все атрибуты содержат строки, кроме атрибута `parent`, который содержит объект `Path`.

С помощью атрибута `parents` можно узнать родительские папки объекта `Path` (целочисленный индекс определяет количество переходов вверх по дереву каталогов).

In [None]:
Path('/home/Python/lec/lec5.ipynb').parents[0]

PosixPath('/home/Python/lec')

In [None]:
Path('/home/Python/lec/lec5.ipynb').parents[1]

PosixPath('/home/Python')

## Проверка существования пути

Многие функции Python аварийно завершаются с выдачей сообщения об ошибке, если предоставленный им путь не существует. К счастью, у объектов `Path` есть методы для проверки того, существует ли заданный путь и соответствует ли он файлу или папке. Если переменная `p` содержит объект `Path`, то можно ожидать следующее:

* метод `p.exists()` возвращает `True`, если путь существует; в противном случае возвращается `False`;
* метод `p.is_file()` возвращает `True`, если путь существует и соответствует файлу; в противном случае возвращается `False`;
* метод `p.is_dir()` возвращает `True`, если путь существует и соответствует каталогу; в противном случае возвращается `False`.

In [None]:
Dir = Path('/content/data')
Dir.exists()

True

In [None]:
Dir.is_file()

False

In [None]:
Dir.is_dir()

True

## Процесс чтения и записи файлов

Теперь мы с вами знаем, как задать путь к файлу для операций чтения и записи. Файлы можно разделить на 2 группы:
* текстовые,
* бинарные.

**Текстовые файлы** содержат только текстовые символы, не сопровождающиеся информацией о шрифте, кегле и цвете текста. Например, файлы с расширением `.txt` или файлы сценариев Python с расширением `.py`. Подобные файлы можно открыть с помощью приложения Блокнот в Windows. Содержимое простых текстовых файлов можно обрабатывать как обычную строку.

Другой тип файлов - **бинарные файлы**, к которым относятся, в частности, документы, создаваемые текстовыми процессорами, PDF-файлы, графические файлы, файлы электронных таблиц, а также исполняемые программы. Открыв бинарный файл в приложении Блокнот, мы увидим бессмысленный набор странных символов.

Поскольку различные типы бинарных файлов должны обрабатываться по-разному, мы не будем пытаться непосредственно читать и записывать такие файлы. Существуют специальные модули, которые упрощают работу с бинарными файлами. Один из них - модуль `shelve`, с которым мы познакомимся далее.

В Python операции чтения/записи файлов выполняются в три этапа:

1. вызов функции `open()`, которая возвращает объект `File`;
2. вызов метода `read()` или `write()` объекта `File`;
3. закрытие файла путем вызова метода `close()` объекта `File`.

## Открытие файла с помощью функции open()

Для открытия файла с помощью функции `open()` необходимо в качестве аргумента передать путь к файлу в виде строки. Это может быть как абсолютный, так и относительный путь. Функция `open()` возвращает объект `File`, через который идёт вся дальнейшая работа с файлом (файловый указатель).

Функция `open()` принимает два параметра: имя файла (или путь к файлу, если файл находится не в том каталоге, где записана программа) и режим открытия файла:
* `"r"` – открыть на чтение,
* `"w"` – открыть на запись,
* `"a"` – открыть на добавление.


In [None]:
helloFile = open('/content/data/lec/lec5/hello.txt')
# или используя текущий каталог
# helloFile = open(Path.cwd() / 'lec/lec5/hello.txt')

Обе приведенные выше команды открывают файл в режиме чтения. В этом режиме Python позволяет только считывать данные из файла; мы не сможем записать данные в файл или каким-то образом изменить его содержимое. Такой режим устанавливается по умолчанию для файлов, открываемых в Python. Чаще всего открытый файл блокируется так, что другие программы не могут использовать его.

Функция `open()` возвращает объект `File`, который представляет файл. Это еще один тип данных в Python, как списки или словари, с которыми мы уже знакомы.

В примере выше мы сохранили объект `File` в переменной `helloFile` и теперь каждый раз, когда нам понадобится прочитать или записать данный файл, достаточно будет вызвать соответствующий метод объекта `File` для переменной `helloFile`.

Если файл, который открывается на чтение, не найден, возникает ошибка. Если существующий файл открывается на запись, его содержимое уничтожается.

После окончания работы программы все открытые файлы закрываются автоматически.


## Чтение содержимого файла

Для чтения файла он открывается с режимом `r` (Read), и затем мы можем считать его содержимое различными методами:

* `readline()`: считывает одну строку из файла;
* `read()`: считывает все содержимое файла в одну строку;
* `readlines()`: считывает все строки файла в список.

Если требуется прочитать все содержимое файла в виде одной большой строки, следует использовать метод `read()` объекта `File`.

In [None]:
helloContent = helloFile.read()
helloFile.close()
helloContent

'Привет, мир!'

Альтернативный вариант - использование метода `readlines()` для чтения списка строк из файла.

In [None]:
hello3File = open('/content/data/lec/lec5/hello3.txt')
hello3Content = hello3File.readlines()
hello3File.close()
hello3Content

['Привет, мир!\n', 'Привет, мир!\n', 'Привет, мир!']

Обратите внимание на то, что каждое из строковых значений, за исключением последнего, заканчивается символом новой строки (`\n`). Зачастую работать со списком строк проще, чем с одной длинной строкой.

Чтение одной строки из текстового файла выполняет метод `readline()`, связанный с файловой переменной:

In [None]:
hello3File = open('/content/data/lec/lec5/hello3.txt')
helloContent = hello3File.readline()
hello3File.close()
helloContent

'Привет, мир!\n'

Как правило, текстовый файл – это «устройство» **последовательного доступа** к данным. Это значит, что для того, чтобы прочитать 100-е по счёту значение из файла, нужно сначала прочитать предыдущие 99. В своей внутренней памяти система хранит положение указателя (файлового курсора), который определяет текущее место в файле. При открытии файла указатель устанавливается в самое начало файла, при чтении смещается на позицию, следующую за прочитанными данными, а при записи – на следующую свободную позицию.

Если нужно повторить чтение с начала файла, можно закрыть его, а потом снова открыть.

Построчное чтение данных с файла можно осуществлять без явного использования метода `readline()`:

In [None]:
file = open("/content/data/lec/lec5/hello3.txt", "r")

for line in file:
  print(line, end="")

file.close()

Привет, мир!
Привет, мир!
Привет, мир!

Несмотря на то, что мы явно не применяем метод `readline()` для чтения каждой строки, при переборе файла этот метод автоматически вызывается для получения каждой новой строки. Поэтому в цикле вручную нет смысла вызывать метод `readline()`. И поскольку строки разделяются символом перевода строки `"\n"`, то для того, чтобы исключить излишнего переноса на другую строку, в функцию `print()` передается значение `end=""`.

Теперь явным образом вызовем метод `readline()` для чтения отдельных строк:

In [None]:
file = open("/content/data/lec/lec5/hello3.txt", "r")

str1 = file.readline()
print(str1, end="")
str2 = file.readline()
print(str2)

file.close()

Привет, мир!
Привет, мир!



### Неизвестное количество данных

Предположим, что в текстовом файле записано в столбик неизвестное количество чисел и требуется найти их сумму. В этой задаче не нужно одновременно хранить все числа в памяти (и не нужно выделять массив!), достаточно читать по одному числу и сразу его обрабатывать:
```
while не конец файла:
  прочитать число из файла
  добавить его к сумме
```

Для того, чтобы определить, когда данные закончились, будем использовать особенность метода `readline()`: когда файловый курсор указывает на конец файла, метод `readline()` возвращает пустую строку, которая воспринимается как ложное логическое значение:


In [None]:
fileNums = open('/content/data/lec/lec5/nums.txt')
s = 0
while True:
  num = fileNums.readline()
  if not num: break
  s += int(num)
fileNums.close()
print(s)

199


В этом примере при получении пустой строки цикл чтения заканчивается с помощью оператора `break`. Возможны и другие варианты. Например, метод `readlines()` позволяет прочитать все строки сразу в список:

In [None]:
fileNums = open('/content/data/lec/lec5/nums.txt')
lst = fileNums.readlines()
for num in lst:
  print(num.strip())
fileNums.close()

10
5
8
123
52
1


## Запись в файл

Python позволяет записывать содержимое в файл аналогично тому, как функция `print()` выводит строки на экран. Но записывать что-либо в файл, открытый в режиме чтения, невозможно. Вместо этого файл должен быть открыт в режиме записи.

В режиме записи содержимое существующего файла удаляется, и новые данные записываются "с чистого листа", аналогично тому, как в операции присваивания старое значение переменной заменяется новым. Чтобы открыть файл в режиме записи, следует передать методу `open()` строку `'w'` в качестве второго аргумента. Поддерживается также *режим добавления*, в котором новый текст добавляется в конец существующего файла. Эту операцию можно рассматривать как присоединение нового значения к списку, хранящемуся в переменной, а не полную перезапись содержимого переменной. Чтобы открыть файл в режиме добавления, следует передать методу `open()` строку `'a'` в качестве второго аргумента.

Если файла с именем, переданным методу `open()`, не существует, то как в режиме записи, так и в режиме добавления будет создан новый, пустой файл. Прежде чем повторно открывать файл после завершения операции чтения или записи, его предварительно нужно закрыть с помощью метода `close()`. Именно при закрытии файла все последние изменения, сделанные программой в этом файле, записываются на диск.

In [None]:
# Октрываем файл в режиме записи
# Файл изначально не существует, поэтому Python создаст его
file = open('data.txt', 'w')
file.write('Файл - набор данных на диске, имеющий имя.\n')
file.close()

In [None]:
# Октрываем файл в режиме добавления текста
file = open('data.txt', 'a')
file.write('Файлы бывают двух типов: текстовые и бинарные.')
file.close()

In [None]:
# Октрываем файл в режиме чтения текста
file = open('data.txt')
content = file.read()
file.close()
print(content)

Файл - набор данных на диске, имеющий имя.
Файлы бывают двух типов: текстовые и бинарные.


Обратите внимание, что метод `write()` не добавляет автоматически символ новой строки в конец записываемой строки, как это делает функция `print()`. Данный символ нужно добавлять самостоятельно.

Начиная с Python 3.6 вместо строки имени файла можно передавать в функцию `open()` объект `Path`.

## Конструкция with-as

В Python есть ещё один способ работы с файлами, при котором закрывать файл не нужно, он закроется автоматически. Это конструкция `with-as`:

In [None]:
with open("/content/data/lec/lec5/nums.txt") as file:
  for num in file:
    print(num, end = "")

10
5
8
123
52
1

В первой строке файл `input.txt` открывается в режиме чтения и связывается с файловым указателем `file`. Затем в цикле перебираются все строки в этом файле, каждая из них по очереди попадает в переменную `num` и выводится на экран. Закрывать файл с помощью `close()` не нужно, он закроется автоматически после окончания цикла.

## Упаковка объектов Python с помощью модуля pickle

В программах, которые работают с данными на диске, бывает нужно читать массивы структур из файла и записывать в файл. Конечно, можно хранить структуры в текстовых файлах, например, записывая все поля одной структуры в одну строку и разделяя их каким-то символом-разделителем, который не встречался внутри самих полей.

Но есть другой способ, который позволяет хранить данные в файлах во внутреннем формате, т.е. так, как они представлены в памяти компьютера во время работы программы. Для этого в Python используется стандартный модуль `pickle`, позволяющий работать с **бинарными файлами**.

Этот модуль предоставляет два метода:
* `dump(obj, file)`: записывает объект `obj` в бинарный файл `file`;
* `load(file)`: считывает данные из бинарного файла в объект.

При открытии бинарного файла на чтение или запись также надо учитывать, что нам нужно применять режим `"b"` в дополнение к режиму записи (`"w"`) или чтения (`"r"`).

Рассмотрим пример хранения данных о книгофонде библиотеки.

In [None]:
class Book:
  def __init__(self, author, title, count):
    self.author = author
    self.title = title
    self.count = count
  def info(self):
    print(f'{self.author} {self.title} в наличии {self.count} шт.')

book1 = Book('Тургенев И.С.', 'Муму', 5)
book2 = Book('Лермонтов М.Ю.', 'Герой нашего времени', 10)
book3 = Book('Пушкин А.С.', 'Капитанская дочка', 8)
lst_books = [book1, book2, book3]

Запись структуры в файл выполняется с помощью процедуры `dump()`:

In [None]:
import pickle
with open("books.dat", "wb") as F:
  pickle.dump(lst_books, F)

Обратите внимание, что файл открывается в режиме `wb` (write binary) - запись данных в двоичном (внутреннем формате).

При чтении этих данных нужно использовать тот же способ, что и при записи: если структуры записывались по одной, читать их тоже нужно по одной, а если записывался весь массив за один раз (как это сделали мы), так же его нужно и читать.

In [None]:
with open("books.dat", "rb") as F:
  B = pickle.load(F)
for book in B:
  book.info()

Тургенев И.С. Муму в наличии 5 шт.
Лермонтов М.Ю. Герой нашего времени в наличии 10 шт.
Пушкин А.С. Капитанская дочка в наличии 8 шт.


Если бы мы, например, записывали каждую книгу по отдельности:

In [None]:
with open("books.dat", "wb") as F:
  pickle.dump(book1, F)
  pickle.dump(book2, F)
  pickle.dump(book3, F)

То для чтения данных при известном количестве структур можно применить цикл с переменной:

In [None]:
B = []
with open("books.dat", "rb") as F:
  for _ in range(3):
    B.append(pickle.load(F))

for book in B:
  book.info()

Тургенев И.С. Муму в наличии 5 шт.
Лермонтов М.Ю. Герой нашего времени в наличии 10 шт.
Пушкин А.С. Капитанская дочка в наличии 8 шт.


Если же число структур неизвестно, нужно выполнять чтение до тех пор, пока файл не закончится, т.е. при очередном чтении не произойдет ошибка:

In [None]:
B = []
with open("books.dat", "rb") as F:
  while True:
    try:
      B.append(pickle.load(F))
    except:
      break

for book in B:
  book.info()

Тургенев И.С. Муму в наличии 5 шт.
Лермонтов М.Ю. Герой нашего времени в наличии 10 шт.
Пушкин А.С. Капитанская дочка в наличии 8 шт.


## Сохранение переменных с помощью модуля shelve

Для работы с бинарными файлами в Python может применяться еще один модуль - `shelve`. Модуль `shelve` реализует постоянное хранилище для произвольных объектов Python, значения которого можно извлекать, используя словарные методы. Он сохраняет объекты в файл с определенным ключом. Затем по этому ключу может извлечь ранее сохраненный объект из файла. В качестве ключей хранилища `shelve` используются обычные строки.

С помощью модуля `shelve` можно сохранить переменные в бинарных файлах-хранилищах. Благодаря этому программа сможет впоследствии восстановить значения переменных, считывая данные с жесткого диска, что позволяет реализовать в программе функции сохранения и открытия файлов. Например, можно задать конфигурационные настройки, сохранить их в файле хранилища и загрузить при последующем запуске программы.

In [None]:
import shelve
shelfFile = shelve.open('mydata') # записываем содержимое хранилища
cats = ['Софи', 'Питер', 'Саймон']
shelfFile['кошки'] = cats # доступ к хранилищу осуществляется по ключу
shelfFile.close()

В результате мы получили бинарный файл, в котором содержатся данные, помещенные в хранилище. Точный формат хранения данных не имеет значения: достаточно знать лишь то, *что* делает модуль `shelve`, а не *как* он это делает. Данный модуль освобождает нас от всех забот, связанных с организацией хранения данных в файлах.

Программа может использовать модуль `shelve` для последующего открытия файлов хранилища и извлечения из них данных. Хранилища не нужно открывать в режиме чтения или записи - как только хранилище будет открыто, вы сможете выполнять оба типа операций.

In [None]:
shelfFile = shelve.open('mydata')
type(shelfFile)

shelve.DbfilenameShelf

In [None]:
shelfFile['кошки']

['Софи', 'Питер', 'Саймон']

In [None]:
shelfFile.close()

Как и словари, хранилища поддерживают методы `keys()` и `values()`, извлекающие из хранилища коллекции ключей и значений.

In [None]:
shelfFile = shelve.open('mydata')
print(list(shelfFile.keys()))
print(list(shelfFile.values()))
shelfFile.close()

['кошки']
[['Софи', 'Питер', 'Саймон']]


Создадим словарь для хранения стран и их столиц:

In [None]:
# import shelve

FILENAME = "states"
with shelve.open(FILENAME) as states:
    states["London"] = "Great Britain"
    states["Paris"] = "France"
    states["Berlin"] = "Germany"
    states["Madrid"] = "Spain"

with shelve.open(FILENAME) as states:
    print(states["London"])
    print(states["Madrid"])

Great Britain
Spain


### Получение данных

Чтение данных из файла эквивалентно получению значения по ключу в словаре.

Попробуем получить значение по несуществующему ключу:

In [None]:
with shelve.open(FILENAME) as states:
  key = "Brussels"
  print(states[key])

  #1 проверка наличия ключа с помощью оператора in
  # if key in states:
  #     print(states[key])

  #2 проверка с помощью метода get()
  # print(states.get("Brussels", "Undefined"))

Belgium


### Обновление данных

Для изменения данных достаточно присвоить по ключу новое значение, а для добавления данных - определить новый ключ:

In [None]:
with shelve.open(FILENAME) as states:
  states["London"] = "United Kingdom"
  states["Brussels"] = "Belgium"

### Удаление данных

Для удаления с одновременным получением значения можно использовать функцию `pop()`, в которую передается ключ элемента и значение по умолчанию, если ключ не найден:

In [None]:
with shelve.open(FILENAME) as states:
    state = states.pop("London", "NotFound")
    print(state)

United Kingdom


Также для удаления может применяться оператор `del`:

In [None]:
with shelve.open(FILENAME) as states:
    del states["Madrid"]    # удаляем объект с ключом Madrid

Для удаления всех элементов можно использовать метод `clear()`:

In [None]:
with shelve.open(FILENAME) as states:
    states.clear()

Формат простого текста удобно использовать для создания файлов, которые будут просматриваться в текстовом редакторе наподобие Блокнот. Если же нужно сохранять данные из программ Python, можно воспользоваться методом `shelve`.

## Обработка списков

В текстовом файле записаны целые числа. Требуется вывести в другой текстовый файл те же числа, отсортированные в порядке убывания последней цифры.
Особенность этой задачи в том, что для сортировки нам нужно удерживать в памяти все числа, то есть для их хранения нужно выделить массив (список).

В большинстве языков программирования память под массив нужно выделить заранее, поэтому необходимо знать наибольшее возможное число элементов массива. Поскольку список в Python может расширяться, у нас этой проблемы нет. Цикл чтения может выглядеть так:


In [None]:
fileNums = open('/content/data/lec/lec5/nums.txt')
A = []
while True:
  s = fileNums.readline()
  if not s: break
  A.append(int(s))
A

[10, 5, 8, 123, 52, 1]

Есть и другой вариант, в стиле Python. Метод `read()` для файлового указателя читает (в отличие от `readline()`) не одну сроку, а весь файл. Затем мы разобьём получившуюся символьную строку на слова с помощью метода `split()` и с помощью функции `map()` выполним преобразование элементов списка к целым числам:

In [None]:
fileNums = open('/content/data/lec/lec5/nums.txt')
nums = fileNums.read().split()
nums = list(map(int, nums))

Теперь нужно отсортировать массив `nums` в порядке убывания последней цифры:

In [None]:
nums.sort(key = lambda x: x%10, reverse = True)
nums

[8, 5, 123, 52, 1, 10]

Запишем результат во второй файл, открытый на запись:

In [None]:
Fout = open("output.txt", "w")
Fout.write(str(nums))
Fout.close()

В этом варианте мы использовали функцию `str()`, которая возвращает символьную запись объекта, такую, которая выводится на экран. Если нам нужно форматировать данные по-своему, например, вывести их в столбик, можно обработать каждый элемент вручную в цикле:

In [None]:
Fout = open("output.txt", "w")
for x in nums:
  Fout.write(str(x)+"\n")
Fout.close()

К символьной записи очередного элемента массива мы добавляем символ перехода на новую строку, который обозначается как `"\n"`. В этом случае числа выводятся в файл в столбик.

## Обработка строк

Как известно, современные компьютеры бóльшую часть времени заняты обработкой символьной, а не числовой информации. Предположим, что в текстовом файле записаны данные о собаках, привезенных на выставку: в каждой строчке кличка собаки, ее возраст (целое число) и порода, например:

*Мухтар 4 немецкая овчарка*

Все элементы отделяются друг от друга одним пробелом. Нужно вывести в другой файл сведения о собаках, которым меньше 5 лет.

В этой задаче данные можно обрабатывать по одной строке (не нужно загружать все строки в оперативную память):

```
while не конец файла (Fin):
  прочитать строку из файла Fin
  разобрать строку – выделить возраст
  if возраст < 5:
    записать строку в файл Fout
```

Здесь, как и раньше, `Fin` и `Fout` – файловые переменные, связанные с файлами, открытыми на чтение и запись соответственно.

Будем считать, что все данные корректны, то есть первый пробел отделяет кличку от возраста, а второй – возраст от породы. Тогда для разбора очередной прочитанной строки `s` можно использовать метод `split()`, который вернет список, где второй по счёту элемент (он имеет индекс 1) – это возраст собаки. Его и нужно преобразовать в целое число:


In [None]:
Fin = open('/content/data/lec/lec5/dogs.txt')
s = Fin.readline()
data = s.split()
sAge = data[1]
age = int(sAge)
age

4

Эти операции можно записать в краткой форме:

In [None]:
s = Fin.readline()
age = int(s.split()[1])
age

2

Полная программа выглядит так:

In [None]:
Fin = open('/content/data/lec/lec5/dogs.txt')
Fout = open('/content/data/lec/lec5/dogs5.txt', 'w')
while True:
  s = Fin.readline()
  if not s: break
  age = int(s.split()[1])
  if age < 5:
    Fout.write(s)
Fin.close()
Fout.close()

Её можно записать несколько иначе, используя метод `readlines()`, который читает сразу все строки в список:

In [None]:
Fin = open('/content/data/lec/lec5/dogs.txt')
Fout = open('/content/data/lec/lec5/dogs5.txt', 'w')
lst = Fin.readlines()
for s in lst:
  age = int(s.split()[1])
  if age < 5:
    Fout.write(s)
Fin.close()
Fout.close()

или конструкцию `with-as`:

In [None]:
with open("/content/data/lec/lec5/dogs.txt") as Fin, open('/content/data/lec/lec5/dogs5.txt', 'w') as Fout:
  for s in Fin:
    age = int(s.split()[1])
    if age < 5:
      Fout.write(s)

## Подведем итог

Файлы хранятся в папках (каталогах), и местоположение файла описывается строкой пути. У каждой запущенной программы есть свой текущий каталог, что позволяет указывать пути относительно текущего каталога вместо того, чтобы всегда задавать полный (абсолютный) путь. Модули `pathlib` и `os.path` содержат множество функций, предназначенных для работы с путями доступра к файлам.

В программе можно непосредственно работать с содержимым текстовых файлов. Функция `open()` позволяет открывать такие файлы для чтения их содержимого в виде одной длинной строки (с помощью метода `read()`) или в виде списка строк (метод `readlines()`). Функция `open()` позволяет открывать файлы в режиме записи или добавления, что дает возможность создавать новые текстовые файлы или добавлять данные в конец существующих файлов.