# Файлы

По своей сути файл -- это непрерывный набор байтов, используемых для хранения данных. Эти данные организованы в определенном формате и могут быть как простыми, как текстовый файл, так и сложными, как изображения, исполняемые файлы и др.

Файлы в большинстве современных файловых систем состоят из трех основных частей: 

- заголовок содержит метаданные о файле (имя, размер, тип и т.д.); 
- данные представляют собой содержимое файла; 
- конец файла (```EOF```, end of file) это специальный символ, обозначающий конец файла.

Создать файловый объект можно с помощью функции ```open```, которая принимает путь к файлу в качестве единственного обязательного аргумента. Путь может быть как относительный, так и абсолютный. В качестве результата ```open``` возвращает файловый объект. Будьте внимательны, каждый открытый файл должен быть корректно закрыт с помощью метода ```close()```.

Файловые объекты -- это объекты предоставляющие файловый интерфейс, который состоит из методов чтения (```read```) и записи (```write```). Фактически существует три категории файловых объектов: 
- необработанные двоичные файлы (объекты способные читать и записывать байты), 
- буферизованные двоичные файлы, 
- текстовые файлы (объекты способные читать и записывать объекты типа ```str```). 

Их интерфейсы определены в модуле ```io```.

Ниже приведен пример открытия файла и некоторые из его атрибутов. Файлы и потоки имеют разные дополнительные методы, подробнее см. в [документации](https://docs.python.org/3/library/io.html).

In [22]:
f = open(r'python_pd\05_files\data.txt')
print(f'{f = }')
print(f'{type(f) = }')

# атрибуты файлового объекта
print(f'{f.name = }')  # имя файла/путь
print(f'{f.mode = }')  # режим открытия
print(f'{f.encoding = }')  # кодировка
print(f'{f.errors = }')  # параметр обработки ошибок кодирования/декодирования
print(f'{f.closed = }')  # флаг закрытия
print(f'{f.readable() = }')  # вернет True, если разрешено читать
print(f'{f.writable() = }')  # вернет True, если разрешено записывать
print(f'{f.seekable() = }')  # вернет True, если разрешен произвольный доступ
print(f'{f.tell() = }')  # возвращает текущую позицию указателя
f.close()

f = <_io.TextIOWrapper name='python_pd\\05_files\\data.txt' mode='r' encoding='cp1251'>
type(f) = <class '_io.TextIOWrapper'>
f.name = 'python_pd\\05_files\\data.txt'
f.mode = 'r'
f.encoding = 'cp1251'
f.errors = 'strict'
f.closed = False
f.readable() = True
f.writable() = False
f.seekable() = True
f.tell() = 0


## Чтение

Функция ```open``` принимает еще несколько именованных аргументов, например, ```mode``` – определяет режим, в котором будет открыт файл. Режимов открытия файла довольно много. Эти режимы эквивалентны функции ```fopen``` языка Си. Для начала рассмотрим режимы чтения. Их несколько:

- ```'r'``` - открытие для чтения, указатель располагается в начале файла (режим по умолчанию);
- ```'rb'``` - открытие для чтения в двоичном режиме, указатель располагается в начале файла;
- ```'r+'``` - открытие для чтения и записи, указатель располагается в начале файла;
- ```'a+'``` - открытие для чтения и дозаписи, если файл не существует, он создается, указатель располагается в конце файла.

Кроме выбора режима доступа можно задавать кодировку для открытия файла с помощью аргумента ```encoding```. Если файл создается без явного указания кодировки, то будет использована системная, в ОС Windows это ```cp1251```.

Есть несколько способов чтения файла:
- полностью;
- символы на определенных позициях;
- построчно (по одной или сразу все).

Чтение из файла производится методом ```read()```. По умолчанию он производит чтение всего файла (если вызывать метод без аргументов), поддерживается возможность чтения определенного количества символов.

In [23]:
f = open(r'python_pd\05_files\data.txt', mode='r')
text = f.read()  # чтение всего файла
f.close()

print(f'{text = }')

text = 'foo\nbar\nbaz\nquz'


Посимвольное чтение файла производится с помощью метода ```read``` и передачи ему количества символов, которое необходимо считать. Процесс посимвольного чтения, как и обычного, сдвигает указатель внутри файла. Отличие заключается лишь в том, что вызов ```read()``` сдвигает указатель в конец файла, а ```read(x)``` - на ```x``` позиций вперед. Этот процесс можно рассматривать как индексацию списка. Стоит учитывать, что разные режимы доступа размещают указатели либо в начале файла (в позиции ```0```), либо в конце. Проверить позицию указателя можно вызвав метод ```tell()```.

In [25]:
f = open(r'python_pd\05_files\data.txt', mode='r')
text_1 = f.read(4)  # чтение первых 4 символов
print(f'{f.tell() = }')
text_2 = f.read(4)  # чтение следующих 4 символов
print(f'{f.tell() = }')
text_3 = f.read()  # чтение оставшегося файла
print(f'{f.tell() = }')
f.close()

print(f'{text_1 = }')
print(f'{text_2 = }')
print(f'{text_3 = }')

f.tell() = 5
f.tell() = 10
f.tell() = 18
text_1 = 'foo\n'
text_2 = 'bar\n'
text_3 = 'baz\nquz'


Для изменения положения указателя используется метод ```seek()```, он принимает новое положение указателя и передвигает его туда.

In [30]:
f = open(r'python_pd\05_files\data.txt', mode='r')
print(f'(1): {f.tell() = }')
print(f'(1): {f.read(4) = }')

print(f'(2): {f.seek(10) = }')
print(f'(2): {f.read(4) = }')
f.close()

(1): f.tell() = 0
(1): f.read(4) = 'foo\n'
(2): f.seek(10) = 10
(2): f.read(4) = 'baz\n'


Чтение файла можно производить построчно с помощью метода ```readline()```. Этот метод удобно использовать в циклах при построчной обработке файла, а также при чтении очень больших файлов для экономии оперативной памяти.

Метод ```readline()``` аналогично методу ```read()``` может принимать количество символов для чтения в строке.

In [27]:
f = open(r'python_pd\05_files\data.txt', mode='r')
print(f'(1): {f.readline() = }')
print(f'(2): {f.readline() = }')
print(f'(3): {f.readline() = }')
f.close()

(1): f.readline() = 'foo\n'
(2): f.readline() = 'bar\n'
(3): f.readline() = 'baz\n'


Существует возможность считать все строки и получить из них список с помощью метода ```readlines()```.

In [28]:
f = open(r'python_pd\05_files\data.txt', mode='r')
for line in f.readlines():
    print(f'{line = }')
f.close()

line = 'foo\n'
line = 'bar\n'
line = 'baz\n'
line = 'quz'


В зависимости от того, как файловый объект был создан, он может обеспечить доступ к реальному файлу на диске или к другому типу устройства хранения, например, стандартный поток ввода/вывода, сокеты, буферы и т.д.

Закрытие файла производится методом ```close()```, после чего происходит немедленное освобождение всех используемых им системных ресурсов. Если явно не закрывать файл, сборщик мусора в итоге уничтожит этот объект и закроет файл. Но файл будет оставаться открытым неопределенное время после завершения работы с ним. Что приведет к растрате системных дескрипторов и конфликтам с другими программами, требующими доступ к данному ресурсу.

## Запись

Для осуществления записи в файл его нужно открыть в подходящем режиме. Режимов, позволяющих писать в файл несколько:

- ```'w'``` - открытие для записи (файл очищается);
- ```'w+'``` - открытие для чтения и записи (файл очищается);
- ```'r+'``` - открытие для чтения и записи;
- ```'a'``` - открытие для дозаписи (указатель в конце);
- ```'a+'``` - открытие для чтения и дозаписи (указатель в конце);
- ```'wb'``` - открытие для записи в бинарном режиме.

Более подробное различие всех режимов см. в таблице.

|                                    | ```r``` | ```r+``` | ```w``` | ```w+``` | ```a``` | ```a+``` |
|------------------------------------|:-------:|:--------:|:-------:|:--------:|:-------:|:--------:|
| Чтение                             | +       | +        | -       | +        | -       | +        |
| Запись                             | -       | +        | +       | +        | +       | +        |
| Запись после перемещения указателя | -       | +        | +       | +        | -       | -        |
| Создание                           | -       | -        | +       | +        | +       | +        |
| Очистка при открытии               | -       | -        | +       | +        | -       | -        |
| Указатель в начале                 | +       | +        | +       | +        | -       | -        |
| Указатель в конце                  | -       | -        | -       | -        | +       | +        |

Или в виде схемы.

<img src="image/mode.png">

Стоит отметить, что флаг ```b``` можно добавить к любому из этих режимов.

Запись в файл осуществляется методом ```write()```. Этот метод записывай данные в одну строку.

In [31]:
f = open(r'python_pd\05_files\write_data.txt', mode='w')
f.write('Foo\tbar\n')
f.close()

In [32]:
f = open(r'python_pd\05_files\write_data.txt', mode='r')
print(f'{f.read() = }')
f.close()

f.read() = 'Foo\tbar\n'


Записать сразу несколько строк позволяет метод ```writelines()```. В который можно передать коллекцию строк, каждый элемент которой будет записан последовательно в одну строку.

# Полезные ссылки

- [File object](https://docs.python.org/3/glossary.html#term-file-object)
- [Reading and Writing Files in Python (Guide)](https://realpython.com/read-write-files-python/)
- [Документация к модулю ```io```](https://docs.python.org/3/library/io.html)
- [Difference between modes a, a+, w, w+, and r+ in built-in open function?](https://stackoverflow.com/questions/1466000/difference-between-modes-a-a-w-w-and-r-in-built-in-open-function)
- [Reading and Writing Files (документация)](https://docs.python.org/3.9/tutorial/inputoutput.html#reading-and-writing-files)