# Работа с файловой системой
В этом лонгриде рассмотрим, как с помощью Python работать с файлами на жёстком диске

## Открытие файла

Основной метод при работе с файлами - `open`.
Он позволяет открыть файл в нужном режиме.

```python
fileobj = open(filename, mode, coding)
```

`filename` - путь к файлу

`coding` - кодировка, используемая в файле (ASCII, UTF-8, CP1251 и др.)

`mode` — это строка, указывающая на тип файла и действия, которые вы хотите над ним произвести.
Первая буква строки mode указывает на операцию:
* **r** - чтение;
* **w** - запись. Если файла не существует, он будет создан. Если файл существует, он будет перезаписан;
* **x** - запись, но только если файла еще не существует;
* **a** - добавление данных в конец файла, если он существует.

Вторая буква строки mode указывает на тип файла:
* **t** (или ничего) - файл текстовый (практически всегда работаем с ними);
* **b** - файл бинарный

|          Режим          |  r   |  r+  |  w   |  w+  |  a   |  a+  |
| :--------------------: | :--: | :--: | :--: | :--: | :--: | :--: |
|          Чтение          |  +   |  +   |      |  +   |      |  +   |
|         Запись          |      |  +   |  +   |  +   |  +   |  +   |
|         Создание         |      |      |  +   |  +   |  +   |  +   |
|         Перезапись          |      |      |  +   |  +   |      |      |
| Курор в начале |  +   |  +   |  +   |  +   |      |      |
|    Курсор в конце    |      |      |      |      |  +   |  +   |

Какой режим использовать?
<img src="imgs/fileIO.png" width="600"/>

## Что такое байтовые файлы / строки?
Это обычные файлы, разбивающиеся на куски равного размера в двоичной / шестнадцатиричной / двоичной системе.

`00000000  89 50 4e 47 0d 0a 1a 0a  00 00 00 0d 49 48 44 52  |.PNG........IHDR|`

`00000010  00 00 00 87 00 00 00 a0  08 03 00 00 00 11 90 8f  |................|`

`00000020  b6 00 00 00 04 67 41 4d  41 00 00 d6 d8 d4 4f 58  |.....gAMA.....OX|`

`00000030  32 00 00 00 19 74 45 58  74 53 6f 66 74 77 61 72  |2....tEXtSoftwar|`

`00000040  65 00 41 64 6f 62 65 20  49 6d 61 67 65 52 65 61  |e.Adobe ImageRea|`

## Чтение и запись в файл
Чтение и запись осуществляются с помощью методов `read()` и `write()`, соответственно

In [1]:
# откроем файл для перезаписи или создадим новый для записи
file = open(r'text_files\new_file.txt', 'r+')

In [2]:
# прочитаем файл
file.read()

''

In [3]:
py_zen='''Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!'''

In [4]:
# функция write записывает строку в файл и возвращает число записанных в него символов
file.write(py_zen)

822

In [5]:
# важно в конце работы файл закрыть, иначе он так и останется висеть открытым в процессе Python, 
# и придётся вырубать процесс через диспетчер задач
file.close()

## Ещё раз про чтение из файла

In [6]:
file = open(r'text_files\new_file.txt', 'r')
text = file.read()
print(text)
file.close()

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


Сначала функция поищет файл, считая название как относительный путь. Если не найдёт, то попробует как абсолютный.

Пути вводятся через `/` в Unix и через `\` в Windows.

Поэтому не забудьте указать Python, что ему не нужно искать в строке спецсимволы или регулярные выражения, иначе в строке ниже он начнёт искать `\U`, `\i` и т.д.

Для этого поставьте перед строкой модификатор `r` (т.е. raw string - сырая строка)

In [7]:
# будьте аккуратными с "абсолютными путями"
# при переносе кода на другой компьютер, путь изменится, и вы получите ошибку
# например, у Вас не заработает тот путь, который работает на моём компьютере
file = open(r'C:\Users\Alex\Python\new_file.txt', 'r')

FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\Alex\\Python\\new_file.txt'

## Построчное чтение
Файлы интернет-страниц или результатов расчётов могут быть объёмнами и не помещаться в оперативной памяти. 

3-4 Гб файл с результатами расчётов встречается нечасто, но, например для физика-исследователя такой сценарий вполне реален.

Для работы с подобными файлами можно использовать метод построчного чтения файла `readline()`

In [8]:
file = open(r'text_files\new_file.txt', 'r')

while True:
    # можно работать с ним построчно
    line = file.readline()
    if not line:
        break
    else:            
        # метод tell показывает позицию курсора в файле
        print(file.tell())
        print(line)

# метод seek меняет позицию курсора в файле
file.seek(0)
print(file.tell())
print(line)

file.close()

32
Beautiful is better than ugly.

67
Explicit is better than implicit.

99
Simple is better than complex.

136
Complex is better than complicated.

165
Flat is better than nested.

195
Sparse is better than dense.

216
Readability counts.

273
Special cases aren't special enough to break the rules.

310
Although practicality beats purity.

346
Errors should never pass silently.

375
Unless explicitly silenced.

434
In the face of ambiguity, refuse the temptation to guess.

505
There should be one-- and preferably only one --obvious way to do it.

573
Although that way may not be obvious at first unless you're Dutch.

600
Now is better than never.

650
Although never is often better than *right* now.

710
If the implementation is hard to explain, it's a bad idea.

776
If the implementation is easy to explain, it may be a good idea.

840
Namespaces are one honking great idea -- let's do more of those!
0



## Менеджеры контекста with ... as
При работе с файлами программисту требуется закрыть файл после работы с ним при любом сценарии - даже при возникновении ошибок и вызове исключений.

Чтобы не использовать для этого каждый раз конструкцию **try-except-finally**, в Python3 есть возможность "обернуть" ваш код некоторым менеджером, который заменит блок `finally` и обязательно выполнит определённую команду после выполнения кода.

Удобноство `with ... as` состоит в том, что при работе с функцией `open` в качестве такой команды будет всегда выполняться закрытие файла.


```python
with expression as target:

    code
```

In [9]:
# например, этот файл будет обязательно закрыт 
# после выполнения всего кода под конструкцией with ... as
with open(r'text_files/new_file.txt', 'r', encoding='utf-8') as file:
    text = file.read()
    print(text)

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


In [10]:
# файл уже закрыт, прочитать его не получится, не открыв его заново
file.read()

ValueError: I/O operation on closed file.

## Структурированные файлы
Python умеет работать и с файлами, устроенными более сложным образом:
* .csv
* XML
* HTML
* JSON
* YAML
* и др.

Для работы с такими файлами лучше всего найти библиотеку (встроенную или стороннюю), которая умеет с ними работать.

In [11]:
# например, Python умеет "из коробки" работать с .csv-файлами
import csv
with open(r'text_files/new_file.csv', 'r') as file:
    csv_text = csv.reader(file)
    acc = [row for row in csv_text] 
          
acc

[['col1;col2;col3'], ['val1;val2;val3'], ['1;2;3']]

In [12]:
# но разумнее установить для этого библиотеку Pandas (от англ. Pan Dataset)
# которая будет рассмотрена в следующей лекции
import pandas as pd
data = pd.read_csv(r'text_files/new_file.csv', sep=';')
data

Unnamed: 0,col1,col2,col3
0,val1,val2,val3
1,1,2,3
