# Файлы

## Как файлы хранятся на диске
Или хранятся для передачи по сети. Файл — последовательность байт, 8 бит (8 цифр в двоичной системе счисления), числа от 0 до 255 (или -128 до 127). Всего 256 вариантов значений.

Нам нужно работать с текстовыми файлами, т.е. файлами, хранящими текст. Что же делать, если реально хранятся числа?

**Кодировка** — таблица, которая сопоставляет числа и символы (буквы, цифры, знаки препинания, пробелы, ...)

**При чтении текстового файла обязательно подразаумевается какая-то кодировка.**

Какие бывают кодировки.
Раньше в русском windows основная кодировка была CP-866. (есть и сейчас в консоли, команда cmd, черное окно). Потом была кодировка CP-1251, она и сейчас очень популярна.
В этих кодировках есть только буквы кириллицы, их невозможно использовать для, например, греческого языка.
Сейчас есть стандарт UNICODE, который перечисляет все символы всех (почти) известных письменностей, но и много других символов: псевдографика, смайлики, математические символы, ... Есть кодировки, которые позволяют записывать символы из UNICODE.
UTF-8, UTF-16, UTF-32. С помощью этих кодировок можно записывать тексты сразу на всех письменностях.
Сейчас самая распространенная кодировка, кодировка по-умолчанию в большинстве ОС, это **UTF-8**. Пользуйтесь ей, если нет очень серьезных причин использовать другую.

**Таблица ASCII**
Подавляющее большинство кодировок, включая cp-1251, cp-866, utf-8 имеют одинаковые первые 128 символов. Это ASCII символы. Чем это хорошо. Если файл записан в ASCII-совместимой кодировке, то неважно, в какой кодировке его читать, все первые 128 символов точно прочитаются правильно.

Поэтому, если при чтении текста перепутана кодировка, латинские символы и знаки препинания будут видны правильно, а остальные символы нет.

Не путайте кодировки, читайте файл всегда в той кодировке, в которой он был записан.

## Файлы в Python
Открытие файла — это встроенная функция `open`

In [1]:
f = open(
    "text_utf8.txt",  # имя файла
    mode="r",  # режим открытия.
               # r - читать
               # w - писать (файл затирается)
               # a - append, (приписывать к файлу)
               # rb, wb, ab - двоичный файл, не текст
    encoding="utf8"  # обязательно кодировка (!)
                     # без нее python берет
                     # кодировку по-умолчанию
                     # неизвестно, какая она
)

text = f.read()  # прочитать вообще всё из файла
print(text)
f.close()  # обязательно закрыть файл

Привет, Мир! Latinskie bukvy
Еще одна строка
Предпоследняя строка
?*?::№::!!"№"



Закрывать файлы обязательно. Но есть проблема, в сложной программе может оказаться трудно проследить, что файл действительно закрыли, и не сделали это несколько раз. Вдруг в процессе чтения файла произошла ошибка. Или вы вышли из функции через return

```
f = open(..)

if ...:
    return  # ой!! забыт f.close()
    
f.close()
```

Поэтому тяжело самостоятельно следить за закрытием файлом, и **настоятельно рекомендуется** пользоваться конструкцией `with`:

In [3]:
# with значение as переменная_которой_присвоить
with open("text_utf8.txt", mode="r", encoding="utf8") as f:
    # блок кода с отступом
    text = f.read()
    print(text)

# здесь после with файл уже закрыт, им нельзя пользоваться

Привет, Мир! Latinskie bukvy
Еще одна строка
Предпоследняя строка
?*?::№::!!"№"



Оператор `with` гарантирует, что для переменной `f` будет вызван `f.close()` в любой ситуации. Что бы ни произошло внутри блока. Т.е. после блока `with` файл точно закрыт.

## Эксперимент, чтение в других кодировках

Но сначала прочитаем файл как набор байт. Из каких байт состоит наш файл?

In [5]:
# режим rb, чтение двоичных данных
with open("text_utf8.txt", mode="rb") as f:
    all_bytes = f.read()
    print(all_bytes)

b'\xd0\x9f\xd1\x80\xd0\xb8\xd0\xb2\xd0\xb5\xd1\x82, \xd0\x9c\xd0\xb8\xd1\x80! Latinskie bukvy\n\xd0\x95\xd1\x89\xd0\xb5 \xd0\xbe\xd0\xb4\xd0\xbd\xd0\xb0 \xd1\x81\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0\n\xd0\x9f\xd1\x80\xd0\xb5\xd0\xb4\xd0\xbf\xd0\xbe\xd1\x81\xd0\xbb\xd0\xb5\xd0\xb4\xd0\xbd\xd1\x8f\xd1\x8f \xd1\x81\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0\n?*?::\xe2\x84\x96::!!"\xe2\x84\x96"\n'


Здесь мы видим байты в 16 коде, \xd0 = это число в 16-ой системе счисления D0 = 13 * 16 = 208

In [6]:
0xD0

208

In [7]:
# режим rb, чтение двоичных данных
with open("text_utf8.txt", mode="rb") as f:
    all_bytes = f.read()
    for byte in all_bytes:
        print(byte)

208
159
209
128
208
184
208
178
208
181
209
130
44
32
208
156
208
184
209
128
33
32
76
97
116
105
110
115
107
105
101
32
98
117
107
118
121
10
208
149
209
137
208
181
32
208
190
208
180
208
189
208
176
32
209
129
209
130
209
128
208
190
208
186
208
176
10
208
159
209
128
208
181
208
180
208
191
208
190
209
129
208
187
208
181
208
180
208
189
209
143
209
143
32
209
129
209
130
209
128
208
190
208
186
208
176
10
63
42
63
58
58
226
132
150
58
58
33
33
34
226
132
150
34
10


In [8]:
with open("text_utf8.txt", mode="r", encoding="cp1251") as f:
    print(f.read())

РџСЂРёРІРµС‚, РњРёСЂ! Latinskie bukvy
Р•С‰Рµ РѕРґРЅР° СЃС‚СЂРѕРєР°
РџСЂРµРґРїРѕСЃР»РµРґРЅСЏСЏ СЃС‚СЂРѕРєР°
?*?::в„–::!!"в„–"



In [9]:
with open("text_utf8.txt", mode="r", encoding="cp866") as f:
    print(f.read())

╨Я╤А╨╕╨▓╨╡╤В, ╨Ь╨╕╤А! Latinskie bukvy
╨Х╤Й╨╡ ╨╛╨┤╨╜╨░ ╤Б╤В╤А╨╛╨║╨░
╨Я╤А╨╡╨┤╨┐╨╛╤Б╨╗╨╡╨┤╨╜╤П╤П ╤Б╤В╤А╨╛╨║╨░
?*?::тДЦ::!!"тДЦ"



## Пути к файлам
Путь к файлу может быть абсолютным или относительным. Абсолютный начинается с `C:\` в windows, это пусть от корня файловой системы. В Linux и в Mac: `/`.

Например
```
C:\Windows\notepad.exe
/home/ilya/a.txt
```

Относительный не начинается:
```
a.txt
folder/a.txt
../folder/a.txt
```
Напомню, что `..` это возврат к директории выше.

Относительный путь считается от **рабочей директории**. Каждая программа при запуске имеет рабочую директорию. Обычно это та директория, из которой ее запустили, т.е. где лежит сам файл с программой. У вас сейчас рабочая директория это всегда та же директория, где и файл `.py`. В IntelliJ IDEA (PyCharm) рабочая директория указывается в настройках при запуске программы.

**Прошу не пользоваться абсолютными путями в задачах**. Такие программы не переносимы на другой компьютер. Если python не может найти нужный вам файл, разберитесь, какой каталог у вас рабочий, и как написать от него относительный путь до файла.

**Пользуйтесь прямым слешом / для отделения каталогов всегда, даже в Windows**.

Пример, `"c:/windows"`, а не `"c:\\windows"`. (кстати, `\` надо экранировать как `\\`)

## Действия с файлами

In [16]:
with open("text_utf8.txt", mode="r", encoding="utf8") as f:
    # f.read() это чтение всего содержимого от текущей позиции
    line1 = f.readline()  # чтение до конца строки
    print(line1)
    ## readline() читает символы перевода строки в конце.
    # очень часто после readline() сразу делают strip(), чтобы удалить символ
    # перевод строки из конца прочитанной строки
    print(line1.strip())
    # если больше читать нечего, вернется "" (пустая строка). Ошибки нет
    
    _5symbols = f.read(5)  # прочитать 5 символов
    print(_5symbols)
    print(f.readline().strip()) # прочитать строку до конца
    
with open("text_utf8.txt", mode="r", encoding="utf8") as f:
    all_lines = f.readlines()  # прочитать все строки как список
    print(all_lines)
    
with open("text_utf8.txt", mode="r", encoding="utf8") as f:
    for line in f:  # цикл по файлу = цикл по строкам файла
        print(line.strip())  # распечатать файл построчно
        
# кстати, f.readlines() эквивалентно list(f), см. как list создает список

Привет, Мир! Latinskie bukvy

Привет, Мир! Latinskie bukvy
Еще о
дна строка
['Привет, Мир! Latinskie bukvy\n', 'Еще одна строка\n', 'Предпоследняя строка\n', '?*?::№::!!"№"\n']
Привет, Мир! Latinskie bukvy
Еще одна строка
Предпоследняя строка
?*?::№::!!"№"


Еще есть `f.write(...)` для записи в файл, если он открыт в режиме записи.