# Работа с файлами

## Двоичные файлы, текстовые файлы, кодировки

Компьютер хранит и работает с числами, битовыми последовательностями
из 0, 1. Т.е. числами в двоичной системе счисления. Файлы на диске
тоже хранятся в виде последовательностей из 0 и 1. Байт —
минимальная адресуемая позиция в памяти, байт = 8 бит. 8 бит =
число из 8 двоичных цифр, т.е. 256 различных чисел можно сохранить
в одном байте. Обычно это или числа от 0 до 255, или от -128 до 127.

Двоичный файл — это файл состоящий из последовательности байтов.
Читается и записывается двоичный файл байтами.

Текстовый файл — это файл, который хранит символы (а не числа). Для
хранения на диске нет разделенения между двоичными и текстовыми
файлами. Это различие есть только для программиста, один и тот же
файл можно обрабатывать как двоичный, можно как текстовый.

Компьютер умеет хранить только числа (от 0 до 255), и поэтому напрямую
сохранить текст невозможно. Возникает понятие **кодировки**, это таблица,
которая сопоставляет символам числа. Например, есть таблица ASCII, в ней
числам от 0 до 127 назначены символы, это управляющие символы типа `\n`,
знаки препинания, латинские заглавные и строчные буквы.
Но это только половина от 256 возможных значений из 1 байта.
Раньше оставшиеся 128 символов использовали по-разному в зависимости от
языка. Например, в русском Windows использовалась таблица windows-1251 (cp-1251).
Еще раньше была кодировка cp-866, она до сих пор используется в windows в
старом терминале (программа cmd).

Если хочется писать по-русски, достаточно использовать windows-1251, если нужно
по-гречески, подойдет другая кодировка, если нужно и по-русски, и по-гречески, то
таблицы из 256 символов не хватает.

Появился стандарт UNICODE, это таблица, которая сопоставляет символы числу из двух
байт (16 бит = 65536 символов). В 65 тыс символов помещаются все символы письменных
алфавитов, современных и древних. Некоторые символы в Unicode составные, например,
это китайские иероглифы. Или смайлики. Еще в Unicode есть много управляющих символов,
знаки препинания, математические символы, стрелочки для псевдографики и т.д.

В Python (3) текст хранится в виде последовательности UNICODE символов. Хранить в памяти
Unicode текст можно по-разному. Например, можно каждый символ хранить в виде двух
байт. Можно делать умнее, и частые символы хранить 1 байтом, более редкие — двумя,
очень редкие 3, 4 и более байт. Это делает кодировка UTF-8.

Если вы встречаете байт со значением от 0 до 127, его смысл соответствует ASCII
таблице. Если значение больше 127, то нужно смотреть следующий байт, чтобы узнать
значение символа.

Проблема с кодировками. Если записать текст в одной кодировке, а прочитать в другой,
получится нечитаемый текст. Вывод: при чтении и записи файла нужно точно знать,
какой кодировкой вы пользуетесь. *Мы при чтении и записи файла мы будем всегда явно
указывать кодировку.*

Сейчас, если нет веской причины делать иначе, пользуйтесь только кодировкой UTF-8.

## Чтение файла

Чтобы файл прочитать, его нужно «открыть» в режиме чтения. Причем открытые файлы в
Python, в других языках, это ресурсы, которые надо освобождать, когда они становятся
не нужными. *Т.е.: не забывайте закрывать файлы после использования.*

In [8]:
# режим 'r' означает чтение файла, и обязательно указываем кодировку
f = open("a.txt", mode="r", encoding="utf8")
all_lines = f.readlines()  # прочитать все строки и получить их в виде списка
f.close()  # закрытие файла

print(all_lines)

f = open("a.txt", mode="r", encoding="utf8")
line1 = f.readline()  # прочитать одну строку
line2 = f.readline()
line3 = f.readline()
line4 = f.readline()
line5 = f.readline()
line6 = f.readline()
line7 = f.readline()
f.close()

print(line1, line2, line3, line4, line5, line6, line7)

# если в файле закончились строки, readline вернет ""
print(len(line7))

# Поэтому можно читать строки в цикле:
f = open("a.txt", mode="r", encoding="utf8")
while True:
    line = f.readline()  # прочитали строку
    if line == "":  # конец чтения, если строк больше нет
        break
    line = line.strip()  # обрезали пробелы и переводы строки
    # обрабатываем очередную строку файла
f.close()

# можно прочитать сразу всё из файла в одну строку, можно по частям
f = open("a.txt", mode="r", encoding="utf8")
text = f.read() # читаем сразу всё в строковую переменную
f.close()

print(text)

# можно читать частями, например, посимвольно
f = open("a.txt", mode="r", encoding="utf8")
c1 = f.read(1)  # прочитай один символ
c2 = f.read(1)  # прочитай один символ
c3 = f.read(1)  # прочитай один символ
f.close()

print(c1)
print(c2)
print(c3)

['Пример файла, внутри него какой-то текст\n', 'Он расположен в нескольких строках\n', 'Вот еще одна строка\n', '\n', 'в конце несколько пустых строк\n', '\n']
Пример файла, внутри него какой-то текст
 Он расположен в нескольких строках
 Вот еще одна строка
 
 в конце несколько пустых строк
 
 
0
Пример файла, внутри него какой-то текст
Он расположен в нескольких строках
Вот еще одна строка

в конце несколько пустых строк


П
р
и


Важная мысль, открывайте и закрывайте файл иначе, не так, как в примерах выше.
Чтобы 100% гарантировать закрытие файла, используйте встроенную конструкцию with:


In [None]:
with open("a.txt", mode="r", encoding="utf-8") as f:  # f = open(....
    text = f.read()

# после выхода из with файл гарантированно закроется

Можно открыть несколько файлов, пишется через запятую:

```with open(...) as f, open(...) as g:```

## Запись в файл:


In [9]:
# режим w = режим записи, при этом файл обнуляется.
# режим a = приписывать в конец файла
with open("b.txt", mode="w", encoding="utf8") as f:
    f.write("hello\n")  # можно записывать только строки таким способом
    print("text", 42, True, file=f)  # если укзать file=f, запишет в файл