# Лекция 5. Работа с файлами (расширенная лекция). Стандарт Unicode.

Программы, которые мы пишем, не изолированы в себе. Они скачивают данные из Интернета, читают и записывают данные на диск, передают данные через сеть.

Поэтому очень важно понимать разницу между тем, как компьютер хранит и передает данные, и как эти данные воспринимает человек. Мы воспринимаем текст, а компьютер - байты.

В Python 3, соответственно, есть две концепции:

* текст - неизменяемая последовательность Unicode-символов. Для хранения этих символов используется тип строка (`str`)
* данные - неизменяемая последовательность байтов. Для хранения используется тип `bytes`

> Более корректно будет сказать, что текст - это неизменяемая последовательность кодов (codepoints) Unicode.

# Стандарт Юникод

Юникод - это стандарт, который описывает представление и кодировку почти всех языков и других символов.

Несколько фактов про Юникод:

* стандарт версии 14.0 (сентябрь 2021) описывает 144 697 кодов и насчитывает 159 письменностей
* каждый код - это номер, который соответствует определенному символу
* стандарт также определяет кодировки - способ представления кода символа в байтах

Каждому символу в Юникод соответствует определенный код. Это число, которое обычно записывается таким образом: `U+0073`, где `0073` - это шестнадцатеричные цифры.

Коды в стандарте Юникод разделены на несколько областей. Область с кодами от `U+0000` до `U+007F` содержит символы набора ASCII, и коды этих символов совпадают с их кодами в ASCII. Далее расположены области символов других систем письменности, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. 

Кроме кода, у каждого символа есть свое уникальное имя. Например, букве «s» соответствует код `U+0073` и имя «LATIN SMALL LETTER S».

Примеры кодов, имен и соответствующих символов:

* `U+0073`, «LATIN SMALL LETTER S» - s
* `U+00F6`, «LATIN SMALL LETTER O WITH DIAERESIS» - ö
* `U+1F383`, «JACK-O-LANTERN» - 🎃
* `U+2615`, «HOT BEVERAGE» - ☕
* `U+1f600`, «GRINNING FACE» - 😀

# Кодировки

Кодировки позволяют записывать код символа в байтах.

Юникод поддерживает несколько кодировок:

* UTF-8
* UTF-16
* UTF-32

Одна из самых популярных кодировок на сегодняшний день - UTF-8. Эта кодировка использует переменное количество байт для записи символов Юникод.

Примеры символов Юникод и их представление в байтах в кодировке UTF-8:

* H - `48`
* i - `69`
* 🛀 - `01 f6 c0`
* 🚀 - `01 f6 80`
* ☃ - `26 03`

# Юникод в Python 3

В Python 3 есть:

* строки - неизменяемая последовательность Unicode-символов. Для хранения этих символов используется тип строка (str)
* байты - неизменяемая последовательность байтов. Для хранения используется тип bytes

## Строки

Так как строки - это последовательность кодов Юникод, можно записать строку разными способами.

Символ Юникод можно записать, используя его имя:

In [None]:
"\N{LATIN SMALL LETTER O WITH DIAERESIS}"

Или использовав такой формат:

In [None]:
"\u00F6"

Строку можно записать как последовательность кодов Юникод:

In [None]:
hi1 = 'привет'
hi2 = '\u043f\u0440\u0438\u0432\u0435\u0442'
hi1 == hi2

Функция `ord` возвращает значение кода Unicode для символа. А функция `chr` возвращает символ Юникод, который соответствует коду.

In [None]:
print('Функция ord: ' + str(ord('ö')))
print('Функция char: ' + str(chr(246)))

## Байты

Тип bytes - это неизменяемая последовательность байтов.

Байты обозначаются так же, как строки, но с добавлением буквы `b` перед строкой:

In [None]:
b1 = b'\xd0\xb4\xd0\xb0'
type(b1)

В Python байты, которые соответствуют символам ASCII, отображаются как эти символы, а не как соответствующие им байты. Это может немного путать, но всегда можно распознать тип bytes по букве `b`:

> Если попытаться написать не ASCII-символ в байтовом литерале, возникнет ошибка

In [None]:
bytes1 = b'hello'
bytes1.hex()
bytes2 = b'\x68\x65\x6c\x6c\x6f'

# Конвертация между байтами и строками

Избежать работы с байтами нельзя. Например, при работе с сетью или файловой системой, чаще всего, результат возвращается в байтах.

Соответственно, надо знать, как выполнять преобразование байтов в строку и наоборот. Для этого и нужна кодировка.

Кодировку можно представлять как ключ шифрования, который указывает:

* как «зашифровать» строку в байты (str -> bytes). Используется метод `encode` (похож на `encrypt`)
* как «расшифровать» байты в строку (bytes -> str). Используется метод `decode` (похож на `decrypt`)

Эта аналогия позволяет понять, что преобразования строка-байты и байты-строка должны использовать одинаковую кодировку.

## `encode`, `decode`

Для преобразования строки в байты используется метод `encode`. 

Чтобы получить строку из байт, используется метод `decode`.

In [None]:
hi = 'привет'
hi_bytes = hi.encode('utf-8')
print(hi_bytes)
hi == hi_bytes.decode('utf-8')

## `str.encode`, `bytes.decode`

Метод `encode` есть также в классе `str` (как и другие методы работы со строками).

А метод `decode` есть у класса `bytes` (как и другие методы).

> В этих методах кодировка может указываться как ключевой аргумент или как позиционный.

In [None]:
hi = 'привет'
hi_bytes = str.encode(hi, encoding='utf-8')
print(hi_bytes)
hi == bytes.decode(hi_bytes, 'utf-8')

Как работать с Юникодом и байтами

Есть очень простое правило, придерживаясь которого, можно избежать, как минимум, части проблем. Оно называется «Юникод-сэндвич»:

байты, которые программа считывает, надо как можно раньше преобразовать в Юникод (строку)
внутри программы работать с Юникод
Юникод надо преобразовать в байты как можно позже, перед передачей

## Как работать с Юникодом и байтами

Есть очень простое правило, придерживаясь которого, можно избежать, как минимум, части проблем. Оно называется «Юникод-сэндвич»:

* байты, которые программа считывает, надо как можно раньше преобразовать в Юникод (строку)
* внутри программы работать с Юникод
* Юникод надо преобразовать в байты как можно позже, перед передачей

# Примеры конвертации между байтами и строками

Рассмотрим несколько примеров работы с байтами и конвертации байт в строки.

## `subprocess`

Модуль `subprocess` возвращает результат команды в виде байт. Если дальше необходимо работать с этим выводом, надо сразу конвертировать его в строку.

In [None]:
import subprocess

result = subprocess.run(['ping', '-c', '3', '-n', '8.8.8.8'], stdout=subprocess.PIPE)
print(result.stdout, end='\n'+'-'*80+'\n')

output = result.stdout.decode('utf-8')
print(output)

Модуль `subprocess` поддерживает еще один вариант преобразования - параметр `encoding`. Если указать его при вызове функции `run`, результат будет получен в виде строки:

In [None]:
import subprocess

result = subprocess.run(['ping', '-c', '3', '-n', '8.8.8.8'], stdout=subprocess.PIPE, encoding='utf-8')

print(result.stdout)

## Работа с файлами

В предыдущей лекции при работе с файлами использовалась такая конструкция:

```
with open(filename) as f:
    for line in f:
        print(line)
```

Но на самом деле, при чтении файла происходит конвертация байт в строки. И при этом использовалась кодировка по умолчанию:

In [None]:
import locale

locale.getpreferredencoding()

Кодировка по умолчанию в файле:

In [None]:
f = open('r1.txt')
f

При работе с файлами лучше явно указывать кодировку, так как в разных ОС она может отличаться:

In [None]:
with open('r1.txt', encoding='utf-8') as f:
    for line in f:
        print(line, end='')

## Выводы

Эти примеры показаны тут для того, чтобы показать, что разные модули могут по-разному подходить к вопросу конвертации между строками и байтами. И разные функции и методы этих модулей могут ожидать аргументы и возвращать значения разных типов. Однако все эти вещи написаны в документации.

# Ошибки при конвертации

При конвертации между строками и байтами очень важно точно знать, какая кодировка используется, а также знать о возможностях разных кодировок.

Например, кодировка ASCII не может преобразовать в байты кириллицу:

In [None]:
hi_unicode = 'привет'
hi_unicode.encode('ascii')

Аналогично, если строка «привет» преобразована в байты, и попробовать преобразовать ее в строку с помощью ASCII, тоже получим ошибку:

In [None]:
hi_unicode = 'привет'
hi_bytes = hi_unicode.encode('utf-8')
hi_bytes.decode('ascii')

Еще один вариант ошибки, когда используются разные кодировки для преобразований:

In [None]:
de_hi_unicode = 'grüezi'
utf_16 = de_hi_unicode.encode('utf-16')
utf_16.decode('utf-8')

Наличие ошибок - это хорошо. Они явно говорят, в чем проблема. Хуже, когда получается так:

In [None]:
hi_unicode = 'привет'
hi_bytes = hi_unicode.encode('utf-8')
print(hi_bytes)
print(hi_bytes.decode('utf-16'))

## Обработка ошибок

У методов `encode` и `decode` есть режимы обработки ошибок, которые указывают, как реагировать на ошибку преобразования.

### Параметр `errors` в `encode`

По умолчанию `encode` использует режим `strict` - при возникновении ошибок кодировки генерируется исключение `UnicodeError`. Примеры такого поведения были выше.

Вместо этого режима можно использовать `replace`, чтобы заменить символ знаком вопроса:

In [None]:
de_hi_unicode = 'grüezi'
de_hi_unicode.encode('ascii', 'replace')

Или `namereplace`, чтобы заменить символ именем:

In [None]:
de_hi_unicode = 'grüezi'
de_hi_unicode.encode('ascii', 'namereplace')

Кроме того, можно полностью игнорировать символы, которые нельзя закодировать:

In [None]:
de_hi_unicode = 'grüezi'
de_hi_unicode.encode('ascii', 'ignore')

### Параметр `errors` в `decode`

В методе `decode` по умолчанию тоже используется режим `strict` и генерируется исключение `UnicodeDecodeError`.

Если изменить режим на `ignore`, как и в `encode`, символы будут просто игнорироваться:

In [None]:
de_hi_unicode = 'grüezi'
de_hi_utf8 = de_hi_unicode.encode('utf-8')
print(de_hi_utf8)

Режим `replace` заменит символы:

In [None]:
de_hi_unicode = 'grüezi'
de_hi_utf8 = de_hi_unicode.encode('utf-8')
de_hi_utf8.decode('ascii', 'replace')