## 3. Кодировки и работа с текстовыми данными (1 час)

#### ASCII и Unicode

##### История и ограниченность ASCII

- **ASCII (American Standard Code for Information Interchange)** — это одна из первых кодировок символов, разработанная в 1960-х годах. ASCII использует 7 бит для представления каждого символа, что даёт возможность кодировать всего 128 символов. Эти символы включают латинские буквы, цифры, знаки пунктуации и управляющие символы (такие как `newline` и `tab`).

- **Ограниченность ASCII**: Основное ограничение ASCII — это его неспособность представлять символы, которые выходят за пределы базового латинского алфавита, такие как буквы кириллицы, иероглифы и другие национальные алфавиты. Это стало серьёзной проблемой по мере распространения компьютеров по всему миру.

##### Введение в Unicode и его преимущества

- **Unicode** был разработан для решения проблемы ограниченного набора символов ASCII. Unicode предоставляет уникальные номера (code points) для каждого символа, независимо от платформы, программы или языка. Эти номера могут быть представлены с помощью различных кодировок, таких как UTF-8, UTF-16 и UTF-32.

- **Преимущества Unicode**:
  - **Широкий охват**: Unicode охватывает практически все письменные системы мира, включая иероглифы, символы научной нотации и эмодзи.
  - **Совместимость**: Unicode поддерживает совместимость с ASCII. Символы ASCII имеют те же кодовые точки в Unicode, что и в оригинальной кодировке.

##### Понятие о кодировке UTF-8 как стандарте де-факто

- **UTF-8** (Unicode Transformation Format 8-bit) — это наиболее широко используемая кодировка для представления символов Unicode. В UTF-8 каждый символ кодируется одним или несколькими байтами, что делает её гибкой и эффективной. Например:
  - Символы из набора ASCII кодируются одним байтом (что сохраняет совместимость с ASCII).
  - Более сложные символы, такие как кириллические буквы или иероглифы, могут занимать от 2 до 4 байтов.

- **Преимущества UTF-8**:
  - **Эффективность**: UTF-8 экономит место при хранении текстов, состоящих преимущественно из символов ASCII.
  - **Совместимость**: Широко поддерживается во всех современных операционных системах, языках программирования и протоколах интернета.

### Различия между байтами и символами

#### Объяснение понятий "байт" и "символ"

- **Байт** — это минимальная единица информации в компьютере, которая обычно состоит из 8 битов. Байт может представлять одно из 256 различных значений (от 0 до 255).

- **Символ** — это элемент текста, например, буква, цифра или знак препинания. Символы представляются кодовыми точками в стандарте Unicode, которые затем преобразуются в байты для хранения и обработки компьютером.

#### Как один символ может состоять из нескольких байтов

- В зависимости от кодировки, один символ может быть представлен одним или несколькими байтами. Например:
  - В ASCII каждый символ занимает ровно 1 байт.
  - В UTF-8 символы из набора ASCII также занимают 1 байт, но символы других языков могут занимать от 2 до 4 байтов.

### Работа с кодировками в Python

#### Открытие файлов с указанием кодировки

##### Как указать кодировку при открытии файла (`open(filename, mode, encoding='utf-8')`)

- При открытии текстового файла в Python важно указать правильную кодировку, чтобы избежать проблем с некорректным отображением символов. Это делается с помощью параметра `encoding` в функции `open()`.

```python
with open('example.txt', 'r', encoding='utf-8') as file:
    content = file.read()
```

- В этом примере файл `example.txt` открывается в режиме чтения с указанием кодировки `utf-8`. Если файл содержит текст в другой кодировке, например `ISO-8859-1`, его нужно открыть с правильным значением параметра `encoding`.

##### Понятие о системной кодировке по умолчанию

- Если при открытии файла кодировка не указана, Python использует системную кодировку по умолчанию, которая может различаться в зависимости от операционной системы и настроек локали. Это может приводить к неожиданным ошибкам при чтении или записи файлов. Поэтому рекомендуется всегда явно указывать кодировку.



#### Преобразование строк в байты и обратно

##### Методы `encode()` и `decode()`

- **Преобразование строки в байтовый объект (`str.encode()`)**
  - Метод `encode()` преобразует строку (тип данных `str`) в байтовый объект (тип данных `bytes`) с использованием указанной кодировки. По умолчанию используется `utf-8`.


In [2]:
text = "Привет, мир!"
byte_data = text.encode('utf-8')
print(byte_data)  # Вывод: b'\xd0\x9f\xd1\x80\xd0\xb8\xd0\xb2\xd0\xb5\xd1\x82, \xd0\xbc\xd0\xb8\xd1\x80!'

b'\xd0\x9f\xd1\x80\xd0\xb8\xd0\xb2\xd0\xb5\xd1\x82, \xd0\xbc\xd0\xb8\xd1\x80!'


- **Преобразование байтового объекта в строку (`bytes.decode()`)**
  - Метод `decode()` преобразует байтовый объект обратно в строку с использованием указанной кодировки.


In [3]:
decoded_text = byte_data.decode('utf-8')
print(decoded_text)  # Вывод: Привет, мир!

Привет, мир!


#### Обработка ошибок при кодировании и декодировании

##### Стратегии обработки ошибок: `strict`, `ignore`, `replace`

- При кодировании или декодировании текста могут возникнуть ошибки, если байтовый поток не соответствует указанной кодировке. Python предлагает несколько стратегий для обработки таких ошибок:

  - **`strict`** (по умолчанию): Если возникает ошибка, выбрасывается исключение `UnicodeEncodeError` или `UnicodeDecodeError`.
  - **`ignore`**: Проблемные символы игнорируются, и процесс продолжается без выброса исключения. Это может привести к потере данных.
  - **`replace`**: Проблемные символы заменяются на символ `?` (или другой заданный символ).


In [4]:
# Пример использования метода decode() с различными стратегиями
byte_data = b'\xd0\x9f\xd1\x80\xd0\xb8\xd0\xb2\xd0\xb5\xd1\x82, \xff\xd0\xbc\xd0\xb8\xd1\x80!'

# Стратегия 'strict' вызовет ошибку
try:
    text = byte_data.decode('utf-8', errors='strict')
except UnicodeDecodeError as e:
    print(f"Error: {e}")

# Стратегия 'ignore' просто игнорирует ошибку
text_ignore = byte_data.decode('utf-8', errors='ignore')
print(text_ignore)  # Вывод: Привет, мир!

# Стратегия 'replace' заменяет ошибочные символы на '?'
text_replace = byte_data.decode('utf-8', errors='replace')
print(text_replace)  # Вывод: Привет, ?мир!

Error: 'utf-8' codec can't decode byte 0xff in position 14: invalid start byte
Привет, мир!
Привет, �мир!


### Проблемы и их решение при работе с кодировками



#### Частые ошибки

##### Разбор ошибки `UnicodeDecodeError` и её причин

- **`UnicodeDecodeError`** возникает, когда Python не может правильно декодировать байтовую последовательность в строку, используя указанную кодировку. Это может произойти, если кодировка байтового потока не соответствует кодировке, ожидаемой программой.

- **Причины:**
  - Открытие файла с неправильной кодировкой.
  - Попытка декодировать байты, закодированные с одной кодировкой, другой кодировкой.


In [5]:
try:
    byte_data = b'\xff\xfeHello'
    text = byte_data.decode('utf-8')
except UnicodeDecodeError as e:
    print(f"Error: {e}")  # Вывод: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte
    
#  В этом примере происходит попытка декодировать байтовую последовательность, 
#  закодированную в другой кодировке, с использованием `utf-8`, что приводит к ошибке `UnicodeDecodeError`.

Error: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte


#### Использование альтернативных кодировок


##### Работа с различными кодировками (например, `ISO-8859-1`, `Windows-1252`)

- **ISO-8859-1** и **Windows-1252** — это старые кодировки, часто использовавшиеся в западноевропейских странах до повсеместного внедрения Unicode. Эти кодировки используют 8 бит для представления символов, что позволяет кодировать 256 различных символов. Например, они включают дополнительные символы, такие как буквы с диакритическими знаками (é, ñ и т.д.).

- В некоторых случаях, особенно при работе со старыми документами или специфическими системами, вам может потребоваться использовать одну из этих кодировок:


In [8]:
with open('example.txt', 'r', encoding='ISO-8859-1') as file:
    content = file.read()
    print(content)

# Если текстовый файл был закодирован с использованием `ISO-8859-1`, 
# его нужно открыть с соответствующей кодировкой, чтобы избежать ошибок декодирования.

First line
Second line
Third line



##### Как определить правильную кодировку для старых или специфичных данных

- Определение правильной кодировки может быть сложной задачей, особенно если файл был создан в другой системе или с использованием нестандартных инструментов. Для этого можно использовать несколько методов:

  - **Автоматическое определение кодировки:** Использование специальных библиотек, таких как `chardet` или `cchardet`, которые пытаются определить кодировку файла на основе анализа содержимого.


In [9]:
import chardet

with open('example.txt', 'rb') as file:
    raw_data = file.read()
    result = chardet.detect(raw_data)
    encoding = result['encoding']
    print(f"Detected encoding: {encoding}")
    text = raw_data.decode(encoding)

Detected encoding: ascii


  - **Чтение метаданных:** Иногда информация о кодировке может быть указана в метаданных файла, таких как HTTP-заголовки, XML-декларации или первые байты файла.

  - **Метод проб и ошибок:** Если автоматическое определение кодировки не дало результатов, можно попытаться открыть файл с использованием разных кодировок и проверить, правильно ли отображаются символы.
