# 🧩 **Урок 6: Юникод и кодировки в Python.**

<br>

> На этом уроке вы узнаете, как Python работает с Юникодом и различными кодировками.


<br>

Работа с символами разных языков и преобразование строк в байты — важная часть программирования. 
 
<br>

---

<br>

## 🌍 **1. Представление символов в Юникоде `Unicode`**

<br>

`Unicode` — это **глобальный стандарт**, который присваивает **уникальный номер каждому символу** для любого языка и системы письма. Это не способ хранения, а **таблица соответствий**, где каждому символу соответствует код вида `U+XXXX`.

<br>

#### 🧬 Таблица символов:

| Символ | Название              | Код (int) | Unicode |
|--------|------------------------|-----------|---------|
| A      | Латиница               | 65        | U+0041  |
| Ж      | Кириллица              | 1046      | U+0416  |
| 世      | Китайский иероглиф     | 19990     | U+4E16  |
| 😀      | Эмодзи “улыбка”         | 128512    | U+1F600 |
| ❤️     | Составной смайлик сердце| 10084     | U+2764 + U+FE0F |

<br>

#### 🧰 Python и Unicode

В Python 3 **все строки (`str`) по умолчанию — Unicode**. Это значит, ты можешь свободно писать:


In [None]:
print("Hello, мир, 世界, 😀")

<br>

Стоит заметить, что Python это корректно обработает. Но когда нужно будет **сохранять в файл или передавать по сети**, то наша строка должна быть **перекодирована в байты**.

<br>

#### 🧩 **2. Кодировки: как символы становятся байтами**

Unicode — это концепция. А **кодировка** — это способ **записать** символы Unicode в виде байтов.
**Unicode** — это **глобальный стандарт**, который присваивает **уникальный код** каждому символу:
- Латиница, кириллица, иероглифы, арабский, эмодзи — всё это входит в Unicode.
- Код каждого символа представлен как `U+XXXX` (шестнадцатеричный формат).

<br>

#### **🛠 Основные функции:**

| Функция     | Назначение                              |
|-------------|------------------------------------------|
| `ord(char)` | Получить числовой код символа в Unicode |
| `chr(code)` | Получить символ по его числовому коду   |

<br>

Иначе говоря:

- **`ord(char)`**: Возвращает числовой код символа (например, `ord('A') → 65`).  
  
- **`chr(code)`**: Возвращает символ по его коду (например, `chr(65) → 'A'`).

<br>

**🧪 Примеры:**

In [6]:
print(ord('А'))         # 1040  (это код кириллического символа 'А')
print(ord('A'))         # 65    (это код латинского символа 'A')
print(ord('Ф'))         # 1060  (это код кириллической заглавной буквы 'Ф')
print(ord("ф"))         # 1092  (это код кириллической малой буквы 'ф')
print(ord("A"))      # 65
print(ord("Ж"))      # 1046
print(ord("😀"))     # 128512

print("-------------------------")

print(chr(65))       # A
print(chr(1040))     # A
print(chr(128515))      # '😃' (это код смайлика)
print(chr(0x0410))      # 'А' (шестнадцатеричный код)

1040
65
1060
1092
65
1046
128512
-------------------------
A
А
😃
А


<br>

---

<br>

## 📘 **ASCII**

При работе с текстом в Python важно понимать, как символы **преобразуются в байты** для хранения и передачи. Для этого используются **кодировки**.


#### Что такое **ASCII**?

- Самая старая из кодировок (с 1963 года).
  
- Использует **7 бит** (1 байт, но 1 бит не используется).
  
- Поддерживает только **латиницу, цифры, знаки препинания и спецсимволы**.
  
- Диапазон кодов: **от 0 до 127**.


**Применение:**
- Устаревшие системы, протоколы (`SMTP`, `HTTP 1.0`, `FTP`).
- Всегда входит в начало других кодировок (например, UTF-8).



**Пример:**

| Символ | Код ASCII | Бинарное представление |
|--------|-----------|------------------------|
| A      | 65        | `01000001`             |
| a      | 97        | `01100001`             |
| !      | 33        | `00100001`             |

❌ Не поддерживает кириллицу, европейские диакритики, иероглифы, эмодзи.


<br>

<br>

---

<br>

## 🌍 **`UTF-8` — стандарт по умолчанию**

**Что такое `UTF-8`?**

- Самая современная и распространённая универсальная кодировка в мире 🌎 интернета и не только.
- Современная, универсальная кодировка.
- Поддерживает **весь Unicode**.
- **Совместима с ASCII** (первые 128 символов одинаковы).
- Использует от **1 до 4 байт на символ** (в зависимости от символа).
  
<br>

#### `UTF-8` Использует **переменное количество байт**:
  
  - 1 байт для ASCII (0–127)
  
  - 2 байта для большинства европейских символов (включая кириллицу)
  
  - 3 байта для китайских и японских иероглифов
  
  - 4 байта для эмодзи и редких символов

<br>

#### 📦 Размер символов:

| Тип символов         | Примеры             | Размер |
|----------------------|---------------------|--------|
| ASCII                | A, B, 1, !           | 1 байт |
| Кириллица            | Ж, Ю, я              | 2 байта|
| Латиница с акцентом  | é, ü, ñ              | 2 байта|
| Иероглифы            | 漢, 字, 学            | 3 байта|
| Эмодзи               | 😀, ❤️, 🧠            | 4 байта|

<br>

✅ **Преимущества использования UTF-8:**
-  Совместим с ASCII
-  Экономичный для английского текста
-  Поддерживает все символы Unicode

**Применение:**
- Веб-сайты (HTML, CSS, JS)
- Python, Java, PostgreSQL, SQLite, JSON

<br>





**🧪 Примеры в Python:**

In [19]:
print(len("A".encode("utf-8")))       # 1
print(len("Ж".encode("utf-8")))       # 2
print(len("漢".encode("utf-8")))      # 3
print(len("😀".encode("utf-8")))      # 4
print(len("❤️".encode("utf-8")))      # 3 ← составной emoji

1
2
3
4
6


<br>

### 🔧 **3. Методы `encode()` и `decode()`**

Python работает с текстом как с **Unicode-строкой**, но для передачи/сохранения нужно **байтовое представление**.

<br>

#### 📥 `encode(encoding)`

Преобразует строку (`str`) → в **байты** (`bytes`).

**🧪 Пример:**

In [20]:
text = "Hello, 世界!"
encoded = text.encode("utf-8")
print(encoded)  # b'Hello, \xe4\xb8\x96\xe7\x95\x8c!'

b'Hello, \xe4\xb8\x96\xe7\x95\x8c!'


<br>

#### 📤 `decode(encoding)`

Преобразует байты (`bytes`) → в **строку** (`str`).

**🧪 Пример:**

In [21]:
decoded = encoded.decode("utf-8")
print(decoded)  # Hello, 世界!

Hello, 世界!


<br>

---

<br>


## 🔠 **UTF-16 — альтернатива для широких языков**


🗣 Что значит **«широкие языки»** в контексте кодировок?

> Термин **«широкие языки»** - это неформальный термин и означает **языки с большим числом уникальных символов**. Это важно для кодировок, потому что чем больше символов в языке, тем больше байтов нужно для их кодирования.

<br>

📚 Примеры широких языков:

| Язык             | Пример символов | Пример слова | Кол-во уникальных символов |
|------------------|------------------|--------------|-----------------------------|
| **Китайский**    | 汉, 字, 学         | 学校 (школа) | 🔼 Десятки тысяч иероглифов |
| **Японский**     | 日, 本, 語         | 日本語       | 🔼 Иероглифы + кана         |
| **Корейский**    | 한, 국, 어         | 한국어       | 🔼 Хангыль + ханча          |
| **Арабский**     | س, ل, م            | سلام         | ➕ От 28 до 50+ с формами    |

Эти языки часто требуют **двух и более байт на символ**, поскольку они **не помещаются** в однобайтовые таблицы вроде ASCII или ISO-8859, как например:

- Английский: 26 букв + цифры и знаки — отлично помещается в ASCII (7 бит = 1 байт).
  
- Немецкий/Французский/Русский: чуть больше символов, но могут помещаться в расширенные однобайтовые кодировки (`ISO-8859-1`, `ISO-8859-5`).

<br>

**💡 UTF-16 характерен тем, что:** 

- Использует **фиксированные пары байтов (2 или 4 байта)**
  
- Может начинаться с **Byte Order Mark (BOM)**: `b'\xff\xfe'` или `b'\xfe\xff'`
  
- Часто используется в Windows и Java

<br>

**Преимущества:**

  - Эффективен для языков с большим диапазоном символов: китайский, корейский, японский и т.д.

<br>

❌ **Недостатки:**
 -  Не совместим с ASCII.
 -  Может использовать BOM, что затрудняет интерпретацию.
 -  Неэффективен для англоязычного текста (всегда минимум 2 байта).


**🧪 Пример:**

In [None]:
# Китайский символ: 3 байта в UTF-8, 2 байта в UTF-16
char = "学"
print(len(char.encode("utf-8")))   # 3
print(len(char.encode("utf-16")))  # 4 , но BOM тоже считается !!!

3
4


<br>

#### **Выводы:**

**Когда выбираешь кодировку UTF-16:**
- Если язык содержит **очень много символов**, однобайтовые кодировки не подходят.
- UTF-8 сохраняет совместимость, но **символы "широких языков" там кодируются в 3–4 байта**.
- UTF-16 может быть **более эффективным**, потому что многие такие символы укладываются в 2 байта.

> **«Широкие языки» — это языки, в которых требуется много уникальных символов для письма, и которые не могут быть закодированы в 1 байт.**  
> **Они требуют кодировок вроде UTF-8 (с 3–4 байтами) или UTF-16 (по 2 байта)**.

<br>

---

<br>

## 🇪🇺 **ISO-8859 — однобайтовые региональные кодировки**

#### Что такое ISO-8859?

Семейство старых кодировок, где **1 байт = 1 символ**, до 256 символов. 

Эти кодировки использовались до эпохи Unicode, но Вы ещё можете кое-где их встретить.

| Кодировка        | Регион         | Поддержка языка       |
|------------------|----------------|------------------------|
| ISO-8859-1       | Западная Европа| Немецкий, французский  |
| ISO-8859-2       | Восточная Европа| Польский, чешский     |
| ISO-8859-5       | Кириллица      | Русский, украинский    |

<br>

**❌ Недостатки:**
-  Только один язык на кодировку.
-  Несовместимы между собой.
-  Устарели и заменены на UTF-8.

<br>

**🧪 Пример:**

In [14]:
"é".encode("iso-8859-1")  # b'\xe9'

b'\xe9'

In [None]:
"Привет".encode("iso-8859-  5")  # b'\xf0\xd2\xc9\xd2\xc5\xd4'

b'\xbf\xe0\xd8\xd2\xd5\xe2'

<br>

---

<br>

### 🧭 **Сравнение кодировок**

| Кодировка     | Размер | Совместимость | Поддержка Unicode | Где используется            |
|---------------|--------|----------------|--------------------|-----------------------------|
| ASCII         | 1 байт | Да             | Только латиница    | Старые системы, сетевые протоколы |
| UTF-8         | 1–4 байта | Да          | ✅ Полная           | Интернет, Python, БД        |
| UTF-16        | 2–4 байта | Нет         | ✅ Полная           | Windows, Java               |
| ISO-8859-1/5  | 1 байт | Нет            | ❌ Ограниченная     | Устаревшие приложения       |



<br>


### 🧠 **Какая кодировка лучше?**

| Цель                                | Рекомендуемая кодировка |
|-------------------------------------|--------------------------|
| Современная веб-разметка, API       | ✅ UTF-8 (всегда!)       |
| Работа со старыми Windows-файлами   | UTF-16 или CP1251        |
| Одноязычные архивы                  | ISO-8859 (временно)      |
| Работа в Python                     | UTF-8 по умолчанию       |

✅ **Python 3 использует UTF-8 как стандартную кодировку.**


<br>

---

<br>

### 🧪  Примеры `encode/decode`

- **🔤 ASCII**

In [23]:
text = "Hello"
ascii_bytes = text.encode("ascii")
print(ascii_bytes)  # b'Hello'

b'Hello'


- **🌐 UTF-8**

In [None]:
# UTF-8
text = "Привет 😀"
b = text.encode("utf-8")
print(b)                  # b'\xd0\x9f\xd1\x80...'
print(b.decode("utf-8"))  # Привет 😀

- **UTF-16**

In [26]:
# UTF-16
text = "Привет"
utf16_bytes = text.encode("utf-16")
print(utf16_bytes)  # b'\xff\xfe\x1f\x04@\x048\x042\x045\x04B\x04'

decoded = utf16_bytes.decode("utf-16")
print(decoded)  # Привет

b'\xff\xfe\x1f\x04@\x048\x042\x045\x04B\x04'
Привет


- **📦 ISO-8859-1 (латиница)**

In [27]:
text = "Café"
encoded = text.encode("iso-8859-1")
print(encoded)  # b'Caf\xe9'

print(encoded.decode("iso-8859-1"))  # Café

b'Caf\xe9'
Café


- **ISO-8859-5 (кириллица)**

In [25]:
# ISO-8859-5 (кириллица)
rus = "Привет"
encoded = rus.encode("iso-8859-5")
print(encoded)
print(encoded.decode("iso-8859-5"))

b'\xbf\xe0\xd8\xd2\xd5\xe2'
Привет


- **⚠️ Ошибка при неправильной декодировке:**

In [22]:
try:
    encoded.decode("ascii")
except UnicodeDecodeError as e:
    print("Ошибка:", e)

Ошибка: 'ascii' codec can't decode byte 0xe4 in position 7: ordinal not in range(128)


🖨 **Результат:**
```
Ошибка: 'ascii' codec can't decode byte 0xe4 in position 7: ordinal not in range(128)
```

<br>

---

<br>


### 🧠 **Практика**

#### **Заданиe 1:**

1. 🔢 Получи Unicode-коды символов:
   
   ```python
   print(ord("ё"))     # ?
   print(ord("€"))     # ?
   print(ord("🧠"))     # ?
   ```

In [None]:
# Ваше решение

2. 🔡 Получи символы по кодам:
   
   ```python
   print(chr(8364))    # €
   print(chr(129504))  # 🤠
   ```

In [None]:
# Ваше решение

3. 💾 Закодируй строку: "Привет 😀"
   
   ```python
   text = "Привет 😀"
   b = text.encode("utf-8")
   print(b)
   print(b.decode("utf-8"))
   ```

In [None]:
# Ваше решение

4. 🔁 Закодируй строку `"Hello, Привет!"` в:
   
   - UTF-8
  
   - UTF-16
  
   - ISO-8859-5
  

In [None]:
# Ваше решение

5. 🧨 Попробуй закодировать кириллицу в ASCII:
   
   ```python
   try:
       print("Привет".encode("ascii"))
   except Exception as e:
       print("Ошибка:", e)
   ```

<br>

#### **Задание 2: Кодирование и декодирование**

1. Закодируйте строку `"Python — это 🐍"` в байты (UTF-8).  
2. Декодируйте байты обратно в строку.  
3. Попробуйте декодировать эти байты в кодировке `latin-1`. Объясните результат.

In [None]:
# Ваше решение

**Решение:**
```python
text = "Python — это 🐍"
bytes_utf8 = text.encode("utf-8")
print(bytes_utf8.decode("utf-8"))  # Python — это 🐍

# Декодирование в latin-1 (замена ошибок)
decoded_latin = bytes_utf8.decode("latin-1", errors="replace")
print(decoded_latin)  # Python â€” Ñ�Ñ‚Ð¾ ð� 
```

<br>

#### **Задание 3: Размер строки в байтах**
Напишите функцию, которая возвращает размер строки в байтах для кодировки UTF-8.  
Пример: `"Hello"` → 5 байт, `"Привет"` → 12 байт.


In [None]:
# Ваше решение

**Решение:**
```python
def get_size(text):
    return len(text.encode("utf-8"))

print(get_size("Hello"))    # 5
print(get_size("Привет"))   # 12
```

<br>

#### **Задание 4: Обработка ошибок декодирования**
1. Закодируйте строку `" café "` в UTF-8.  
2. Попробуйте декодировать её в ASCII с параметром `errors="ignore"`. Что получится?  


In [None]:
# Ваше решение

**Решение:**
```python
text = " café "
bytes_text = text.encode("utf-8")
decoded_ascii = bytes_text.decode("ascii", errors="ignore")
print(decoded_ascii)  # " caf " (символ 'é' потерян)
```

<br>

#### **Задание 5 (продвинутое): Шифр Цезаря**

Напишите функцию `caesar_cipher(text, shift)`, которая шифрует текст, сдвигая каждый символ на `shift` позиций в Юникоде.  
Пример: `caesar_cipher("ABC", 3) → "DEF"`.


In [None]:
# Ваше решение


**Решение:**
```python
def caesar_cipher(text, shift):
    result = []
    for char in text:
        code = ord(char)
        result.append(chr(code + shift))
    return "".join(result)

print(caesar_cipher("ABC", 3))  # DEF
```

<br>

---

<br>

### 🧾 Заключение

| Что            | Объяснение                                                  |
|----------------|-------------------------------------------------------------|
| Unicode        | Универсальная таблица кодов символов                        |
| ASCII          | Старая кодировка, только для английского                    |
| **UTF-8**          | Гибкая кодировка, охватывающая весь Unicode                 |
| `ord()` / `chr()` | Преобразование между символами и их кодами              |
| `encode()`     | Перевод строки в байты                                      |
| `decode()`     | Обратный перевод байтов в строку                            |
| Ошибки         | Возникают при несовпадении символов и кодировок             |

<br>

### **Важные нюансы**

- **Кодировка по умолчанию:** В Python 3 строки хранятся в Unicode, а при кодировании используется UTF-8.  
  
- **Ошибки декодирования:** Используйте параметр `errors` в `decode()`:  
  - `ignore` — пропустить неверные символы.  
  - `replace` — заменить их на `�`.  
  
- **Разные кодировки:** `cp1251`, `koi8-r` — кодировки для кириллицы (используются в старых системах).

<br>

---

<br>

<br>

##### 📬 Author:

**Siergej Sobolewski**  

[![Email 🚀](https://img.shields.io/badge/Email-s.sobolewski@hotmail.com-blue?logo=protonmail)](mailto:s.sobolewski@hotmail.com)
[![GitHub](https://img.shields.io/badge/GitHub-SSobol77-blue?logo=github)](https://github.com/SSobol77)
[![LinkedIn](https://img.shields.io/badge/LinkedIn-Connect-blue?logo=linkedin)](https://linkedin.com/in/siergej-s-25a16319a)

<br>
