## Кодировка ASCII

[ASCII](https://ru.wikipedia.org/wiki/ASCII) (англ. American standard code for information interchange) — название таблицы (кодировки, набора), в которой некоторым распространённым печатным и непечатным символам сопоставлены числовые коды. Таблица была разработана и стандартизирована в США, в 1963 году.

Изначально (1963 год) ```ASCII``` была разработана для кодирования символов, коды которых помещались в 7 бит (128 символов; $2^7=128$), а старший бит №7 (нумерация с нуля) использовался для контроля ошибок, возникших при передаче данных. В первой версии кодировались только заглавные буквы. Полосы (группы по 16 символов) № 6 и 7 (нумерация начинается с 0) были зарезервированы для дальнейшего расширения. Велись споры, использовать ли эту область для строчных букв или управляющих символов.

![Ascii_Table-nocolor.svg.png](attachment:Ascii_Table-nocolor.svg.png)

На подавляющем большинстве современных компьютеров, минимально адресуемая единица памяти — байт (размером в 8 бит); поэтому там используются 8-битные, а не 7-битные символы. Обычно символ ASCII расширяют до 8 бит, просто добавляя один нулевой бит в качестве старшего.

Коды ASCII используются в программировании как промежуточные кроссплатформенные коды нажатых клавиш (в противовес скан-кодам IBM PC и прочим внутренним кодам). Для раскладки клавиатуры QWERTY — таблица кодов выглядит так, как показано в следующей таблице

![image.png](attachment:image.png)

С учетом особенностей стандарта ```ASCII``` для кодирования каждого символа назначается 1 байт (8 бит)
памяти компьютера, то есть 8 ячеек памяти, способные сохранить 256 ($2^8$) любых значений. 

> Первый блок кодов (128) — это главный раздел таблицы, он хранит базовую информацию независимо от
алфавита: латинские буквы, цифры десятичной системы счисления, знаки препинания, служебные
операторы (переводы строки, отступы). 

>Второй блок кодов (125-255 позиции) — второстепенная частью таблицы, набор кодов символов национальных алфавитных систем.

Ввиду большого многообразия национальных алфавитных систем реализовано множество вариантов
расширенных ```ASCII```-таблиц. 

Причем одному алфавиту может соответствовать ряд кодовых таблиц.
Например, в русском языке распространение получили таблицы ```Windows-1251```, а также ```Koi8-r```.


Отсутствие унифицированного стандарта вызывает трудности. Текст, подготовленный в одной системе
кодирования, зачастую попадает к получателю, который пытается прочесть его в другой кодировке и
видит непонятный набор символов. Еще один недостаток однобайтового подхода к кодированию —
нехватка диапазона позиций (128–255) второго блока кодов, поскольку в некоторых алфавитах
символов много. И наконец, если необходимо одновременно использовать в тексте конструкции на
нескольких языках, автор оказывается в затруднительном положении — сразу две таблицы
использовать нельзя.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

## Принципы Unicode

В основу реализации кодировки заложен принцип четкого отделения символов от их отображения в
памяти вычислительного устройства и на экране. Предлагается термин «юникод-символ», который
фигурирует только в рамках теории и соглашения людей, закрепленного стандартом. Любому символу
Unicode соответствует целое неотрицательное число — кодовая позиция.
Например, символ U+0410 является кодом заглавной буквы «А» в кириллице. Она может быть
отображена в памяти вычислительного устройства или на экране различными способами, но
независимо от страны или других факторов данный код всегда будет соответствовать этому символу.
Есть подход с инкапсуляцией — отделением представления от реализации. Можно снабжать символ
неограниченным количеством представлений, при этом у него будет определенное число реализаций.
Данный подход успешно применяется в разработке программ.
Таким образом, текст можно представить в виде набора юникод-символов, а затем переслать в любую
точку планеты. Если там поддерживается стандарт Unicode, получатели поймут смысл послания —
воспримут его так же, как отправитель.
Примеры слов и соответствующие наборы юникод-символов:

```python
"Компьютер", \u041a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440
"Программа", \u041f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0430
"Интернет", \u0418\u043d\u0442\u0435\u0440\u043d\u0435\u0442
```

Хоть юникод-коды и именуются символами, они не всегда соответствуют классическому пониманию
этого термина. Это могут быть технические символы, операторы, пунктуационные маркеры, языковые
теги.

In [None]:
print("Компьютер", "\u041a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440")
print("Программа", "\u041f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0430")
print("Интернет", "\u0418\u043d\u0442\u0435\u0440\u043d\u0435\u0442")

Кодовое пространство Unicode
Это диапазон-последовательность кодовых точек, доступных для привязки символов. Включает **1 114 112** кодовых точек в диапазоне **0-10FFFF**. 

Есть раздел кодового пространства, зарезервированный под
специальные нужды, который не будет участвовать в присвоении значений. Остальные кодовые
позиции доступны. 

По стандарту Unicode версии 10.0 (июнь 2017 года) зарегистрировано **136 690** кодов, и каждый привязан к определенному символу.

Чтобы упростить работу с кодировкой, все кодовое пространство системы Unicode поделили на 17
плоскостей. На данный момент задействовано только шесть. Любой символ стандарта описывается в
виде комбинации трех параметров: кода, состоящего из букв и шестнадцатеричных цифр, уникального
имени символа и его представления.

Комбинации параметров символов в системе Unicode:

```python
U+0061, "LATIN SMALL LETTER A" - a
U+00E4, "LATIN SMALL LETTER A WITH DIAERESIS" - ä
U+0056, "LATIN CAPITAL LETTER V" - V
U+0026, "AMPERSAND" - &
U+003B, "SEMICOLON" - ;
```

В стандарте Unicode также определены кодировки символов для хранения в памяти вычислительного
устройства, то есть способы представления кода символа в байтах.

## О кодировках

При передаче данных по сети надо их конвертировать в набор байтов. Поэтому при использовании
юникод-стандарта делаем это с последовательностью юникод-символов.

При этом для кодирования всей области кодовых позиций применяется ряд кодировок — например,
```UTF-8``` и ```UTF-16```. Они обеспечивают конвертацию без потери информации. 

Возможно и параллельное
существование однобайтных кодировок, позволяющих зашифровать индивидуальный, но
ограниченный диапазон юникод-спектра — не более ```256``` кодовых позиций (кодовых точек). 

В таких кодировочных системах поддерживаются таблицы, где любому значению байта сопоставляется
определенный юникод-символ (например, таблица ```CP1251.TXT```). Несмотря на явные недостатки,
однобайтные системы кодирования могут быть удобными, особенно если речь идет о работе со
значительными объемами моноязыковых данных в текстовом отображении.

> **Наибольшее распространение из кодировок Unicode получила UTF-8. Она заняла лидирующие
позиции в 2008 году — прежде всего за счет экономичности и открытой сопоставимости с семибитной
кодировкой ASCII. Кодирование цифр, латинских букв, знаков препинания, служебных операторов в
UTF-8, как и в ASCII, осуществляется с помощью одного байта. Символы многих национальных
алфавитных систем (кроме иероглифических) реализованы 2-3 байтами.**


**Стоит отметить, что кодировка ```UTF-8``` имеет переменную длину кода. При этом любому
юникод-символу сопоставляется набор кодовых квантов с минимальной длиной, равной одному
кванту.**

> Квант кода в битовом выражении — это 8 бит. 

Для кодировок, относящихся к системе ```UTF-16```, данный параметр равняется 16 битам, а к ```UTF-32``` — 32 битам.

Строковые данные в приложениях хранятся в 16-битных кодировках благодаря простоте их
использования, а также в силу того, что символы, относящиеся к главным мировым письменным
системам, шифруются в виде шестнадцатибитового кванта. Например, язык программирования ```Java```,
наряду с ОС Windows, при реализации внутреннего отображения строк использует ```UTF-16```.

## Основные характеристики Unicode

1. В основу стандарта Unicode заложен принцип отделения символов от их отображения в памяти вычислительного устройства и на экране монитора.
2. Символ системы Unicode не всегда отождествляется с символом в привычном понимании — с буквой, цифрой, знаком пунктуации, иероглифом.
3. Кодовое пространство стандарта включает 1 114 112 кодовых точек, находящихся в пределах 0-10FFFF.
4. Основная многоязыковая плоскость содержит символы Unicode в промежутке U+0000-U+FFFF, кодируемые в UTF-16 с помощью двух байтов.
5. Каждая кодировка Unicode обеспечивает кодирование всего пространства кодовых точек с возможностью преобразования между такими кодировочными системами без потерь данных.
6. Однобайтовые кодировки используются для незначительной части юникод-символов, но полезны при обработке больших объемов моноязыковых данных.
7. Кодировочные системы UTF-8 и UTF-16 характеризуются переменной длиной кода. В UTF-8 возможно шифрование любого символа посредством одного, двух, трех или четырех байтов. В UTF-16 — с помощью двух или четырех байтов.
8. Формат отображения текстовой информации применительно к отдельному приложению — произвольный, если корректно используется

# Unicode в Python 3
## Концепции представления информации

Рассмотрим использование стандарта Unicode и языка Python 3. Человек, работая с компьютером,
воспринимает текст, а само вычислительное устройство — представление данных в байтах. В Python
3 реализованы две концепции:
* **Текст** — неизменяемый набор юникод-символов типа ```str``` (строка). Более корректная трактовка
понятия «текст» — неизменяемый набор кодов (code points) Unicode;
* **Данные** — неизменяемый набор байтов, имеющий тип ```bytes``` (байты).

### Строки

Строка — последовательность кодов Unicode, может быть записана различными способами.

Символ Unicode можно записать не в традиционном (буквенном или цифровом представлении), а с
помощью имени символа

In [None]:
s1 = "ċ"
s2 = "\u010B"
s3 = "\N{LATIN SMALL LETTER C WITH DOT ABOVE}"

print(s1, s2, s3)
print(s1 == s2 == s3)

Так же и строка может быть представлена как последовательность юникод-кодов

In [None]:
s4 = "Программа"
s5 = "\u041f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0430"

print(s4, s5)
print(s4 == s5)

Получить значение числового представления для определенного юникод-символа можно с помощью функции ```ord```

In [None]:
print(ord('ã')) # 227

И наоборот — чтобы узнать, какой символ скрывается за определенным кодом, следует указать команду ```chr```

In [None]:
print(chr(227))

### Байты
Имеют аналогичное строкам обозначение, но маркируются дополнительным указателем «b» в начале набора

In [None]:
bytes_s_2 = b"\u041f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0430"
print(bytes_s_2)

Если указать в байтовом типе данных символ, не относящийся к ASCII, появится сообщение об
ошибке

In [None]:
bytes_s_5 = b'Программа'
print(bytes_s_5)

# Конвертация байтов и строк
## Особенности конвертации
Байтовое представление данных выглядит не самым понятным образом для программиста. 

Но избежать работы с байтами практически невозможно, особенно если речь идет о взаимодействии с файловой системой и сетью, когда результат может возвращаться в байтовом представлении.

Байты надо преобразовывать в строковый формат или наоборот. Для этого применяется метод, определяющий направление преобразования (кодирование или декодирование), и кодировка как аргумент метода (ключ шифрования).

Чтобы зашифровать строку в набор байтов

In [None]:
enc_str = 'Кодировка'

enc_str_bytes = enc_str.encode('utf-8')
print(enc_str_bytes)

str_1_enc = str.encode(enc_str, encoding='utf-8')
print(str_1_enc)

In [None]:
dec_str_bytes = b'\xd0\x9a\xd0\xbe\xd0\xb4\xd0\xb8\xd1\x80\xd0\xbe\xd0\xb2\xd0\xba\xd0\xb0'

dec_str = dec_str_bytes.decode('utf-8')
print(dec_str)

bytes_1_enc = bytes.decode(dec_str_bytes, encoding='utf-8')
print(bytes_1_enc)

# Введение в файловое хранение данных

При сетевом взаимодействии клиентская и серверная стороны могут обмениваться данными, которые
поступают от клиента на сервер, обрабатываются и возвращаются к клиенту. Пакеты данных при этом
сохраняются в определенном формате, чаще всего предусматривающем структурирование.

Результатом такого сохранения могут быть файлы различных форматов и базы данных. Как правило,
такие файлы сохраняются в форматах ```CSV```, ```JSON``` или ```YAML```. Такой процесс называется
сериализацией данных.

В Python можно использовать не только форматы CSV, JSON и YAML при сохранении данных, но и
применять встроенные средства для записи объектов самого языка. 

В частности, речь идет о модуле ```Pickle```. 

## Использование файлов в формате CSV при сохранении данных

Аббревиатура CSV расшифровывается как «comma-separated value». Формат CSV реализует
представление данных в табличном виде. При этом сохраняемые в соответствующем формате
данные могут извлекаться из таблиц или баз. В этом случае отдельная строка файла соответствует
строке таблицы. Исходя из названия формата, разделителем колонок является запятая или другие
разделители.

Разделители в формате CSV реализованы любые, но предусмотрены отдельные подформаты с
собственными — например, TSV (tab separated values).

Пример фрагмента данных файла, сохраненного с расширением .csv

```
hostname,vendor,model,location
kp1,Cisco,2960,Moscow
kp2,Cisco,2960,Novosibirsk
kp3,Cisco,2960,Kazan
kp4,Cisco,2960,Tomsk
```
Чтобы с данным форматом было проще работать, в Python реализован специализированный модуль
csv.

# Файлы JSON как средство обмена данными

Аббревиатура JSON расшифровывается как «JavaScript Object Notation». Это текстовый формат,
который используют для операций с данными (хранение, обмен). Синтаксис JSON и Python похожи —
оба просты для восприятия. Как и при работе с форматом CSV, в Python реализован
специализированный модуль, упрощающий запись и чтение данных в JSON.

![image.png](attachment:image.png)

## Запись в JSON-файлы

Для записи в JSON-файлы на Python 3 есть два метода: dump и dumps. Первый сохраняет
python-объект в json-файл. Второй возвращает строку в json-формате. Пример ниже демонстрирует
конвертацию python-объекта в формат JSON (файл examples/02_json/json_write.py). Метод dumps
можно применять в тех случаях, когда требуется вернуть строку в JSON-формате — например, для
последующей ее передачи в API.

In [None]:
import json
dict_to_json = {
    "action": "msg",
    "to": "account_name",
    "from": "account_name",
    "encoding": "ascii",
    "message": "message"
    }

with open('mes_example_write.json', 'w') as f_n:
    json_str = json.dumps(dict_to_json)
    print(json_str)
    print(type(json_str))
    
    f_n.write(json_str)
    
print("*" * 70)
    
with open('mes_example_write.json') as f_n:
    result = f_n.read()
    
print(result)
print(type(result))

Чтобы записать информацию в JSON-формате в файл, корректнее применять метод dump

In [None]:
import json
dict_to_json = {
    "action": "msg",
    "to": "account_name",
    "from": "account_name",
    "encoding": "ascii",
    "message": "message"
    }

with open('mes_example_write_2.json', 'w') as f_n:
    json.dump(dict_to_json, f_n)
    
with open('mes_example_write_2.json') as f_n:
    print(f_n.read())

### Определение дополнительных параметров методов записи

Форматом вывода данных можно управлять, определив для методов записи dump и dumps
дополнительные параметры. По умолчанию эти методы используются без них и обеспечивают запись
информации в компактном представлении. Такой подход эффективен, когда данные используются
другими приложениями, а визуальное представление — не на первом месте по важности. Если же
предполагается, что работать с данными будет человек, а не программа, следует позаботиться о
более удобном формате представления

In [None]:
dict_to_json = {
    "action": "msg",
    "to": "account_name",
    "from": "account_name",
    "encoding": "ascii",
    "message": "message"
    }

with open('mes_example_write_3.json', 'w') as f_n:
    json.dump(dict_to_json, f_n, sort_keys=True, indent=2)
    
with open('mes_example_write_3.json') as f_n:
    print(f_n.read())

## Чтение JSON-файлов
Рассмотрим пример: есть простейший JSON-объект, содержащий словарь.

Для операций с JSON-объектами в Python 3 предназначен модуль json, в котором для чтения данных
реализовано два метода: load и loads. Первый считывает файл в JSON-формате и возвращает
python-объекты. Второй — отвечает за считывание строки в JSON-формате и тоже возвращает
python-объекты

In [None]:
import json
with open('mes_example_write.json') as f_n:
    objs = json.load(f_n)
    
print(objs)
print(type(objs))

Пример использования метода loads с аналогичным предыдущему примеру результатом

In [None]:
with open('mes_example_write.json') as f_n:
    f_n_content = f_n.read()
    print(f_n_content)
    print(type(f_n_content))

    objs = json.loads(f_n_content)

print("*" * 70)
    
print(objs)
print(type(objs))

## Изменение типа данных

Еще один важный момент, связанный с преобразованием данных в JSON-формат: итоговый формат
JSON может не совпадать с исходным python-форматом. Например, кортежи при записи в JSON
конвертируются в списки

In [None]:
import json

tuple_ex = (
    "action",
    "to",
    "from",
    "encoding",
    "message"
    )

print(tuple_ex)
print(type(tuple_ex))

with open('tuple_ex.json', 'w') as f_n:
    json.dump(tuple_ex, f_n, sort_keys=True, indent=2)

print("*" * 70)
    
with open('tuple_ex.json', 'r') as f_n:
    obj = json.load(f_n)

print(obj)
print(type(obj))

Эта ситуация возникает из-за различия типов данных JSON и Python, поскольку не для всех из них
существуют соответствия. Ниже приведены таблицы, описывающие типы данных при конвертации из
Python в JSON и в обратном направлении.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [None]:
import json

dict_to_json = {"a": 'msg',
                "b": 1,
                "c": 1.234,
                "d": [1, 2, 3],
                "e": set([1, 2, 3]),
                "f": (1, 2, 3),
                "g": {1: "a", 2: "b"}
               }

with open('dict_to_json.json', 'w') as f_n:
    json.dump(dict_to_json, f_n, skipkeys=True)
    
with open('dict_to_json.json') as f_n:
    f_n_content = f_n.read()
    obj = json.loads(f_n_content)
    
print(obj)

In [None]:
import json

dict_to_json = {"a": 'msg',
                "b": 1,
                "c": 1.234,
                "d": [1, 2, 3],
                "f": (1, 2, 3),
                "g": {1: "a", 2: "b"}
               }

with open('dict_to_json.json', 'w') as f_n:
    json.dump(dict_to_json, f_n, skipkeys=True)
    
with open('dict_to_json.json') as f_n:
    f_n_content = f_n.read()
    obj = json.loads(f_n_content)
    
print(dict_to_json)
print(obj)
print(dict_to_json == obj)

## Ограничения на тип данных

При использовании формата JSON есть ограничение: в нем нельзя сохранить словарь, где в качестве
ключей — кортежи

In [None]:
import json

dict_to_json = {('action', 'to'): 'msg', 'from': 'account_name'}

with open('dict_to_json.json', 'w') as f_n:
    json.dump(dict_to_json, f_n)

Использование дополнительного параметра 'skipkeys' = True позволяет игнорировать такие ключи и
избегать ошибок

In [None]:
import json

dict_to_json = {('action', 'to'): 'msg', 'from': 'account_name'}

with open('dict_to_json.json', 'w') as f_n:
    json.dump(dict_to_json, f_n, skipkeys=True)
    
with open('dict_to_json.json') as f_n:
    f_n_content = f_n.read()
    obj = json.loads(f_n_content)
    
print(obj)

***
***