# Форматы файлов

Существует много пакетов python чтения и записи файлов в различных форматах. Данные могут храниться как в текстовом виде (еще лучше - в читаемом человеком, их можно легко исправлять прямо в файле). Данные в бинарном виде занимают меньше места, но если вам нужно исправить оценку по математике Иванову с 3 на 4, лучше напрямую руками в файле не искать и не править. Используйте методы чтения и записи.

## JSON - JavaScript Object Notation

Текстовый формат данных, пришел из языка javascript, широко используется для обмена клиент-сервер в различных веб и мобильных приложениях.

Очень похож на запись словаря в python, но есть отличия:

* строки только в **двойных** кавычках
* `True` и `False` записаны как **true** и **false**
* `None` записано как **null**
*  число int или float
*  список в `[]`
*  словарь

**Структуры данных могут быть вложены друг в друга**.

Придумаем, как хранить оценки по разным предметам студентов группы. Корнем может быть или словарь, или список.

Заметим, мы можем хранить (сохранять и загружать) как числа и как строки. Можно хранить почтовый индекс как `"postalCode": 101101` (целое число), а можно как `"postalCode": "101101"` строку. Обращайте внимание при чтении и последующей обработки данных, какой тип используется при хранении.

In [9]:
# это код на python
# это словарь, скопирован с 
data = {
   "firstName": "Иван",
   "lastName": "Иванов",
   "address": {
       "streetAddress": "Московское ш., 101, кв.101",
       "city": "Ленинград",
       "postalCode": 101101
   },
   "phoneNumbers": [
       "812 123-1234",
       "916 123-4567"
   ]
}


Преобразовать словарь в строку можно функциями str() и repr(). Они вызываются, когда мы печатаем словарь `print(data)`. Но мы получим НЕ json файл. Как минимум, будут не те кавычки.

In [4]:
str(data)

"{'firstName': 'Иван', 'lastName': 'Иванов', 'address': {'streetAddress': 'Московское ш., 101, кв.101', 'city': 'Ленинград', 'postalCode': 101101}, 'phoneNumbers': ['812 123-1234', '916 123-4567']}"

In [5]:
print(data)

{'firstName': 'Иван', 'lastName': 'Иванов', 'address': {'streetAddress': 'Московское ш., 101, кв.101', 'city': 'Ленинград', 'postalCode': 101101}, 'phoneNumbers': ['812 123-1234', '916 123-4567']}


## import json

In [6]:
import json

## json.dumps - преобразовать в строку (dump to String)

In [8]:
json.dumps(data)

'{"firstName": "\\u0418\\u0432\\u0430\\u043d", "lastName": "\\u0418\\u0432\\u0430\\u043d\\u043e\\u0432", "address": {"streetAddress": "\\u041c\\u043e\\u0441\\u043a\\u043e\\u0432\\u0441\\u043a\\u043e\\u0435 \\u0448., 101, \\u043a\\u0432.101", "city": "\\u041b\\u0435\\u043d\\u0438\\u043d\\u0433\\u0440\\u0430\\u0434", "postalCode": 101101}, "phoneNumbers": ["812 123-1234", "916 123-4567"]}'

In [18]:
# Попробуем еще раз, но этот словарь я набираю прямо в тетради, не копирую.
mydata = {
    "name": "Иванов Иван Иванович",
    "group": 310,
    "discipline": "информатика",
    "grade": 5
}
json.dumps(mydata)

'{"name": "\\u0418\\u0432\\u0430\\u043d\\u043e\\u0432 \\u0418\\u0432\\u0430\\u043d \\u0418\\u0432\\u0430\\u043d\\u043e\\u0432\\u0438\\u0447", "group": 310, "discipline": "\\u0438\\u043d\\u0444\\u043e\\u0440\\u043c\\u0430\\u0442\\u0438\\u043a\\u0430", "grade": 5}'

In [20]:
# возьмем вьетнамский язык, основанный на латинице
# явно выставим значение параметра ensure_ascii
print(json.dumps({"message":"xin chào việt nam"}, ensure_ascii=False))
print(json.dumps({"message":"xin chào việt nam"}, ensure_ascii=True))

{"message": "xin chào việt nam"}
{"message": "xin ch\u00e0o vi\u1ec7t nam"}


Видим, что латинские буквы остаются как есть, а "неправильные символы" преобразоются в аналогичные шестнадцатизначные числа.

Попробуем тот же аргумент с кирилицей.

In [17]:
json.dumps(data, ensure_ascii=False)

'{"firstName": "Иван", "lastName": "Иванов", "address": {"streetAddress": "Московское ш., 101, кв.101", "city": "Ленинград", "postalCode": 101101}, "phoneNumbers": ["812 123-1234", "916 123-4567"]}'

### Кодировки

Все в компьютере хранится в виде чисел: изображения, аудио и текст. Для работы с текстом решили кодировать каждый символ своим числом. Например, a - 1, b - 2, c - 3 и так далее. Не забыли о пробеле и знаках препинания. Цифры - это тоже символы, их можно закодировать числами. Так появились таблицы кодировок.

Для кодирования символов английского и русского алфавита (маленьких и заглавных букв), арабских цифр и знаков препинания хватит с запасом 256 чисел. Поэтому таблицы кодировок были 128 или 256 символов для 7-битной или 8-битной кодировок.

Наиболее известны таблицы кодировок: ASCII (7 битная), KOI-8, Latin-1. С русскими буквами: UTF-8, Windows-1251, CP-866, KOI-8R, ISO-8859-5. Однако, первая половина таблицы у этих кодировок совпадает с кодировкой ASCII. Вторую половину обычно занимают символы национальных алфавитов.

#### ASCII-таблица

American Standard Code for Information Interchange (ASCII) был введен как единый стандарт кодировки первых 128 символов в 1969 году и основывалась на телеграфной кодировке

Заметьте, что цифры, заглавные буквы и маленькие буквы идут в таблице блоками. Символам от 0 до 9 соответствуют коды от 48 до 57. Заглавные буквы от A до Z кодируются числами от 65 до 90, маленькие от a до z - от 97 до 122. Пробел - это 32, `\n` (new line) - 10, `\r` (возврат каретки на первую позицию) - 13.

![ascii-table](https://stepik.org/media/attachments/lesson/1089070/ascii_table.png)

.

#### Unicode

С распространением компьютеров стали востребованы таблицы кодировок для многих языков. Было решено свести все символы в единую таблицу и дать каждому символу свой номер.

Сюда же попали математические символы, символы нотной записи и, главное, наборы иероглифов.

Описание символа [и маленькая](https://www.fileformat.info/info/unicode/char/0438/index.htm)

Коды в стандарте Юникод разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII, и коды этих символов совпадают с их кодами в ASCII. Далее расположены области символов других систем письменности, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены области знаков с кодами от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A69F.

#### utf-8 и utf-16

Для кодирования unicode символов используют обычно кодировки **utf-8** для языков с коротким алфавитом (буквенное и слоговое письмо) и **utf-16** для языков, использующих иероглифы.

Подробнее в статьях (по желанию, для общего развития): 
* [wikipedia](https://ru.wikipedia.org/wiki/UTF-8)
* [русский язык в Adruino IDE](https://wiki.iarduino.ru/page/encoding-arduino/)

Теперь вы можете понять, что происходит в этом фрагменте кода и за что отвечает параметр `ensure_ascii` - все символы обязаны быть ascii (для удобства дальнейшей пересылки и обратного кодирования) 

In [22]:
# возьмем вьетнамский язык, основанный на латинице
# явно выставим значение параметра ensure_ascii, чтобы все символы были ascii
print(json.dumps({"message":"xin chào việt nam"}, ensure_ascii=False))
print(json.dumps({"message":"xin chào việt nam"}, ensure_ascii=True))

{"message": "xin chào việt nam"}
{"message": "xin ch\u00e0o vi\u1ec7t nam"}


### Печатаем красиво - indent

In [23]:
# читаемо для компьютера, но не удобно читать человеку
json.dumps(data, ensure_ascii=False)

'{"firstName": "Иван", "lastName": "Иванов", "address": {"streetAddress": "Московское ш., 101, кв.101", "city": "Ленинград", "postalCode": 101101}, "phoneNumbers": ["812 123-1234", "916 123-4567"]}'

Выставим `indent`, чтобы красиво напечатать с указанным отступом.

In [26]:
# красивая печать показывает структуру данных
print(json.dumps(data, indent=4, ensure_ascii=False))

{
    "firstName": "Иван",
    "lastName": "Иванов",
    "address": {
        "streetAddress": "Московское ш., 101, кв.101",
        "city": "Ленинград",
        "postalCode": 101101
    },
    "phoneNumbers": [
        "812 123-1234",
        "916 123-4567"
    ]
}


### Разделители separators=(item_separator, key_separator)

Вместо `,` между элементами и `: ` между ключом и значением, можно задать свои разделители в аргументе как `separators=(item_separator, key_separator)`.

Поставим между элементами `;` и между ключом и значением знак `=`

In [32]:
print(json.dumps(data, indent=4, separators=(';', '='), ensure_ascii=False))

{
    "firstName"="Иван";
    "lastName"="Иванов";
    "address"={
        "streetAddress"="Московское ш., 101, кв.101";
        "city"="Ленинград";
        "postalCode"=101101
    };
    "phoneNumbers"=[
        "812 123-1234";
        "916 123-4567"
    ]
}


### По порядку sort_keys=True

Если вы пересылаете данные между компьютерами, то эта опция вам не понадобится. Компьютер с компьютером в ключах разберется. Если вы описываете структуру json в документации или пытаетесь разобраться в полученных данных, удобнее когда ключи идут в алфавитном порядке.

In [34]:
print(json.dumps(data, indent=4, sort_keys=True, ensure_ascii=False))

{
    "address": {
        "city": "Ленинград",
        "postalCode": 101101,
        "streetAddress": "Московское ш., 101, кв.101"
    },
    "firstName": "Иван",
    "lastName": "Иванов",
    "phoneNumbers": [
        "812 123-1234",
        "916 123-4567"
    ]
}


## json.dump - в файл сохранить

Чтобы записать данные в json формате в файл, конечно, можно преобразовать в строку и эту строку напечатать с указанием, в какой файл выводить.

In [35]:
# так можно, но не нужно
with open('file_read_write/data.json', 'w') as fout:
    print(json.dumps(data), file=fout)

Потому что в пакете есть фукция **dump** для сохранения в открытый поток `fout`:

In [37]:
# так нужно
with open('file_read_write/data.json', 'w') as fout:
    json.dump(data, fp=fout)

* `fp` - открытый на запись поток,
* остальные аргументы такие же, как в `dumps`

## json.loads - прочитать из строки

Обратная функция `loads` читает из строки и `load` - из файла

In [39]:
text = '''{
    "firstName": "Пётр",
    "lastName": "Кузнецов",
    "address": {
        "streetAddress": "Первомайская ул., 34, кв. 105",
        "city": "Долгопрудный",
        "postalCode": 141700
    },
    "phoneNumbers": [
        "+7 903 123-45-67"
    ]
}'''

d = json.loads(text)
d

{'firstName': 'Пётр',
 'lastName': 'Кузнецов',
 'address': {'streetAddress': 'Первомайская ул., 34, кв. 105',
  'city': 'Долгопрудный',
  'postalCode': 141700},
 'phoneNumbers': ['+7 903 123-45-67']}

## json.load - прочитать из файла

Почти так же, как в dump, но открываем на чтение и рекомендую указывать encoding (кодировку, в которой был записан файл).

In [41]:
with open('file_read_write/data.json', 'r', encoding='utf-8') as fin:
    result_data = json.load(fin)

result_data

{'firstName': 'Иван',
 'lastName': 'Иванов',
 'address': {'streetAddress': 'Московское ш., 101, кв.101',
  'city': 'Ленинград',
  'postalCode': 101101},
 'phoneNumbers': ['812 123-1234', '916 123-4567']}

### Исключения JSON

* json.JSONDecodeError - ошибка при разборе данных
* TypeError - когда ключи словаря не базовых типов, допустимых в json, подавляется выставлением параметра `skipkeys`
* ValueError - при работе с float значениями, которые не поддерживаются в json (`nan`, `inf`, `-inf`), параметр `allow_nan=True` преобразует их к NaN, Infinity, -Infinity
* RecursionError - если в объекте циклическая ссылка на самого себя

## С обработкой относящихся к чтению исключениий

За попытку написать except без аргумента или с общим классом Exception (ловим все), неуд в зачетку и всеобщее осуждениие других программистов.

In [62]:
import json
import sys

try:
    # загрузить данные из файла
    with open('file_read_write/data.json', 'r', encoding='utf-8') as fin:
        result_data = json.load(fin)
        
    # напечатать красиво полученные данные, если нужно
    print(json.dumps(result_data, indent=4, sort_keys=True, ensure_ascii=False)) 

    # что-то сделать с данными, это вы сделаете сами
    modified_data = result_data['city'] = 'Рязань'

    # записать модифицированные данные в другой файл
    with open('file_read_write/data_new.txt', 'w', encoding='utf-8') as fout:
        json.dump(modified_data, fp=fout)

except OSError as e:
    print(e, file=sys.stderr)
    # если открываем, например, не тот файл file_read_write/data2.json, то,
    # [Errno 2] No such file or directory: 'file_read_write/data2.json'
    # здесь же будут пойманы ошибки с "нет прав доступа к файлу" или "ошибка чтения" и тп.

except json.JSONDecodeError as e:
    print('Это не JSON формат', file=sys.stderr)



{
    "address": {
        "city": "Ленинград",
        "postalCode": 101101,
        "streetAddress": "Московское ш., 101, кв.101"
    },
    "firstName": "Иван",
    "lastName": "Иванов",
    "phoneNumbers": [
        "812 123-1234",
        "916 123-4567"
    ]
}


[Документация](https://docs.python.org/3/library/json.html)

* Всегда можно написать `help(json.dumps)` и почитать справку.
* `json.dumps(obj, *, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, default=None, sort_keys=False, **kw)`
* `json.dump(obj, fp, *, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, default=None, sort_keys=False, **kw)`
* `json.loads(s, *, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)`
* `json.load(fp, *, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)`

## Pickle 

Бинарный формат для хранения данных: открываем файл как **wb** или **rb**. 

Такие же функции:

* `dump()`
* `load()`
* `dumps()`
* `loads()`

Другие исключения:

* pickle.PickleError
    * pickle.PicklingError
    * pickle.UnpicklingError 

In [63]:
import pickle

obj = {'Python': 1991, 'Java': 1995, 'C#': 2002}

with open('file_read_write/file.pkl', 'wb') as file:
    pickle.dump(obj, file)

Теперь прочтем записанные данные:

In [64]:
with open('file_read_write/file.pkl', 'rb') as fin:
    res_data = pickle.load(fin)

res_data

{'Python': 1991, 'Java': 1995, 'C#': 2002}

In [68]:
res_text = pickle.dumps(res_data)
print(type(res_text))
res_text

<class 'bytes'>


b'\x80\x04\x95#\x00\x00\x00\x00\x00\x00\x00}\x94(\x8c\x06Python\x94M\xc7\x07\x8c\x04Java\x94M\xcb\x07\x8c\x02C#\x94M\xd2\x07u.'

### Сравнение pickle и JSON

| Признак | Pickle | JSON |
|----|----|----|
| бинарный/текстовый | бинарный (компактный, не читается человеком) | текстовый (занимает больше места, легко читается и правится человеком) |
| используется | только в python | широко используется для обмена данными (web) |
| сохраняет | почти все типы объектов | ограниченное количество типов объектов |
| быстрота | быстро | медленнее |
| защита |  Модуль pickle не защищен. Никогда не десериализуйте данные, полученные из ненадежного источника, так как они могут оказаться вредоносными и выполняющими произвольный код во время распаковки | Получить вы можете только неисполняемые данные. Если вы сами захотите их исполнить, то вам придется приложить к этому усилия | 