# JSON

## Формат json

JSON -- простой, основанный на использовании текста, способ хранить и передавать структурированные данные. 

JSON значит JavaScript Object Notation.

Его придумали для того, чтобы упростить обмен данными. 

Его предложения легко читаются и составляются как человеком, так и компьютером.

Его легко преобразовать в структуру данных для большинства языков программирования (числа, строки, логические переменные, массивы и так далее).

Многие языки программирования имеют функции и библиотеки для чтения и создания структур JSON. 

JSON обычно более компактный чем XML. 

## Правила json

Строка json может содержать __объект__, и тогда она начинается с `{` и заканчивается на `}`. Такой объект очень похож на питоновский словарь: у него есть ключи - строки, которые пишутся в кавычках, а через двоеточие пишется значение, пары ключ-значение разделяются запятыми. Например:

In [None]:
{"first_name": "Guido", "last_name":"Rossum"}

Строка json может содержать __массив__, и тогда она начинается с `[` и заканчивается на `]`. Такой массив очень похож на питоновский массив: в нем значения перечисляются через запятую. Например:

In [None]:
['Guido van Rossum', 'Diana Clarke', 'Naomi Ceder', 'Van Lindberg', 'Ewa Jodlowska']

Значение в массиве или объекте может быть:
* Числом (целым или с плавающей точкой)
* Строкой (в двойных кавычках)
* Логическим значением (true или false)
* Другим массивом (заключенным в квадратные скобки)
* Другим объектом (заключенным в фигурные скобки)
* Значением null

Чтобы включить в строку специальные символы (например, кавычку), их нужно экранировать с помощью \, например, `\"` или `\r\n`. Наглядные правила построения json-строки можно посмотреть на официальном сайте http://www.json.org/, если захочется.

Может показаться, что это вообще-то все и так очень похоже на обычный питон. Но это не так. Во-первых, json -- это не исполняемый код, а просто текст. Во-вторых, очень часто запись валидного питоновского словаря или массива не будет являться валидной записью в формате json. Например, это не json, но при этом словарь: `{(1, 'a'): u'12345'}`. (Попробуйте придумать еще примеры.)

Вот еще пример строки json, посложнее:

In [None]:
{"organisation": "Python Software Foundation",
 "officers": [
            {"first_name": "Guido", "last_name":"Rossum", "position":"president"},
            {"first_name": "Diana", "last_name":"Clarke", "position":"chair"},
            {"first_name": "Naomi", "last_name":"Ceder", "position":"vice chair"},
            {"first_name": "Van", "last_name":"Lindberg", "position":"vice chair"},
            {"first_name": "Ewa", "last_name":"Jodlowska", "position":"director of operations"}
            ],
"type": "non-profit",
"country": "USA",
"founded": 2001,
"members": 244,
"budget": 750000,
"url": "www.python.org/psf/"}

## Модуль json

В питоне есть стандартный модуль `json`. В основном из этого модуля используют такие функции:

* `loads`  - превратить строку в формате JSON в объект питона - словарь или массив. У этой функции один обязательный аргумент - строка.
* `dumps`  - превратить питоновский словарь или массив в строку JSON. У этой функции один обязательный аргумент - словарь или массив.
* `load` - прочитать файл и превратить JSON, который в нем находится, в объект питона. У этой функции два обязательных аргумента - файл и объект питона.
* `dump` - превратить питоновский словарь или массив в строку JSON и записать ее в файл. У этой функции два обязательных аргумента - файл и объект питона.

Обратите внимание, что под словом "файл" в данном случае имеется в виду любой файло-подобный объект -- собственно файл, или стандартный ввод-вывод, или даже запросы, которые мы отправляем через `urllib.request`, то есть такие объекты, к которым можно применить метод `.read()`.

## Пример

Попробуем превратить нашу строку в объекты питона:

In [12]:
json_string = """{"organisation": "Python Software Foundation",
                 "officers": [
                            {"first_name": "Guido", "last_name":"Rossum", "position":"president"},
                            {"first_name": "Diana", "last_name":"Clarke", "position":"chair"},
                            {"first_name": "Naomi", "last_name":"Ceder", "position":"vice chair"},
                            {"first_name": "Van", "last_name":"Lindberg", "position":"vice chair"},
                            {"first_name": "Ewa", "last_name":"Jodlowska", "position":"director of operations"}
                            ],
                "type": "non-profit",
                "country": "USA",
                "founded": 2001,
                "members": 244,
                "budget": 750000,
                "url": "www.python.org/psf/"}"""

In [13]:
import json
data = json.loads(json_string)
print(type(data))  # распечатаем тип объекта и убедимся, что теперь это не строка, а словарь

<class 'dict'>


In [14]:
print(data) # посмотрим на сам этот словарь

{'officers': [{'position': 'president', 'last_name': 'Rossum', 'first_name': 'Guido'}, {'position': 'chair', 'last_name': 'Clarke', 'first_name': 'Diana'}, {'position': 'vice chair', 'last_name': 'Ceder', 'first_name': 'Naomi'}, {'position': 'vice chair', 'last_name': 'Lindberg', 'first_name': 'Van'}, {'position': 'director of operations', 'last_name': 'Jodlowska', 'first_name': 'Ewa'}], 'type': 'non-profit', 'country': 'USA', 'url': 'www.python.org/psf/', 'members': 244, 'organisation': 'Python Software Foundation', 'budget': 750000, 'founded': 2001}


In [15]:
# и попробуем поработать с этим словарем. например, распечатаем его ключи.
for key in data: 
    print(key, end=' ')

officers type country url members organisation budget founded 

In [16]:
# теперь предположим, что у нас есть питоновский словарь или массив, который мы хотим сохранить в виде строки json

d = {"John": 21, "Kate": 20, "Bill": 27}
json_string = json.dumps(d)
print(type(json_string)) # убедимся, что теперь наши данные превратились в строку

<class 'str'>


In [17]:
# распечатаем эту строку
print(json_string)

{"Kate": 20, "John": 21, "Bill": 27}


In [18]:
# то же самое можно делать с массивами
arr = ['hello', 'world']
json_string = json.dumps(arr)
print(type(json_string)) 
print(json_string)

<class 'str'>
["hello", "world"]


In [21]:
# убедимся, что не все питоновские правильные объекты хорошо вписываются в json
d = {("A", 21): "John"}
json_string = json.dumps(d)
print(json_string)

TypeError: keys must be a string

Такие дела.

In [None]:
# вот такой код просто сбросит словарь в файл:

d = {'абв': 1, 'где': 2, 'ёжз': 3}
f = open('data.json', 'w', encoding='utf-8')
json.dump(d, f)
f.close()

# если заглянуть в файл, то результат будет таким:

{"\u0433\u0434\u0435": 2, "\u0430\u0431\u0432": 1, "\u0451\u0436\u0437": 3}

# добавим параметр ensure_ascii:

json.dump(d, f, ensure_ascii = False)

# результат:

{"где": 2, "абв": 1, "ёжз": 3}

# добавим indent (числовое значение -- это число пробелов в отступах):

json.dump(d, f, ensure_ascii = False, indent = 4)

# вот

## Как проверить валидность json
Когда нам приходится иметь дело с большими данными, заметить ошибку в json-файле -- какую-нибудь недостающую скобочку или кавычку -- не всегда легко. Если вы видите ошибку чтения/кодирования/декодирования json, но не можете ее найти, или просто хотите подстраховаться, можно проверить текст на одном из следующих сайтов (проще всего самый первый):
* https://jsonlint.com/
* https://jsoncompare.com/ 
* http://www.jsonschemavalidator.net/
* https://jsonformatter.curiousconcept.com/#

## json в дикой природе

Наиболее частое распространенное использование JSON -- пересылка данных от сервера к браузеру. Например, когда сервер отправляет браузеру веб-страницу, часто к странице прикладывается json c дополнительной информацией. Иногда весь ответ браузера состоит из json.

Разберем в качестве примера гитхаб. Если отправлять на гитхаб специальные запросы по особым ссылкам, то в ответ сервер гитхаба будет присылать json-строку с информацией. Например, можно получить список всех репозиториев заданного пользователя или список его фолловеров.

In [22]:
import json
import urllib.request

user = "elmiram"  # пользователь, про которого мы хотим что-то узнать
url = 'https://api.github.com/users/%s/repos' % user  
# по этой ссылке мы будем доставать джейсон, попробуйте вставить ссылку в браузер и посмотреть, что там

response = urllib.request.urlopen(url)  # посылаем серверу запрос и достаем ответ
text = response.read().decode('utf-8')  # читаем ответ в строку
data = json.loads(text) # превращаем джейсон-строку в объекты питона

print(len(data))  # можно распечатать, сколько у пользователя репозиториев
for i in data:
    print(i["name"]) # и распечатать названия всех репозиториев

21
19thcentury
2016learnpython
animal_sounds_graph_project
ASD_children_corpus
constructicon
elmiram.github.io
EmotionAnalysisInVideo
HarryPotterBot
heritage_corpus
homework
lang8-crawler
learner_corpus
mockingBot
riichicount
RNCfrontend
ruhwr
ruscorpora_front
RusDisamb
RusTokenizer
txt2prs
Yiddish


## Задания

### Часть 1. Про гитхаб.
Вот, например, несколько (не)случайных юзеров гитхаба: elmiram, elizavetakuzmenko, nevmenandr, ancatmara, roctbb, akutuzov, agricolamz, lehkost, macleginn, kylepjohnson, mikekestemont, shwars, JelteF, timgraham, arogozhnikov, jasny, bcongdon, whyisjake.

Вам нужно:

1) Выбрать какого-то одного пользователя и распечатать список его репозиториев (name) и их описания (description). Можно сделать то же самое для своей странички на гитхабе.

2) На каких языках пишет выбранный пользователь? Распечатать список языков (language) и количество репозиториев, в котором они используются.

3) У кого из пользователей в списке больше всего репозиториев?

4) Какой язык самый популярный среди пользователей списка?

5) У кого из пользователей списка больше всего фолловеров? (фолловеров можно достать по ссылке https://api.github.com/users/username/followers, где вместо username -- имя пользователя)


### Часть 2. Мы же все-таки лингвисты.

Вот например есть такой [json](https://github.com/ancatmara/learnpython2017/blob/master/Семинары/data/harms.json). Нужно прочитать этот файл и записать на его основе [XML, как в НКРЯ](https://github.com/ancatmara/learnpython2017/blob/master/Семинары/data/harms.xml).