# JSON

## Формат json

**JSON** -- простой, основанный на использовании текста, способ хранить и передавать структурированные данные. 

JSON значит *JavaScript Object Notation.*

Его придумали для того, чтобы упростить обмен данными. 

Его предложения легко читаются и составляются как человеком, так и компьютером.

Его легко преобразовать в структуру данных для большинства языков программирования (числа, строки, логические переменные, массивы и так далее).

Многие языки программирования имеют функции и библиотеки для чтения и создания структур JSON. 

JSON обычно более компактный чем XML. 

![](https://pics.me.me/json-statham-new-json-object-44070723.png)

## Правила json

Строка json может содержать __объект__, и тогда она начинается с `{` и заканчивается на `}`. Такой объект очень похож на питоновский *словарь*: у него есть ключи - строки, которые пишутся в кавычках, а через двоеточие пишется значение, пары ключ-значение разделяются запятыми. Например:

In [None]:
{"first_name": "Guido", "last_name":"Rossum"}

Строка json может содержать __массив__, и тогда она начинается с `[` и заканчивается на `]`. Такой массив очень похож на питоновский массив: в нем значения перечисляются через запятую. Например:

In [None]:
["Guido van Rossum", "Diana Clarke", "Naomi Ceder", "Van Lindberg", "Ewa Jodlowska"]

Значение в массиве или объекте может быть:
* Числом (целым или с плавающей точкой)
* Строкой (в двойных кавычках)
* Логическим значением (true или false)
* Другим массивом (заключенным в квадратные скобки)
* Другим объектом (заключенным в фигурные скобки)
* Значением null

Чтобы включить в строку специальные символы (например, кавычку), их нужно экранировать с помощью \, например, `\"` или `\r\n`. Наглядные правила построения json-строки можно посмотреть на официальном сайте http://www.json.org/, если захочется.

Может показаться, что это вообще-то все и так очень похоже на обычный питон. Но это не так. Во-первых, json -- это не исполняемый код, а просто текст. Во-вторых, очень часто запись валидного питоновского словаря или массива не будет являться валидной записью в формате json. Например, это не json, но при этом словарь: `{(1, 'a'): u'12345'}`. (Попробуйте придумать еще примеры.)

Вот еще пример строки json, посложнее:

In [None]:
{"organisation": "Python Software Foundation",
 "officers": [
            {"first_name": "Guido", "last_name":"Rossum", "position":"president"},
            {"first_name": "Diana", "last_name":"Clarke", "position":"chair"},
            {"first_name": "Naomi", "last_name":"Ceder", "position":"vice chair"},
            {"first_name": "Van", "last_name":"Lindberg", "position":"vice chair"},
            {"first_name": "Ewa", "last_name":"Jodlowska", "position":"director of operations"}
            ],
"type": "non-profit",
"country": "USA",
"founded": 2001,
"members": 244,
"budget": 750000,
"url": "www.python.org/psf/"}

## Модуль json

В питоне есть стандартный модуль `json`. В основном из этого модуля используют такие функции:

* `loads`  - превратить строку в формате JSON в объект питона - словарь или массив. У этой функции один обязательный аргумент - строка.
* `dumps`  - превратить питоновский словарь или массив в строку JSON. У этой функции один обязательный аргумент - словарь или массив.
* `load` - прочитать файл и превратить JSON, который в нем находится, в объект питона. У этой функции два обязательных аргумента - файл и объект питона.
* `dump` - превратить питоновский словарь или массив в строку JSON и записать ее в файл. У этой функции два обязательных аргумента - файл и объект питона.

Под словом "файл" в данном случае имеется в виду любой файло-подобный объект -- собственно файл, или стандартный ввод-вывод, или даже запросы, которые мы отправляем через `urllib.request`, то есть такие объекты, к которым можно применить метод `.read()`.

## Пример

Попробуем превратить нашу строку в объекты питона:

In [1]:
json_string = """{"organisation": "Python Software Foundation",
                 "officers": [
                            {"first_name": "Guido", "last_name":"Rossum", "position":"president"},
                            {"first_name": "Diana", "last_name":"Clarke", "position":"chair"},
                            {"first_name": "Naomi", "last_name":"Ceder", "position":"vice chair"},
                            {"first_name": "Van", "last_name":"Lindberg", "position":"vice chair"},
                            {"first_name": "Ewa", "last_name":"Jodlowska", "position":"director of operations"}
                            ],
                "type": "non-profit",
                "country": "USA",
                "founded": 2001,
                "members": 244,
                "budget": 750000,
                "url": "www.python.org/psf/"}"""

In [2]:
import json

data = json.loads(json_string)
print(type(data))  # распечатаем тип объекта и убедимся, что теперь это не строка, а словарь

<class 'dict'>


In [3]:
from pprint import pprint

pprint(data) # посмотрим на сам этот словарь

{'budget': 750000,
 'country': 'USA',
 'founded': 2001,
 'members': 244,
 'officers': [{'first_name': 'Guido',
               'last_name': 'Rossum',
               'position': 'president'},
              {'first_name': 'Diana',
               'last_name': 'Clarke',
               'position': 'chair'},
              {'first_name': 'Naomi',
               'last_name': 'Ceder',
               'position': 'vice chair'},
              {'first_name': 'Van',
               'last_name': 'Lindberg',
               'position': 'vice chair'},
              {'first_name': 'Ewa',
               'last_name': 'Jodlowska',
               'position': 'director of operations'}],
 'organisation': 'Python Software Foundation',
 'type': 'non-profit',
 'url': 'www.python.org/psf/'}


In [4]:
# и попробуем поработать с этим словарем. например, распечатаем его ключи.
for key in data: 
    print(key, end=' ')

organisation officers type country founded members budget url 

In [5]:
# теперь предположим, что у нас есть питоновский словарь или массив, который мы хотим сохранить в виде строки json

d = {"John": 51, "Kate": 12, "Bill": 27}
json_string = json.dumps(d)
print(type(json_string)) # убедимся, что теперь наши данные превратились в строку

<class 'str'>


In [6]:
# распечатаем эту строку
print(json_string)

{"John": 51, "Kate": 12, "Bill": 27}


In [7]:
# то же самое можно делать с массивами
arr = ['hello', 'world']
json_string = json.dumps(arr)
print(type(json_string)) 
print(json_string)

<class 'str'>
["hello", "world"]


In [8]:
# убедимся, что не все питоновские правильные объекты хорошо вписываются в json
d = {("A", 21): "John"}
json_string = json.dumps(d)
print(json_string)

TypeError: keys must be str, int, float, bool or None, not tuple

Записывая json в файл, можно вставить ещё два необязательных параметра, которые могут быть полезны для последующей работы.

Во-первых, это параметр `indent`, он позволяет сделать так, чтобы данные записывались в файл с человекопонятным форматированием. Тогда файл можно будет открыть текстовым редактором и посмотреть глазами, что там внутри.

Во-вторых, это параметр `ensure_ascii`, он служит в целом для того же. Дело в том, что если в ваших данных есть не-ascii символы, то модуль json по умолчанию кодирует их специальным образом, используя при этом только символы из ограниченного набора, читающиеся одинаково почти во всех кодировках. Это хорошо при переносе данных из одной программы в другую: ничего не собьётся и не потерятся. Но это плохо для человека: понять, что в таком файле, станет невозможно.

In [9]:
# вот такой код просто сбросит словарь в файл:

d = {'абв': 1, 'где': 2, 'ёжз': 3}

with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(d, f)

# если заглянуть в файл, то результат будет таким:

{"\u0433\u0434\u0435": 2, "\u0430\u0431\u0432": 1, "\u0451\u0436\u0437": 3}

{'где': 2, 'абв': 1, 'ёжз': 3}

In [10]:
# добавим параметр ensure_ascii:

with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(d, f, ensure_ascii = False)

# результат:

{"где": 2, "абв": 1, "ёжз": 3}

{'где': 2, 'абв': 1, 'ёжз': 3}

In [11]:
# добавим indent (числовое значение -- это число пробелов в отступах):

with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(d, f, ensure_ascii = False, indent = 4)

# результат

{
    "абв": 1,
    "где": 2,
    "ёжз": 3
}

{'абв': 1, 'где': 2, 'ёжз': 3}

## Как проверить валидность json
Когда нам приходится иметь дело с большими данными, заметить ошибку в json-файле -- какую-нибудь недостающую скобочку или кавычку -- не всегда легко. Если вы видите ошибку чтения/кодирования/декодирования json, но не можете ее найти, или просто хотите подстраховаться, можно проверить текст на одном из следующих сайтов (проще всего самый первый):
* https://jsonlint.com/
* https://jsoncompare.com/ 
* http://www.jsonschemavalidator.net/
* https://jsonformatter.curiousconcept.com/#

## Json в дикой природе

### 1. Пересылка данных от сервера к браузеру

Наиболее частое распространенное использование JSON -- пересылка данных от сервера к браузеру. Например, когда сервер отправляет браузеру веб-страницу, часто к странице прикладывается json c дополнительной информацией. Иногда весь ответ браузера состоит из json.

Разберем в качестве примера github. Если отправлять на github специальные запросы по особым ссылкам, то в ответ сервер github будет присылать json-строку с информацией. Например, можно посмотреть количество фолловеров или репозиториев у пользователя.

In [12]:
import json
import urllib.request

user = "agricolamz"  # пользователь, про которого мы хотим что-то узнать
url = 'https://api.github.com/users/%s/repos' % user  
# по этой ссылке мы будем доставать джейсон, попробуйте вставить ссылку в браузер и посмотреть, что там

response = urllib.request.urlopen(url)  # посылаем серверу запрос и достаем ответ
text = response.read().decode('utf-8')  # читаем ответ в строку
data = json.loads(text) # превращаем джейсон-строку в объекты питона

print(len(data))  # можно распечатать, сколько у пользователя репозиториев
for i in data:
    print(i["name"]) # и распечатать названия всех репозиториев

30
2017-MAG_R_course
2017_ANDAN_course
2017_ConCorT_lingtypology
2017_HSE_SPb_R_introduction
2017_m_Instrumental_Phonetics
2017_WCAD_talk
2017_Zilo_fieldwork_prezi
2018-MAG_R_course
2018.04.21_MSU_acceptability
2018.05.11_Yerevan_Zilo_classes
2018.07.29_ANDAN_Agreement
2018.07.30_LINGDAN_Praat_Elan
2018.08.02_ANDAN_Shiny
2018.11.22_SPb_HSE_Cartography
2018.11.23_Bayesian_Typology
2018.11.24-25_PublicData_hakathon_8
2018.12.19_City_data_Lingtypology
2018_18.03.20_lingtypology_news
2018_18.04.28_Grammaticality_shiny
2018_adyghe_phonology
2018_ANDAN_course_winter
2018_Andia_adjectives
2018_Andi_relative_clause
2018_Areal_Patterns
2018_clearspending_hackathon_59
2018_clearspending_hackathon_63
2018_data_analysis_for_linguists
2018_Digital_literacy
2018_FE_R_statistics
2018_lingdan_organisation


### 2. Выдача результатов морфологического анлиза текста

Дополнительные данные к семинару: https://yadi.sk/d/VY22VVU1JESaMA 

Json объектами могут быть и не только ответы страниц. Mystem (консольный) может выдавать данные в формате json, но делает это не совсем честно: каждая строчка - это json, но файл целиком json'ом не является
Текстовый файл в каждой строке которого сохранен json называется jsonl (json line) и обозначается расширением .jsonl

In [13]:
full_text = []
for line in open('kap_dochka_mystem.json', 'r', encoding='utf-8'):
    full_text.append(json.loads(line))

In [14]:
len(full_text)

835

In [15]:
full_text[0]

[{'analysis': [{'lex': 'капитанский', 'gr': 'A=nom,sg,plen,f'}],
  'text': 'КАПИТАНСКАЯ'},
 {'text': ' '},
 {'analysis': [{'lex': 'дочка', 'gr': 'S,f,anim=nom,sg'}], 'text': 'ДОЧКА'},
 {'text': '\n'}]

**Задание:** достаньте все леммы и сделайте частотный словарь

### 3. Больше примеров

Вообще много у каких сайтов есть API для доставания json файлов. Например, у твиттера, ютуба и accuweather.

#### YouTube API
Если будет интересно почитать еще про возможности этого API:

https://developers.google.com/youtube/v3/code_samples/python

Пример получен через сайт с помощью "try api" панели тут: https://developers.google.com/youtube/v3/docs/commentThreads/list

In [16]:
with open('youtube_comments.json', 'r', encoding='utf-8') as f:
    youtube_comments = json.load(f)

In [17]:
type(youtube_comments)

dict

**Задание:**
1. Посмотрите, как устроен этот словарь с точки зрения структуры
2. Какие данные о комментариях есть в словаре?
3. Вытащите все комментарии
4. Разделите по пробелам и найдите 10 самых частотных слов в этих комментариях. (flashback в предыдущий семинар -- `Counter`)

#### Accuweather json api

Сервер accuweather зарабатывает на своем API по извлечению json-файлов, потому что так кто угодно может добавлять виджеты с погодой на свои сайты. Поэтому там нужно зарегестрироваться на free trial, чтобы получать json ответы на запросы. Мы уже выкачали для вас прогноз погоды на 5 дней в Москве с 24.09 - 28.09 (файл `accuweather_5day_moscow.json`)

<span style="background-color:#DCF5FF">Но если вам будет интересно, как это делать самим, то вот алгоритм действий:

   1. Register in accuweather
   2. Create an app (set any random parameters it does not matter)
   3. Here is your api key!
   4. Search location of interest in accuweather to find out what it's key is (look in url). E.g. `https://www.accuweather.com/ru/ru/moscow/294021/weather-forecast/294021` --> then moscow's location id is 294021
   5. Get your json here `http://dataservice.accuweather.com/forecasts/v1/daily/5day/{LOCATION_KEY}.json?apikey={YOUR_KEY}`
</span>

**Задание:**
1. Посчитайте насколько средняя температура за день отличается от средней температуры за ночь
2. В какие из дней прогнозируются осадки

In [18]:
with open('accuweather_5day_moscow.json', 'r', encoding='utf-8') as f:
    k = json.load(f)

# посмотрим как устроен прогноз на один день
pprint(k["DailyForecasts"][0])

{'Date': '2019-09-24T07:00:00+03:00',
 'Day': {'HasPrecipitation': True,
         'Icon': 4,
         'IconPhrase': 'Intermittent clouds',
         'PrecipitationIntensity': 'Light',
         'PrecipitationType': 'Rain'},
 'EpochDate': 1569297600,
 'Link': 'http://www.accuweather.com/en/ru/moscow/294021/daily-weather-forecast/294021?day=1&lang=en-us',
 'MobileLink': 'http://m.accuweather.com/en/ru/moscow/294021/daily-weather-forecast/294021?day=1&lang=en-us',
 'Night': {'HasPrecipitation': False,
           'Icon': 38,
           'IconPhrase': 'Mostly cloudy'},
 'Sources': ['AccuWeather'],
 'Temperature': {'Maximum': {'Unit': 'F', 'UnitType': 18, 'Value': 46.0},
                 'Minimum': {'Unit': 'F', 'UnitType': 18, 'Value': 33.0}}}


## Твиты

Это документация, где объясняется, как устроен json в твиттере: https://developer.twitter.com/en/docs/tweets/data-dictionary/overview/tweet-object

In [19]:
# конкретно в этом файле опять ситуация как с майстемом
twitter = []
for line in open('twitter.json'):
    twitter.append(json.loads(line))

In [20]:
# сколько у нас твитов?
len(twitter)

2556

Есть два варианта твитов: удаленные и нормальные, они имеют разную структуру

In [21]:
twitter[0]

{'created_at': 'Wed Oct 03 05:00:00 +0000 2018',
 'id': 1047350533454012417,
 'id_str': '1047350533454012417',
 'text': 'RT @ELISSEsifieds: Nothing can stop us from supporting you. When we say all the way, it will be indeed. Hello Elissesifieds Cebu. \nThank yo…',
 'source': '<a href="http://twitter.com/download/iphone" rel="nofollow">Twitter for iPhone</a>',
 'truncated': False,
 'in_reply_to_status_id': None,
 'in_reply_to_status_id_str': None,
 'in_reply_to_user_id': None,
 'in_reply_to_user_id_str': None,
 'in_reply_to_screen_name': None,
 'user': {'id': 937522240488443905,
  'id_str': '937522240488443905',
  'name': "DonnaArabe'Efieds🇸🇦",
  'screen_name': 'ArabiDonna',
  'location': 'Jubail Industrial City, Kingdo',
  'url': None,
  'description': "Don't think too hard,just have fun with it.",
  'translator_type': 'none',
  'protected': False,
  'verified': False,
  'followers_count': 104,
  'friends_count': 132,
  'listed_count': 0,
  'favourites_count': 8372,
  'statuses_count':

In [22]:
twitter[-1]

{'delete': {'status': {'id': 729296586933678081,
   'id_str': '729296586933678081',
   'user_id': 2740164192,
   'user_id_str': '2740164192'},
  'timestamp_ms': '1538542860162'}}

In [23]:
ok = twitter[0]

In [24]:
# английский язык
ok['lang']

'en'

In [25]:
# полный текст твита - здесь надо быть аккуратнее, может отличаться в твитах и ретвитах с комментарием
ok['retweeted_status']['extended_tweet']['full_text']

'Nothing can stop us from supporting you. When we say all the way, it will be indeed. Hello Elissesifieds Cebu. \nThank you guys, for rising so early just to visit Elisse on her last taping day sa humble place nyo💓 https://t.co/cLpJ2ifyGw'

# json vs yaml
Кроме `json` формата активно используются файлы формата `yaml`, структурно они совпадают. Отличие в, что `json` может иметь меньшие размеры в байтах, а `yaml` поддерживает отступы и комментарии, что делает его наглядным и легко читаемым для человека.
Модуль python для`yaml` имеет методы как у модуля `json`
 - `load`
 - `loads`
 - `dump`
 - `dumps`

In [1]:
!pip install PyYAML==5.3b1

Collecting PyYAML==5.3b1
  Using cached PyYAML-5.3b1-cp39-cp39-linux_x86_64.whl
Installing collected packages: PyYAML
Successfully installed PyYAML-5.3b1
You should consider upgrading via the '/home/@share/Documents/hse/seminars/venv/bin/python -m pip install --upgrade pip' command.[0m


In [2]:
import yaml


yaml.load(open("example.yml"))

  yaml.load(open("example.yml"))


{'just_key': 'value',
 'list_of_values': [123, 'asd', 'etc'],
 'list_of_dicts': [{'key1': 'value1'}, {'key2': 'value2'}, {'key3': 'value4'}]}