## JSON 

Формат JSON (JavaScript Object Notation) стал очень популярен для обмена данными по протоколу НТТР между веб-сервером и браузером или другим клиентским приложением. Этот формат обладает куда большей гибкостью, чем табличный текстовый формат типа CSV.

Данные в формате JSON очень напоминают код на Python с тем отличием, что отсутствующее значение обозначается null, и еще некоторыми нюансами (например, запрещается ставить запятую после последнего элемента списка). Базовыми типами являются объекты (словари), массивы (списки), строки, числа, булевы значения и null. Ключ любого объекта должен быть строкой. На Python существует несколько библиотек для чтения и записи JSОN-данных. 



In [0]:
import json 
import pandas as pd    

#### Экспорт в формат JSON

In [2]:
# Создадим Dataframe
data = {"Sub_ID":["1","2","3","4","5","6","7","8" ],
        "Name":["Erik", "Daniel", "Michael", "Sven",
                "Gary", "Carol","Lisa", "Elisabeth" ],
        "Salary":["723.3", "515.2", "621", "731", 
                  "844.15","558", "642.8", "732.5" ],
        "StartDate":[ "1/1/2011", "7/23/2013", "12/15/2011",
                     "6/11/2013", "3/27/2011","5/21/2012", 
                     "7/30/2013", "6/17/2014"],
        "Department":[ "IT", "Manegement", "IT", "HR", 
                      "Finance", "IT", "Manegement", "IT"],
        "Sex":[ "M", "M", "M", 
              "M", "M", "F", "F", "F"]}
df1 = pd.DataFrame(data, columns = ["Sub_ID","Name","Salary","StartDate","Department","Sex"])
df1

Unnamed: 0,Sub_ID,Name,Salary,StartDate,Department,Sex
0,1,Erik,723.3,1/1/2011,IT,M
1,2,Daniel,515.2,7/23/2013,Manegement,M
2,3,Michael,621.0,12/15/2011,IT,M
3,4,Sven,731.0,6/11/2013,HR,M
4,5,Gary,844.15,3/27/2011,Finance,M
5,6,Carol,558.0,5/21/2012,IT,F
6,7,Lisa,642.8,7/30/2013,Manegement,F
7,8,Elisabeth,732.5,6/17/2014,IT,F


----

Метод **[to_json](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_json.html)** преобразует объект в строку JSON 

---

In [3]:
dj1 = df1.to_json() 
dj1

'{"Sub_ID":{"0":"1","1":"2","2":"3","3":"4","4":"5","5":"6","6":"7","7":"8"},"Name":{"0":"Erik","1":"Daniel","2":"Michael","3":"Sven","4":"Gary","5":"Carol","6":"Lisa","7":"Elisabeth"},"Salary":{"0":"723.3","1":"515.2","2":"621","3":"731","4":"844.15","5":"558","6":"642.8","7":"732.5"},"StartDate":{"0":"1\\/1\\/2011","1":"7\\/23\\/2013","2":"12\\/15\\/2011","3":"6\\/11\\/2013","4":"3\\/27\\/2011","5":"5\\/21\\/2012","6":"7\\/30\\/2013","7":"6\\/17\\/2014"},"Department":{"0":"IT","1":"Manegement","2":"IT","3":"HR","4":"Finance","5":"IT","6":"Manegement","7":"IT"},"Sex":{"0":"M","1":"M","2":"M","3":"M","4":"M","5":"F","6":"F","7":"F"}}'

In [4]:
type(dj1)

str

In [0]:
# Запишем данные в формате JSON в файл
with open('data.json', 'w') as outfile:
    json.dump(data, outfile)
    

#### Разбор данных в формат JSON

In [6]:
with open('data.json') as json_file:
    data = json.load(json_file)

data


{'Department': ['IT',
  'Manegement',
  'IT',
  'HR',
  'Finance',
  'IT',
  'Manegement',
  'IT'],
 'Name': ['Erik',
  'Daniel',
  'Michael',
  'Sven',
  'Gary',
  'Carol',
  'Lisa',
  'Elisabeth'],
 'Salary': ['723.3', '515.2', '621', '731', '844.15', '558', '642.8', '732.5'],
 'Sex': ['M', 'M', 'M', 'M', 'M', 'F', 'F', 'F'],
 'StartDate': ['1/1/2011',
  '7/23/2013',
  '12/15/2011',
  '6/11/2013',
  '3/27/2011',
  '5/21/2012',
  '7/30/2013',
  '6/17/2014'],
 'Sub_ID': ['1', '2', '3', '4', '5', '6', '7', '8']}

In [7]:
type(data)

dict

In [8]:
df2 = pd.read_json('data.json')

df2

Unnamed: 0,Sub_ID,Name,Salary,StartDate,Department,Sex
0,1,Erik,723.3,1/1/2011,IT,M
1,2,Daniel,515.2,7/23/2013,Manegement,M
2,3,Michael,621.0,12/15/2011,IT,M
3,4,Sven,731.0,6/11/2013,HR,M
4,5,Gary,844.15,3/27/2011,Finance,M
5,6,Carol,558.0,5/21/2012,IT,F
6,7,Lisa,642.8,7/30/2013,Manegement,F
7,8,Elisabeth,732.5,6/17/2014,IT,F


In [9]:
type(df2)

pandas.core.frame.DataFrame

# Пример 2

In [18]:
with open('raw_nyc_phil.json') as f: 
    dict_json = json.load(f)
dict_json

{'programs': [{'concerts': [{'Date': '1842-12-07T05:00:00Z',
     'Location': 'Manhattan, NY',
     'Time': '8:00PM',
     'Venue': 'Apollo Rooms',
     'eventType': 'Subscription Season'}],
   'id': '38e072a7-8fc9-4f9a-8eac-3957905c0002',
   'orchestra': 'New York Philharmonic',
   'programID': '3853',
   'season': '1842-43',
   'works': [{'ID': '52446*',
     'composerName': 'Beethoven,  Ludwig  van',
     'conductorName': 'Hill, Ureli Corelli',
     'soloists': [],
     'workTitle': 'SYMPHONY NO. 5 IN C MINOR, OP.67'},
    {'ID': '8834*4',
     'composerName': 'Weber,  Carl  Maria Von',
     'conductorName': 'Timm, Henry C.',
     'movement': '"Ozean, du Ungeheuer" (Ocean, thou mighty monster), Reiza (Scene and Aria), Act II',
     'soloists': [{'soloistInstrument': 'Soprano',
       'soloistName': 'Otto, Antoinette',
       'soloistRoles': 'S'}],
     'workTitle': 'OBERON'},
    {'ID': '3642*',
     'composerName': 'Hummel,  Johann',
     'soloists': [{'soloistInstrument': 'Piano',

In [19]:
df3 = pd.read_json('raw_nyc_phil.json')
df3.head(3)

Unnamed: 0,programs
0,"{'season': '1842-43', 'orchestra': 'New York P..."
1,"{'season': '1842-43', 'orchestra': 'New York P..."
2,"{'season': '1842-43', 'orchestra': 'Musicians ..."


----
Попытаемся нормализовать полуструктурированные данные JSON в плоскую таблицу, испоьзуя **[json_normalize](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.json.json_normalize.html)**


---

In [0]:
from pandas.io.json import json_normalize

In [21]:
df_norm_program = json_normalize(dict_json['programs']) 
df_norm_program.head(3) 

Unnamed: 0,season,orchestra,concerts,programID,works,id
0,1842-43,New York Philharmonic,"[{'Date': '1842-12-07T05:00:00Z', 'eventType':...",3853,"[{'workTitle': 'SYMPHONY NO. 5 IN C MINOR, OP....",38e072a7-8fc9-4f9a-8eac-3957905c0002
1,1842-43,New York Philharmonic,"[{'Date': '1843-02-18T05:00:00Z', 'eventType':...",5178,[{'workTitle': 'SYMPHONY NO. 3 IN E FLAT MAJOR...,c7b2b95c-5e0b-431c-a340-5b37fc860b34
2,1842-43,Musicians from the New York Philharmonic,"[{'Date': '1843-04-07T05:00:00Z', 'eventType':...",10785,"[{'workTitle': 'EGMONT, OP.84', 'composerName'...",894e1a52-1ae5-4fa7-aec0-b99997555a37


In [22]:
df_norm_works =json_normalize(dict_json['programs'], 
                            record_path ='works',  
                            meta =['id', 'orchestra', 'programID', 'season']) 
df_norm_works.head(3) 

Unnamed: 0,workTitle,conductorName,ID,soloists,composerName,movement,interval,movement.em,movement._,workTitle.em,workTitle._,id,orchestra,programID,season
0,"SYMPHONY NO. 5 IN C MINOR, OP.67","Hill, Ureli Corelli",52446*,[],"Beethoven, Ludwig van",,,,,,,38e072a7-8fc9-4f9a-8eac-3957905c0002,New York Philharmonic,3853,1842-43
1,OBERON,"Timm, Henry C.",8834*4,"[{'soloistName': 'Otto, Antoinette', 'soloistR...","Weber, Carl Maria Von","""Ozean, du Ungeheuer"" (Ocean, thou mighty mons...",,,,,,38e072a7-8fc9-4f9a-8eac-3957905c0002,New York Philharmonic,3853,1842-43
2,"QUINTET, PIANO, D MINOR, OP. 74",,3642*,"[{'soloistName': 'Scharfenberg, William', 'sol...","Hummel, Johann",,,,,,,38e072a7-8fc9-4f9a-8eac-3957905c0002,New York Philharmonic,3853,1842-43


In [23]:
soloist_data =json_normalize(dict_json['programs'], 
                              record_path =['works', 'soloists'], 
                              meta =['id']) 
 
soloist_data.head(3) 

Unnamed: 0,soloistName,soloistRoles,soloistInstrument,id
0,"Otto, Antoinette",S,Soprano,38e072a7-8fc9-4f9a-8eac-3957905c0002
1,"Scharfenberg, William",A,Piano,38e072a7-8fc9-4f9a-8eac-3957905c0002
2,"Hill, Ureli Corelli",A,Violin,38e072a7-8fc9-4f9a-8eac-3957905c0002


## Работа с API с помощью JSON

Различные API могут поддерживать либо XML, либо JSON.
Рассмотрим пример чтения данных из Википедии с использованием формата JSON, для этого необходимо познакомится с [документацией](https://www.mediawiki.org/wiki/API:Main_page).

**Задача:** получить списоквсех статей из некоторой категории в Википедии


In [0]:
url = "https://en.wikipedia.org/w/api.php"
params = {
    'action':'query', # сообщает о том, что мы отправляем запрос на получение содержимого Википедии
    'list':'categorymembers', # список чего мы бы хотели получить (В данном случае это categorymembers — список элементов какой-то категории)
    'cmtitle': 'Category:Physics', # название категории, список элементов которой мы хотим получить
    'format': 'json' # формат ответа
}


---
Для работы с API используем библиотеку **[requests](https://3.python-requests.org)**


---

In [0]:
import requests

In [12]:
inf = requests.get(url, params=params)
inf.ok

True

In [13]:
inf.text

'{"batchcomplete":"","continue":{"cmcontinue":"page|2d454147514f294f394543293f042943294f454159011901dc18|48520204","continue":"-||"},"query":{"categorymembers":[{"pageid":22939,"ns":0,"title":"Physics"},{"pageid":24489,"ns":0,"title":"Outline of physics"},{"pageid":1653925,"ns":100,"title":"Portal:Physics"},{"pageid":5435566,"ns":0,"title":"Action-angle coordinates"},{"pageid":52657328,"ns":0,"title":"Bayesian model of computational anatomy"},{"pageid":49342572,"ns":0,"title":"Group actions in computational anatomy"},{"pageid":61475631,"ns":0,"title":"Biorheology (journal)"},{"pageid":55503653,"ns":0,"title":"Camelback potential"},{"pageid":2664158,"ns":0,"title":"Center of percussion"},{"pageid":62446002,"ns":0,"title":"Chemical gardening"}]}}'

In [14]:
p_obj = inf.json()
p_obj

{'batchcomplete': '',
 'continue': {'cmcontinue': 'page|2d454147514f294f394543293f042943294f454159011901dc18|48520204',
  'continue': '-||'},
 'query': {'categorymembers': [{'ns': 0, 'pageid': 22939, 'title': 'Physics'},
   {'ns': 0, 'pageid': 24489, 'title': 'Outline of physics'},
   {'ns': 100, 'pageid': 1653925, 'title': 'Portal:Physics'},
   {'ns': 0, 'pageid': 5435566, 'title': 'Action-angle coordinates'},
   {'ns': 0,
    'pageid': 52657328,
    'title': 'Bayesian model of computational anatomy'},
   {'ns': 0,
    'pageid': 49342572,
    'title': 'Group actions in computational anatomy'},
   {'ns': 0, 'pageid': 61475631, 'title': 'Biorheology (journal)'},
   {'ns': 0, 'pageid': 55503653, 'title': 'Camelback potential'},
   {'ns': 0, 'pageid': 2664158, 'title': 'Center of percussion'},
   {'ns': 0, 'pageid': 62446002, 'title': 'Chemical gardening'}]}}

In [15]:
type(p_obj)

dict

---
Содержательная информация хранится по ключу 'query'. А уже внутри есть ключ 'categorymembers', значением которого является список всех категорий. Каждая категория отображается в виде словаря, записями которого являются разные параметры категории (например, 'title' соответствует названию, а pageid — внутреннему идентификатору в системе).

---

In [16]:
type(p_obj['query']['categorymembers'])

list

---
Это список всех членов категории. 

Мы можем посмотреть на них с помощью цикла:

---

In [17]:
for inst in p_obj['query']['categorymembers']:
    print(inst['title'])

Physics
Outline of physics
Portal:Physics
Action-angle coordinates
Bayesian model of computational anatomy
Group actions in computational anatomy
Biorheology (journal)
Camelback potential
Center of percussion
Chemical gardening


---
Преимущества JSON в том, что мы получаем готовый объект Python и нет необходимости использовать какие-то дополнительные библиотеки для того, чтобы с ним работать. 

---

## Задание

Загрузите с сайта https://apidata.mos.ru/ любой доступный набор данных. Можно использовать другой ресурс, предоставляющий API с поддержкой JSON. Например, Yandex или VK. 

Приведите данные к надлежащему виду (dataframe) и запишите в csv - файл.

В качестве ответа на задание необходимо отправить файл ноутбука с dataframe, содержащим данные, и файл в формате csv.


In [0]:
pip install vk

In [0]:
import vk
from pandas.io.json import json_normalize

token = "b07f4840b07f4840b07f484048b012c693bb07fb07f4840edd1ecfc34b1da3f2a02fd69"
vk_api = vk.API(vk.Session(access_token=token))
start_group = vk_api.groups.getById(group_id='susu_eecs', v=5.92)
group_id = -start_group[0]['id']  # получение id группы по её названию
posts = vk_api.wall.get(owner_id=group_id, v=5.92, count=10)['items']  # получить первые 10 постов из группы ВШЭКН
posts

In [33]:
posts_norm = json_normalize(posts) 
del posts_norm['attachments']
posts_norm.to_csv('vk_data.csv')
posts_norm

Unnamed: 0,id,from_id,owner_id,date,marked_as_ads,post_type,text,comments.count,likes.count,reposts.count,views.count
0,8234,-8866666,-8866666,1575642508,0,post,💡18 декабря пройдет экскурсия в ПАО ЧТПЗ \n \n...,0,2,0,388
1,8232,-8866666,-8866666,1575469116,0,post,💡Четвертый Фестиваль актуального научного кино...,0,3,0,993
2,8230,-8866666,-8866666,1575344990,0,post,Просим студентов-контрактников срочно до 15.12...,0,3,1,1411
3,8229,-8866666,-8866666,1575344338,0,post,Срочно подойти в мобилизационное управление❗\n...,0,1,1,1399
4,8228,-8866666,-8866666,1575195600,0,post,Высшая школа электроники и компьютерных наук Ю...,0,8,0,1545
5,8226,-8866666,-8866666,1575039180,0,post,💡Набор в ССО «Танкоград» 4.0 \n\nМомент настал...,0,6,0,1420
6,8225,-8866666,-8866666,1574945220,0,post,"💡Празднику, в честь столетия профсоюзного студ...",0,0,0,1222
7,8224,-8866666,-8866666,1574932801,0,post,Студенты ВШ ЭКН вошли в число победителей хака...,0,8,1,1536
8,8221,-8866666,-8866666,1574929317,0,post,Диктант по информационной безопасности❗\n\n29 ...,0,0,0,1270
9,8220,-8866666,-8866666,1574866020,0,post,"Все мы знаем, насколько важны в нашей жизни зн...",0,2,0,1275
