## JSON 
(англ. JavaScript Object Notation) — текстовый формат обмена данными, основанный на JavaScript.

In [None]:
import json

#### Из JSON в Python:

In [36]:
json_string = '{"first_name": "Guido", "last_name":"Rossum"}'
parsed_json = json.loads(json_string)
parsed_json

{'first_name': 'Guido', 'last_name': 'Rossum'}

In [37]:
print(parsed_json['first_name'])

Guido


#### Из Python в JSON:

In [38]:
d = {
    'first_name': 'Guido',
    'second_name': 'Rossum',
    'titles': ['BDFL', 'Developer'],
}

print(json.dumps(d))

{"first_name": "Guido", "second_name": "Rossum", "titles": ["BDFL", "Developer"]}


#### Типы в JSON:

In [43]:
json.dumps(['foo', {'bar': ('baz', None, True, 1.0, 2)}])

'["foo", {"bar": ["baz", null, true, 1.0, 2]}]'

In [110]:
json.loads('["foo", {"bar": ["baz", null, true, 1.0, 2]}]')

['foo', {'bar': ['baz', None, True, 1.0, 2]}]

#### Unicode:

In [34]:
print(json.dumps('привет мир!'))

"\u043f\u0440\u0438\u0432\u0435\u0442 \u043c\u0438\u0440!"


#### Compact encoding:

In [47]:
json.dumps([1, 2, 3, {'4': 5, '6': 7}], separators=(',', ':'))

'[1,2,3,{"4":5,"6":7}]'

#### Pretty printing:

In [64]:
print(json.dumps({'4': 5, '6': 7}, sort_keys=True, indent=4))

{
    "4": 5,
    "6": 7
}


#### Работа с файлами:

In [127]:
with open('train.json', 'w') as json_file:
    json.dump({'4': 5, '6': 7}, json_file)

In [128]:
with open('train.json') as json_file:
    json_parsed = json.load(json_file)
print(json_parsed)

{'4': 5, '6': 7}


#### Неочевидные моменты:

1) ключами в словаре могут быть только строчки:

In [153]:
json.loads('{1: 2}')

JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1)

2) строчки обрамляются только двойными кавычками: 

In [154]:
json.loads("'string'")

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

3) в JSON нельзя поместить set:

In [155]:
my_set = set((1,2,3))
json.dumps(my_set)

TypeError: Object of type 'set' is not JSON serializable

### Решаем на семинаре:

1. (1 балл) Телефонный справочник.
Создайте dict, в котором в ключах будут имена, а в значениях - телефонные номера. Преобразуйте его в json-файл с помощью функции json.dump

2. (1 балл) Прочитайте файл json_task1.json -> сконвертируйте в python-объект (функция json.load) -> выведите слово "world" (оно является значением во вложенном dict'е)

3. (2 балла) Исправьте синтаксические ошибки в файле json_task2.json и сконвертируйте в python-объект (функция json.load)

## Парсим JSON из Instagram!

In [1]:
import requests

In [6]:
response = requests.get('https://www.instagram.com/explore/tags/hse/?__a=1')
hse_tag_json = response.json()

In [15]:
import pandas as pd

In [None]:
df = pd.read_json(json.dumps(hse_tag_json['tag']['media']['nodes']))

In [156]:
df.head()

Unnamed: 0,caption,code,comments,comments_disabled,date,dimensions,display_src,id,is_video,likes,owner,thumbnail_resources,thumbnail_src,video_views
0,Συμμετοχη της Αρχης Λιμενων στο Ευρωπαικο προγ...,Bb4wmCqhuXe,{'count': 0},False,2017-11-24 17:45:59,"{'height': 810, 'width': 1080}",https://scontent-waw1-1.cdninstagram.com/t51.2...,1655286583492273664,False,{'count': 6},{'id': '2145033941'},[{'src': 'https://scontent-waw1-1.cdninstagram...,https://scontent-waw1-1.cdninstagram.com/t51.2...,
1,Праздник к нам приходит\n#hse #christmastree #...,Bb4uMpUh2nz,{'count': 0},False,2017-11-24 17:25:02,"{'height': 1351, 'width': 1080}",https://scontent-waw1-1.cdninstagram.com/t51.2...,1655276042199722496,False,{'count': 11},{'id': '295396974'},[{'src': 'https://scontent-waw1-1.cdninstagram...,https://scontent-waw1-1.cdninstagram.com/t51.2...,
2,Mis socios en el crimen. Hacemos el trabajo!!!...,Bb4migCBKc6,{'count': 0},False,2017-11-24 16:19:51,"{'height': 640, 'width': 640}",https://scontent-waw1-1.cdninstagram.com/t51.2...,1655242359681885952,True,{'count': 9},{'id': '327282952'},[{'src': 'https://scontent-waw1-1.cdninstagram...,https://scontent-waw1-1.cdninstagram.com/t51.2...,18.0
3,Хочу такой бонус к дальности броска\n#hse #hse...,Bb4lD0Ogk_n,{'count': 0},False,2017-11-24 16:05:11,"{'height': 640, 'width': 640}",https://scontent-waw1-1.cdninstagram.com/t51.2...,1655235853015994368,False,{'count': 15},{'id': '6308282876'},[{'src': 'https://scontent-waw1-1.cdninstagram...,https://scontent-waw1-1.cdninstagram.com/t51.2...,
4,Brotherly love!!!!!! Big bruh...... Ziggy Zo!!...,Bb4cmVIh10J,{'count': 1},False,2017-11-24 14:51:15,"{'height': 1080, 'width': 1080}",https://scontent-waw1-1.cdninstagram.com/t51.2...,1655198642392751360,False,{'count': 21},{'id': '327282952'},[{'src': 'https://scontent-waw1-1.cdninstagram...,https://scontent-waw1-1.cdninstagram.com/t51.2...,


### Блиц!

(3 балла) С помощью функции pandas['column_name'].map() преобразуйте колонки comments и likes из dict'ов в числа. Создайте новые колонки comments_count и likes_count, которые будут содержать количество комментариев и лайков.

### Бонус (если успеем)

Было бы здорово скачать несколько страничек, а то данных мало...

In [159]:
max_id = ''
has_next_page = True

nodes = []

for i in range(10):
    if not has_next_page:
        break
    resp = requests.get('https://www.instagram.com/explore/tags/hse/?__a=1'.format(max_id)).json()
    
    nodes += hse_tag_json['tag']['media']['nodes']

    if resp['tag']['media']['page_info']['has_next_page']:
        max_id = '&max_id=' + location_dict['media']['page_info']['end_cursor']
    else:
        has_next_page = False

In [160]:
df_big = pd.read_json(json.dumps(nodes))

## Домашнее задание:

1. (3 балла) Составьте несколько pandas.DataFrame с "top_posts" Инстаграма для разных локаций. Для этого понадобится найти ссылку на страничку с локацией: ее можно получить из адреса сайта при поиске в десктопе: <img src="location.png"><br>
Для N.Y. ссылка выглядит так: https://www.instagram.com/explore/locations/212988663/new-york-new-york/ . Соответственно, ссылка с json-ом выглядит так: https://www.instagram.com/explore/locations/212988663/new-york-new-york/?__a=1 <br>
Давайте возьмем Нью-Йорк, Париж, Рим, Берлин, Нью-Дели и Минск.

2. (3 балла) Для каждого DataFrame'a создайте новую колонку 'location', в которую (для каждой строчки) положите название локации. Объедините все DataFrame'ы в одну функцию pd.concat([df1, df2, df3...])

3. (3 балла) Постройте box plot, в котором на одном графике отобразите количество лайков для разных локаций. По x - локации, по y - количество лайков. Выглядеть должно примерно так: <img src="https://plot.ly/~cufflinks/35/a-b-c-d-e.png">