## Чтение JSON

In [1]:
import pandas as pd

## Метод `read_json`

Мы начнем с метода **read_json**, который позволяет нам считывать простые файлы JSON в DataFrame.

Этот метод `read_json` принимает множество параметров, как мы видели в `read_csv` и `read_excel`, таких как `filepath`, `dtype` и `encoding`.

В этом случае мы попытаемся прочитать наш JSON-файл games.json.

Этот файл содержит записи игр для PlayStation в Европе с указанием названия, цены, поставщика и жанра.

In [2]:
games = pd.read_json('https://raw.githubusercontent.com/yakushinav/omo/main/data/games.json')

In [3]:
games.head()

Unnamed: 0,title,price,content_rating_img,release_date,provider,genre,image
0,Call of Duty®: WWII + Destiny 2 - Lote,"129,99 €",https://cdn-a.sonyentertainmentnetwork.com/grc...,Dic 21 2018,Activision Blizzard Int'l BV,Shooter,https://store.playstation.com/store/api/chihir...
1,God of War® Digital Deluxe Edition,"69,99 €",https://cdn-a.sonyentertainmentnetwork.com/grc...,Abr 20 2018,Sony Interactive Entertainment Europe,Acción,https://store.playstation.com/store/api/chihir...
2,Far Cry 5,"69,99 €",https://cdn-a.sonyentertainmentnetwork.com/grc...,Mar 27 2018,UBISOFT ENTERTAINMENT SA,Aventura,https://store.playstation.com/store/api/chihir...
3,Far Cry 5 Edición Deluxe,"79,99 €",https://cdn-a.sonyentertainmentnetwork.com/grc...,Mar 27 2018,UBISOFT ENTERTAINMENT SA,Aventura,https://store.playstation.com/store/api/chihir...
4,Far Cry 5 Edición Oro,"89,99 €",https://cdn-a.sonyentertainmentnetwork.com/grc...,Mar 27 2018,UBISOFT ENTERTAINMENT SA,Aventura,https://store.playstation.com/store/api/chihir...


## Пример вложенного JSON

Документы JSON, как правило, не так просты для чтения, как таблицы, особенно если они имеют вложенные структуры.

In [4]:
df = pd.read_json('https://raw.githubusercontent.com/yakushinav/omo/main/data/users.json')

In [5]:
df.head()

Unnamed: 0,info
0,"{'id': 1, 'name': 'Leanne Graham', 'username':..."
1,"{'id': 2, 'name': 'Ervin Howell', 'username': ..."
2,"{'id': 3, 'name': 'Clementine Bauch', 'usernam..."
3,"{'id': 4, 'name': 'Patricia Lebsack', 'usernam..."
4,"{'id': 5, 'name': 'Chelsey Dietrich', 'usernam..."


Это не та структура данных, которую мы хотели, поэтому в этом случае `read_json` не может быть лучшим решением.

Нам понадобится использовать модуль Python `json` для анализа нашего файла JSON в объект словаря Python, чтобы иметь возможность индексировать этот словарь и выбирать нужные вложенные данные.

Для этого мы воспользуемся методом json.load(), который преобразует наш файл JSON в словарь Python json_dict.

In [6]:
import json
import urllib

file_url = 'https://raw.githubusercontent.com/yakushinav/omo/main/data/users.json'


data = urllib.request.urlopen(file_url)

json_dict = json.load(data)

In [7]:
json_dict

{'info': [{'id': 1,
   'name': 'Leanne Graham',
   'username': 'Bret',
   'email': 'Sincere@april.biz',
   'address': [{'street': 'Kulas Light',
     'suite': 'Apt. 556',
     'city': 'Gwenborough',
     'zipcode': '92998-3874',
     'geo': {'lat': '-37.3159', 'lng': '81.1496'}}],
   'phone': '1-770-736-8031 x56442',
   'website': 'hildegard.org',
   'company': {'name': 'Romaguera-Crona',
    'catchPhrase': 'Multi-layered client-server neural-net',
    'bs': 'harness real-time e-markets'}},
  {'id': 2,
   'name': 'Ervin Howell',
   'username': 'Antonette',
   'email': 'Shanna@melissa.tv',
   'address': [{'street': 'Victor Plains',
     'suite': 'Suite 879',
     'city': 'Wisokyburgh',
     'zipcode': '90566-7771',
     'geo': {'lat': '-43.9509', 'lng': '-34.4618'}}],
   'phone': '010-692-6593 x09125',
   'website': 'anastasia.net',
   'company': {'name': 'Deckow-Crist',
    'catchPhrase': 'Proactive didactic contingency',
    'bs': 'synergize scalable supply-chains'}},
  {'id': 3,
   '

In [8]:
json_dict.keys()

dict_keys(['info'])

In [9]:
json_dict.values()

dict_values([[{'id': 1, 'name': 'Leanne Graham', 'username': 'Bret', 'email': 'Sincere@april.biz', 'address': [{'street': 'Kulas Light', 'suite': 'Apt. 556', 'city': 'Gwenborough', 'zipcode': '92998-3874', 'geo': {'lat': '-37.3159', 'lng': '81.1496'}}], 'phone': '1-770-736-8031 x56442', 'website': 'hildegard.org', 'company': {'name': 'Romaguera-Crona', 'catchPhrase': 'Multi-layered client-server neural-net', 'bs': 'harness real-time e-markets'}}, {'id': 2, 'name': 'Ervin Howell', 'username': 'Antonette', 'email': 'Shanna@melissa.tv', 'address': [{'street': 'Victor Plains', 'suite': 'Suite 879', 'city': 'Wisokyburgh', 'zipcode': '90566-7771', 'geo': {'lat': '-43.9509', 'lng': '-34.4618'}}], 'phone': '010-692-6593 x09125', 'website': 'anastasia.net', 'company': {'name': 'Deckow-Crist', 'catchPhrase': 'Proactive didactic contingency', 'bs': 'synergize scalable supply-chains'}}, {'id': 3, 'name': 'Clementine Bauch', 'username': 'Samantha', 'email': 'Nathan@yesenia.net', 'address': [{'stree

In [10]:
for user in json_dict['info']:
    print(user)

{'id': 1, 'name': 'Leanne Graham', 'username': 'Bret', 'email': 'Sincere@april.biz', 'address': [{'street': 'Kulas Light', 'suite': 'Apt. 556', 'city': 'Gwenborough', 'zipcode': '92998-3874', 'geo': {'lat': '-37.3159', 'lng': '81.1496'}}], 'phone': '1-770-736-8031 x56442', 'website': 'hildegard.org', 'company': {'name': 'Romaguera-Crona', 'catchPhrase': 'Multi-layered client-server neural-net', 'bs': 'harness real-time e-markets'}}
{'id': 2, 'name': 'Ervin Howell', 'username': 'Antonette', 'email': 'Shanna@melissa.tv', 'address': [{'street': 'Victor Plains', 'suite': 'Suite 879', 'city': 'Wisokyburgh', 'zipcode': '90566-7771', 'geo': {'lat': '-43.9509', 'lng': '-34.4618'}}], 'phone': '010-692-6593 x09125', 'website': 'anastasia.net', 'company': {'name': 'Deckow-Crist', 'catchPhrase': 'Proactive didactic contingency', 'bs': 'synergize scalable supply-chains'}}
{'id': 3, 'name': 'Clementine Bauch', 'username': 'Samantha', 'email': 'Nathan@yesenia.net', 'address': [{'street': 'Douglas Ext

## Использование метода pandas `from_dict`

Когда наш словарь Python готов, мы представим еще один полезный метод pandas: from_dict().

Этот метод from_dict создаст новый DataFrame из словаря.

In [11]:
pd.DataFrame.from_dict({'Fruits': ['Apple', 'Banana']})

Unnamed: 0,Fruits
0,Apple
1,Banana


### Изменение ориентации данных с помощью параметра orient

«Ориентация» данных. Если ключи переданного словаря должны быть столбцами результирующего DataFrame, передайте orient=columns (поведение по умолчанию). В противном случае, если ключи должны быть строками, используйте orient=index.

In [12]:
pd.DataFrame.from_dict({'Fruits': ['Apple', 'Banana']}, orient='index')

Unnamed: 0,0,1
Fruits,Apple,Banana


Используем словарь json_dict для создания нового DataFrame, но на этот раз с использованием атрибута value:

In [13]:
df = pd.DataFrame.from_dict(json_dict)

In [14]:
df.head()

Unnamed: 0,info
0,"{'id': 1, 'name': 'Leanne Graham', 'username':..."
1,"{'id': 2, 'name': 'Ervin Howell', 'username': ..."
2,"{'id': 3, 'name': 'Clementine Bauch', 'usernam..."
3,"{'id': 4, 'name': 'Patricia Lebsack', 'usernam..."
4,"{'id': 5, 'name': 'Chelsey Dietrich', 'usernam..."


In [15]:
df = pd.DataFrame.from_dict(json_dict['info'])

In [16]:
df.head()

Unnamed: 0,id,name,username,email,address,phone,website,company
0,1,Leanne Graham,Bret,Sincere@april.biz,"[{'street': 'Kulas Light', 'suite': 'Apt. 556'...",1-770-736-8031 x56442,hildegard.org,"{'name': 'Romaguera-Crona', 'catchPhrase': 'Mu..."
1,2,Ervin Howell,Antonette,Shanna@melissa.tv,"[{'street': 'Victor Plains', 'suite': 'Suite 8...",010-692-6593 x09125,anastasia.net,"{'name': 'Deckow-Crist', 'catchPhrase': 'Proac..."
2,3,Clementine Bauch,Samantha,Nathan@yesenia.net,"[{'street': 'Douglas Extension', 'suite': 'Sui...",1-463-123-4447,ramiro.info,"{'name': 'Romaguera-Jacobson', 'catchPhrase': ..."
3,4,Patricia Lebsack,Karianne,Julianne.OConner@kory.org,"[{'street': 'Hoeger Mall', 'suite': 'Apt. 692'...",493-170-9623 x156,kale.biz,"{'name': 'Robel-Corkery', 'catchPhrase': 'Mult..."
4,5,Chelsey Dietrich,Kamren,Lucio_Hettinger@annie.ca,"[{'street': 'Skiles Walks', 'suite': 'Suite 35...",(254)954-1289,demarco.info,"{'name': 'Keebler LLC', 'catchPhrase': 'User-c..."


## Использование json_normalize для сложной вложенности

В нашем примере у нас все еще есть два более сложных столбца: «адрес» и «компания».

- `адрес`: список словарей (записей)
- `компания`: словарь (запись)

Метод json_normalize будет полезен для простой распаковки и выравнивания этих данных.

Давайте распакуем столбец работ в отдельный фрейм данных. Мы также возьмем плоские столбцы, чтобы провести анализ.

In [17]:
df.head()

Unnamed: 0,id,name,username,email,address,phone,website,company
0,1,Leanne Graham,Bret,Sincere@april.biz,"[{'street': 'Kulas Light', 'suite': 'Apt. 556'...",1-770-736-8031 x56442,hildegard.org,"{'name': 'Romaguera-Crona', 'catchPhrase': 'Mu..."
1,2,Ervin Howell,Antonette,Shanna@melissa.tv,"[{'street': 'Victor Plains', 'suite': 'Suite 8...",010-692-6593 x09125,anastasia.net,"{'name': 'Deckow-Crist', 'catchPhrase': 'Proac..."
2,3,Clementine Bauch,Samantha,Nathan@yesenia.net,"[{'street': 'Douglas Extension', 'suite': 'Sui...",1-463-123-4447,ramiro.info,"{'name': 'Romaguera-Jacobson', 'catchPhrase': ..."
3,4,Patricia Lebsack,Karianne,Julianne.OConner@kory.org,"[{'street': 'Hoeger Mall', 'suite': 'Apt. 692'...",493-170-9623 x156,kale.biz,"{'name': 'Robel-Corkery', 'catchPhrase': 'Mult..."
4,5,Chelsey Dietrich,Kamren,Lucio_Hettinger@annie.ca,"[{'street': 'Skiles Walks', 'suite': 'Suite 35...",(254)954-1289,demarco.info,"{'name': 'Keebler LLC', 'catchPhrase': 'User-c..."


In [18]:
json_dict

{'info': [{'id': 1,
   'name': 'Leanne Graham',
   'username': 'Bret',
   'email': 'Sincere@april.biz',
   'address': [{'street': 'Kulas Light',
     'suite': 'Apt. 556',
     'city': 'Gwenborough',
     'zipcode': '92998-3874',
     'geo': {'lat': '-37.3159', 'lng': '81.1496'}}],
   'phone': '1-770-736-8031 x56442',
   'website': 'hildegard.org',
   'company': {'name': 'Romaguera-Crona',
    'catchPhrase': 'Multi-layered client-server neural-net',
    'bs': 'harness real-time e-markets'}},
  {'id': 2,
   'name': 'Ervin Howell',
   'username': 'Antonette',
   'email': 'Shanna@melissa.tv',
   'address': [{'street': 'Victor Plains',
     'suite': 'Suite 879',
     'city': 'Wisokyburgh',
     'zipcode': '90566-7771',
     'geo': {'lat': '-43.9509', 'lng': '-34.4618'}}],
   'phone': '010-692-6593 x09125',
   'website': 'anastasia.net',
   'company': {'name': 'Deckow-Crist',
    'catchPhrase': 'Proactive didactic contingency',
    'bs': 'synergize scalable supply-chains'}},
  {'id': 3,
   '

In [19]:
users = pd.json_normalize(json_dict)

users

Unnamed: 0,info
0,"[{'id': 1, 'name': 'Leanne Graham', 'username'..."


In [20]:
users = pd.json_normalize(json_dict['info'])

In [21]:
users.head(3)

Unnamed: 0,id,name,username,email,address,phone,website,company.name,company.catchPhrase,company.bs
0,1,Leanne Graham,Bret,Sincere@april.biz,"[{'street': 'Kulas Light', 'suite': 'Apt. 556'...",1-770-736-8031 x56442,hildegard.org,Romaguera-Crona,Multi-layered client-server neural-net,harness real-time e-markets
1,2,Ervin Howell,Antonette,Shanna@melissa.tv,"[{'street': 'Victor Plains', 'suite': 'Suite 8...",010-692-6593 x09125,anastasia.net,Deckow-Crist,Proactive didactic contingency,synergize scalable supply-chains
2,3,Clementine Bauch,Samantha,Nathan@yesenia.net,"[{'street': 'Douglas Extension', 'suite': 'Sui...",1-463-123-4447,ramiro.info,Romaguera-Jacobson,Face to face bifurcated interface,e-enable strategic applications


Теперь столбец «company» был разделен на три новых столбца: «company.name», «company.catchPhrase» и «company.bs».

### Пользовательский разделитель для новых столбцов

Мы можем использовать параметр `sep`, чтобы определить, как будут разделены вложенные записи.

In [22]:
users = pd.json_normalize(json_dict['info'],
                       sep='_')

In [23]:
users.head(3)

Unnamed: 0,id,name,username,email,address,phone,website,company_name,company_catchPhrase,company_bs
0,1,Leanne Graham,Bret,Sincere@april.biz,"[{'street': 'Kulas Light', 'suite': 'Apt. 556'...",1-770-736-8031 x56442,hildegard.org,Romaguera-Crona,Multi-layered client-server neural-net,harness real-time e-markets
1,2,Ervin Howell,Antonette,Shanna@melissa.tv,"[{'street': 'Victor Plains', 'suite': 'Suite 8...",010-692-6593 x09125,anastasia.net,Deckow-Crist,Proactive didactic contingency,synergize scalable supply-chains
2,3,Clementine Bauch,Samantha,Nathan@yesenia.net,"[{'street': 'Douglas Extension', 'suite': 'Sui...",1-463-123-4447,ramiro.info,Romaguera-Jacobson,Face to face bifurcated interface,e-enable strategic applications


### Распаковать столбец со списком записей

Когда у нас есть столбец со списком вложенных значений (записей, словаря) с этим сложно разобраться.

`json_normalize` позволяет нам определить параметр `record_path`, чтобы определить путь к столбцу со списком записей для их распаковки. Если этот параметр не передан, данные будут считаться массивом записей.

В нашем случае мы распакуем столбец «адрес» в отдельный DataFrame.

In [24]:
address = pd.json_normalize(json_dict['info'],
                         sep='_',
                         record_path='address')

In [25]:
address.head()

Unnamed: 0,street,suite,city,zipcode,geo_lat,geo_lng
0,Kulas Light,Apt. 556,Gwenborough,92998-3874,-37.3159,81.1496
1,Victor Plains,Suite 879,Wisokyburgh,90566-7771,-43.9509,-34.4618
2,Douglas Extension,Suite 847,McKenziehaven,59590-4157,-68.6102,-47.0653
3,Hoeger Mall,Apt. 692,South Elvis,53919-4257,29.4572,-164.299
4,Skiles Walks,Suite 351,Roscoeview,33263,-31.8129,62.5342


Параметр `record_path` может получать список столбцов, указывающих вложенный путь.

In [26]:
address = pd.json_normalize(json_dict,
                         sep='_',
                         record_path=['info', 'address'])

In [27]:
address.head()

Unnamed: 0,street,suite,city,zipcode,geo_lat,geo_lng
0,Kulas Light,Apt. 556,Gwenborough,92998-3874,-37.3159,81.1496
1,Victor Plains,Suite 879,Wisokyburgh,90566-7771,-43.9509,-34.4618
2,Douglas Extension,Suite 847,McKenziehaven,59590-4157,-68.6102,-47.0653
3,Hoeger Mall,Apt. 692,South Elvis,53919-4257,29.4572,-164.299
4,Skiles Walks,Suite 351,Roscoeview,33263,-31.8129,62.5342


### Добавление дополнительных столбцов к распакованным столбцам

Есть еще один полезный параметр «meta», который позволяет нам добавлять поля в качестве метаданных для каждой записи в результирующем «DataFrame».

В нашем случае мы добавим идентификатор пользователя к каждому адресу.

In [28]:
address = pd.json_normalize(json_dict['info'],
                         sep='_',
                         record_path='address',
                         meta=['id'])

In [29]:
address.head()

Unnamed: 0,street,suite,city,zipcode,geo_lat,geo_lng,id
0,Kulas Light,Apt. 556,Gwenborough,92998-3874,-37.3159,81.1496,1
1,Victor Plains,Suite 879,Wisokyburgh,90566-7771,-43.9509,-34.4618,2
2,Douglas Extension,Suite 847,McKenziehaven,59590-4157,-68.6102,-47.0653,3
3,Hoeger Mall,Apt. 692,South Elvis,53919-4257,29.4572,-164.299,4
4,Skiles Walks,Suite 351,Roscoeview,33263,-31.8129,62.5342,5


## Сохранить в файл JSON

Наконец, мы можем сохранить наш DataFrame как файл JSON.

In [30]:
users.head()

Unnamed: 0,id,name,username,email,address,phone,website,company_name,company_catchPhrase,company_bs
0,1,Leanne Graham,Bret,Sincere@april.biz,"[{'street': 'Kulas Light', 'suite': 'Apt. 556'...",1-770-736-8031 x56442,hildegard.org,Romaguera-Crona,Multi-layered client-server neural-net,harness real-time e-markets
1,2,Ervin Howell,Antonette,Shanna@melissa.tv,"[{'street': 'Victor Plains', 'suite': 'Suite 8...",010-692-6593 x09125,anastasia.net,Deckow-Crist,Proactive didactic contingency,synergize scalable supply-chains
2,3,Clementine Bauch,Samantha,Nathan@yesenia.net,"[{'street': 'Douglas Extension', 'suite': 'Sui...",1-463-123-4447,ramiro.info,Romaguera-Jacobson,Face to face bifurcated interface,e-enable strategic applications
3,4,Patricia Lebsack,Karianne,Julianne.OConner@kory.org,"[{'street': 'Hoeger Mall', 'suite': 'Apt. 692'...",493-170-9623 x156,kale.biz,Robel-Corkery,Multi-tiered zero tolerance productivity,transition cutting-edge web services
4,5,Chelsey Dietrich,Kamren,Lucio_Hettinger@annie.ca,"[{'street': 'Skiles Walks', 'suite': 'Suite 35...",(254)954-1289,demarco.info,Keebler LLC,User-centric fault-tolerant solution,revolutionize end-to-end systems


Мы можем просто сгенерировать строку JSON из нашего DataFrame:

In [31]:
users.to_json()

'{"id":{"0":1,"1":2,"2":3,"3":4,"4":5,"5":6,"6":7,"7":8,"8":9,"9":10},"name":{"0":"Leanne Graham","1":"Ervin Howell","2":"Clementine Bauch","3":"Patricia Lebsack","4":"Chelsey Dietrich","5":"Mrs. Dennis Schulist","6":"Kurtis Weissnat","7":"Nicholas Runolfsdottir V","8":"Glenna Reichert","9":"Clementina DuBuque"},"username":{"0":"Bret","1":"Antonette","2":"Samantha","3":"Karianne","4":"Kamren","5":"Leopoldo_Corkery","6":"Elwyn.Skiles","7":"Maxime_Nienow","8":"Delphine","9":"Moriah.Stanton"},"email":{"0":"Sincere@april.biz","1":"Shanna@melissa.tv","2":"Nathan@yesenia.net","3":"Julianne.OConner@kory.org","4":"Lucio_Hettinger@annie.ca","5":"Karley_Dach@jasper.info","6":"Telly.Hoeger@billy.biz","7":"Sherwood@rosamond.me","8":"Chaim_McDermott@dana.io","9":"Rey.Padberg@karina.biz"},"address":{"0":[{"street":"Kulas Light","suite":"Apt. 556","city":"Gwenborough","zipcode":"92998-3874","geo":{"lat":"-37.3159","lng":"81.1496"}}],"1":[{"street":"Victor Plains","suite":"Suite 879","city":"Wisokybur

Или укажите путь к файлу, в котором мы хотим сохранить сгенерированный JSON-код:

In [32]:
users.to_json('out.json')

In [33]:
pd.read_json('out.json').head()

Unnamed: 0,id,name,username,email,address,phone,website,company_name,company_catchPhrase,company_bs
0,1,Leanne Graham,Bret,Sincere@april.biz,"[{'street': 'Kulas Light', 'suite': 'Apt. 556'...",1-770-736-8031 x56442,hildegard.org,Romaguera-Crona,Multi-layered client-server neural-net,harness real-time e-markets
1,2,Ervin Howell,Antonette,Shanna@melissa.tv,"[{'street': 'Victor Plains', 'suite': 'Suite 8...",010-692-6593 x09125,anastasia.net,Deckow-Crist,Proactive didactic contingency,synergize scalable supply-chains
2,3,Clementine Bauch,Samantha,Nathan@yesenia.net,"[{'street': 'Douglas Extension', 'suite': 'Sui...",1-463-123-4447,ramiro.info,Romaguera-Jacobson,Face to face bifurcated interface,e-enable strategic applications
3,4,Patricia Lebsack,Karianne,Julianne.OConner@kory.org,"[{'street': 'Hoeger Mall', 'suite': 'Apt. 692'...",493-170-9623 x156,kale.biz,Robel-Corkery,Multi-tiered zero tolerance productivity,transition cutting-edge web services
4,5,Chelsey Dietrich,Kamren,Lucio_Hettinger@annie.ca,"[{'street': 'Skiles Walks', 'suite': 'Suite 35...",(254)954-1289,demarco.info,Keebler LLC,User-centric fault-tolerant solution,revolutionize end-to-end systems
