13.0 О чём этот модуль
Вы уже умеете делать много полезных трюков с данными, представленными в CSV-формате. Наверняка многие из этих трюков вы уже пробовали применить для решения реальных задач, и, скорее всего, это неплохо у вас получилось. Тем не менее нет предела совершенству.

В реальной практике далеко не все данные, которые мы получаем для работы, упакованы в структурированные, готовые к обработке в библиотеке Pandas CSV-файлы. Данные могут поступать к нам в разных форматах: это и таблицы Excel со сложной и не всегда логичной структурой, и загруженные из интернета файлы в формате JSON и XML, которые имеют далеко не табличную структуру.

Для работы с такими данными нужно не только понимать особенности их структуры, но и уметь использовать специальные инструменты: библиотеки, функции и методы. Всем этим мы и займёмся в данном модуле.

рис

Чему я научусь в этом модуле?
В этом модуле мы будем учиться работать с тремя форматами данных, с которыми, помимо CSV, чаще всего приходится иметь дело аналитику: Excel, JSON и XML. Вы научитесь:

открывать файлы указанных форматов;
анализировать структуру данных и разрабатывать план работы с данными в зависимости от их структуры;
преобразовывать данные из одного формата в другой и создавать Pandas DataFrame на основе данных указанных форматов;
создавать файлы форматов Excel, JSON и XML.

In [None]:
13.1 Формат JSON
Инструменты для работы с JSON
Для работы с данными в формате JSON в Python используется библиотека json,
которую необходимо будет загрузить в начале работы.
Также нам может быть полезен модуль pprint (именно так, с двумя "р" в начале) и
встроенная в него функция pprint, с помощью которой можно красиво выводить на экран структурированные данные.

Итак, если в своем коде вы планируете работать с данными в JSON-формате,
то необходимо включить в программу эти два импорта:

import json  
from pprint import pprint  
Как выглядит JSON?
Информация в формате JSON представляет собой (в закодированном виде) одну из двух структур:

набор пар "ключ-значение", причём ключ — это всегда строковая величина; в Python такая структура преобразуется в словарь;
упорядоченный набор значений; при чтении JSON в Python эта структура будет преобразована в список.
Формат JSON допускает неограниченное количество вложений этих структур друг в друга. Давайте посмотрим,
как могут выглядеть эти структуры. 

Все упражнения раздела мы будем выполнять на примере файла, содержащего информацию об ингредиентах блюд,
относящихся к кухням разных народов. Мы будем работать с сокращенной версией файла, скачать которую можно здесь.
Полный датасет, содержащий более 30 000 видов блюд, можно скачать здесь (требуется регистрация). 

Смотрим на данные
Чтобы перевести данные из формата JSON в формат, который можно обрабатывать на Python, необходимо выполнить процедуру,
которая называется десериализация (иными словами, декодирование данных). Обратный процесс,
связанный с переводом структур данных Python в формат JSON, называется сериализация.

Для выполнения десериализации мы воспользуемся методом load модуля json. В качестве параметра укажем ссылку на файл:

with open('recipes.json') as f:
   recipes = json.load(f)
Чтобы разобраться в структуре данных, давайте выведем их на экран с помощью функции pprint. Будьте готовы к тому,
что данных в наборе много, поэтому в ячейке Out появится несколько сот строк. Нам не нужно будет просматривать все строки.
Главное — понять общую структуру объекта recipes:

pprint(recipes)
>>> [{'cuisine': 'greek',
      'id': 10259,
      'ingredients': ['romaine lettuce',
                      'black olives',
                      'grape tomatoes',
                      'garlic',
                      'pepper',
                      'purple onion',
                      'seasoning',
                      'garbanzo beans', 
                      'feta cheese crumbles']},',
Итак, мы видим, что рецепт каждого блюда описан в виде словаря, состоящего из трёх пар "ключ-значение". 
     Ключ "cuisine" обозначает принадлежность блюда к определённой кухне, "id" — это уникальный идентификационный номер блюда,
     а ключ "ingredients" содержит перечень продуктов, входящих в состав блюда.