## 5. Продвинутая работа с JSON (1.5 часа)

### Валидность и форматирование JSON

#### **Проверка валидности JSON**

##### **Использование онлайн-инструментов и библиотек для проверки валидности JSON**

- **Онлайн-инструменты**:
  - Онлайн-инструменты для проверки валидности JSON позволяют быстро проверить JSON-документы на корректность. Среди популярных инструментов можно выделить:
    - [JSONLint](https://jsonlint.com/): Простой инструмент, который проверяет JSON на валидность и форматирует его для удобства чтения.
    - [JSON Formatter & Validator](https://jsonformatter.curiousconcept.com/): Предоставляет расширенные возможности, включая проверку на валидность и форматирование.

- **Библиотеки для проверки валидности JSON в Python**:
  - В Python для проверки JSON можно использовать библиотеку `json`. Она автоматически генерирует исключение, если JSON некорректен:
  

In [3]:
# Если JSON некорректен, метод `json.loads()` вызовет исключение `JSONDecodeError`, которое укажет на проблему в структуре данных.
import json

invalid_json = '{"name": "Mikhail", "age": 36,}'  # Обратите внимание на лишнюю запятую

try:
    json.loads(invalid_json)
except json.JSONDecodeError as e:
    print(f"Ошибка в JSON: {e}")

Ошибка в JSON: Expecting property name enclosed in double quotes: line 1 column 31 (char 30)


##### **Примеры исправления ошибок в JSON-структурах**

- **Лишние запятые**:
  
  ```json
  {"name": "Mikhail", "age": 36,}
  ```
  - Исправление: убрать лишнюю запятую после значения `36`.
  
  ```json
  {"name": "Mikhail", "age": 36}
  ```

- **Неправильное использование кавычек**:
  
  ```json
  {'name': 'Mikhail', 'age': 36}
  ```
  - Исправление: заменить одинарные кавычки на двойные.
  
  ```json
  {"name": "Mikhail", "age": 36}
  ```

- **Отсутствие кавычек вокруг ключей**:
  
  ```json
  {name: "Mikhail", age: 36}
  ```
  - Исправление: добавить кавычки вокруг ключей `name` и `age`.
  
  ```json
  {"name": "Mikhail", "age": 36}
  ```

#### **Работа с форматированием JSON**



##### **Добавление отступов и переносов строк для улучшения читаемости JSON с помощью параметра `indent` в методах `json.dumps()` и `json.dump()`**

- JSON-документы, особенно большие и сложные, могут быть трудно читаемы без форматирования. Использование параметра `indent` позволяет добавить отступы и переносы строк:


In [8]:
data = {"name": "Mikhail", "age": 36, "address": {"city": "Wonderland", "zipcode": "12345"}}
formatted_json = json.dumps(data, indent=4)
print(formatted_json)


{
    "name": "Mikhail",
    "age": 36,
    "address": {
        "city": "Wonderland",
        "zipcode": "12345"
    }
}


- Метод `json.dump()` также поддерживает параметр `indent` для записи отформатированного JSON непосредственно в файл:


In [5]:
with open('data.json', 'w') as file:
    json.dump(data, file, indent=4)

##### **Сортировка ключей в JSON-объектах с помощью параметра `sort_keys`**

- Для упрощения работы с JSON-документами можно сортировать ключи объектов в алфавитном порядке с помощью параметра `sort_keys`:


In [9]:
# Сортировка ключей может быть полезна для сравнения JSON-документов или при необходимости гарантировать, что ключи будут располагаться в определённом порядке.
unsorted_data = {"name": "Mikhail", "age": 36, "address": {"zipcode": "12345", "city": "Wonderland"}}
sorted_json = json.dumps(unsorted_data, sort_keys=True, indent=4)
print(sorted_json)

{
    "address": {
        "city": "Wonderland",
        "zipcode": "12345"
    },
    "age": 36,
    "name": "Mikhail"
}


### Работа с вложенными структурами данных

#### **Сериализация сложных объектов**

##### **Разбор примеров с вложенными словарями и списками**

- **Пример 1**: Вложенные словари:

In [None]:
complex_data = {
    "name": "Mikhail",
    "age": 36,
    "address": {
        "city": "Wonderland",
        "zipcode": "12345"
    }
}
json_string = json.dumps(complex_data, indent=4)
print(json_string)

- **Пример 2**: Вложенные списки:

In [None]:
complex_data = {
    "name": "Mikhail",
    "courses": ["Math", "Science", ["History", "Art"]]
}
json_string = json.dumps(complex_data, indent=4)
print(json_string)

##### **Работа с JSON-данными, содержащими объекты и массивы объектов**

- JSON часто используется для передачи сложных данных, содержащих массивы объектов. Рассмотрим пример работы с массивом JSON-объектов:


In [10]:
students = [
    {"name": "Mikhail", "age": 36, "courses": ["Math", "Science"]},
    {"name": "Tatyana", "age": 35, "courses": ["English", "Art"]},
    {"name": "Oksana", "age": 40, "courses": ["History", "Science"]}
]
json_string = json.dumps(students, indent=4)
print(json_string)

[
    {
        "name": "Mikhail",
        "age": 36,
        "courses": [
            "Math",
            "Science"
        ]
    },
    {
        "name": "Tatyana",
        "age": 35,
        "courses": [
            "English",
            "Art"
        ]
    },
    {
        "name": "Oksana",
        "age": 40,
        "courses": [
            "History",
            "Science"
        ]
    }
]


#### **Особенности работы с большими JSON-файлами**

##### **Памятные проблемы при работе с большими файлами**

- **Проблемы с памятью**:
  - При чтении или записи больших JSON-файлов вся информация загружается в память. Это может привести к значительным затратам памяти и, в некоторых случаях, к её исчерпанию.

##### **Стратегии чтения и обработки больших JSON-файлов**

- **Построчная обработка**:
  - Для обработки больших JSON-файлов можно использовать построчное чтение данных. Это может быть полезно при работе с файлами, содержащими массивы объектов:
  
- **Использование библиотеки `ijson`**:
  - Библиотека `ijson` позволяет работать с большими JSON-файлами в потоковом режиме, загружая только необходимые части данных в память:


In [11]:
# `ijson` позволяет обрабатывать JSON-файл частями, что значительно снижает потребление памяти.
import ijson

count = 0

with open('data.json', 'r') as file:
    objects = ijson.items(file, 'item')
    for obj in objects:
        # Обработка каждого объекта
        print(obj)
        count += 1

print(f"Всего строк: {count}")  # Всего строк: 169970

Всего строк: 0


##### **Создание пользовательских кодировщиков и декодировщиков для JSON**

- **Кодировщик**:
  - Для сериализации объектов пользовательских классов можно создать собственный кодировщик:


In [12]:
class User:
    def __init__(self, name, age):
        self.name = name
        self.age = age

class UserEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, User):
            return obj.__dict__
        return super().default(obj)

user = User('Mikhail', 36)
json_string = json.dumps(user, cls=UserEncoder)
print(json_string)

{"name": "Mikhail", "age": 36}


- **Декодировщик**:
  - Для восстановления объекта из JSON-строки можно создать пользовательский декодировщик:


In [13]:
def user_decoder(dct):
    if "name" in dct and "age" in dct:
        return User(dct['name'], dct['age'])
    return dct

json_string = '{"name": "Mikhail", "age": 36}'
user = json.loads(json_string, object_hook=user_decoder)
print(user.name, user.age)

Mikhail 36


##### **Использование метода `__dict__` для сериализации объектов**

- Метод `__dict__` позволяет легко преобразовать объект класса в словарь, который затем можно сериализовать:


In [14]:
user = User('Mikhail', 36)
json_string = json.dumps(user.__dict__, indent=4)
print(json_string)

{
    "name": "Mikhail",
    "age": 36
}


In [15]:
user.__dict__

{'name': 'Mikhail', 'age': 36}

### **Введение в JSON Schema**



#### **Понятие о JSON Schema для валидации структуры данных**

- **JSON Schema** — это мощный инструмент для определения структуры JSON-документов и их валидации. Он используется для:
  - Определения обязательных полей.
  - Ограничения типов данных (например, строка, число, массив).
  - Задания форматов данных (например, формат электронной почты, дата).

#### **Основы написания схемы для валидации JSON-документа**

- **Пример схемы JSON**:
  
  ```json
  {
      "$schema": "http://json-schema.org/draft-07/schema#",
      "type": "object",
      "properties": {
          "name": {
              "type": "string"
          },
          "age": {
              "type": "integer",
              "minimum": 0
          },
          "courses": {
              "type": "array",
              "items": {
                  "type": "string"
              }
          }
      },
      "required": ["name", "age"]
  }
  ```

- **Объяснение схемы**:
  - **`$schema`**: Указывает версию JSON Schema.
  - **`type`**: Определяет, что корневой объект должен быть типа `object`.
  - **`properties`**: Определяет свойства объекта, такие как `name`, `age`, и `courses`.
  - **`required`**: Указывает, что `name` и `age` являются обязательными полями.

- **Пример использования JSON Schema для валидации**:
  
  - Для валидации JSON-документа с использованием Python можно использовать библиотеку `jsonschema`:
  

In [None]:
# JSON Schema позволяет чётко определить структуру и правила для JSON-документов, что делает его незаменимым инструментом для разработки надёжных систем обработки данных.
from jsonschema import validate, ValidationError

schema = {
    "type": "object",
    "properties": {
        "name": {"type": "string"},
        "age": {"type": "integer", "minimum": 0},
        "courses": {"type": "array", "items": {"type": "string"}}
    },
    "required": ["name", "age"]
}

document = {"name": "Mikhail", "age": 36, "courses": ["Math", "Science"]}

try:
    validate(instance=document, schema=schema)
    print("Документ валиден")
except ValidationError as e:
    print(f"Ошибка валидации: {e}")