## 4. Сериализация и десериализация данных (1.5 часа)

#### **Что такое сериализация и зачем она нужна**

##### Понятие сериализации как процесса преобразования объекта в формат, который может быть сохранён и восстановлен

- **Сериализация** — это процесс преобразования объектов (например, списков, словарей, экземпляров классов) в формат, который можно сохранить на диск или передать через сеть. Этот формат может быть бинарным или текстовым, и он позволяет восстановить (десериализовать) объект обратно в его первоначальное состояние.
  
- **Назначение сериализации**:
  - **Сохранение состояния программы**: Например, когда требуется сохранить состояние игры или настроек программы, чтобы при следующем запуске восстановить их.
  - **Передача данных между системами**: Например, при обмене данными между сервером и клиентом через сеть, где данные должны быть преобразованы в формат, подходящий для передачи (например, JSON или XML).
  - **Кэширование данных**: Сохранение результатов вычислений или ответов от сервера для последующего быстрого доступа.

##### Примеры использования: сохранение состояния программы, передача данных между процессами или системами

- **Сохранение состояния программы**:
  - Допустим, у нас есть объект `user_preferences`, содержащий настройки пользователя, такие как язык интерфейса, цветовую схему и т.д. Этот объект можно сериализовать и сохранить на диск, чтобы при следующем запуске программы настройки были восстановлены.
  
- **Передача данных между процессами или системами**:
  - В распределённых системах данные могут передаваться между серверами или между клиентом и сервером. Например, JSON часто используется для передачи данных через HTTP, так как он легко читается и обрабатывается большинством языков программирования.

### Форматы сериализации

#### **Краткий обзор популярных форматов сериализации: JSON, XML, CSV, Pickle**

- **JSON (JavaScript Object Notation)**:
  - **Описание**: Лёгкий текстовый формат обмена данными, основанный на JavaScript, но независимый от языка.
  - **Преимущества**:
    - Читабельность для человека.
    - Широкая поддержка в различных языках программирования.
  - **Недостатки**:
    - Ограниченность типов данных (например, не поддерживает объекты и функции).

- **XML (eXtensible Markup Language)**:
  - **Описание**: Текстовый формат, предназначенный для хранения и передачи данных, структурированных в виде древовидной иерархии.
  - **Преимущества**:
    - Чёткая структура данных.
    - Возможность добавления метаданных (атрибутов).
  - **Недостатки**:
    - Большой объём данных (избыточность тегов).
    - Сложность парсинга по сравнению с JSON.

- **CSV (Comma-Separated Values)**:
  - **Описание**: Формат хранения табличных данных, где каждая строка представляет собой запись, а поля отделяются запятыми.
  - **Преимущества**:
    - Простота и распространённость.
    - Поддержка в большинстве офисных и аналитических программ (например, Excel).
  - **Недостатки**:
    - Подходит только для табличных данных.
    - Отсутствие поддержки сложных структур данных (например, вложенных объектов).

- **Pickle**:
  - **Описание**: Бинарный формат сериализации объектов Python, включающий все типы данных, поддерживаемые Python.
  - **Преимущества**:
    - Полная поддержка всех объектов Python, включая пользовательские классы.
    - Высокая производительность.
  - **Недостатки**:
    - Несовместимость с другими языками программирования.
    - Уязвимость к атакам (потенциальные риски безопасности при десериализации).

#### **Преимущества и недостатки каждого формата**

- **JSON**:
  - **Преимущества**: Простота использования, кросс-платформенность, популярность.
  - **Недостатки**: Ограниченность в поддержке сложных типов данных (например, функции, объекты с методами).

- **XML**:
  - **Преимущества**: Гибкость в представлении данных и метаданных, строгая структура.
  - **Недостатки**: Более сложен в использовании, объём данных больше по сравнению с JSON.

- **CSV**:
  - **Преимущества**: Простота, лёгкость импорта и экспорта в табличные редакторы.
  - **Недостатки**: Ограниченность формата, отсутствие поддержки вложенных структур.

- **Pickle**:
  - **Преимущества**: Полная поддержка объектов Python, высокая скорость работы.
  - **Недостатки**: Непереносимость на другие платформы, риски безопасности.



### Модуль `pickle`: работа с бинарными данными

#### **Сохранение объектов в файл**

##### Использование `pickle.dump()` для сериализации объекта и сохранения его в файл

- Функция `pickle.dump()` позволяет сериализовать объект и сохранить его в файл. При этом данные сохраняются в бинарном формате, что делает их нечитаемыми для человека, но очень эффективными для последующего восстановления.


In [16]:
# В этом примере словарь `data` сериализуется и сохраняется в файл `data.pkl` с использованием режима `wb` (write binary).
import pickle

data = {'name': 'Mikhail', 'age': 36, 'is_student': True}

with open('data.pkl', 'wb') as file:
    pickle.dump(data, file)

##### Пример использования `pickle.dumps()` для получения сериализованного представления объекта в виде байтового объекта

- Функция `pickle.dumps()` используется для сериализации объекта в байтовую строку, которая может быть передана по сети или сохранена в переменной для дальнейшего использования.

In [17]:
# В этом примере словарь `data` преобразуется в сериализованную байтовую строку.
byte_data = pickle.dumps(data)
print(byte_data)

b'\x80\x04\x95,\x00\x00\x00\x00\x00\x00\x00}\x94(\x8c\x04name\x94\x8c\x07Mikhail\x94\x8c\x03age\x94K$\x8c\nis_student\x94\x88u.'


#### **Загрузка объектов из файла**

##### Использование `pickle.load()` для десериализации объекта из файла

- Функция `pickle.load()` используется для загрузки (десериализации) объекта из файла, который был ранее сохранён с использованием `pickle.dump()`.


In [27]:
# В этом примере данные, сохранённые в файле `data.pkl`, восстанавливаются в переменную `loaded_data`.
with open('data.pkl', 'rb') as file:
    loaded_data = pickle.load(file)

print(f"Type: {type(loaded_data)} => {loaded_data}")  # Вывод: Type: <class 'dict'> => {'name': 'Mikhail', 'age': 36, 'is_student': True}

Type: <class 'dict'> => {'name': 'Mikhail', 'age': 36, 'is_student': True}


##### Пример использования `pickle.loads()` для десериализации объекта из байтового объекта

- Функция `pickle.loads()` позволяет десериализовать объект из байтового представления, которое было получено с помощью `pickle.dumps()`.


In [26]:
# В этом примере байтовые данные, сохранённые в переменной `byte_data`, восстанавливаются в словарь `restored_data`.
restored_data = pickle.loads(byte_data)
print(f"Type: {type(restored_data)} => {restored_data}")  # Вывод: Type: <class 'dict'> => {'name': 'Mikhail', 'age': 36, 'is_student': True}

Type: <class 'dict'> => {'name': 'Mikhail', 'age': 36, 'is_student': True}


#### **Опасности и ограничения при использовании `pickle`**

##### Потенциальные угрозы безопасности при загрузке данных из ненадежных источников

- **Риски безопасности**: Загрузка данных из файлов, которые были созданы ненадежными источниками, может быть опасна. `pickle` позволяет выполнять произвольный код при десериализации, что делает возможным внедрение вредоносного кода в процессе загрузки объекта.

- **Рекомендации**: Не используйте `pickle` для загрузки данных из ненадёжных источников. Если вам нужно безопасно передавать данные, используйте другие форматы, такие как JSON.

##### Проблемы совместимости между версиями Python

- **Совместимость версий**: Формат данных, созданный с помощью `pickle`, может быть несовместим между различными версиями Python. Например, объект, сериализованный в Python 2, может не загрузиться в Python 3 без дополнительных преобразований.

- **Решения**: Для долговременного хранения данных или обмена данными между системами лучше использовать форматы, не зависящие от версии Python, такие как JSON.

### Формат JSON: чтение и запись данных

#### **Структура данных в JSON**

##### Разбор JSON-структур: объекты, массивы, строки, числа, булевые значения, `null`

- **JSON (JavaScript Object Notation)** — это текстовый формат, который представляет собой упрощённый способ хранения и передачи данных, основанный на синтаксисе объектов JavaScript.


  
- **Основные типы данных в JSON**:
  - **Объект (Object)**: Набор пар "ключ-значение". Ключи — строки, значения могут быть любого поддерживаемого типа.
  - **Массив (Array)**: Упорядоченная последовательность значений. Значения могут быть разных типов.
  - **Строка (String)**: Последовательность символов, заключённая в двойные кавычки.
  - **Число (Number)**: Целое или дробное число (например, `42` или `3.14`).
  - **Булево значение (Boolean)**: Логические значения `true` или `false`.
  - **`null`**: Представляет собой отсутствие значения.

##### Примеры использования JSON для хранения и обмена данными

- JSON широко используется для хранения конфигурационных файлов, обмена данными между клиентом и сервером, а также для межъязыкового обмена данными.

```json
{
  "name": "Mikhail",
  "age": 36,
  "is_student": true,
  "courses": ["Math", "Science"],
  "address": null
}
```

- В этом примере JSON-объект содержит данные о пользователе: строку (`name`), число (`age`), булево значение (`is_student`), массив (`courses`) и `null` (`address`).



#### **Методы работы с JSON**

##### Сериализация данных в JSON

###### `json.dump()` — запись объекта в JSON-файл

- Функция `json.dump()` используется для записи Python-объекта в файл в формате JSON.


In [28]:
# В этом примере данные из словаря `data` записываются в файл `data.json` в формате JSON.
import json

data = {
  "name": "Mikhail",
  "age": 36,
  "is_student": True,
  "courses": ["Math", "Science"],
  "address": None
}

with open('data.json', 'w') as file:
    json.dump(data, file)

###### `json.dumps()` — преобразование объекта в строку JSON

- Функция `json.dumps()` используется для преобразования Python-объекта в строку в формате JSON.


In [30]:
# В этом примере данные из словаря `data` преобразуются в строку JSON, которая может быть передана или сохранена в переменной.
json_string = json.dumps(data)
print(json_string)  # Вывод: {"name": "Mikhail", "age": 36, "is_student": true, "courses": ["Math", "Science"], "address": null}
print(type(json_string))  # <class 'str'>

{"name": "Mikhail", "age": 36, "is_student": true, "courses": ["Math", "Science"], "address": null}
<class 'str'>


##### Десериализация данных из JSON

###### `json.load()` — чтение данных из JSON-файла и их преобразование в Python-объекты

- Функция `json.load()` используется для загрузки данных из JSON-файла и их преобразования в Python-объекты.


In [33]:
# В этом примере данные из файла `data.json` загружаются и преобразуются в словарь Python.
with open('data.json', 'r') as file:
    loaded_data = json.load(file)

print(loaded_data)  # Вывод: {'name': 'Alice', 'age': 25, 'is_student': True, 'courses': ['Math', 'Science'], 'address': None}
print(type(loaded_data))  # <class 'dict'>

{'name': 'Mikhail', 'age': 36, 'is_student': True, 'courses': ['Math', 'Science'], 'address': None}
<class 'dict'>


###### `json.loads()` — преобразование строки JSON в Python-объект

- Функция `json.loads()` используется для преобразования строки JSON в Python-объект.


In [34]:
# В этом примере строка JSON из переменной `json_string` преобразуется обратно в словарь Python.
restored_data = json.loads(json_string)
print(restored_data)  # Вывод: {'name': 'Mikhail', 'age': 36, 'is_student': True, 'courses': ['Math', 'Science'], 'address': None}

{'name': 'Mikhail', 'age': 36, 'is_student': True, 'courses': ['Math', 'Science'], 'address': None}


#### **Сравнение JSON и других форматов**

##### Разбор преимуществ и недостатков JSON по сравнению с другими форматами (например, XML или Pickle)

- **JSON**:
  - **Преимущества**:
    - Простота и лёгкость восприятия человеком.
    - Широкая поддержка в различных языках программирования.
    - Хорошо подходит для передачи данных между клиентом и сервером.
  - **Недостатки**:
    - Не поддерживает сложные типы данных, такие как функции или объекты классов.
    - Все данные передаются в текстовом виде, что может увеличить объём файла по сравнению с бинарными форматами (например, Pickle).

- **XML**:
  - **Преимущества**:
    - Гибкость в представлении данных с возможностью добавления атрибутов и метаданных.
    - Поддержка сложных структур данных и возможность валидации.
  - **Недостатки**:
    - Более сложный синтаксис по сравнению с JSON.
    - Большой объём данных из-за избыточности тегов.

- **Pickle**:
  - **Преимущества**:
    - Полная поддержка всех типов данных Python, включая пользовательские классы.
    - Высокая производительность при сериализации и десериализации.
  - **Недостатки**:
    - Непереносимость на другие языки программирования.
    - Уязвимость к атакам, если данные получены из ненадёжных источников.

##### Ограничения JSON, такие как поддержка только простых типов данных

- **JSON** поддерживает только простые типы данных, такие как строки, числа, массивы, объекты, булевы значения и `null`. Это означает, что сложные структуры данных, такие как объекты классов Python, функции или бинарные данные, не могут быть напрямую сериализованы в JSON.

- Для сериализации таких объектов необходимо либо преобразовать их в поддерживаемые JSON типы (например, объекты классов можно представить в виде словарей), либо использовать другие форматы сериализации, такие как Pickle.

### Проблемы сериализации и десериализации

#### **Совместимость версий данных**

##### Как изменения в структуре данных могут повлиять на возможность их загрузки

- Изменения в структуре данных могут создать проблемы при десериализации, особенно если формат файла изменился между версиями программного обеспечения.

- **Пример проблемы**: Если в предыдущей версии программы объект содержал три поля, а в новой версии добавилось четвёртое поле, попытка десериализации старого файла может привести к ошибке или потере данных.

- **Решение**: Для обеспечения совместимости нужно либо поддерживать старые форматы данных, добавляя логику для обработки старых версий, либо использовать форматы, позволяющие гибко работать с различными версиями данных (например, JSON или XML).

#### **Ограничения различных форматов**

##### Проблемы сериализации сложных объектов (например, пользовательские классы)

- **JSON и XML** не поддерживают сериализацию сложных объектов, таких как экземпляры классов с методами, поскольку они работают только с простыми типами данных.

- **Pickle** позволяет сериализовать сложные объекты, но он привязан к Python и может вызывать проблемы при работе с другими языками программирования или между разными версиями Python.



##### Преодоление ограничений с помощью специальных методов или дополнительных библиотек

- **JSON**:
  - Для сериализации сложных объектов в JSON можно использовать пользовательские функции преобразования, которые будут конвертировать объекты в словари или другие простые структуры данных перед сериализацией.


In [35]:
class User:
    def __init__(self, name, age):
        self.name = name
        self.age = age

def user_to_dict(user):
    return {'name': user.name, 'age': user.age}

user = User('Mikhail', 36)
json_string = json.dumps(user_to_dict(user))

In [36]:
print(json_string)

{"name": "Mikhail", "age": 36}


- **Pickle**:
  - В случае необходимости кросс-платформенной сериализации сложных объектов можно использовать библиотеки, такие как `dill`, которая является расширением для `pickle` и поддерживает сериализацию ещё большего числа типов данных, включая лямбда-функции и объекты классов.



### **ВАЖНО**

Сериализация и десериализация данных — это важные процессы в программировании, которые позволяют сохранять и восстанавливать состояние программ, передавать данные между системами и кэшировать результаты. Выбор подходящего формата сериализации зависит от конкретных задач, требований к совместимости и безопасности, а также от используемых технологий и среды разработки.