# Лекция 8: Погружение в Python. Сериализация

## Введение

Сериализация — это процесс преобразования объекта в формат, который можно сохранить в файл, передать по сети или сохранить в базе данных. В Python есть несколько способов сериализации данных, включая `JSON`, `CSV` и `Pickle`. На этой лекции мы рассмотрим, как и когда использовать каждый из этих методов.

## Термины лекции

- Сериализация — процесс преобразования объекта в поток байтов или текстовый формат для хранения или передачи.

- Десериализация — процесс восстановления объекта из потока байтов или текстового формата.

## Сериализация данных

### **1. `JSON`**

`JSON` (JavaScript Object Notation) — это легкий формат обмена данными, который легко читается и пишется как людьми, так и машинами. JSON широко используется для передачи данных между сервером и клиентом в веб-приложениях.

**Преобразование `JSON` в Python**
Когда данные в формате `JSON` загружаются в Python, они преобразуются в соответствующие типы данных: строки в `JSON` становятся строками Python, массивы — списками, объекты — словарями

In [None]:
import json

with open('user.json', 'r', encoding='utf-8') as f:
    json_file = json.load(f)

print(f'{type(json_file) = }\n{json_file = }')
print(f'{json_file["name"] = }')
print(f'{json_file["address"]["geo"] = }')
print(f'{json_file["email"] = }')

- **Пояснение: `json.load()`** загружает `JSON`-объект из файла и преобразует его в объект Python (словарь). Доступ к данным осуществляется через ключи, аналогично работе с обычными словарями.

**Преобразование Python в `JSON`**

Для сохранения Python-объектов в `JSON`-формате используется функция `json.dump()` (для записи в файл) или `json.dumps()` (для получения строки JSON).

In [None]:
import json

my_dict = {
    "first_name": "Джон",
    "last_name": "Смит",
    "hobbies": ["кузнечное дело", "программирование", "путешествия"],
    "age": 35,
    "children": [
        {"first_name": "Алиса", "age": 5},
        {"first_name": "Маруся", "age": 3}
    ]
}

with open('new_user.json', 'w') as f:
    json.dump(my_dict, f)

- Пояснение: `json.dump()` сохраняет словарь Python в файл в формате `JSON`. Этот формат удобен для обмена данными между различными системами.

**Дополнительные параметры `dump` и `dumps`**

`JSON`-данные можно форматировать для лучшей читаемости, добавляя отступы, изменяя разделители и сортируя ключи.

In [None]:
import json

res = json.dumps(my_dict, indent=2, separators=(',', ': '), sort_keys=True)
print(res)

- **Пояснение:**

    - `indent=2` — добавляет отступы для улучшения читаемости.

    - `separators=(',', ': ')` — задает разделители между элементами и ключами.

    - `sort_keys=True` — сортирует ключи в алфавитном порядке.

🔥 Совет: Используйте параметры `indent` и `sort_keys`, если хотите сделать `JSON`-файл более удобным для чтения и анализа.

### **2. CSV**

`CSV` (Comma-Separated Values) — это формат хранения табличных данных в текстовом файле, где каждое значение отделено запятой. Этот формат часто используется для экспорта и импорта данных в таблицы или базы данных

**Формат `CSV`**

Файлы `CSV` состоят из строк, каждая из которых представляет собой запись, а поля в строках отделены запятыми. Первая строка часто содержит заголовки столбцов.

Пример `CSV`-файла:

In [None]:
"Name","Sex","Age","Height (in)","Weight (lbs)"
"Alex","M",41,74,170
"Bert","M",42,68,166

**Модуль `csv`**

В Python есть встроенный модуль `csv`, который упрощает чтение и запись `CSV`-файлов. Рассмотрим, как использовать этот модуль.

**Чтение `CSV`**

Для чтения *CSV*-файлов используется объект `reader`, который поочередно возвращает строки в виде списков.

In [None]:
import csv

with open('biostats.csv', 'r', newline='') as f:
    csv_file = csv.reader(f)
    for line in csv_file:
        print(line)

- Пояснение: `csv.reader()` считывает данные построчно, возвращая каждую строку как список значений. Это позволяет легко обрабатывать данные в табличном формате

**Запись `CSV`**

Для записи данных в `CSV`-файл используется объект `writer`, который позволяет записывать строки в файл

In [None]:
import csv

with open('new_biostats.csv', 'w', newline='', encoding='utf-8') as f:
    csv_write = csv.writer(f)
    csv_write.writerow(["Name", "Sex", "Age", "Height", "Weight"])
    csv_write.writerow(["John", "M", 25, 70, 175])

- **Пояснение: csv.writer()** создает объект записи в `CSV`-файл. Метод `writerow()` записывает одну строку данных в файл.
    
🔥 Совет: При работе с CSV-файлами всегда указывайте параметр newline='', чтобы избежать лишних пустых строк при записи данных.

### **3. Pickle**

`Pickle` — это встроенный модуль Python, который используется для сериализации и десериализации объектов Python в байтовый поток и обратно. В отличие от `JSON` и `CSV`, `Pickle` позволяет сохранять и восстанавливать объекты любой сложности, включая пользовательские классы.

**Допустимые типы данных для преобразования**

`Pickle` поддерживает сериализацию большинства встроенных типов данных Python, включая:

- `None`, `True`, `False`

- `int`, `float`, `complex`

- `str`, `bytes`, `bytearray`

- `list`, `tuple`, `set`, `dict`

- Функции и классы, определенные на верхнем уровне модуля

🔥 Предупреждение: `Pickle` не проверяет безопасность входящих данных при десериализации. Это может быть использовано для выполнения вредоносного кода. Используйте `Pickle` только с доверенными источниками данных.

**Сериализация и десериализация с использованием `pickle`**

**Пример сериализации:**

In [None]:
import pickle

my_dict = {
    "first_name": "Джон",
    "last_name": "Смит",
    "hobbies": ["кузнечное дело", "программирование", "путешествия"],
    "age": 35,
    "children": [
        {"first_name": "Алиса", "age": 5},
        {"first_name": "Маруся", "age": 3}
    ]
}

res = pickle.dumps(my_dict)
print(f'{res = }')

- Пояснение: `pickle.dumps()` сериализует объект Python в байтовую строку. Этот байтовый поток можно затем сохранить в файл или передать по сети.

**Пример десериализации:**

In [None]:
import pickle

with open('my_dict.pickle', 'rb') as f:
    new_dict = pickle.load(f)

print(f'{new_dict = }')

- **Пояснение: `pickle.load()`** восстанавливает объект Python из байтового потока. Десериализованный объект имеет ту же структуру, что и оригинал.

🔥 Совет: Всегда закрывайте файл после работы с ним, особенно при использовании `pickle`, чтобы избежать потери данных.

## Выводы

На этой лекции мы:

1. Изучили процесс сериализации и десериализации данных в Python.

2. Рассмотрели формат `JSON` для обмена данными между различными системами.

3. Узнали, как работать с табличными данными в формате `CSV`.

4. Изучили модуль `Pickle` для сериализации и десериализации объектов Python любой сложности.

🔥 Практический совет: При выборе метода сериализации учитывайте требования к совместимости, объему данных и безопасности. `JSON` подходит для обмена данными между системами, `CSV` — для табличных данных, а `Pickle` — для работы с объектами Python, которые должны быть быстро сохранены и восстановлены.