# Работа с файлами и сериализация в Python

В этом разделе мы познакомимся с основными концепциями работы с файлами и сериализацией данных в Python. Мы рассмотрим, как открывать, читать и записывать данные в файлы, а также как сериализовать и десериализовать данные с использованием форматов JSON и Pickle.

## Файлы

Файл в контексте программирования — это именованная область данных на диске или другом носителе информации. Работа с файлами включает в себя открытие файла, выполнение операций чтения или записи, и последующее закрытие файла для освобождения системных ресурсов.

### Открытие и закрытие файлов

Для работы с файлами в Python используется функция `open()`, которая возвращает объект файла. После завершения работы с файлом его необходимо закрыть, чтобы освободить ресурсы. Это можно сделать с помощью метода `close()`, либо, что более предпочтительно, с использованием контекстного менеджера `with`, который автоматически закроет файл после выполнения блока кода.

Пример использования `open()` и `close()`:
```python
fh = open('example.txt', 'w')
# Выполнение операций с файлом
fh.close()
```

Пример использования контекстного менеджера `with`:
```python
with open('example.txt', 'w') as fh:
    # Выполнение операций с файлом
    pass
```

### Режимы открытия файлов

- `'r'`: Открытие на чтение (режим по умолчанию).
- `'w'`: Открытие на запись, содержимое файла удаляется. Если файла не существует, он создаётся.
- `'x'`: Открытие на запись, если файла не существует, иначе вызывается исключение.
- `'a'`: Открытие на дозапись, информация добавляется в конец файла.
- `'b'`: Открытие в двоичном режиме.
- `'t'`: Открытие в текстовом режиме (режим по умолчанию).
- `'+'`: Открытие на чтение и запись.

Режимы можно комбинировать (например, `'rt'` для текстового чтения).

### Методы чтения файлов

- `read()`: Читает файл от текущей позиции до конца.
- `read(n)`: Читает `n` символов (в текстовом режиме) или байт (в бинарном режиме).
- `readline()`: Читает одну строку из файла.
- `readlines()`: Возвращает список строк файла.
- `for-loop`: Позволяет итерироваться по строкам файла в цикле.

### Методы записи в файлы

- `write(string)`: Записывает строку в файл.
- `writelines(iterable)`: Записывает в файл список строк.

### Прочие методы работы с файлами

- `seek(offset)`: Перемещает указатель файла на заданную позицию.
- `tell()`: Возвращает текущую позицию указателя файла.

In [0]:
# Пример записи и чтения из файла

# Запишем несколько строк в файл
with open('example.txt', 'w', encoding='utf-8') as fh:
    fh.write("""Линия 1
Линия 2
Линия 3""")

# Прочитаем содержимое файла
with open('example.txt', 'r', encoding='utf-8') as fh:
    content = fh.read()
    print(content)

# Использование различных методов чтения
with open('example.txt', 'r', encoding='utf-8') as fh:
    print(fh.read(2))  # Чтение первых двух символов
    print(fh.readline())  # Чтение первой строки
    print(fh.read())  # Чтение оставшегося содержимого

### Контекстный менеджер `with`

Использование `with` для работы с файлами является предпочтительным способом, так как оно автоматически закрывает файл после завершения работы с ним, даже если во время выполнения кода возникло исключение. Это помогает избежать утечек ресурсов и ошибок, связанных с неправильным управлением файлами.

Пример использования контекстного менеджера `with`:

```python
with open('example.txt', 'w', encoding='utf-8') as fh:
    fh.write("""line1
line2
line3
line4""")

with open('example.txt', 'r', encoding='utf-8') as fh:
    lines = fh.readlines()
    print(lines)
```

В этом примере файл открывается для записи, записываются строки, а затем файл открывается для чтения, и его содержимое выводится на экран в виде списка строк.

In [0]:
# Чтение файла с использованием цикла for

with open('example.txt', 'w', encoding='utf-8') as fh:
    fh.write("""line1
line2
line3
line4""")

# Используем цикл for для чтения строк из файла
with open('example.txt', 'r', encoding='utf-8') as fh:
    for line in fh:
        print(line.strip())  # strip() удаляет лишние пробелы и символы новой строки

### Запись в файл с использованием `writelines`

Метод `writelines()` позволяет записать в файл список строк. Важно помнить, что `writelines()` не добавляет символы новой строки между элементами списка, поэтому, если необходимо, их нужно добавлять вручную.

Пример использования `writelines()`:

```python
lines = ['Name', 'Surname', 'Address', 'Phone']

with open('example.txt', 'w', encoding='utf-8') as fh:
    fh.writelines(line + '\n' for line in lines)

with open('example.txt', 'r', encoding='utf-8') as fh:
    content = fh.read()
    print(content)
```

В этом примере строки из списка `lines` записываются в файл, и каждая строка заканчивается символом новой строки '\n'.

## Сериализация

Сериализация — это процесс преобразования объекта языка программирования (в данном случае Python) в последовательность байтов или текст для сохранения в файл или передачи по сети. Десериализация — это обратный процесс, в котором данные преобразуются из байтов или текста обратно в объект.

### JSON

JSON (JavaScript Object Notation) — это текстовый формат обмена данными, который широко используется в веб-приложениях для передачи данных между клиентом и сервером. Хотя JSON изначально был разработан для JavaScript, он стал популярным форматом обмена данными в большинстве языков программирования, включая Python.

Основные структуры данных в JSON:

- **Объект**: неупорядоченный набор пар ключ-значение, заключенных в фигурные скобки `{}`.
- **Массив**: упорядоченный набор значений, заключенных в квадратные скобки `[]`.
- **Значения**: могут быть строками, числами, объектами, массивами, булевыми значениями (`true`, `false`) или `null`.

В Python для работы с JSON используется модуль `json`, который предоставляет следующие функции:

- `json.dump(obj, file, indent=None)`: сериализует объект в JSON-строку и записывает её в файл. Параметр `indent` управляет форматированием вложенных структур.
- `json.dumps(obj)`: сериализует объект и возвращает JSON-строку.
- `json.load(file)`: десериализует файл, содержащий данные в формате JSON.
- `json.loads(data)`: десериализует JSON-строку и возвращает объект Python.

In [0]:
# Пример сериализации объекта в JSON-строку и файл

import json

# Создаем объект Python для сериализации
obj = {
    "title": "my_title",
    "authors": ["Maxim", "Pavel", "Ivan"],
    "protected": None
}

# Сериализуем объект в JSON-строку
json_str = json.dumps(obj)
print(json_str, type(json_str), sep='\n')

# Сериализуем объект в файл с отступами
with open('file.json', 'w', encoding='utf-8') as fh:
    json.dump(obj, fh, indent=4)

# Читаем и выводим содержимое JSON-файла
with open('file.json', 'r', encoding='utf-8') as fh:
    print(fh.read())

In [0]:
# Пример десериализации JSON-строки

import json

# JSON-строка
json_str = '[{"title": "my_title", "other": "other_title"}, "value"]'

# Десериализуем строку в объект Python
obj = json.loads(json_str)
print(obj, type(obj))

# Доступ к элементам десериализованного объекта
print(obj[0], type(obj[0]))

### Pickle

Pickle — это встроенный в Python модуль для сериализации и десериализации объектов в собственный бинарный формат. Этот модуль позволяет сохранять сложные структуры данных, включая пользовательские классы и их экземпляры, в файл и восстанавливать их в исходном виде.

**Важно:** Pickle небезопасен для десериализации данных из недоверенных источников, так как может исполнить произвольный код. Всегда десериализуйте только те данные, источники которых вам известны и которым вы доверяете.

Основные функции модуля `pickle`:

- `pickle.dump(obj, file)`: сериализует объект и записывает его в файл.
- `pickle.dumps(obj)`: возвращает сериализованный объект в виде байтовой строки.
- `pickle.load(file)`: загружает объект из файла.
- `pickle.loads(data)`: загружает объект из байтовой строки.

Объекты, которые могут быть сериализованы с помощью Pickle:

- `None`, `True`, `False`.
- Числа.
- Строки.
- Кортежи, списки, множества, словари, содержащие только сериализуемые объекты.
- Функции, определенные на уровне модуля (не лямбда-функции).
- Встроенные функции и классы, определенные на уровне модуля.
- Экземпляры классов, при соблюдении определенных условий.

In [0]:
# Пример сериализации и десериализации с использованием Pickle

import pickle

# Создаем объект Python для сериализации
obj = {'1': 1, '2': 2}

# Сериализуем объект в байтовую строку
serialized = pickle.dumps(obj)
print(serialized, type(serialized), sep='\n')

# Сериализуем объект в файл
with open('file.pkl', 'wb') as fh:
    pickle.dump(obj, fh)

# Десериализуем объект из файла
with open('file.pkl', 'rb') as fh:
    deserialized = pickle.load(fh)

print(deserialized, type(deserialized))

### Сравнение JSON и Pickle

| Характеристика         | JSON              | Pickle          |
|------------------------|-------------------|-----------------|
| Человеко-читаемость    | Да                | Нет             |
| Формат сериализации    | Текстовый         | Бинарный        |
| Использование          | Повсеместно       | Только в Python |
| Поддержка объектов     | Базовые объекты   | Поддерживает сложные структуры и классы |
| Безопасность           | Безопасен         | Уязвим для вредоносного кода |

Как видно из таблицы, JSON предпочитается для обмена данными между разными платформами и языками программирования, в то время как Pickle удобен для сохранения и восстановления сложных объектов в Python, но требует осторожности из-за возможных уязвимостей.

## Задачи для закрепления материала

1. Создайте файл, запишите в него несколько строк текста. Затем прочитайте содержимое файла, удалите из него все табуляции и символы новой строки, и запишите обновленные данные обратно в файл. Убедитесь, что ваш код обрабатывает любые возможные табуляции внутри строк.

2. Сериализуйте сложный объект Python (например, словарь с вложенными списками и словарями) в файл с использованием JSON. Затем прочитайте файл и восстановите объект.

3. Используя Pickle, сохраните экземпляр пользовательского класса в файл. Затем загрузите экземпляр из файла и убедитесь, что его атрибуты восстановлены правильно.

## Модуль OS

Модуль `os` в Python предоставляет множество функций для взаимодействия с операционной системой, что позволяет выполнять операции с файлами и директориями, а также получать информацию о системе, на которой выполняется программа. Эти функции обычно кроссплатформенные, что означает, что они работают на разных операционных системах без изменения кода.

### Основные функции модуля os

- `os.listdir(path=".")`: Возвращает список файлов и директорий в указанной директории. По умолчанию используется текущая директория.
- `os.mkdir(path)`: Создает новую директорию. Вызывает `OSError`, если директория уже существует.
- `os.makedirs(path)`: Создает директорию, включая все промежуточные директории.
- `os.remove(path)`: Удаляет файл по указанному пути.
- `os.rename(src, dst)`: Переименовывает файл или директорию из `src` в `dst`.
- `os.walk(top, topdown=True)`: Генерирует имена файлов в дереве каталогов, от корня `top` вниз (если `topdown=True`) или вверх (если `False`). Возвращает кортеж `(путь к каталогу, список каталогов, список файлов)` для каждого каталога.
- `os.path.exists(path)`: Возвращает `True`, если указанный путь существует.
- `os.path.join(path1, path2, ...)`: Соединяет компоненты пути с учетом особенностей операционной системы.

In [0]:
# Пример использования модуля os

import os

# Создаем новую директорию
os.makedirs('example_dir/sub_dir', exist_ok=True)

# Проверяем существование директории
print(os.path.exists('example_dir'))  # True

# Создаем новый файл в созданной директории
file_path = os.path.join('example_dir', 'sub_dir', 'example_file.txt')
with open(file_path, 'w') as file:
    file.write('Hello, world!')

# Переименовываем файл
new_file_path = os.path.join('example_dir', 'sub_dir', 'renamed_file.txt')
os.rename(file_path, new_file_path)

# Перебираем файлы в директории
for root, dirs, files in os.walk('example_dir'):
    for name in files:
        print('File:', os.path.join(root, name))
    for name in dirs:
        print('Directory:', os.path.join(root, name))