### **Домашнее задание: Продвинутая работа с файлами, путями, кодировками и сериализацией данных**

#### **Цель:** Закрепить и углубить знания по работе с файлами, операционной системой, путями, кодировками и сериализацией данных в Python. Выполните следующие задания, объединяя все пройденные концепции в одном проекте.

### **Задание 1: Управление проектной структурой и файловой системой**

1. **Создание и управление директориями:**
   - Напишите скрипт, который автоматически создаст следующую структуру директорий для вашего проекта:
     ```
     project_root/
     ├── data/
     │   ├── raw/
     │   ├── processed/
     ├── logs/
     ├── backups/
     └── output/
     ```
   - Убедитесь, что все директории созданы, и если они уже существуют, не вызывайте ошибку.

2. **Создание и запись данных в файлы:**
   - В директории `data/raw/` создайте несколько текстовых файлов с произвольным содержимым на разных языках, используя разные кодировки (например, UTF-8, ISO-8859-1).
   - Заполните директорию `logs/` лог-файлом с записями о выполнении предыдущих шагов, включая дату и время создания файлов и директорий.


In [None]:
# импорты основных модулей
import os
import shutil

In [None]:
# вспомогательный код УДАЛЕНИЯ дерева проектов (только для удобства - для прогонов кода)
# НЕ ЗАПУСКАТЬ, если project_root пока не создан!
shutil.rmtree('/content/project_root')

In [None]:
# Решение задания 1.1
ROOT = '/content/'

# функция создания директории
def create_path(path_name: str):
    path_value = globals()[path_name]
    if not os.path.exists(path_value):
        os.mkdir(path_value)
        print(f"Создана директория: '{path_value}'")
    else:
        print(f"Директория: '{path_value}' уже создана!")

# запишем пути создаваемых директорий
path1 = ROOT+'project_root/'
path2 = ROOT+'project_root/data/'
path3 = ROOT+'project_root/logs/'
path4 = ROOT+'project_root/backups/'
path5 = ROOT+'project_root/output/'
path6 = ROOT+'project_root/data/raw/'
path7 = ROOT+'project_root/data/processed/'

# создание директорий
for k in range(1, 8):
    dir_name = f'path{k}'
    create_path(dir_name)


Создана директория: '/content/project_root/'
Создана директория: '/content/project_root/data/'
Создана директория: '/content/project_root/logs/'
Создана директория: '/content/project_root/backups/'
Создана директория: '/content/project_root/output/'
Создана директория: '/content/project_root/data/raw/'
Создана директория: '/content/project_root/data/processed/'


In [None]:
# Решение задания 1.2

# создаем 1-ый файл
file1 = ROOT+'project_root/data/raw/'+'file1.txt'
enc1 = 'iso-8859-1'
with open(file1, 'w', encoding=enc1) as file:
    file.write('This is just a sample string.\n')
    file.write('And this is another string.\n')

# создаем 2-ой файл
file2 = ROOT+'project_root/data/raw/'+'file2.txt'
enc2 = 'utf-8'
with open(file2, 'w', encoding=enc2) as file:
    file.write('Анна рассуждает об искусственном интеллекте.\n')
    file.write('Она поражена разнообразием платформ и разных возможностей.\n')

# создаем 3-ий файл
file3 = ROOT+'project_root/data/raw/'+'file3.txt'
enc3 = 'utf-8'
with open(file3, 'w', encoding=enc3) as file:
    file.write('lkajsdhflaksjd UYTIUY ГНЕШГН орывпалоырвпа.\n')
    file.write('эТо пРоСтО пОлНаЯ еРуНдА!\n')


In [None]:
import time
from datetime import datetime
from zoneinfo import ZoneInfo

# создаём log файл
with open(path3+'log_file.txt', 'w') as file:
    file.write('Это log файл.\n')

# функция фиксации посл. изм. файла/директории с приведением времени к МСК
def log_create_info(path_name: str):
    path_value = globals()[path_name]
    modification_time = os.path.getmtime(path_value)
    moscow_tz = ZoneInfo('Europe/Moscow')
    # приводим время к МСК, а не GMT
    local_dt = datetime.fromtimestamp(modification_time, tz=moscow_tz)
    local_time = local_dt.strftime('%Y-%m-%d %H:%M:%S')
    if os.path.isfile(path_value):
        name_type = 'Файл'
    elif os.path.isdir(path_value):
        name_type = 'Директория'
    with open(path3+'log_file.txt', 'a') as file:
        file.write(f"{name_type:12} {path_value:48} - посл. изм.: {local_time}\n")

# собираем данные для создания директорий
for k in range(1, 8):
    dir_name = f'path{k}'
    log_create_info(dir_name)

# собираем данные для создания файлов
for m in range(1, 4):
    file_name = f'file{m}'
    log_create_info(file_name)

# печатаем содержимое log файла
with open(path3+'log_file.txt', 'r') as file:
    log_lines = file.readlines()
    for line in log_lines:
        print(line, end='')


Это log файл.
Директория   /content/project_root/                           - посл. изм.: 2025-03-19 00:56:33
Директория   /content/project_root/data/                      - посл. изм.: 2025-03-19 00:56:33
Директория   /content/project_root/logs/                      - посл. изм.: 2025-03-19 00:56:37
Директория   /content/project_root/backups/                   - посл. изм.: 2025-03-19 00:56:33
Директория   /content/project_root/output/                    - посл. изм.: 2025-03-19 00:56:33
Директория   /content/project_root/data/raw/                  - посл. изм.: 2025-03-19 00:56:36
Директория   /content/project_root/data/processed/            - посл. изм.: 2025-03-19 00:56:33
Файл         /content/project_root/data/raw/file1.txt         - посл. изм.: 2025-03-19 00:56:36
Файл         /content/project_root/data/raw/file2.txt         - посл. изм.: 2025-03-19 00:56:36
Файл         /content/project_root/data/raw/file3.txt         - посл. изм.: 2025-03-19 00:56:36


### **Задание 2: Чтение, преобразование и сериализация данных**

1. **Чтение и обработка данных:**
   - Напишите скрипт, который будет автоматически читать все файлы из директории `data/raw/`, корректно определяя их кодировки.
   - Выполните преобразование данных из каждого файла, заменяя в них все заглавные буквы на строчные и наоборот.
   - Сохраните обработанные данные в новые файлы в директорию `data/processed/` с сохранением исходных имен файлов, но добавив к ним суффикс `_processed`.

2. **Сериализация данных:**
   - Напишите скрипт для сериализации содержимого всех файлов из директории `data/processed/` в один JSON-файл.
   - Включите в этот JSON-файл следующую информацию:
     - Имя файла.
     - Исходный текст.
     - Преобразованный текст.
     - Размер файла в байтах.
     - Дата последнего изменения файла.
   - Сохраните JSON-файл в директорию `output/` с именем `processed_data.json`.


In [None]:
import chardet
import json

# директории файлов: source - исходные файлы; target - обработанные файлы; output- для json файла
source_dir = '/content/project_root/data/raw/'
target_dir = '/content/project_root/data/processed/'
output_dir = '/content/project_root/output/'

# список для сохранения json сериализации
for_json = list()

# функция определения кодировки файла
def get_encoding(file_path: str) -> str:
    with open(file_path, 'rb') as file:
        raw_data = file.read()
        result = chardet.detect(raw_data)
        return result['encoding']

# функция приведения регистра к противоположному
def convert_case(text: str) -> str:
    return text.swapcase()

# основная функция
# input: имя файла, исходная директория, целевая директория для обработанного файла
# output: словарь для записи в список сериализованных данных в json файл
def process_file(file_name: str, source_dir: str, target_dir: str) -> dict:
    file_path = source_dir+file_name
    # получаем исходную кодировку файла
    encoding = get_encoding(file_path)
    # открываем файл и переделываем регистр на противоположный
    with open(file_path, 'r', encoding=encoding) as file:
        original_text = file.read()
    converted_text = convert_case(original_text)
    target_path = target_dir+file_name
    # записывем конвертированный файл
    with open(target_path, 'w', encoding=encoding) as file:
        file.write(converted_text)
        print(f"Файл: {target_path} записан.")
    file_size = os.path.getsize(target_path)
    #
    modification_time = os.path.getmtime(file_path)
    moscow_tz = ZoneInfo('Europe/Moscow')
    # приводим время к МСК, а не GMT
    local_dt = datetime.fromtimestamp(modification_time, tz=moscow_tz)
    last_modified = local_dt.strftime('%Y-%m-%d %H:%M:%S')
    #
    return {
        'file_name': file_name,
        'original_text': original_text,
        'converted_text': converted_text,
        'file_size': file_size,
        'last_modified': last_modified
    }

# последовательно обрабатываем файлы
for m in range(1, 4):
    dict1 = process_file(f'file{m}.txt', source_dir, target_dir)
    for_json.append(dict1)

print('Для записи в файл json:')
print(for_json)

# целевой файл для записи данных в формате json
output_file = 'processed_data.json'

# записываем итоговый json файл
with open(os.path.join(output_dir, output_file), 'w') as json_file:
        json.dump(for_json, json_file, indent=4, ensure_ascii=False)
        print(f'Файл в формате json: {output_file} записан.')


Файл: /content/project_root/data/processed/file1.txt записан.
Файл: /content/project_root/data/processed/file2.txt записан.
Файл: /content/project_root/data/processed/file3.txt записан.
Для записи в файл json:
[{'file_name': 'file1.txt', 'original_text': 'This is just a sample string.\nAnd this is another string.\n', 'converted_text': 'tHIS IS JUST A SAMPLE STRING.\naND THIS IS ANOTHER STRING.\n', 'file_size': 58, 'last_modified': '2025-03-19 00:56:36'}, {'file_name': 'file2.txt', 'original_text': 'Анна рассуждает об искусственном интеллекте.\nОна поражена разнообразием платформ и разных возможностей.\n', 'converted_text': 'аННА РАССУЖДАЕТ ОБ ИСКУССТВЕННОМ ИНТЕЛЛЕКТЕ.\nоНА ПОРАЖЕНА РАЗНООБРАЗИЕМ ПЛАТФОРМ И РАЗНЫХ ВОЗМОЖНОСТЕЙ.\n', 'file_size': 194, 'last_modified': '2025-03-19 00:56:36'}, {'file_name': 'file3.txt', 'original_text': 'lkajsdhflaksjd UYTIUY ГНЕШГН орывпалоырвпа.\nэТо пРоСтО пОлНаЯ еРуНдА!\n', 'converted_text': 'LKAJSDHFLAKSJD uytiuy гнешгн ОРЫВПАЛОЫРВПА.\nЭтО ПрОсТо ПоЛнА

### **Задание 3: Работа с резервными копиями и восстановлением данных**

1. **Создание резервной копии:**
   - Напишите скрипт, который автоматически создаст архив резервной копии всех файлов из директории `data/` и сохранит его в директорию `backups/` с именем `backup_<дата>.zip`, где `<дата>` — текущая дата в формате `YYYYMMDD`.

2. **Восстановление данных:**
   - Напишите скрипт для разархивирования и восстановления данных из созданного архива резервной копии. Убедитесь, что все файлы восстановлены в соответствующие директории, и их содержимое не повреждено.


In [None]:
# Решение задания 3.1
import zlib # модуль для подсчета чек-сумм

chksum_dict = dict()    # словарь для хранения чек-сумм

# функция создания чек-суммы файла
def get_checksum(file_path):
    with open(file_path, 'rb') as file:
        checksum = zlib.crc32(file.read())
        return hex(checksum & 0xffffffff)[2:]

# исходная директория, которую будем архивировать
source_dir = '/content/project_root/data/'

# директория для сохранения резервной копии
backup_dir = '/content/project_root/backups/'

# текущая дата в формате YYYYMMDD
today = datetime.today().strftime("%Y%m%d")

# имя файла резервной копии (без расширения)
backup_filename = f'backup_{today}'

full_backup_path = backup_dir+backup_filename

# создаем словарь чек-сумм файлов (для контроля восстановления)
chksum_dict = {root+'/'+file: get_checksum(root+'/'+file) \
             for root, _, files in os.walk(source_dir) for file in files}

# создание резервной копии
shutil.make_archive(full_backup_path, 'zip', base_dir=source_dir)    # архивирование само добавляет расширение zip к имени файла

'/content/project_root/backups/backup_20250318.zip'

In [None]:
# Решение задания 3.2

os.chdir('/')   # переходим к корневой директории, так как архивный файл будет распаковываться относительно неё

shutil.unpack_archive(full_backup_path+'.zip', format='zip')    # необходимо добавить расширение zip к имени файла

# словарь чек-сумм восстановленных файлов
chksum_dict_recovered = dict()

# создаем словарь чек-сумм файлов (после восстановления)
chksum_dict_recovered = {root+'/'+file: get_checksum(root+'/'+file) \
             for root, _, files in os.walk(source_dir) for file in files}

# печать исходных файлов и их контрольных сумм
print(chksum_dict)

# печать восстановленных файлов и их контрольных сумм
print(chksum_dict_recovered)

# проверяем чек-суммы и выводим сообшение
if sorted(chksum_dict) == sorted(chksum_dict_recovered):
    print('Архив восстановлен без ошибок!')
else:
    print('Замечено повреждение файлов при восстановлении.')

{'/content/project_root/data/processed/file1.txt': 'ba431824', '/content/project_root/data/processed/file2.txt': '123e4c31', '/content/project_root/data/processed/file3.txt': '10a2c3fb', '/content/project_root/data/raw/file1.txt': '1f756edb', '/content/project_root/data/raw/file2.txt': 'ead41d33', '/content/project_root/data/raw/file3.txt': '9a5b405f'}
{'/content/project_root/data/processed/file1.txt': 'ba431824', '/content/project_root/data/processed/file2.txt': '123e4c31', '/content/project_root/data/processed/file3.txt': '10a2c3fb', '/content/project_root/data/raw/file1.txt': '1f756edb', '/content/project_root/data/raw/file2.txt': 'ead41d33', '/content/project_root/data/raw/file3.txt': '9a5b405f'}
Архив восстановлен без ошибок!


### **Задание 4: Дополнительные задачи с сериализацией и JSON Schema**

1. **Работа с пользовательскими классами и JSON:**
   - Создайте класс `FileInfo`, который будет хранить информацию о файлах, включающую:
     - Имя файла.
     - Полный путь к файлу.
     - Размер файла.
     - Дата создания и последнего изменения файла.
   - Напишите скрипт, который собирает информацию обо всех файлах в директории `data/processed/` и сериализует их в JSON-файл. Убедитесь, что при десериализации данные восстанавливаются корректно.

2. **Валидация JSON с использованием JSON Schema:**
   - Создайте JSON Schema для проверки структуры данных, созданной в предыдущем задании.
   - Напишите скрипт, который проверяет валидность JSON-файла, созданного в предыдущем задании, с использованием созданной JSON Schema.
   - Обработайте возможные ошибки валидации, предоставив отчет о найденных несоответствиях.


In [None]:
class FileInfo:
    def __init__(self, file_name, full_path, file_size, create_date, modify_date):
        self.file_name = file_name
        self.full_path = full_path
        self.file_size = file_size
        self.create_date = create_date
        self.modify_date = modify_date


source_dir = '/content/project_root/data/processed/'
output_dir = '/content/project_root/output/'

def get_file_data(full_path: str) -> dict:

    # имя файла
    file_name = os.path.basename(full_path)

    # дата и время создания файла (время МСК!)
    creation_time = os.path.getctime(full_path)
    moscow_tz = ZoneInfo('Europe/Moscow')
    creation_datetime = datetime.fromtimestamp(creation_time, moscow_tz)

    # дата и время последней модификации файла (время МСК!)
    modification_time = os.path.getmtime(full_path)
    modification_datetime = datetime.fromtimestamp(modification_time, moscow_tz)

    # собираем данные в словарь
    data = {
        'file_name': file_name,
        'full_path': full_path,
        'file_size': os.path.getsize(full_path),
        'creation_time': creation_datetime.strftime("%Y-%m-%d %H:%M:%S"),
        'modification_time': modification_datetime.strftime("%Y-%m-%d %H:%M:%S")
    }

    # возвращаем словарь данных
    return data

data = {file: get_file_data(source_dir+file) for root, _, files in os.walk(source_dir) for file in files}

print(data)

json_string = json.dumps(data, indent=4)
print(f"Сериализованный JSON:\nType: {type(json_string)}\n", json_string)

output_file = "output.json"

try:
    with open(output_dir+output_file, "w") as file:
        json.dump(data, file, indent=4)
    print(f'Файл: {output_dir+output_file} записан.')
except Exception as e:
    print('Exception: {e}')

{'file1.txt': {'file_name': 'file1.txt', 'full_path': '/content/project_root/data/processed/file1.txt', 'file_size': 58, 'creation_time': '2025-03-19 00:56:57', 'modification_time': '2025-03-19 00:56:57'}, 'file2.txt': {'file_name': 'file2.txt', 'full_path': '/content/project_root/data/processed/file2.txt', 'file_size': 194, 'creation_time': '2025-03-19 00:56:57', 'modification_time': '2025-03-19 00:56:57'}, 'file3.txt': {'file_name': 'file3.txt', 'full_path': '/content/project_root/data/processed/file3.txt', 'file_size': 110, 'creation_time': '2025-03-19 00:56:57', 'modification_time': '2025-03-19 00:56:57'}}
Сериализованный JSON:
Type: <class 'str'>
 {
    "file1.txt": {
        "file_name": "file1.txt",
        "full_path": "/content/project_root/data/processed/file1.txt",
        "file_size": 58,
        "creation_time": "2025-03-19 00:56:57",
        "modification_time": "2025-03-19 00:56:57"
    },
    "file2.txt": {
        "file_name": "file2.txt",
        "full_path": "/conten

### **Задание 5: Отчёт и анализ проделанной работы**

1. **Создание итогового отчёта:**
   - Сгенерируйте отчёт в текстовом файле или в формате JSON с анализом выполнения всех заданий:
     - Описание возникших трудностей и способы их решения.
     - Время, затраченное на выполнение каждого задания.
     - Выводы о проделанной работе и предложенные улучшения.

2. **Логирование и контроль версий:** (<span style="color:red;font-weight:bold;">по желанию</span>, но если хотите "релевантный опыт", то сделайте)
   - Подумайте о добавлении логирования во все скрипты для отслеживания ошибок и прогресса выполнения заданий.
   - Опишите, как можно было бы интегрировать систему контроля версий (например, Git) в выполнение этого задания для отслеживания изменений и управления проектом.


In [None]:
# итоговый отчет в формате json для записи в файл
report = [
    {
    "task": 1,
    "difficulties": ["Надо было придумать, как в цикле из строк создавать директории - решение: с помощью глобальных переменных.", "Надо было также продумать преобразование времени последней модификации к МСК времени."],
    "time_in_hours": 1
    },
    {
    "task": 2,
    "difficulties": ["Всё было понятно более-менее из урока, преобразование времени к МСК из предыдущего задания."],
    "time_in_hours": 2
    },
    {
    "task": 3,
    "difficulties": ["Надо было разобраться с контролем восстановления версий файлов из архива с помощью checksums."],
    "time_in_hours": 4
    },
    {
    "task": 4,
    "difficulties": ["Всё было понятно более-менее из урока, сериализация в json реализована."],
    "time_in_hours": 2
    },
    {
    "task": 5,
    "difficulties": ["Не совсем понятно, что значит сгенерировать отчёт в текстовом файле. Как?", "Затраченное время при написании кода в ячейках тоже похоже отфиксировать точно невозможно, так как можно несколько раз входить и выходить из файла", "Надо было разобраться, чтобы при записи в файл не терялись символы кириллицы, то есть применять параметр ensure_ascii=False."],
    "time_in_hours": 2
    }
]


# запись в json файл
with open('/content/my_report.json', 'w') as file:
    json.dump(report, file, indent=4, ensure_ascii=False)


### **Требования к сдаче задания:**


- Домашнее задание, с проектной структурой, включающий все созданные файлы и скрипты, сдавать ссылкой на github или ссылкой на архив.
- Отчёт о проделанной работе в формате PDF, TXT или JSON.
- Комментарии ко всем скриптам, объясняющие их работу и использованные методы.