In [3]:
import os
import datetime

# 1. Задание: Управление проектной структурой и файловой системой
**Создание и управление директориями:**
- Напишите скрипт, который автоматически создаст следующую структуру директорий для вашего проекта:
     ```
     project_root/
     ├── data/
     │   ├── raw/
     │   ├── processed/
     ├── logs/
     ├── backups/
     └── output/
     ```
   - Убедитесь, что все директории созданы, и если они уже существуют, не вызывайте ошибку.

In [5]:
def create_directory_structure():
    # Определяем корневую директорию проекта
    project_root = "project_root"

    # Список директорий, которые нужно создать
    directories = [
        "data/raw",
        "data/processed",
        "logs",
        "backups",
        "output"
    ]
# директория списков в цикле, Проходим по списку директорий
    for directory in directories:
        # Формируем полный путь к директории
        full_path = os.path.join(project_root, directory)
        
        # Проверяем, существует ли уже директория
        if not os.path.exists(full_path):
            # Если директория не существует, создаем ее
            os.makedirs(full_path)
            print(f"Создана директория: {full_path}")
        else:
            # Если директория уже существует, выводим сообщение
            print(f"Директория уже существует: {full_path}")

    print("Структура проекта успешно создана.")

# Вызываем функцию для создания структуры директорий
create_directory_structure()

Директория уже существует: project_root\data/raw
Директория уже существует: project_root\data/processed
Директория уже существует: project_root\logs
Директория уже существует: project_root\backups
Директория уже существует: project_root\output
Структура проекта успешно создана.


Создание и запись данных в файлы:
   - В директории `data/raw/` создайте несколько текстовых файлов с произвольным содержимым на разных языках, используя разные кодировки (например, UTF-8, ISO-8859-1).
   - Заполните директорию `logs/` лог-файлом с записями о выполнении предыдущих шагов, включая дату и время создания файлов и директорий.

In [6]:
def create_files_and_logs():
    # Определяем пути к директориям
    raw_data_dir = os.path.join("project_root", "data", "raw")
    logs_dir = os.path.join("project_root", "logs")

    # Создаем файлы с разным содержимым и кодировками
    files_to_create = [
        ("file1.txt", "Hello, World!", "utf-8"),
        ("file2.txt", "Привет, мир!", "utf-8"),
        ("file3.txt", "Bonjour, le monde!", "iso-8859-1"),
    ]

    log_entries = []

    # Создаем файлы и записываем в них данные
    for filename, content, encoding in files_to_create:
        file_path = os.path.join(raw_data_dir, filename)
        with open(file_path, "w", encoding=encoding) as file:
            file.write(content)
        
        # Формируем запись для лога
        timestamp = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        log_entry = f"{timestamp} - Создан файл: {file_path} (кодировка: {encoding})"
        log_entries.append(log_entry)
        print(log_entry)

    # Записываем лог-файл
    log_file_path = os.path.join(logs_dir, "creation_log.txt")
    with open(log_file_path, "w", encoding="utf-8") as log_file:
        log_file.write("\n".join(log_entries))

    print(f"Лог-файл создан: {log_file_path}")

# Вызываем функцию для создания файлов и логов
create_files_and_logs()

2024-09-17 19:38:07 - Создан файл: project_root\data\raw\file1.txt (кодировка: utf-8)
2024-09-17 19:38:07 - Создан файл: project_root\data\raw\file2.txt (кодировка: utf-8)
2024-09-17 19:38:07 - Создан файл: project_root\data\raw\file3.txt (кодировка: iso-8859-1)
Лог-файл создан: project_root\logs\creation_log.txt


# Задание 2 чтение, преобразование и сериализация данных
1. **Чтение и обработка данных:**
   - Напишите скрипт, который будет автоматически читать все файлы из директории `data/raw/`, корректно определяя их кодировки.
   - Выполните преобразование данных из каждого файла, заменяя в них все заглавные буквы на строчные и наоборот.
   - Сохраните обработанные данные в новые файлы в директорию `data/processed/` с сохранением исходных имен файлов, но добавив к ним суффикс `_processed`.


In [7]:
%pip install chardet

Note: you may need to restart the kernel to use updated packages.


In [8]:
import os
import chardet

# Функция для определения кодировки файла
def detect_encoding(file_path):
    with open(file_path, 'rb') as file:
        raw_data = file.read()
    return chardet.detect(raw_data)['encoding']

# Функция для обработки текста (замена регистра букв)
def process_text(text):
    return text.swapcase()

# Пути к директориям
input_dir = r'C:\Users\Marina\new_project\Python_разработчик\12_кодировки_рериализация данных\project_root\data\raw'
output_dir = r'C:\Users\Marina\new_project\Python_разработчик\12_кодировки_рериализация данных\project_root\data\processed'

# Создаем выходную директорию, если она не существует
# os.makedirs(output_dir, exist_ok=True)

# Обрабатываем каждый файл в input_dir
for filename in os.listdir(input_dir):
    input_path = os.path.join(input_dir, filename)
    
    # Определяем кодировку файла
    encoding = detect_encoding(input_path)
    
    # Читаем содержимое файла
    with open(input_path, 'r', encoding=encoding) as file:
        content = file.read()
    
    # Обрабатываем текст
    processed_content = process_text(content)
    
    # Формируем имя выходного файла
    output_filename = os.path.splitext(filename)[0] + '_processed' + os.path.splitext(filename)[1]
    output_path = os.path.join(output_dir, output_filename)
    
    # Сохраняем обработанный текст в новый файл
    with open(output_path, 'w', encoding=encoding) as file:
        file.write(processed_content)
    
    print(f"Обработан файл: {filename} -> {output_filename}")

print("Обработка завершена.")


Обработан файл: file1.txt -> file1_processed.txt
Обработан файл: file2.txt -> file2_processed.txt
Обработан файл: file3.txt -> file3_processed.txt
Обработка завершена.


2. **Сериализация данных:**
   - Напишите скрипт для сериализации содержимого всех файлов из директории `data/processed/` в один JSON-файл. 
   - Включите в этот JSON-файл следующую информацию:
     - Имя файла.
     - Исходный текст.
     - Преобразованный текст.
     - Размер файла в байтах.
     - Дата последнего изменения файла.
   - Сохраните JSON-файл в директорию `output/` с именем `processed_data.json`.

In [10]:
import json                  # Мы импортируем необходимые модуль json для сериализации данных в JSON,
from datetime import datetime #  и datetime для работы с датами.

# Определяем функцию serialize_files, которая принимает два аргумента:
#  путь к входной директории и путь к выходному JSON-файлу.
def serialize_files(input_dir, output_file):
    result = []  # Внутри функции мы создаем пустой список result, 
                 # который будет хранить информацию о всех обработанных файлах.
    
    for filename in os.listdir(input_dir):  # Используем os.listdir() для получения списка всех файлов в указанной директории.
        file_path = os.path.join(input_dir, filename)
        if os.path.isfile(file_path):   #Проверяем, является ли он файлом (а не директорией) с помощью os.path.isfile().
            with open(file_path, 'r', encoding='utf-8') as f:
                original_text = f.read()
# Открываем файл и читаем его содержимое.
#Выполняем простое преобразование текста (в данном случае, перевод в верхний регистр).
#Собираем информацию о файле: имя, исходный текст, преобразованный текст, размер и дату последнего изменения.
#Добавляем эту информацию в список result.
            
            transformed_text = original_text.upper()  # Пример преобразования: перевод в верхний регистр
            
            file_info = {
                "filename": filename,
                "original_text": original_text,
                "transformed_text": transformed_text,
                "size_bytes": os.path.getsize(file_path),
                "last_modified": datetime.fromtimestamp(os.path.getmtime(file_path)).isoformat()
            }
# После обработки всех файлов, открываем выходной JSON-файл и записываем в него собранную информацию с помощью json.dump(). 
# Используем параметры ensure_ascii=False для корректной записи Unicode-символов и indent=4 для форматирования JSON с отступами.         
            result.append(file_info)
    
    with open(output_file, 'w', encoding='utf-8') as f:
        json.dump(result, f, ensure_ascii=False, indent=4)

# Использование функции
input_directory = r'C:\Users\Marina\new_project\Python_разработчик\12_кодировки_рериализация данных\project_root\data\processed'
output_file = r'C:\Users\Marina\new_project\Python_разработчик\12_кодировки_рериализация данных\project_root\output/processed_data.json'

# вызываем функцию serialize_files с указанием путей к входной директории и выходному файлу.
serialize_files(input_directory, output_file)

print("Данные успешно сериализованы и сохранены в файле:", output_file)

Данные успешно сериализованы и сохранены в файле: C:\Users\Marina\new_project\Python_разработчик\12_кодировки_рериализация данных\project_root\output/processed_data.json


# 3. Задание Работа с резервными копиями и восстановлением данных
 Создание резервной копии:
   - Напишите скрипт, который автоматически создаст архив резервной копии всех файлов из директории `data/` и сохранит его в директорию `backups/` с именем `backup_<дата>.zip`, где `<дата>` — текущая дата в формате `YYYYMMDD`.


In [12]:
import zipfile
from datetime import datetime
# Импортируем необходимые модули: os для работы с файловой системой, 
# zipfile для создания архивов, и datetime для работы с датами.

# Получаем текущую дату в формате YYYYMMDD 
# с помощью datetime.now().strftime("%Y%m%d").
current_date = datetime.now().strftime("%Y.%m.%d")

# Задаем имена директорий: source_dir для исходных файлов 
# и backup_dir для резервных копий.
source_dir = "data/"
backup_dir = "backups/"

# Создаем имя файла архива, используя текущую дату.
backup_filename = f"backup_{current_date}.zip"

# Формируем полный путь к файлу архива, объединяя директорию для бэкапов и имя файла.
backup_path = os.path.join(backup_dir, backup_filename)

# Создаем директорию для бэкапов, если она еще не существует, и пользуя os.makedirs()
# с параметром exist_ok=True.
os.makedirs(backup_dir, exist_ok=True)

# Открываем новый ZIP-архив в режиме записи, используя контекстный менеджер with.
with zipfile.ZipFile(backup_path, 'w') as zipf:
    for root, dirs, files in os.walk(source_dir):
# Используем os.walk() для рекурсивного обхода всех файлов и 
# поддиректорий в исходной директории.        
        for file in files:
            file_path = os.path.join(root, file)
            arcname = os.path.relpath(file_path, source_dir)
            zipf.write(file_path, arcname)
# Для каждого файла: Получаем полный путь к файлу.
# Вычисляем относительный путь файла внутри архива.
# Добавляем файл в архив, сохраняя его относительный путь.           

print(f"Резервная копия создана: {backup_path}") #Выводим сообщение о успешном создании резервной копии.

Резервная копия создана: backups/backup_2024.09.17.zip


Восстановление данных:
   - Напишите скрипт для разархивирования и восстановления данных из созданного архива резервной копии. Убедитесь, что все файлы восстановлены в соответствующие директории, и их содержимое не повреждено.

In [14]:
# Задаем директории: backup_dir для хранения архивов
# и restore_dir для восстановленных данных.
backup_dir = "backups/"
restore_dir = "restored_data/"

# Получаем текущую дату в формате YYYY.MM.DD, 
# чтобы найти архив, созданный сегодня.
current_date = datetime.now().strftime("%Y.%m.%d")

# Формируем имя файла архива, используя текущую дату, 
# и полный путь к архиву.
backup_filename = f"backup_{current_date}.zip"
backup_path = os.path.join(backup_dir, backup_filename)

# Создаем директорию для восстановленных данных, используя os.makedirs() 
# с параметром exist_ok=True, чтобы избежать ошибки, если директория уже существует.
os.makedirs(restore_dir, exist_ok=True)

# Открываем архив в режиме чтения с помощью zipfile.ZipFile() 
# и используем метод extractall() для извлечения всех файлов в указанную директорию.
with zipfile.ZipFile(backup_path, 'r') as zip_ref:
    zip_ref.extractall(restore_dir)

print(f"Данные восстановлены в директорию: {restore_dir}")

# Проверка целостности файлов: Используем os.walk() для рекурсивного обхода всех файлов 
# и поддиректорий в директории с восстановленными данными.
# Для каждого файла проверяем его размер с помощью os.path.getsize().
# Если размер файла больше 0, считаем его успешно восстановленным.
# Если файл пустой, выводим предупреждение о возможном повреждении.
for root, dirs, files in os.walk(restore_dir):
    for file in files:
        file_path = os.path.join(root, file)
        if os.path.getsize(file_path) > 0:
            print(f"Файл {file_path} успешно восстановлен")
        else:
            print(f"Внимание: файл {file_path} пуст или поврежден")

Данные восстановлены в директорию: restored_data/


# Задание 4: Дополнительные задачи с сериализацией и JSON Schema
Работа с пользовательскими классами и JSON:**
   - Создайте класс `FileInfo`, который будет хранить информацию о файлах, включающую:
     - Имя файла.
     - Полный путь к файлу.
     - Размер файла.
     - Дата создания и последнего изменения файла.
   - Напишите скрипт, который собирает информацию обо всех файлах в директории `data/processed/` и сериализует их в JSON-файл. Убедитесь, что при десериализации данные восстанавливаются корректно.

In [6]:
import os
import json
from datetime import datetime

# Сначала создадим класс FileInfo, Класс используется для создания объектов, 
# которые будут хранить информацию о файлах.
class FileInfo:
    def __init__(self, name, full_path, size, created_at, modified_at):
        self.name = name
        self.full_path = full_path # full_path: полный путь к файлу
        self.size = size           # size: размер файла
        self.created_at = created_at      # created_at: дата и время создания файла
        self.modified_at = modified_at    # modified_at: дата и время последнего изменения файла
    
    # Этот блок кода определяет метод to_dict() в классе FileInfo
    # def to_dict(self) - объявление метода
    # to_dict(), который принимает только параметр self (ссылку на текущий объект).
    def to_dict(self):
        return {
            "name": self.name,     # "name": self.name - имя файла
            "full_path": self.full_path,  # "full_path": self.full_path - полный путь к файлу
            "size": self.size,            # "size": self.size - размер файла
            "created_at": self.created_at.isoformat(), # self.created_at.isoformat() - дата и время создания файла в формате ISO
            "modified_at": self.modified_at.isoformat() # "modified_at": self.modified_at.isoformat()
# дата и время последнего изменения файла в формате ISO
        }
    
# @classmethod - это декоратор, который указывает, 
# что метод from_dict является методом класса, а не методом экземпляра. 
# def from_dict(cls, data): - объявление метода класса. 
# Здесь cls - это ссылка на сам класс (а не на экземпляр), data - словарь с данными о файле.
# Метод возвращает новый экземпляр класса FileInfo, используя cls() (что эквивалентно FileInfo()), 
# и передает в конструктор следующие аргументы:   
    @classmethod
    def from_dict(cls, data):
        return cls(
            name=data["name"],    # name=full_path=data["full_path"] - полный путь к файлу из словаря
            size=data["size"],    # size=data["size"] - размер файла из словаря
            created_at=datetime.fromisoformat(data["created_at"]),  # дата создания файла, преобразованная из строки ISO формата в объект datetime 
            modified_at=datetime.fromisoformat(data["modified_at"]) # Метод datetime.fromisoformat() используется для преобразования строк 
                                                                    # в формате ISO 8601 обратно в объекты datetime.
        )
    

In [7]:
# Функция collect_file_info() собирает информацию о всех файлах в указанной директории.
# Мы используем os.listdir() для получения списка файлов и os.stat() для получения информации о каждом файле.
# Затем мы сериализуем список объектов FileInfo в JSON-файл, используя метод to_dict().
# Для проверки корректности десериализации, мы читаем JSON-файл и восстанавливаем объекты FileInfo с помощью метода from_dict().

def collect_file_info(directory):
    file_info_list = []
    for filename in os.listdir(directory):
        full_path = os.path.join(directory, filename)
        if os.path.isfile(full_path):
            stats = os.stat(full_path)
            file_info = FileInfo(
                name=filename,
                full_path=full_path,
                size=stats.st_size,
                created_at=datetime.fromtimestamp(stats.st_ctime),
                modified_at=datetime.fromtimestamp(stats.st_mtime)
            )
            file_info_list.append(file_info)
    return file_info_list

# Сбор информации о файлах
directory = "data/processed/"
file_info_list = collect_file_info(directory)

# Сериализация в JSON
with open("file_info.json", "w") as f:
    json.dump([file_info.to_dict() for file_info in file_info_list], f, indent=2)

print("Информация о файлах сохранена в file_info.json")

# Десериализация из JSON
with open("file_info.json", "r") as f:
    loaded_data = json.load(f)

restored_file_info_list = [FileInfo.from_dict(item) for item in loaded_data]

print("Данные успешно десериализованы")

Информация о файлах сохранена в file_info.json
Данные успешно десериализованы


Валидация JSON с использованием JSON Schema:**
   - Создайте JSON Schema для проверки структуры данных, созданной в предыдущем задании.
   - Напишите скрипт, который проверяет валидность JSON-файла, созданного в предыдущем задании, с использованием созданной JSON Schema.
   - Обработайте возможные ошибки валидации, предоставив отчет о найденных несоответствиях.

In [3]:
%pip install jsonschema

Collecting jsonschema
  Downloading jsonschema-4.23.0-py3-none-any.whl.metadata (7.9 kB)
Collecting attrs>=22.2.0 (from jsonschema)
  Using cached attrs-24.2.0-py3-none-any.whl.metadata (11 kB)
Collecting jsonschema-specifications>=2023.03.6 (from jsonschema)
  Downloading jsonschema_specifications-2023.12.1-py3-none-any.whl.metadata (3.0 kB)
Collecting referencing>=0.28.4 (from jsonschema)
  Downloading referencing-0.35.1-py3-none-any.whl.metadata (2.8 kB)
Collecting rpds-py>=0.7.1 (from jsonschema)
  Downloading rpds_py-0.20.0-cp311-none-win_amd64.whl.metadata (4.2 kB)
Downloading jsonschema-4.23.0-py3-none-any.whl (88 kB)
Using cached attrs-24.2.0-py3-none-any.whl (63 kB)
Downloading jsonschema_specifications-2023.12.1-py3-none-any.whl (18 kB)
Downloading referencing-0.35.1-py3-none-any.whl (26 kB)
Downloading rpds_py-0.20.0-cp311-none-win_amd64.whl (213 kB)
Installing collected packages: rpds-py, attrs, referencing, jsonschema-specifications, jsonschema
Successfully installed attrs

In [8]:
import json
from jsonschema import validate, ValidationError

# Здесь мы создаем JSON Schema, которая описывает структуру данных о человеке. 
# Схема определяет, что объект должен иметь свойства "name" (строка), "age" 
# (целое число не меньше 0), "city" (строка) и необязательное свойство "hobbies" (массив строк).

# Определяем JSON Schema
schema = {
    "type": "object", # "type": "object" - указывает, что наша схема описывает объект.
    "properties": {                    #"properties" - определяет свойства объекта:
        "name": {"type": "string"},    # "name": должно быть строкой
        "age": {"type": "integer", "minimum": 0},  #"age": должно быть целым числом не меньше 0
        "city": {"type": "string"},       # "city": должно быть строкой
        "hobbies": {                       # "hobbies": должно быть массивом строк
            "type": "array",
            "items": {"type": "string"}
        }
    },
    "required": ["name", "age", "city"]
}
# "required": ["name", "age", "city"] - указывает, что свойства "name", "age" и "city" обязательны, 
# а "hobbies" - необязательное.

# Сохраняем схему в файл
with open('person_schema.json', 'w') as schema_file:
    json.dump(schema, schema_file, indent=2)

print("JSON Schema создана и сохранена в файл 'person_schema.json'")

JSON Schema создана и сохранена в файл 'person_schema.json'


In [14]:
from jsonschema import validate, ValidationError

# Пример корректных данных
valid_data = {
    "name": "Иван",
    "age": 30,
    "city": "Москва",
    "hobbies": ["чтение", "путешествия"]
}

try:
    validate(instance=valid_data, schema=schema)
    print("Данные валидны")
except ValidationError as e:
    print(f"Ошибка валидации: {e}")

# Пример некорректных данных
invalid_data = {
    "name": "Петр",
    "age": -5,  # Отрицательный возраст
    "city": "Санкт-Петербург"
}

try:
    validate(instance=invalid_data, schema=schema)
    print("Данные валидны")
except ValidationError as e:
    print(f"Ошибка валидации: {e}")

Данные валидны
Ошибка валидации: -5 is less than the minimum of 0

Failed validating 'minimum' in schema['properties']['age']:
    {'type': 'integer', 'minimum': 0}

On instance['age']:
    -5


# Задание 5: Отчёт и анализ проделанной работы
Создание итогового отчёта:
   - Сгенерируйте отчёт в текстовом файле или в формате JSON с анализом выполнения всех заданий:
     - Описание возникших трудностей и способы их решения.
     - Время, затраченное на выполнение каждого задания.
     - Выводы о проделанной работе и предложенные улучшения.

In [16]:
import json
from datetime import datetime

def generate_report(tasks):
    report = {
        "date": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
        "tasks": tasks,
        "overall_conclusion": "Работа выполнена успешно. Предложенные улучшения: автоматизировать процесс валидации данных."
    }
    
    # Сохраняем отчет в JSON файл
    with open('task_report.json', 'w', encoding='utf-8') as f:
        json.dump(report, f, ensure_ascii=False, indent=2)
    
    print("Отчет сохранен в файл 'task_report.json'")

# Пример использования
tasks = [
    {
        "name": "Создание JSON Schema",
        "difficulties": "Сложность в определении правильной структуры схемы",
        "solution": "Изучение документации JSON Schema и примеров использования",
        "time_spent": "2 часа",
        "conclusion": "Успешно создана схема для валидации данных о человеке"
    },
    {
        "name": "Обработка ошибок валидации",
        "difficulties": "Сложность в обработке различных типов ошибок",
        "solution": "Использование try-except блоков и детальный анализ ошибок ValidationError",
        "time_spent": "3 часа",
        "conclusion": "Реализована подробная обработка ошибок с генерацией понятных сообщений"
    }
]

generate_report(tasks)

Отчет сохранен в файл 'task_report.json'
