**Задача №4**

Для решения этой задачи был использован следующий алгоритм:

    Чтение файлов:
        Прочитать содержимое всех файлов из каждой директории и сохранить их содержимое в словарях (один для каждой директории). Ключом будет содержимое файла, а значением - имя файла. Это поможет нам находить идентичные файлы, несмотря на различия в именах.

    Поиск идентичных файлов:
        Сравнить содержимое файлов из двух директорий. Если содержимое файла из первой директории есть в словаре второй директории (и наоборот), то файлы идентичны.

    Поиск похожих файлов:
        Для каждой пары файлов из двух директорий, сравнить их содержимое и определить процент сходства. Если процент сходства выше или равен указанному Тони, то файлы похожи.

    Определение отсутствующих файлов:
        Найти файлы, которые присутствуют в первой директории, но отсутствуют во второй (и наоборот).

In [None]:
import os

def compare_files(directory1, directory2, similarity_threshold):
    # Reading files from both directories
    dir1_files = {open(os.path.join(directory1, f), "rb").read(): f for f in os.listdir(directory1)}
    dir2_files = {open(os.path.join(directory2, f), "rb").read(): f for f in os.listdir(directory2)}

    identical_files = []
    similar_files = []
    missing_in_dir2 = []
    missing_in_dir1 = []

    # Identical files
    for content, file1 in dir1_files.items():
        if content in dir2_files:
            identical_files.append((os.path.join(directory1, file1), os.path.join(directory2, dir2_files[content])))

    # Similar files
    for content1, file1 in dir1_files.items():
        for content2, file2 in dir2_files.items():
            # Avoiding comparing identical files again
            if content1 == content2:
                continue

            # Calculate similarity percentage
            common = len(set(content1) & set(content2))
            total_length = max(len(content1), len(content2))
            percentage = (common / total_length) * 100

            if percentage >= similarity_threshold:
                similar_files.append((os.path.join(directory1, file1), os.path.join(directory2, file2), percentage))

    # Missing in dir2
    for content, file1 in dir1_files.items():
        if content not in dir2_files:
            missing_in_dir2.append(os.path.join(directory1, file1))

    # Missing in dir1
    for content, file2 in dir2_files.items():
        if content not in dir1_files:
            missing_in_dir1.append(os.path.join(directory2, file2))

    return identical_files, similar_files, missing_in_dir2, missing_in_dir1

# Example usage:
directory1 = "/path/to/directory1"
directory2 = "/path/to/directory2"
similarity_threshold = 70  # example value

identical, similar, missing_in_2, missing_in_1 = compare_files(directory1, directory2, similarity_threshold)
print("Identical Files:", identical)
print("Similar Files:", similar)
print("Files in Directory 1 but not in Directory 2:", missing_in_2)
print("Files in Directory 2 but not in Directory 1:", missing_in_1)