In [7]:
import os
import bs4
import json
from collections import defaultdict
import sys
import yaml
sys.setrecursionlimit(200000)

In [2]:
def get_xml_files(directory):
    """Получить список XML файлов в директории."""
    for root, dirs, files in os.walk(directory):
        for file in files:
            if file.lower().endswith('.xml'):
                yield os.path.join(root, file)

In [4]:
def parse_tag(tag):
    """Рекурсивно разобрать тег и вернуть его данные."""
    if tag.find_all(recursive=False):
        # Если у тега есть дочерние элементы, обработаем их
        return {
            'attrs': tag.attrs,
            'children': {child.name: parse_tag(child) for child in tag.find_all(recursive=False)}
        }
    else:
        # Если дочерних элементов нет, вернем только атрибуты
        return tag.attrs

In [3]:
def parse_xml(file_path):
    """Разобрать XML файл и вернуть данные в виде словаря."""
    with open(file_path, 'r', encoding='utf-8') as file:
        soup = bs4.BeautifulSoup(file, 'xml')
        return {child.name: parse_tag(child) for child in soup.find_all(recursive=False)}


In [6]:
def flatten(nested_list):
    """Функция для распаковки вложенных списков."""
    result = []
    if isinstance(nested_list, list):
        for item in nested_list:
            result.extend(flatten(item))
    else:
        result.append(nested_list)
    return result

In [5]:
def merge_dicts(base_dict, new_data):
    """Объединить два словаря, добавляя уникальные значения из new_data в base_dict."""
    for key, value in new_data.items():
        if key in base_dict:
            if isinstance(base_dict[key], dict) and isinstance(value, dict):
                merge_dicts(base_dict[key], value)
            elif isinstance(base_dict[key], list) and isinstance(value, list):
                # Добавляем только уникальные элементы списка
                base_dict[key] = list(set(base_dict[key] + value))
            elif base_dict[key] != value:
                # Если значения различаются и не являются списками, создаем список из значений
                base_dict[key] = [base_dict[key], value] if base_dict[key] != value else base_dict[key]
        else:
            base_dict[key] = value

In [8]:
directory = 'D:\\Projects\\HotsDeveloper\\mods'
all_tags = defaultdict(dict)

for xml_file in get_xml_files(directory):
    tags = parse_xml(xml_file)
    for tag_name, tag_data in tags.items():
        merge_dicts(all_tags[tag_name], tag_data)

In [9]:
all_tags

: 