In [None]:
# =========================
# os.walk — CHEATSHEET
# =========================

import os

# БАЗОВАЯ СТРУКТУРА
for root, dirs, files in os.walk("ROOT_DIR"):
    pass
# root  -> текущая папка (str)
# dirs  -> подпапки в root (list[str])
# files -> файлы в root (list[str])


# ЕСЛИ ПОДПАПКИ НЕ НУЖНЫ
for root, _, files in os.walk("ROOT_DIR"):
    for f in files:
        full_path = os.path.join(root, f)


# ПОЛНЫЕ ПУТИ КО ВСЕМ ФАЙЛАМ
all_files = []
for root, _, files in os.walk("ROOT_DIR"):
    for f in files:
        all_files.append(os.path.join(root, f))


# ФИЛЬТР ПО РАСШИРЕНИЮ
excel_files = []
for root, _, files in os.walk("ROOT_DIR"):
    for f in files:
        if f.lower().endswith((".xls", ".xlsx")):
            excel_files.append(os.path.join(root, f))


# ФИЛЬТР ПО ИМЕНИ ФАЙЛА
filtered = []
for root, _, files in os.walk("ROOT_DIR"):
    for f in files:
        if "BOM" in f and not f.startswith("~$"):
            filtered.append(os.path.join(root, f))


# ОГРАНИЧЕНИЕ ГЛУБИНЫ ПРОХОДА
base_depth = "ROOT_DIR".count(os.sep)
for root, dirs, files in os.walk("ROOT_DIR"):
    depth = root.count(os.sep) - base_depth
    if depth > 2:
        dirs[:] = []   # запрещаем углубление
        continue


# ИСКЛЮЧЕНИЕ ПАПОК
EXCLUDE_DIRS = {"archive", ".git", "__pycache__"}
for root, dirs, files in os.walk("ROOT_DIR"):
    dirs[:] = [d for d in dirs if d not in EXCLUDE_DIRS]


# ОДИН ПРОХОД → СБОР МЕТАДАННЫХ
file_index = []
for root, _, files in os.walk("ROOT_DIR"):
    for f in files:
        path = os.path.join(root, f)
        file_index.append({
            "path": path,
            "name": f,
            "ext": os.path.splitext(f)[1].lower(),
            "size": os.path.getsize(path)
        })


# ТИПОВАЯ PIPELINE-СХЕМА
# 1. os.walk → индекс файлов
# 2. фильтрация по метаданным
# 3. чтение ТОЛЬКО нужных файлов
