# ADHD200: End-to-end pipeline (BIDS → fMRIPrep → ROI time series)

Этот ноутбук запускает:
1) **fMRIPrep** через `fmriprep-docker` (контейнер Docker) для препроцессинга fMRI.
2) Экстракцию ROI-таймсерий по выбранному атласу. В данной работе используется атлас из библиотеки `nilearn`: **Schaefer**, 17 сетей, 400 ROI, разрешение 2 мм.

### 1. Импорт библиотек и определение параметров

In [None]:
%pip install fmriprep-docker



In [34]:
# Необходимые библиотеки
import re, os, sys, time, math
import requests
import subprocess
import shlex
import shutil
from pathlib import Path
import pandas as pd, numpy as np, matplotlib.pyplot as plt
from pathlib import Path
import fmriprep_docker as fmriprep
from bs4 import BeautifulSoup
import xml.etree.ElementTree as ET

In [70]:
# Абсолютный путь к текущему рабочему каталогу
current_dir = os.getcwd()
print(f"Текущий рабочий каталог: {current_dir}")

# Корневая папка текущего пользователя
home_dir = str(Path.home())
print(f"Корневая папка пользователя: {home_dir}")

# Параметры для скачивания предобработанных данных fmriprep
SHOULD_CLEAN_WORK_DIR = False   # Удалять ли временную папку после обработки
SHOULD_DOWNLOAD_FMRIPREP = True # Скачивать ли предобработанные fmriprep данные, если они ещё не скачаны
FORCE_UPDATE_FMRIPREP = False   # Принудительно обновлять скачанные fmriprep данные, даже если они уже скачаны
BASE_BUCKET = "https://fcp-indi.s3.amazonaws.com"
BASE_PREFIX = "data/Projects/ADHD200/Outputs/fmriprep/fmriprep"  # базовый префикс в ADHD200
SESSION  = "ses-1"             # в ADHD200 так обычно и есть
TIMEOUT  = 30                  # таймаут для сетевых операций в секундах
CHUNK    = 1 << 20             # 1 MB - размер чанка для скачивания файлов

USE_AROMA = False               # использовать ли данные с AROMA-очищением
INCLUDE_BOLDREF = True          # включать ли BOLD reference изображения
INCLUDE_CIFTI = True            # включать ли CIFTI данные

# Пути к существующим папкам
BIDS_SORTED_DIR = current_dir + "/../../SortedRawDataBIDS" # существующая папка с отсортированными BIDS-данными
BIDS_DIR_TEEN = BIDS_SORTED_DIR + "/cohort_teen_participants" # папка с BIDS-данными подростков
BIDS_DIR_ADULT = BIDS_SORTED_DIR + "/cohort_adult_participants" # папка с BIDS-данными взрослых

Текущий рабочий каталог: /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline
Корневая папка пользователя: /Users/alexey.stafeev


In [17]:
# Проверим, что папка с отсортированными BIDS-данными существует
if not os.path.exists(BIDS_SORTED_DIR):
    print(f"Ошибка: папка с отсортированными BIDS-данными не найдена: {BIDS_SORTED_DIR}")
    sys.exit(1)
print(f"Папка с отсортированными BIDS-данными найдена:\n{BIDS_SORTED_DIR}")

Папка с отсортированными BIDS-данными найдена:
/Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline/../../SortedRawDataBIDS


Из библиотеки `nilearn` используются:
- `nilearn.datasets` для обработки атласов (Schaefer, 2018)

In [5]:
%pip install nilearn

[0mCollecting nilearn
  Using cached nilearn-0.12.1-py3-none-any.whl.metadata (9.9 kB)
Collecting lxml (from nilearn)
  Using cached lxml-6.0.2-cp312-cp312-macosx_10_13_x86_64.whl.metadata (3.6 kB)
Collecting nibabel>=5.2.0 (from nilearn)
  Using cached nibabel-5.3.2-py3-none-any.whl.metadata (9.1 kB)
Using cached nilearn-0.12.1-py3-none-any.whl (12.7 MB)
Using cached nibabel-5.3.2-py3-none-any.whl (3.3 MB)
Using cached lxml-6.0.2-cp312-cp312-macosx_10_13_x86_64.whl (4.7 MB)
[0mInstalling collected packages: nibabel, lxml, nilearn
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3/3[0m [nilearn]m2/3[0m [nilearn]
[0mSuccessfully installed lxml-6.0.2 nibabel-5.3.2 nilearn-0.12.1
Note: you may need to restart the kernel to use updated packages.


In [22]:
from nilearn.datasets import fetch_atlas_schaefer_2018

# Загрузка атласа Schaefer 2018 с 400 ROI и 17 сетями Yeo
# Проверим, что атлас уже загружен, чтобы не скачивать его повторно

atlas_path = current_dir + "/schaefer2018_400rois_17networks.nii.gz"
if not os.path.exists(atlas_path):
    atlas = fetch_atlas_schaefer_2018(n_rois=400, yeo_networks=17, resolution_mm=2)
    DEFAULT_ATLAS_IMG = atlas['maps']
    DEFAULT_ATLAS_LABELS = atlas['labels']
    print('Atlas NIfTI:', DEFAULT_ATLAS_IMG)
else:
    DEFAULT_ATLAS_IMG = atlas_path
    print('Atlas NIfTI already exists:', DEFAULT_ATLAS_IMG)

# Labels - в формате списка: ['1', '2', ..., '400', '17Networks_1', ..., '17Networks_17']
# Сохраним их в текстовый файл
LABELS_OUT_TXT = current_dir + "/schaefer2018_400rois_17networks_labels.txt"
with open(LABELS_OUT_TXT, "w") as f:
    for label in DEFAULT_ATLAS_LABELS:
        f.write(label + "\n")
print('Labels TXT:', LABELS_OUT_TXT)

Atlas NIfTI: /Users/alexey.stafeev/nilearn_data/schaefer_2018/Schaefer2018_400Parcels_17Networks_order_FSLMNI152_2mm.nii.gz
Labels TXT: /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline/schaefer2018_400rois_17networks_labels.txt


In [85]:
# Создадим директории для сохранения результатов обработки fmriprep

print(f"\n--- 1.1 Создание директорий для сохранения результатов обработки fmriprep ---")

# Корневая директория для сохранения результатов обработки fmriprep (derivatives)
DERIV_DIR_ROOT = current_dir + "/FMRIPrepData"

# Если папка не существует, создадим её заново
if not os.path.exists(DERIV_DIR_ROOT):
    print(f"Папка {DERIV_DIR_ROOT} не существует. Создаём заново.")
    os.makedirs(DERIV_DIR_ROOT, exist_ok=True)
else:
    if FORCE_UPDATE_FMRIPREP:
        print(f"Папка {DERIV_DIR_ROOT} уже существует. Удаляем и создаём заново.")
        shutil.rmtree(DERIV_DIR_ROOT)
        os.makedirs(DERIV_DIR_ROOT, exist_ok=True)
    else:
        print(f"Папка {DERIV_DIR_ROOT} уже существует. Используем её.")
print(f"Создана или уже существует папка {DERIV_DIR_ROOT}.")

# Создадим папки для подростков и взрослых, если их ещё нет
DERIV_DIR_TEEN = DERIV_DIR_ROOT + "/cohort_teen_participants"
if not os.path.exists(DERIV_DIR_TEEN):
    os.makedirs(DERIV_DIR_TEEN, exist_ok=True)
print(f"Создана или уже существует папка {DERIV_DIR_TEEN}.")

DERIV_DIR_ADULT = DERIV_DIR_ROOT + "/cohort_adult_participants"
if not os.path.exists(DERIV_DIR_ADULT):
    os.makedirs(DERIV_DIR_ADULT, exist_ok=True)
print(f"Создана или уже существует папка {DERIV_DIR_ADULT}.")


--- 1.1 Создание директорий для сохранения результатов обработки fmriprep ---
Папка /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline/FMRIPrepData уже существует. Используем её.
Создана или уже существует папка /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline/FMRIPrepData.
Создана или уже существует папка /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline/FMRIPrepData/cohort_teen_participants.
Создана или уже существует папка /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline/FMRIPrepData/cohort_adult_participants.


In [76]:
# Создадим временную папку для обработки fmriprep
FMRIPREP_WORK_DIR = home_dir + "/fmriprep_work"
if os.path.exists(FMRIPREP_WORK_DIR):
    print(f"Папка {FMRIPREP_WORK_DIR} уже существует. Удаляем и создаём заново.")
    shutil.rmtree(FMRIPREP_WORK_DIR)

os.makedirs(FMRIPREP_WORK_DIR, exist_ok=True)
print(f"Создана или уже существует папка {FMRIPREP_WORK_DIR}.")

Папка /Users/alexey.stafeev/fmriprep_work уже существует. Удаляем и создаём заново.
Создана или уже существует папка /Users/alexey.stafeev/fmriprep_work.


In [106]:
# Создадим файлы с участниками для каждой когорты
import pandas as pd

print(f"\n--- Создание файлов с участниками для каждой когорты ---")
# Файл с участниками для подростков
PARTICIPANTS_ID_FILE_TEEN = DERIV_DIR_TEEN + "/participants.txt"
teen_tsv = BIDS_DIR_TEEN + "/participants.tsv"
df_teen = pd.read_csv(teen_tsv, sep='\t')

if SHOULD_DOWNLOAD_FMRIPREP:
    # Извлекаем данные столбца participant_id в список
    teen_list = df_teen['participant_id'].tolist()
    # Напечатаем список участников подростков
    print("Список участников подростков:", teen_list)

# Извлекаем данные столбца participant_id, удаляем префикс sub- и сохраняем в текстовый файл
df_teen['participant_id_no_sub'] = df_teen['participant_id'].str.replace('sub-', '')
df_teen[['participant_id_no_sub']].to_csv(PARTICIPANTS_ID_FILE_TEEN, index=False, header=False)
print(f"Файл с участниками для подростков сохранён в {PARTICIPANTS_ID_FILE_TEEN}")

# Извлекаем 1 участника для теста в список
PARTICIPANTS_ID_TEEN = df_teen['participant_id_no_sub'].tolist()[:1]
print("Участники для теста (подростки):", PARTICIPANTS_ID_TEEN)

# Файл с участниками для взрослых
PARTICIPANTS_ID_FILE_ADULT = DERIV_DIR_ADULT + "/participants.txt"
adult_tsv = BIDS_DIR_ADULT + "/participants.tsv"
df_adult = pd.read_csv(adult_tsv, sep='\t')

if SHOULD_DOWNLOAD_FMRIPREP:
    # Извлекаем данные столбца participant_id в список
    adult_list = df_adult['participant_id'].tolist()
    # Напечатаем список участников взрослых
    print("Список участников взрослых:", adult_list)

# Извлекаем данные столбца participant_id, удаляем префикс sub- и сохраняем в текстовый файл
df_adult['participant_id_no_sub'] = df_adult['participant_id'].str.replace('sub-', '')
df_adult[['participant_id_no_sub']].to_csv(PARTICIPANTS_ID_FILE_ADULT, index=False, header=False)
print(f"Файл с участниками для взрослых сохранён в {PARTICIPANTS_ID_FILE_ADULT}")

# Извлекаем 1 участника для теста в список
PARTICIPANTS_ID_ADULT = df_adult['participant_id_no_sub'].tolist()[:1]
print("Участники для теста (взрослые):", PARTICIPANTS_ID_ADULT)


--- Создание файлов с участниками для каждой когорты ---
Список участников подростков: ['sub-2026113', 'sub-1623716', 'sub-1594156', 'sub-2917777', 'sub-1018959', 'sub-3699991', 'sub-4104523', 'sub-2640795', 'sub-1019436', 'sub-1312097', 'sub-1411495', 'sub-1538046', 'sub-1585708', 'sub-2074737', 'sub-2574674', 'sub-3048588', 'sub-3108222', 'sub-3304956', 'sub-3808273', 'sub-4134561', 'sub-4285031', 'sub-4919979', 'sub-7446626', 'sub-1127915', 'sub-1187766', 'sub-1471736', 'sub-1854959', 'sub-2030383', 'sub-2260910', 'sub-2570769', 'sub-2907383', 'sub-2983819', 'sub-2996531', 'sub-3349423', 'sub-3650634', 'sub-3662296', 'sub-4187857', 'sub-4827048', 'sub-8692452', 'sub-0010004', 'sub-0010009', 'sub-0010012', 'sub-0010021', 'sub-0010022', 'sub-0010023', 'sub-0010030', 'sub-0010038', 'sub-0010039', 'sub-0010051', 'sub-0010053', 'sub-0010056', 'sub-0010058', 'sub-0010048', 'sub-0010047', 'sub-0010063', 'sub-0010064', 'sub-0010065', 'sub-0010066', 'sub-0010067', 'sub-0010068', 'sub-001011

In [87]:
# Создадим директорию для сохранения производных данных (таймсерий)

print(f"\n--- 1.2 Создание структуры директорий для сохранения производных данных (таймсерий) ---")

ROI_TIMESERIES_ROOT = current_dir + "/ROITimeseries"
if os.path.exists(ROI_TIMESERIES_ROOT):
    print(f"Папка {ROI_TIMESERIES_ROOT} уже существует. Удаляем и создаём заново.")
    shutil.rmtree(ROI_TIMESERIES_ROOT)

# Создадим папки для подростков и взрослых
TS_OUT_TEEN = ROI_TIMESERIES_ROOT + "/cohort_teen_participants"
os.makedirs(TS_OUT_TEEN, exist_ok=True)
print(f"Создана или уже существует папка {TS_OUT_TEEN}.")

TS_OUT_ADULT = ROI_TIMESERIES_ROOT + "/cohort_adult_participants"
os.makedirs(TS_OUT_ADULT, exist_ok=True)
print(f"Создана или уже существует папка {TS_OUT_ADULT}.")


--- 1.2 Создание структуры директорий для сохранения производных данных (таймсерий) ---
Папка /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline/ROITimeseries уже существует. Удаляем и создаём заново.
Создана или уже существует папка /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline/ROITimeseries/cohort_teen_participants.
Создана или уже существует папка /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline/ROITimeseries/cohort_adult_participants.


In [88]:
# Параметры для обработки

# Параметры для fmriprep
WORK_DIR = FMRIPREP_WORK_DIR # временная папка для обработки (желательно на SSD)
FS_LICENSE = current_dir + "/license.txt"
FS_NO_RECON_ALL = True # Пропустить полную реконструкцию FreeSurfer
OUTPUT_SPACES = "MNI152NLin2009cAsym:res-2"
NTHREADS = 8
OMP_NTHREADS = 8
MEM_MB = 32000

# Параметры для извлечения таймсерий
ATLAS_IMG = DEFAULT_ATLAS_IMG
ATLAS_LABELS = LABELS_OUT_TXT
FD_THRESH = 0.5
N_ACOMPCOR = 5
USE_GSR = 0
LOW_PASS = 0.08
HIGH_PASS = 0.008
MIN_VOLS = 120

PARTICIPANTS_TEEN = PARTICIPANTS_ID_TEEN # список ID участников (используется для теста)
PARTICIPANTS_ADULT = PARTICIPANTS_ID_ADULT # список ID участников (используется для теста)
# Или путь к файлу с ID участников (один ID на строку)
PARTICIPANTS_FILE_TEEN = PARTICIPANTS_ID_FILE_TEEN
PARTICIPANTS_FILE_ADULT = PARTICIPANTS_ID_FILE_ADULT
# (если указан, то игнорируется список PARTICIPANTS)
# Или None, чтобы обработать всех участников в BIDS_DIR

In [89]:
print("BIDS_DIR_TEEN exists:", Path(BIDS_DIR_TEEN).exists())
print("BIDS_DIR_ADULT exists:", Path(BIDS_DIR_ADULT).exists())

print("DERIV_DIR_TEEN exists:", Path(DERIV_DIR_TEEN).exists())
if not Path(DERIV_DIR_TEEN).exists():
    os.makedirs(DERIV_DIR_TEEN, exist_ok=True)
    print(f"Каталог {DERIV_DIR_TEEN} создан.")

print("DERIV_DIR_ADULD exists:", Path(DERIV_DIR_ADULT).exists())
if not Path(DERIV_DIR_ADULT).exists():
    os.makedirs(DERIV_DIR_ADULT, exist_ok=True)
    print(f"Каталог {DERIV_DIR_ADULT} создан.")

print("WORK_DIR exists:", Path(WORK_DIR).exists())
# Проверим, что в WORK_DIR есть права на запись
if not os.access(WORK_DIR, os.W_OK):
    raise PermissionError(f"Нет прав на запись в WORK_DIR: {WORK_DIR}")
else:
    print(f"Есть права на запись в WORK_DIR: {WORK_DIR}")

print("FS_LICENSE exists:", Path(FS_LICENSE).exists())
print("ATLAS_IMG exists:", Path(ATLAS_IMG).exists())
print("ATLAS_LABELS exists:", Path(ATLAS_LABELS).exists())

BIDS_DIR_TEEN exists: True
BIDS_DIR_ADULT exists: True
DERIV_DIR_TEEN exists: True
DERIV_DIR_ADULD exists: True
WORK_DIR exists: True
Есть права на запись в WORK_DIR: /Users/alexey.stafeev/fmriprep_work
FS_LICENSE exists: True
ATLAS_IMG exists: True
ATLAS_LABELS exists: True


In [81]:
# Проверка FreeSurfer лицензии
print("FS_LICENSE env:", os.environ.get("FS_LICENSE"))
print("FS_LICENSE (из параметров):", FS_LICENSE)
print("Лицензия существует?", Path(FS_LICENSE).exists())
if Path(FS_LICENSE).exists():
    print("Размер license.txt:", Path(FS_LICENSE).stat().st_size, "байт")
else:
    raise FileNotFoundError(f"Файл лицензии FreeSurfer не найден: {FS_LICENSE}")

FS_LICENSE env: None
FS_LICENSE (из параметров): /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline/license.txt
Лицензия существует? True
Размер license.txt: 133 байт


### 2. Скачивание предобработанных данных fMRIPrep из ADHD200 (если включено)

Функции для скачивания предобработанных данных fMRIPrep из ADHD200:

In [112]:
# --- какие файлы загружать из ADHD200/fmriprep ---

# Что качаем минимально (MNI, для экстракции ROI-таймсерий)
def compile_patterns(use_aroma=False, include_boldref=False, include_cifti=False):
    """
    Собирает regex-паттерны для нужных файлов fMRIPrep.
    """
    patterns = []

    # preproc bold
    patterns.append(re.compile(r".*_space-MNI152NLin2009cAsym(_res-2)?_desc-preproc_bold\.nii\.gz$"))
    
    # brain mask
    patterns.append(re.compile(r".*_space-MNI152NLin2009cAsym(_res-2)?_desc-brain_mask\.nii\.gz$"))

    # confounds
    patterns.append(re.compile(r".*_desc-confounds_regressors\.tsv$"))

    # boldref (опционально)
    if include_boldref:
        patterns.append(re.compile(r".*_space-MNI152NLin2009cAsym(_res-2)?_boldref\.nii\.gz$"))
    
    # CIFTI (опционально)
    if include_cifti:
        patterns.append(re.compile(r".*_bold\.dtseries\.nii$"))
        patterns.append(re.compile(r".*_bold\.dtseries\.json$"))

    # AROMA (опционально)
    if use_aroma:
        patterns.append(re.compile(r".*_space-MNI152NLin2009cAsym(_res-2)?_desc-smoothAROMAnonaggr_bold\.nii\.gz$"))

    return patterns

def head_size(url, timeout=20):
    """
    Определяет размер файла по HTTP HEAD.
    """
    r = requests.head(url, timeout=timeout)
    r.raise_for_status()
    size = r.headers.get("Content-Length")
    return int(size) if size is not None else None

def human(n):
    """
    Красивый вывод размера файла.
    """
    units = ["B", "KB", "MB", "GB", "TB"]
    if n is None:
        return "unknown"
    if n == 0:
        return "0 B"
    i = int(math.floor(math.log(n, 1024)))
    return f"{n / (1024 ** i):.2f} {units[i]}"

def download(url, dst, overwrite=False, chunk_size=2 ** 20, max_retries=5):
    """
    Скачивает файл по URL в путь dst.
    """
    dst = Path(dst)
    dst.parent.mkdir(parents=True, exist_ok=True)

    if dst.exists() and not overwrite:
        return dst

    size = head_size(url)
    print(f"Downloading {url} -> {dst} ({human(size)})")

    attempt = 0
    while attempt < max_retries:
        attempt += 1
        try:
            with requests.get(url, stream=True, timeout=60) as r:
                r.raise_for_status()
                with open(dst, "wb") as f:
                    for chunk in r.iter_content(chunk_size=chunk_size):
                        if chunk:
                            f.write(chunk)
            # быстрая проверка по размеру
            if size is not None and dst.stat().st_size != size:
                raise IOError(
                    f"Size mismatch for {dst}: "
                    f"got {dst.stat().st_size}, expected {size}"
                )
            return dst
        except Exception as e:
            print(f"  Attempt {attempt} failed: {e}")
            if attempt >= max_retries:
                raise
            time.sleep(2 * attempt)

def find_subject_files(
    sub_id,
    session="ses-1",
    use_aroma=False,
    include_boldref=False,
    include_cifti=False,
):
    """
    НЕ используем листинг S3.

    Предполагаем, что файлы лежат по пути:
    data/Projects/ADHD200/Outputs/fmriprep/fmriprep/sub-XXXXX/ses-1/func/

    И имена имеют вид:
    sub-XXXXX_ses-1_task-rest[_acq-1|_acq-2|_acq-3]_run-[1|2|3]_... .nii.gz / .tsv / .dtseries.nii
    """
    func_prefix = f"{BASE_PREFIX}/{sub_id}/{session}/func"

    patterns = compile_patterns(
        use_aroma=use_aroma,
        include_boldref=include_boldref,
        include_cifti=include_cifti,
    )

    # Возможные варианты run и acq
    runs = ["run-1", "run-2", "run-3"]
    acq_variants = ["", "_acq-1", "_acq-2", "_acq-3"]

    candidates = []

    for run in runs:
        for acq in acq_variants:
            base_name = f"{sub_id}_{session}_task-rest{acq}_{run}"

            # базовые типы файлов
            preproc = (
                f"{func_prefix}/{base_name}_space-MNI152NLin2009cAsym_desc-preproc_bold.nii.gz"
            )
            brain_mask = (
                f"{func_prefix}/{base_name}_space-MNI152NLin2009cAsym_desc-brain_mask.nii.gz"
            )
            confounds = (
                f"{func_prefix}/{base_name}_desc-confounds_regressors.tsv"
            )

            candidates.extend([preproc, brain_mask, confounds])

            if include_boldref:
                boldref = (
                    f"{func_prefix}/{base_name}_space-MNI152NLin2009cAsym_boldref.nii.gz"
                )
                candidates.append(boldref)

            if use_aroma:
                aroma = (
                    f"{func_prefix}/{base_name}_space-MNI152NLin2009cAsym_"
                    f"desc-smoothAROMAnonaggr_bold.nii.gz"
                )
                candidates.append(aroma)

            if include_cifti:
                cifti = (
                    f"{func_prefix}/{base_name}_bold.dtseries.nii"
                )
                cifti_json = (
                    f"{func_prefix}/{base_name}_bold.dtseries.json"
                )
                candidates.append(cifti)
                candidates.append(cifti_json)

    # отфильтровываем по regex-паттернам (как и раньше)
    wanted = []
    for key in candidates:
        if any(pat.search(key) for pat in patterns):
            wanted.append(key)

    # Уникальные и отсортированные ключи
    wanted = sorted(set(wanted))
    return wanted

def download_subject(sub_id,
                     out_root="./fmriprep_subset",
                     session="ses-1",
                     use_aroma=False,
                     include_boldref=True,
                     include_cifti=False,
                     debug=False,
                     force_refresh=False
                    ):
    """
    Для одного субъекта формирует список ключей и скачивает соответствующие файлы.
    """
    keys = find_subject_files(
        sub_id=sub_id,
        session=session,
        use_aroma=use_aroma,
        include_boldref=include_boldref,
        include_cifti=include_cifti,
    )

    if not keys:
        print(f"No files found for {sub_id} in S3 (by pattern).")
        return []

    saved_files = []
    for key in keys:
        url = f"{BASE_BUCKET}/{key}"
        rel_path = sub_id + "/" + key.split("/")[-1]  # обрезаем длинный префикс        
        dst = Path(out_root) / rel_path
        # Проверяем, нужно ли перекачивать файл
        if dst.exists() and not force_refresh:
            if debug:
                print(f"File already exists, skipping: {dst}")
            saved_files.append(dst)
            continue
        else:
            if debug:
                print(f"Preparing to download: {url} -> {dst}")
        try:
            saved = download(url, dst)
            if saved:
                saved_files.append(saved)
        except Exception as e:
            if debug:
                print(f"Failed to download {url}: {e}")
    if saved_files and len(saved_files) > 0:
        print(f"Downloaded {len(saved_files)} files for subject {sub_id}.")
    return saved_files

def download_many(subjects,
                  out_root="./fmriprep_subset",
                  session="ses-1",
                  use_aroma=False,
                  include_boldref=True,
                  include_cifti=False,
                  debug=False,
                  force_refresh=False
                ):
    """
    Скачивает данные для списка субъектов.
    """
    all_saved = []
    non_existed_ids = []
    for i, sub_id in enumerate(subjects, start=1):
        print(f"\n[{i}/{len(subjects)}] Downloading {sub_id}")
        parent_path = Path(out_root) / sub_id
        # Пропускаем, если родительская папка существует, и не пустая
        if parent_path.exists() and any(parent_path.iterdir()) and not force_refresh:
            if debug:
                print(f"Subject directory already exists and is not empty, skipping subject: {parent_path}")
            # Сохраняем все файлы субъекта как уже сохранённые
            for existing_file in parent_path.iterdir():
                print(f"Found existing file: {existing_file}")
                all_saved.append(existing_file)
            continue

        saved = download_subject(
                    sub_id=sub_id,
                    out_root=out_root,
                    session=session,
                    use_aroma=use_aroma,
                    include_boldref=include_boldref,
                    include_cifti=include_cifti,
                    debug=debug,
                    force_refresh=force_refresh
                )
        if saved and len(saved) > 0:
            all_saved.extend(saved)
        else:
            non_existed_ids.append(sub_id)
    print(f"\nИтого скачано файлов: {len(all_saved)}")
    if non_existed_ids:
        print(f"Субъекты без файлов: {non_existed_ids}")
    return all_saved, non_existed_ids

# --------- пример использования ----------
# subjects = ["sub-9922944", "sub-XXXXXXX", ...]
# saved_paths, non_existed_ids = download_many(subjects, out_root="./fmriprep_subset",
#                                              session="ses-1",
#                                              use_aroma=False,      # True если нужен AROMA-вариант bold
#                                              include_boldref=True,
#                                              include_cifti=False,  # True если нужны CIFTI (*.dtseries)
#                                              debug=True,
#                                              force_refresh=False)
# print("\nСкачано файлов:", len(saved_paths))
# print("Субъекты без файлов:", non_existed_ids)

In [None]:
# if SHOULD_DOWNLOAD_FMRIPREP:
#     # Скачиваем для теста данные одного участника из когорты подростков

#     # Создадим отдельную директорию для теста
#     TEST_DOWNLOAD_DIR = DERIV_DIR_ROOT + "/FMRIPrepTestDownload"
#     if os.path.exists(TEST_DOWNLOAD_DIR):
#         if FORCE_UPDATE_FMRIPREP:
#             print(f"Папка {TEST_DOWNLOAD_DIR} уже существует. Удаляем и создаём заново.")
#             shutil.rmtree(TEST_DOWNLOAD_DIR)
#             os.makedirs(TEST_DOWNLOAD_DIR, exist_ok=True)
#         else:
#             print(f"Папка {TEST_DOWNLOAD_DIR} уже существует. Используем её.")
#     else:
#         os.makedirs(TEST_DOWNLOAD_DIR, exist_ok=True)
#     print(f"Создана или уже существует папка {TEST_DOWNLOAD_DIR}.")

#     print(f"\n--- 2.0 Скачивание предобработанных данных fmriprep для когорты подростков (тестовый случай {teen_list[0]}) ---")
#     download_many(teen_list[0:1],
#                   out_root=TEST_DOWNLOAD_DIR,
#                   session=SESSION,
#                   use_aroma=USE_AROMA,
#                   include_boldref=INCLUDE_BOLDREF,
#                   include_cifti=INCLUDE_CIFTI,
#                   debug=True,
#                   force_refresh=FORCE_UPDATE_FMRIPREP)
    
#     # Проверим, что файлы скачаны
#     test_sub_dir = Path(TEST_DOWNLOAD_DIR) / teen_list[0] / SESSION / "func"
#     if test_sub_dir.exists():
#         downloaded_files = list(test_sub_dir.glob("*"))
#         print(f"Скачано файлов для {teen_list[0]}: {len(downloaded_files)}")
#         for f in downloaded_files:
#             print(" -", f.name)
#     else:
#         print(f"Ошибка: папка {test_sub_dir} не найдена после скачивания.")

Создана или уже существует папка /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline/FMRIPrepData/FMRIPrepTestDownload.

--- 2.0 Скачивание предобработанных данных fmriprep для когорты подростков (тестовый случай sub-2026113) ---

[1/1] Downloading sub-2026113
Preparing to download: https://fcp-indi.s3.amazonaws.com/data/Projects/ADHD200/Outputs/fmriprep/fmriprep/sub-2026113/ses-1/func/sub-2026113_ses-1_task-rest_acq-1_run-1_bold.dtseries.json -> /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline/FMRIPrepData/FMRIPrepTestDownload/sub-2026113/sub-2026113_ses-1_task-rest_acq-1_run-1_bold.dtseries.json
Failed to download https://fcp-indi.s3.amazonaws.com/data/Projects/ADHD200/Outputs/fmriprep/fmriprep/sub-2026113/ses-1/func/sub-2026113_ses-1_task-rest_acq-1_run-1_bold.dtseries.json: 404 

KeyboardInterrupt: 

In [113]:
if SHOULD_DOWNLOAD_FMRIPREP:
    print(f"\n--- 2.1. Скачивание предобработанных fmriprep данных для подростков ---")
    saved_paths_teen, non_existed_ids_teen = download_many(teen_list,
                                                           out_root=DERIV_DIR_TEEN,
                                                           session=SESSION,
                                                           use_aroma=USE_AROMA,
                                                           include_boldref=INCLUDE_BOLDREF,
                                                           include_cifti=INCLUDE_CIFTI,
                                                           debug=False,
                                                           force_refresh=FORCE_UPDATE_FMRIPREP)
    print("\nСкачано файлов для подростков:", len(saved_paths_teen))
    print("Пропущенные субъекты для подростков:", non_existed_ids_teen)
    # Запишем список нескачанных субъектов в файл
    if non_existed_ids_teen:
        missing_teen_file = DERIV_DIR_TEEN + "/missing_subjects.txt"
        # Удалим файл, если он уже существует
        if os.path.exists(missing_teen_file):
            os.remove(missing_teen_file)
        # Запишем нескачанные субъекты в файл
        with open(missing_teen_file, "w") as f:
            for sub_id in non_existed_ids_teen:
                f.write(sub_id + "\n")
        print(f"Список нескачанных субъектов для подростков сохранён в {missing_teen_file}")
else:
    print(f"\n--- 2.1. Пропуск скачивания предобработанных fmriprep данных для подростков ---")


--- 2.1. Скачивание предобработанных fmriprep данных для подростков ---

[1/274] Downloading sub-2026113
Found existing file: /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline/FMRIPrepData/cohort_teen_participants/sub-2026113/sub-2026113_ses-1_task-rest_acq-2_run-1_space-MNI152NLin2009cAsym_desc-preproc_bold.nii.gz
Found existing file: /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline/FMRIPrepData/cohort_teen_participants/sub-2026113/sub-2026113_ses-1_task-rest_acq-2_run-1_bold.dtseries.nii
Found existing file: /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/ADHD_connectome_biomarkers_transfer_research/ADHD200/Pipelines/fMRIPrepPipeline/FMRIPrepData/cohort_teen_participants/sub-2026113/sub-2026113_ses-1_task-rest_acq-2_run-1_desc-confounds_regressors.tsv


In [None]:
if SHOULD_DOWNLOAD_FMRIPREP:    
    print(f"\n--- 2.2. Скачивание предобработанных fmriprep данных для взрослых ---")
    saved_paths_adult, non_existed_ids_adult = download_many(adult_list,
                                                             out_root=DERIV_DIR_ADULT,
                                                             session=SESSION,
                                                             use_aroma=USE_AROMA,
                                                             include_boldref=INCLUDE_BOLDREF,
                                                             include_cifti=INCLUDE_CIFTI,
                                                             debug=False,
                                                             force_refresh=FORCE_UPDATE_FMRIPREP)
    print("\nСкачано файлов для взрослых:", len(saved_paths_adult))
    print("Пропущенные субъекты для взрослых:", non_existed_ids_adult)
    # Запишем список нескачанных субъектов в файл
    if non_existed_ids_adult:
        missing_adult_file = DERIV_DIR_ADULT + "/missing_subjects.txt"
        # Удалим файл, если он уже существует
        if os.path.exists(missing_adult_file):
            os.remove(missing_adult_file)
        # Запишем нескачанные субъекты в файл
        with open(missing_adult_file, "w") as f:
            for sub_id in non_existed_ids_adult:
                f.write(sub_id + "\n")
        print(f"Список нескачанных субъектов для взрослых сохранён в {missing_adult_file}")
else:
    print(f"\n--- 2.2. Пропуск скачивания предобработанных fmriprep данных для взрослых ---")

### 3. Обработка BIDS-данных с помощью fMRIPrep - извлечение деривативов (если не включено скачивание предобработанных данных)

In [None]:
def run_command(cmd_list):
    # потоковый вывод
    proc = subprocess.Popen(cmd_list, stdout=subprocess.PIPE, stderr=subprocess.STDOUT, text=True, bufsize=1)
    for line in proc.stdout:
        print(line, end="")
    return proc.wait()

In [None]:
# Обёртка над fmriprep для обработки BIDS-данных и извлечения таймсерий
def process_fmriprep(bids_dir, deriv_dir, participants=None, work_dir=None,
                     fs_license=None, output_spaces="MNI152NLin2009cAsym:res-2",
                     nthreads=8, omp_nthreads=8, mem_mb=32000,
                     skip_bids_validation=True, extra_container_opts=None,
                     fs_no_recon_all=True, no_tty=True):
    """ Запускает fmriprep для указанной папки BIDS-данных и сохраняет результаты в deriv_dir.
        Если participants указаны, обрабатывает только этих участников.
        Иначе обрабатывает всех участников в bids_dir.
    """
    
    # нормализуем пути
    bids_dir   = str(Path(bids_dir).expanduser().resolve())
    deriv_dir  = str(Path(deriv_dir).expanduser().resolve())
    work_dir   = str(Path(work_dir).expanduser().resolve())
    fs_license = str(Path(fs_license).expanduser().resolve())

    # participants: список имён без 'sub-'
    if participants is None:
        part_list = []
    elif isinstance(participants, str) and os.path.isfile(participants):
        with open(participants, 'r') as f:
            part_list = [ln.strip() for ln in f if ln.strip()]
    elif isinstance(participants, list):
        part_list = participants
    else:
        raise ValueError("participants: list | path-to-file | None")

    # найти обёртку
    fmriprep_local = shutil.which("fmriprep-docker") or shutil.which(str(Path.home()/".local/bin/fmriprep-docker"))
    if not fmriprep_local:
        raise EnvironmentError("fmriprep-docker не найден в PATH.")

    cmd = [
        fmriprep_local,
        bids_dir,
        deriv_dir,
        "participant",
        "--fs-license-file", fs_license,
        "--work-dir", work_dir,
        "--output-spaces", output_spaces,
        "--omp-nthreads", str(omp_nthreads),
        "--nthreads", str(nthreads),
        "--mem-mb", str(int(mem_mb)),
        "--verbose",
    ]
    if fs_no_recon_all:
        cmd.append("--fs-no-recon-all") # По умолчанию пропускаем полную реконструкцию FreeSurfer
    if no_tty:
        cmd.append("--no-tty")
    if skip_bids_validation:
        cmd.append("--skip-bids-validation")
    if part_list:
        cmd += ["--participant-label"] + part_list
    if extra_container_opts:
        cmd += ["--container-options", extra_container_opts]

    print("Будет выполнена команда:\n", " ".join(shlex.quote(x) for x in cmd))
    return run_command(cmd)

In [None]:
if not SHOULD_DOWNLOAD_FMRIPREP:
    # Тестовый запуск fmriprep для подростков (с использованием списка с единственным участником)
    print(f"\n--- 3.0 Запуск fmriprep для когорты подростков из {BIDS_DIR_TEEN} ---")
    ret_fmriprep_teen = process_fmriprep(BIDS_DIR_TEEN, DERIV_DIR_TEEN,
                                    participants=PARTICIPANTS_TEEN,
                                    work_dir=WORK_DIR, fs_license=FS_LICENSE,
                                    output_spaces=OUTPUT_SPACES,
                                    nthreads=NTHREADS, omp_nthreads=OMP_NTHREADS, mem_mb=MEM_MB)
    print("\nКод возврата:", ret_fmriprep_teen)
else:
    print(f"\n--- 3.0 Пропуск запуска fmriprep для когорты подростков (данные уже скачаны) ---")


--- 2.0 Запуск fmriprep для когорты подростков из /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/Материалы/ADHD200/SortedRawDataBIDS/cohort_teen_participants ---
Будет выполнена команда:
 /Users/alexey.stafeev/.local/bin/fmriprep-docker '/Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/Материалы/ADHD200/SortedRawDataBIDS/cohort_teen_participants' '/Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/Материалы/ADHD200/FMRIPrepData/cohort_teen_participants' participant --fs-license-file '/Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТИ/Предметы/НИР/Материалы/ADHD200/license.txt' --work-dir /Users/alexey.stafeev/fmriprep_work --output-spaces MNI152NLin2009cAsym:res-2 --omp-nthreads 8 --nthreads 8 --mem-mb 32000 --verbose --no-tty --skip-bids-validation --participant-label kki2026113
RUNNING: docker run --rm -e DOCKER_VERSION_8395080871=28.0.4 -v /Users/alexey.stafeev/Documents/!Documents/Магистратура_МФТ

KeyboardInterrupt: 

In [None]:
if not SHOULD_DOWNLOAD_FMRIPREP:
    print(f"\n--- 3.1 Запуск fmriprep для BIDS-данных возрастной когорты подростков в {BIDS_DIR_TEEN} ---")
    print(f"Результаты будут сохранены в {DERIV_DIR_TEEN}")

    ret_fmriprep_teen = process_fmriprep(
        bids_dir=BIDS_DIR_TEEN,
        deriv_dir=DERIV_DIR_TEEN,
        participants=PARTICIPANTS_FILE_TEEN, # или PARTICIPANTS_TEEN
        work_dir=WORK_DIR,
        fs_license=FS_LICENSE,
        output_spaces=OUTPUT_SPACES,
        nthreads=NTHREADS,
        omp_nthreads=OMP_NTHREADS,
        mem_mb=MEM_MB,
        fs_no_recon_all=FS_NO_RECON_ALL
    )

    print("\n=== fMRIPrep завершён. Код возврата:", ret_fmriprep_teen, "===")
else:
    print(f"\n--- 3.1 Пропуск запуска fmriprep для когорты подростков (данные уже скачаны) ---")

NameError: name 'BIDS_DIR_TEEN' is not defined

In [0]:
if not SHOULD_DOWNLOAD_FMRIPREP:
    print(f"\n--- 3.2 Запуск fmriprep для BIDS-данных возрастной когорты молодых взрослых в {BIDS_DIR_TEEN} ---")
    print(f"Результаты будут сохранены в {DERIV_DIR_TEEN}")

    ret_fmriprep_adult = process_fmriprep(
        bids_dir=BIDS_DIR_TEEN,
        deriv_dir=DERIV_DIR_TEEN,
        participants=PARTICIPANTS_FILE_ADULT, # или PARTICIPANTS_ADULT
        work_dir=WORK_DIR,
        fs_license=FS_LICENSE,
        output_spaces=OUTPUT_SPACES,
        nthreads=NTHREADS,
        omp_nthreads=OMP_NTHREADS,
        mem_mb=MEM_MB
    )

    print("\n=== fMRIPrep завершён. Код возврата:", ret_fmriprep_adult, "===")
else:
    print(f"\n--- 3.2 Пропуск запуска fmriprep для когорты взрослых (данные уже скачаны) ---")

### 4. Проверка деривативов после обработки BIDS с помощью fMRIPrep

In [41]:
# === Проверка: наличие поверхностных/объёмных деривативов ===

# Проверим деривативы fMRIPrep (объёмные)
def check_derivatives(deriv_dir):
    """Проверяет наличие деривативов fMRIPrep в указанной директории."""
    fprep_root = Path(deriv_dir) / "fmriprep"
    print("\nДиректория fMRIPrep существует?", fprep_root.exists())
    if fprep_root.exists():
        subs = sorted([p.name for p in fprep_root.glob("sub-*") if p.is_dir()])
        print("Найдено субъектов в fmriprep:", len(subs))
        if subs:
            sample = fprep_root / subs[0]
            func_hits = list(sample.rglob("*desc-preproc_bold.nii.gz"))
            conf_hits = list(sample.rglob("*desc-confounds_timeseries.tsv"))
            print("Пример субъекта:", sample)
            print("BOLD препроцессированных файлов:", len(func_hits))
            print("Confounds tsv:", len(conf_hits))
            if func_hits[:3]:
                for p in func_hits[:3]:
                    print(" -", p)
    else:
        print("\nПапка деривативов ещё не создана или пути не заполнены. Требуется перезапуск fMRIPrep.")

# Проверим директорию freesurfer (поверхности), если recon-all выполнялся
def check_freesurfer(deriv_dir):
    """Проверяет наличие деривативов FreeSurfer в указанной директории."""
    fs_root = Path(deriv_dir) / "freesurfer"
    print("\nДиректория freesurfer существует?", fs_root.exists())
    if fs_root.exists():
        subs_fs = sorted([p.name for p in fs_root.glob("sub-*") if p.is_dir()])
        print("Найдено субъектов в freesurfer:", len(subs_fs))
        if subs_fs:
            sample_fs = fs_root / subs_fs[0]
            lh_pial = sample_fs / "surf" / "lh.pial"
            rh_pial = sample_fs / "surf" / "rh.pial"
            aseg = sample_fs / "mri" / "aseg.mgz"
            print("Пример субъекта FS:", sample_fs)
            print("lh.pial:", lh_pial.exists(), " rh.pial:", rh_pial.exists(), " aseg.mgz:", aseg.exists())
            # Показать несколько surface-файлов
            surf_list = list((sample_fs/"surf").glob("*.pial"))[:5]
            if surf_list:
                print("Примеры surface-файлов:")
                for p in surf_list:
                    print(" -", p)
    else:
        print("\nПапка деривативов ещё не создана или пути не заполнены. Требуется перезапуск fMRIPrep.")

In [None]:
print(f"\n--- 4.1 Проверка деривативов fMRIPrep для подростков в {DERIV_DIR_TEEN} ---")
check_derivatives(DERIV_DIR_TEEN)
check_freesurfer(DERIV_DIR_TEEN)

In [None]:
print(f"\n--- 4.2 Проверка деривативов fMRIPrep для взрослых в {DERIV_DIR_ADULT} ---")
check_derivatives(DERIV_DIR_ADULT)
check_freesurfer(DERIV_DIR_ADULT)

### 5. Экстракция ROI-таймсерий (Schaefer, Harvard-Oxford и др.)
В следующей ячейке сохраняется локально скрипт `adhd200_derivs_pipeline.py`, который извлекает таймсерии.

In [0]:
PIPE_PATH = Path("./adhd200_derivs_pipeline.py")
# PIPE_CODE = r"""#!/usr/bin/env python3
# import argparse
# from pathlib import Path
# from typing import Dict, List, Optional, Tuple
# import numpy as np, pandas as pd, nibabel as nib
# from nilearn.maskers import NiftiLabelsMasker
# def find_func_derivs(root: Path, subs: Optional[List[str]] = None):
#     pats = sorted(root.glob("sub-*/*/func/*desc-preproc_bold.nii.gz"))
#     if not pats:
#         pats = sorted(root.glob("sub-*/func/*desc-preproc_bold.nii.gz"))
#     out = []
#     for bold in pats:
#         parts = bold.name.split("_")
#         info = {"bold": bold, "confounds": None, "mask": None, "sub": None, "ses": None, "task": None, "run": None}
#         for p in parts:
#             if p.startswith("sub-"): info["sub"] = p[4:]
#             elif p.startswith("ses-"): info["ses"] = p[4:]
#             elif p.startswith("task-"): info["task"] = p[5:]
#             elif p.startswith("run-"): info["run"] = p[4:]
#         if subs and info["sub"] not in subs: continue
#         conf = bold.parent / bold.name.replace("_desc-preproc_bold.nii.gz", "_desc-confounds_timeseries.tsv")
#         mask = bold.parent / bold.name.replace("_desc-preproc_bold.nii.gz", "_desc-brain_mask.nii.gz")
#         if conf.exists(): info["confounds"] = conf
#         if mask.exists(): info["mask"] = mask
#         out.append(info)
#     return out
# def load_confounds(conf_path: Path, fd_thresh=0.5, n_acompcor=5, use_gsr=False):
#     import pandas as pd, numpy as np
#     cf = pd.read_csv(conf_path, sep='\t')
#     meta = {}
#     fd = cf.get('framewise_displacement')
#     sm = None
#     if fd is not None:
#         bad = fd.fillna(0).values > fd_thresh
#         nss = [c for c in cf.columns if c.startswith('non_steady_state_outlier')]
#         if nss: bad = np.logical_or(bad, (cf[nss].fillna(0).sum(axis=1) > 0).values)
#         good = np.where(~bad)[0]
#         if len(good) > 0: sm = good
#         meta['n_scrubbed'] = int(bad.sum())
#     else:
#         meta['n_scrubbed'] = 0
#     cols = [c for c in ['trans_x','trans_y','trans_z','rot_x','rot_y','rot_z'] if c in cf.columns]
#     cols += [c+'_derivative1' for c in ['trans_x','trans_y','trans_z','rot_x','rot_y','rot_z'] if c+'_derivative1' in cf.columns]
#     acomp = [c for c in cf.columns if c.startswith('a_comp_cor')]
#     acomp = acomp[:n_acompcor] if n_acompcor>0 else []
#     cols += acomp
#     for c in ['white_matter','csf']:
#         if c in cf.columns: cols.append(c)
#     if use_gsr and 'global_signal' in cf.columns: cols.append('global_signal')
#     X = cf[cols].fillna(0).values if cols else None
#     return X, sm, meta
# def guess_tr(bold_img: Path):
#     import nibabel as nib, numpy as np
#     hdr = nib.load(str(bold_img)).header
#     try:
#         tr = float(hdr.get_zooms()[3])
#         return tr if np.isfinite(tr) and tr>0 else None
#     except Exception:
#         return None
# def extract_ts(bold, atlas, mask, confounds, sample_mask, tr, lp, hp):
#     masker = NiftiLabelsMasker(labels_img=str(atlas), mask_img=(str(mask) if mask else None),
#                                standardize='zscore', detrend=True, high_pass=hp, low_pass=lp, t_r=tr,
#                                resampling_target='data')
#     return masker.fit_transform(str(bold), confounds=confounds, sample_mask=sample_mask)
# def main():
#     ap = argparse.ArgumentParser()
#     ap.add_argument('--deriv-root', required=True)
#     ap.add_argument('--atlas-img', required=True)
#     ap.add_argument('--atlas-labels', default=None)
#     ap.add_argument('--participants', default=None)
#     ap.add_argument('--out', required=True)
#     ap.add_argument('--fd-thresh', type=float, default=0.5)
#     ap.add_argument('--n-acompcor', type=int, default=5)
#     ap.add_argument('--use-gsr', type=int, default=0)
#     ap.add_argument('--low-pass', type=float, default=0.08)
#     ap.add_argument('--high-pass', type=float, default=0.008)
#     ap.add_argument('--min-vols', type=int, default=120)
#     args = ap.parse_args()
#     root = Path(args.deriv_root).expanduser().resolve()
#     atlas = Path(args.atlas_img).expanduser().resolve()
#     outd = Path(args.out).expanduser().resolve(); outd.mkdir(parents=True, exist_ok=True)
#     subs = None
#     if args.participants:
#         subs = [ln.strip().replace('sub-','') for ln in Path(args.participants).read_text().splitlines() if ln.strip()]
#     runs = find_func_derivs(root, subs)
#     import pandas as pd, numpy as np
#     meta = []
#     kept = []
#     for r in runs:
#         bold, conf, mask = r['bold'], r['confounds'], r['mask']
#         Xc, sm, m = load_confounds(conf, fd_thresh=args.fd_thresh, n_acompcor=args.n_acompcor, use_gsr=bool(args.use_gsr))
#         tr = guess_tr(bold)
#         ts = extract_ts(bold, atlas, mask, Xc, sm, tr, args.low_pass, args.high_pass)
#         keep = int(ts.shape[0] >= args.min_vols)
#         sub_dir = outd / f"sub-{r['sub']}" / (f"ses-{r['ses']}" if r['ses'] else 'ses-NA')
#         sub_dir.mkdir(parents=True, exist_ok=True)
#         name = f"sub-{r['sub']}_{('ses-'+r['ses']+'_') if r['ses'] else ''}task-{r['task'] or 'rest'}_{('run-'+r['run']+'_') if r['run'] else ''}timeseries.tsv"
#         (sub_dir / name).write_text(pd.DataFrame(ts).to_csv(sep='\t', index=False))
#         np.save(sub_dir / name.replace('.tsv','.npy'), ts)
#         meta.append({'subject': r['sub'], 'session': r['ses'] or '', 'run': r['run'] or '', 'task': r['task'] or 'rest',
#                      'bold': str(bold), 'confounds': str(conf), 'mask': str(mask) if mask else '',
#                      'tr': tr, 'n_volumes_after_scrub': int(ts.shape[0]), 'kept': keep, 'n_confounds': 0, 'n_scrubbed': m.get('n_scrubbed', 0)})
#         if keep: kept.append(ts)
#     np.savez(outd / 'timeseries_agg.npz', *kept)
#     pd.DataFrame(meta).to_csv(outd / 'processing_manifest.tsv', sep='\t', index=False)
# if __name__ == '__main__':
#     main()
# """
# PIPE_PATH.write_text(PIPE_CODE, encoding="utf-8")
print("Скрипт сохранён:", PIPE_PATH)

In [None]:
# Небольшая обёртка над adhd200_derivs_pipeline.py

def run_pipeline(deriv_root, atlas_img, atlas_labels, out, participants=None, fd_thresh=0.5, n_acompcor=5, use_gsr=0, low_pass=0.08, high_pass=0.008, min_vols=120):
    cmd = f"python {PIPE_PATH} --deriv-root {shlex.quote(deriv_root)} --atlas-img {shlex.quote(atlas_img)}"
    if atlas_labels:
        cmd += f" --atlas-labels {shlex.quote(atlas_labels)}"
    if participants:
        cmd += f" --participants {shlex.quote(participants)}"
    cmd += f" --out {shlex.quote(out)} --fd-thresh {fd_thresh} --n-acompcor {n_acompcor} --use-gsr {use_gsr}"
    cmd += f" --low-pass {low_pass} --high-pass {high_pass} --min-vols {min_vols}"
    output = run_command(cmd)
    return output

In [0]:
print(f"\n--- 5.1 Извлечение таймсерий для когорты подростков из {DERIV_DIR_TEEN} ---")
print(f"Таймсерии будут сохранены в {TS_OUT_TEEN}")

ret_ts_teen = run_pipeline(DERIV_DIR_TEEN, ATLAS_IMG, ATLAS_LABELS, TS_OUT_TEEN,
                           participants=PARTICIPANTS_FILE_TEEN, fd_thresh=FD_THRESH,
                           n_acompcor=N_ACOMPCOR, use_gsr=USE_GSR, low_pass=LOW_PASS, 
                           igh_pass=HIGH_PASS, min_vols=MIN_VOLS)

print("\nКод возврата:", ret_ts_teen)

In [None]:
print(f"\n--- 5.2 Извлечение таймсерий для когорты взрослых из {DERIV_DIR_ADULT} ---")
print(f"Таймсерии будут сохранены в {TS_OUT_ADULT}")

ret_ts_adult = run_pipeline(DERIV_DIR_ADULT, ATLAS_IMG, ATLAS_LABELS, TS_OUT_ADULT,
                           participants=PARTICIPANTS_FILE_ADULT, fd_thresh=FD_THRESH,
                           n_acompcor=N_ACOMPCOR, use_gsr=USE_GSR, low_pass=LOW_PASS, 
                           high_pass=HIGH_PASS, min_vols=MIN_VOLS)

print("\nКод возврата:", ret_ts_adult)

### 6. QC / Preview
Гистограмма длин таймсерий после scrubbing + предпросмотр манифеста.

In [0]:
def analyze_timeseries(ts_out):
    """Анализирует извлечённые таймсерии в указанной директории."""
    manif = Path(ts_out) / 'processing_manifest.tsv'
    if manif.exists():
        dfm = pd.read_csv(manif, sep='\t')
        print("\nПервые строки processing_manifest.tsv:")
        print(dfm.head())
        if 'n_volumes_after_scrub' in dfm.columns:
            vals = dfm['n_volumes_after_scrub'].values
            plt.figure()
            plt.hist(vals, bins=20)
            plt.title('Длины таймсерий после scrubbing')
            plt.xlabel('Число объёмов')
            plt.ylabel('Кол-во запусков')
            plt.show()
    else:
        print('Не найден processing_manifest.tsv — проверь TS_OUT.')

In [None]:
print(f"\n--- 6.1 Анализ таймсерий для когорты подростков в {TS_OUT_TEEN} ---")
analyze_timeseries(TS_OUT_TEEN)

In [None]:
print(f"\n--- 6.2 Анализ таймсерий для когорты взрослых в {TS_OUT_ADULT} ---")
analyze_timeseries(TS_OUT_ADULT)