In [8]:
import os
import re
from pathlib import Path
import pandas as pd

BASE = Path(r"E:\WSM\depression")
LIST_SETS = ["dev_labels", "test_labels", "train_labels"]
VIDEO_EXTS = {".mp4", ".avi", ".mov", ".mkv", ".wmv", ".mpg", ".mpeg", ".m4v", ".flv", ".webm", ".wav"}
DRY_RUN = True  # False = реально переименовать

def natural_key(s: str):
    return [int(t) if t.isdigit() else t.lower() for t in re.findall(r'\d+|\D+', s)]

def plan_segment_renames(vid_dir: Path):
    seg_dir = vid_dir / "segments"
    if not seg_dir.is_dir():
        return []

    files = [p for p in seg_dir.iterdir() if p.is_file() and p.suffix.lower() in VIDEO_EXTS]
    if not files:
        return []

    files_sorted = sorted(files, key=lambda p: natural_key(p.name))
    pad = max(3, len(str(len(files_sorted))))

    video_id = vid_dir.name
    plan = []
    for i, src in enumerate(files_sorted, 1):
        dst_name = f"{video_id}_{str(i).zfill(pad)}{src.suffix.lower()}"
        dst = src.with_name(dst_name)
        plan.append({
            "video_id": video_id,
            "src": str(src),
            "dst": str(dst),
            "dst_name": dst_name
        })
    return plan

def execute_plan(rows):
    for r in rows:
        src = Path(r["src"])
        dst = Path(r["dst"])
        if src.exists() and src.name != dst.name:
            src.rename(dst)

def main():
    whole_plan = []
    for split in LIST_SETS:
        split_dir = BASE / split
        if not split_dir.is_dir():
            continue
        for vid_dir in split_dir.iterdir():
            if vid_dir.is_dir():
                whole_plan.extend(plan_segment_renames(vid_dir))

    if not whole_plan:
        print("Сегментов нет, нечего писать.")
        return

    df = pd.DataFrame(whole_plan)
    view = df[["video_id", "src", "dst_name"]].sort_values(["video_id", "dst_name"])
    print("\nПлан (первые 20 строк):")
    print(view.head(20).to_string(index=False))

    if not DRY_RUN:
        execute_plan(whole_plan)

    # CSV только с маппингом: video_id -> segment_file
    mapping = df[["video_id", "dst_name"]].rename(columns={"dst_name": "segment_file"})
    mapping.to_csv(BASE / "segments_map.csv", index=False)
    print(f"\nГотово. Маппинг сохранён в {BASE/'segments_map.csv'}")

if __name__ == "__main__":
    main()



План (первые 20 строк):
   video_id                                                                     src            dst_name
-7UpRmNVJzQ E:\WSM\depression\train_labels\-7UpRmNVJzQ\segments\-7UpRmNVJzQ_001.mp4 -7UpRmNVJzQ_001.mp4
-7UpRmNVJzQ E:\WSM\depression\train_labels\-7UpRmNVJzQ\segments\-7UpRmNVJzQ_002.mp4 -7UpRmNVJzQ_002.mp4
-7UpRmNVJzQ E:\WSM\depression\train_labels\-7UpRmNVJzQ\segments\-7UpRmNVJzQ_003.mp4 -7UpRmNVJzQ_003.mp4
-7UpRmNVJzQ E:\WSM\depression\train_labels\-7UpRmNVJzQ\segments\-7UpRmNVJzQ_004.mp4 -7UpRmNVJzQ_004.mp4
-7UpRmNVJzQ E:\WSM\depression\train_labels\-7UpRmNVJzQ\segments\-7UpRmNVJzQ_005.mp4 -7UpRmNVJzQ_005.mp4
-7UpRmNVJzQ E:\WSM\depression\train_labels\-7UpRmNVJzQ\segments\-7UpRmNVJzQ_006.mp4 -7UpRmNVJzQ_006.mp4
-7UpRmNVJzQ E:\WSM\depression\train_labels\-7UpRmNVJzQ\segments\-7UpRmNVJzQ_007.mp4 -7UpRmNVJzQ_007.mp4
-7UpRmNVJzQ E:\WSM\depression\train_labels\-7UpRmNVJzQ\segments\-7UpRmNVJzQ_008.mp4 -7UpRmNVJzQ_008.mp4
-7UpRmNVJzQ E:\WSM\depression\train_lab

In [9]:
import os
import pandas as pd
from pathlib import Path

BASE = Path(r"E:\WSM\depression")
SETS = ["dev_labels", "test_labels", "train_labels"]

for split in SETS:
    csv_path = BASE / f"{split}.csv"
    dir_path = BASE / split

    print(f"\n=== Обработка {split} ===")

    df = pd.read_csv(csv_path)
    new_rows = []

    for _, row in df.iterrows():
        video_id = str(row["video_id"])
        seg_dir = dir_path / video_id / "segments"

        if seg_dir.is_dir():
            files = sorted(os.listdir(seg_dir))
            for f in files:
                new_row = row.copy()
                new_row["segment_file"] = f
                new_rows.append(new_row)
        else:
            # нет сегментов — добавляем как есть (без segment_file)
            new_row = row.copy()
            new_row["segment_file"] = None
            new_rows.append(new_row)

    df_new = pd.DataFrame(new_rows)

    # сохраняем как отдельный файл (чтобы не угробить оригинал)
    out_path = BASE / f"{split}_with_segments.csv"
    df_new.to_csv(out_path, index=False)
    print(f"Сохранил {out_path} (строк: {len(df_new)})")



=== Обработка dev_labels ===
Сохранил E:\WSM\depression\dev_labels_with_segments.csv (строк: 663)

=== Обработка test_labels ===
Сохранил E:\WSM\depression\test_labels_with_segments.csv (строк: 881)

=== Обработка train_labels ===
Сохранил E:\WSM\depression\train_labels_with_segments.csv (строк: 3832)


In [13]:
import os
import re
from pathlib import Path
import pandas as pd

BASE = Path(r"E:\WSM\parkinson")
LIST_SETS = ["dev_labels"]
VIDEO_EXTS = {".mp4", ".avi", ".mov", ".mkv", ".wmv", ".mpg", ".mpeg", ".m4v", ".flv", ".webm", ".wav"}
DRY_RUN = False  # False = реально переименовать

def natural_key(s: str):
    return [int(t) if t.isdigit() else t.lower() for t in re.findall(r'\d+|\D+', s)]

def plan_segment_renames(vid_dir: Path):
    seg_dir = vid_dir / "segments"
    if not seg_dir.is_dir():
        return []

    files = [p for p in seg_dir.iterdir() if p.is_file() and p.suffix.lower() in VIDEO_EXTS]
    if not files:
        return []

    files_sorted = sorted(files, key=lambda p: natural_key(p.name))
    pad = max(3, len(str(len(files_sorted))))

    video_id = vid_dir.name
    plan = []
    for i, src in enumerate(files_sorted, 1):
        dst_name = f"{video_id}_{str(i).zfill(pad)}{src.suffix.lower()}"
        dst = src.with_name(dst_name)
        plan.append({
            "video_id": video_id,
            "src": str(src),
            "dst": str(dst),
            "dst_name": dst_name
        })
    return plan

def execute_plan(rows):
    for r in rows:
        src = Path(r["src"])
        dst = Path(r["dst"])
        if src.exists() and src.name != dst.name:
            src.rename(dst)

def main():
    whole_plan = []
    for split in LIST_SETS:
        split_dir = BASE / split
        if not split_dir.is_dir():
            continue
        for vid_dir in split_dir.iterdir():
            if vid_dir.is_dir():
                whole_plan.extend(plan_segment_renames(vid_dir))

    if not whole_plan:
        print("Сегментов нет, нечего писать.")
        return

    df = pd.DataFrame(whole_plan)
    view = df[["video_id", "src", "dst_name"]].sort_values(["video_id", "dst_name"])
    print("\nПлан (первые 20 строк):")
    print(view.head(20).to_string(index=False))

    if not DRY_RUN:
        execute_plan(whole_plan)

    # CSV только с маппингом: video_id -> segment_file
    mapping = df[["video_id", "dst_name"]].rename(columns={"dst_name": "segment_file"})
    mapping.to_csv(BASE / "segments_map.csv", index=False)
    print(f"\nГотово. Маппинг сохранён в {BASE/'segments_map.csv'}")

if __name__ == "__main__":
    main()



План (первые 20 строк):
   video_id                                                                                                                                    src            dst_name
3MKVlrQoHD4       E:\WSM\parkinson\dev_labels\3MKVlrQoHD4\segments\Can Microdosing Psilocybin Magic Mushrooms help with Parkinsons disease_000.mp4 3MKVlrQoHD4_001.mp4
3MKVlrQoHD4       E:\WSM\parkinson\dev_labels\3MKVlrQoHD4\segments\Can Microdosing Psilocybin Magic Mushrooms help with Parkinsons disease_001.mp4 3MKVlrQoHD4_002.mp4
3MKVlrQoHD4       E:\WSM\parkinson\dev_labels\3MKVlrQoHD4\segments\Can Microdosing Psilocybin Magic Mushrooms help with Parkinsons disease_002.mp4 3MKVlrQoHD4_003.mp4
3MKVlrQoHD4       E:\WSM\parkinson\dev_labels\3MKVlrQoHD4\segments\Can Microdosing Psilocybin Magic Mushrooms help with Parkinsons disease_003.mp4 3MKVlrQoHD4_004.mp4
3MKVlrQoHD4       E:\WSM\parkinson\dev_labels\3MKVlrQoHD4\segments\Can Microdosing Psilocybin Magic Mushrooms help with Parkinsons disease_0

In [14]:
import os
import pandas as pd
from pathlib import Path

BASE = Path(r"E:\WSM\parkinson")
SETS = ["dev_labels", "test_labels", "train_labels"]

for split in SETS:
    csv_path = BASE / f"{split}.csv"
    dir_path = BASE / split

    print(f"\n=== Обработка {split} ===")

    df = pd.read_csv(csv_path)
    new_rows = []

    for _, row in df.iterrows():
        video_id = str(row["video_id"])
        seg_dir = dir_path / video_id / "segments"

        if seg_dir.is_dir():
            files = sorted(os.listdir(seg_dir))
            for f in files:
                new_row = row.copy()
                new_row["segment_file"] = f
                new_rows.append(new_row)
        else:
            # нет сегментов — добавляем как есть (без segment_file)
            new_row = row.copy()
            new_row["segment_file"] = None
            new_rows.append(new_row)

    df_new = pd.DataFrame(new_rows)

    # сохраняем как отдельный файл (чтобы не угробить оригинал)
    out_path = BASE / f"{split}_with_segments.csv"
    df_new.to_csv(out_path, index=False)
    print(f"Сохранил {out_path} (строк: {len(df_new)})")



=== Обработка dev_labels ===
Сохранил E:\WSM\parkinson\dev_labels_with_segments.csv (строк: 316)

=== Обработка test_labels ===
Сохранил E:\WSM\parkinson\test_labels_with_segments.csv (строк: 545)

=== Обработка train_labels ===
Сохранил E:\WSM\parkinson\train_labels_with_segments.csv (строк: 2789)


In [17]:
import pandas as pd
from pathlib import Path

BASE = Path(r"E:\WSM\depression")
SETS = ["dev_labels", "test_labels", "train_labels"]

KEEP_COLS = ["video_id", "diagnosis", "segment_file"]

for split in SETS:
    in_path = BASE / f"{split}_with_segments.csv"
    out_path = BASE / f"{split}_segments_min.csv"

    df = pd.read_csv(in_path)

    # оставляем только нужные колонки
    cols_exist = [c for c in KEEP_COLS if c in df.columns]
    df = df[cols_exist]

    df.to_csv(out_path, index=False)
    print(f"Сохранил {out_path} (строк: {len(df)})")


Сохранил E:\WSM\depression\dev_labels_segments_min.csv (строк: 663)
Сохранил E:\WSM\depression\test_labels_segments_min.csv (строк: 881)
Сохранил E:\WSM\depression\train_labels_segments_min.csv (строк: 3832)


In [16]:
import pandas as pd
from pathlib import Path

BASE = Path(r"E:\WSM\parkinson")
SETS = ["dev_labels", "test_labels", "train_labels"]

KEEP_COLS = ["video_id", "diagnosis", "segment_file"]

for split in SETS:
    in_path = BASE / f"{split}_with_segments.csv"
    out_path = BASE / f"{split}_segments_min.csv"

    df = pd.read_csv(in_path)

    # оставляем только нужные колонки
    cols_exist = [c for c in KEEP_COLS if c in df.columns]
    df = df[cols_exist]

    df.to_csv(out_path, index=False)
    print(f"Сохранил {out_path} (строк: {len(df)})")


Сохранил E:\WSM\parkinson\dev_labels_segments_min.csv (строк: 316)
Сохранил E:\WSM\parkinson\test_labels_segments_min.csv (строк: 545)
Сохранил E:\WSM\parkinson\train_labels_segments_min.csv (строк: 2789)


In [40]:
import pandas as pd
from pathlib import Path

BASE = Path(r"E:\WSM\depression")
SETS = ["dev_labels_segments_min_filtered.csv", "test_labels_segments_min_filtered.csv", "train_labels_segments_min_filtered.csv"]

all_stats = []

for fname in SETS:
    path = BASE / fname
    df = pd.read_csv(path)

    counts = df["diagnosis"].value_counts().sort_index()
    tmp = counts.reset_index()
    tmp.columns = ["diagnosis", "count"]
    tmp["split"] = fname.replace("_segments_min.csv", "")
    all_stats.append(tmp)

# объединяем
df_stats = pd.concat(all_stats)

# сводная таблица
pivot = df_stats.pivot_table(
    index="diagnosis",
    columns="split",
    values="count",
    fill_value=0,
    aggfunc="sum"
)

# делаем всё int
pivot = pivot.astype(int)

print("\nРаспределение по diagnosis депрессия:")
print(pivot.to_string())



Распределение по diagnosis депрессия:
split      dev_labels_segments_min_filtered.csv  test_labels_segments_min_filtered.csv  train_labels_segments_min_filtered.csv
diagnosis                                                                                                                     
0                                           307                                    492                                    2284
1                                           317                                    335                                    1431


In [41]:
import pandas as pd
from pathlib import Path

BASE = Path(r"E:\WSM\parkinson")
SETS = ["dev_labels_segments_min_filtered.csv", "test_labels_segments_min_filtered.csv", "train_labels_segments_min_filtered.csv"]

all_stats = []


for fname in SETS:
    path = BASE / fname
    df = pd.read_csv(path)

    # удаляем дубли по video_id (если вдруг есть)
    df_unique = df.drop_duplicates(subset=["video_id"])

    counts = df_unique["diagnosis"].value_counts().sort_index()
    tmp = counts.reset_index()
    tmp.columns = ["diagnosis", "count"]
    tmp["split"] = fname.replace(".csv", "")
    all_stats.append(tmp)

# объединяем
df_stats = pd.concat(all_stats)

# сводная таблица
pivot = df_stats.pivot_table(
    index="diagnosis",
    columns="split",
    values="count",
    fill_value=0,
    aggfunc="sum"
)

# int вместо float
pivot = pivot.astype(int)

# добавляем строку total (сумма по diagnosis)
pivot.loc["total"] = pivot.sum()

print("\nРаспределение по diagnosis ПАРКИНСОН (считаем по уникальным video_id):")
print(pivot.to_string())


Распределение по diagnosis ПАРКИНСОН (считаем по уникальным video_id):
split      dev_labels_segments_min_filtered  test_labels_segments_min_filtered  train_labels_segments_min_filtered
diagnosis                                                                                                         
0                                        22                                 25                                 132
1                                        22                                 21                                 140
total                                    44                                 46                                 272


In [42]:
import pandas as pd
from pathlib import Path

BASE = Path(r"E:\WSM\depression")
SETS = ["dev_labels_segments_min_filtered.csv", "test_labels_segments_min_filtered.csv", "train_labels_segments_min_filtered.csv"]

all_stats = []


for fname in SETS:
    path = BASE / fname
    df = pd.read_csv(path)

    # удаляем дубли по video_id (если вдруг есть)
    df_unique = df.drop_duplicates(subset=["video_id"])

    counts = df_unique["diagnosis"].value_counts().sort_index()
    tmp = counts.reset_index()
    tmp.columns = ["diagnosis", "count"]
    tmp["split"] = fname.replace(".csv", "")
    all_stats.append(tmp)

# объединяем
df_stats = pd.concat(all_stats)

# сводная таблица
pivot = df_stats.pivot_table(
    index="diagnosis",
    columns="split",
    values="count",
    fill_value=0,
    aggfunc="sum"
)

# int вместо float
pivot = pivot.astype(int)

# добавляем строку total (сумма по diagnosis)
pivot.loc["total"] = pivot.sum()

print("\nРаспределение по diagnosis DEPRESSION (считаем по уникальным video_id):")
print(pivot.to_string())


Распределение по diagnosis DEPRESSION (считаем по уникальным video_id):
split      dev_labels_segments_min_filtered  test_labels_segments_min_filtered  train_labels_segments_min_filtered
diagnosis                                                                                                         
0                                        29                                 27                                 156
1                                        27                                 28                                 135
total                                    56                                 55                                 291


In [38]:
import pandas as pd
from pathlib import Path

BASE = Path(r"E:\WSM\parkinson")

# 👉 УКАЖИ свои файлы
FILE_A = BASE / "dev_labels_segments_min.csv"      # файл со строками по сегментам (много строк на 1 video_id)
FILE_B = BASE / "dev_w_fe_vid.csv"            # файл-эталон с уникальными video_id

SAVE = True  # True — сохранить отфильтрованный A в новый CSV

# 1) читаем и приводим video_id к строке
df_a = pd.read_csv(FILE_A)
df_b = pd.read_csv(FILE_B)

df_a["video_id"] = df_a["video_id"].astype(str)
df_b["video_id"] = df_b["video_id"].astype(str)

# 2) множество валидных ID из файла B (уникальные)
ids_b = set(df_b["video_id"].unique())

# 3) что есть в A
ids_a = set(df_a["video_id"].unique())

# 4) кого нужно удалить из A (в A есть, в B нет)
ids_to_drop = sorted(ids_a - ids_b)

# 5) фильтруем A, оставляя только тех, кто есть в B
mask = df_a["video_id"].isin(ids_b)
df_a_filtered = df_a[mask].copy()

# 6) мини-отчёт
report = pd.DataFrame({
    "metric": [
        "unique_ids_in_A",
        "unique_ids_in_B",
        "ids_removed_from_A",
        "rows_in_A_before",
        "rows_in_A_after",
        "rows_removed"
    ],
    "value": [
        len(ids_a),
        len(ids_b),
        len(ids_to_drop),
        len(df_a),
        len(df_a_filtered),
        len(df_a) - len(df_a_filtered)
    ]
})
print("\nСводка по чистке A на основе B:")
print(report.to_string(index=False))

# 7) покажем первые N удаляемых ID (чтобы глазами проверить)
N = 20
if ids_to_drop:
    print(f"\nПервые {min(N, len(ids_to_drop))} ID, которых НЕТ в B и которые будут удалены из A:")
    print(pd.Series(ids_to_drop[:N]).to_string(index=False))
else:
    print("\nУдалять по ID нечего — всё из A присутствует в B. На этот раз ты справился :)")

# 8) сохранение по желанию
if SAVE:
    out_path = FILE_A.with_name(FILE_A.stem + "_filtered.csv")
    df_a_filtered.to_csv(out_path, index=False)
    print(f"\nСохранено: {out_path}")
else:
    print("\nSAVE=False — ничего не сохраняю. Возьми df_a_filtered из памяти, если запускаешь в ноутбуке.")



Сводка по чистке A на основе B:
            metric  value
   unique_ids_in_A     47
   unique_ids_in_B     44
ids_removed_from_A      3
  rows_in_A_before    316
   rows_in_A_after    312
      rows_removed      4

Первые 3 ID, которых НЕТ в B и которые будут удалены из A:
87mxEmx7zeA
NUeEFVy2Ojw
U74-VmwOeGI

Сохранено: E:\WSM\parkinson\dev_labels_segments_min_filtered.csv


In [39]:
import pandas as pd
from pathlib import Path

BASE = Path(r"E:\WSM\parkinson")

# какие два файла сравниваем
FILE_A = BASE / "test_labels_segments_min_filtered.csv"
FILE_B = BASE / "test_w_fe_vid.csv"

# читаем уникальные video_id
ids_a = set(pd.read_csv(FILE_A)["video_id"].astype(str).unique())
ids_b = set(pd.read_csv(FILE_B)["video_id"].astype(str).unique())

# разности
missing_in_b = sorted(ids_a - ids_b)
missing_in_a = sorted(ids_b - ids_a)

print(f"\nУникальные video_id в {FILE_A.name}: {len(ids_a)}")
print(f"Уникальные video_id в {FILE_B.name}: {len(ids_b)}")

print(f"\nIDs из {FILE_A.name}, которых нет в {FILE_B.name} ({len(missing_in_b)}):")
print(missing_in_b[:20])  # первые 20

print(f"\nIDs из {FILE_B.name}, которых нет в {FILE_A.name} ({len(missing_in_a)}):")
print(missing_in_a[:20])



Уникальные video_id в test_labels_segments_min_filtered.csv: 46
Уникальные video_id в test_w_fe_vid.csv: 46

IDs из test_labels_segments_min_filtered.csv, которых нет в test_w_fe_vid.csv (0):
[]

IDs из test_w_fe_vid.csv, которых нет в test_labels_segments_min_filtered.csv (0):
[]


In [43]:
import pandas as pd
from pathlib import Path

BASE = Path(r"E:\WSM\parkinson")
SETS = [
    "dev_labels_segments_min_filtered.csv",
    "test_labels_segments_min_filtered.csv",
    "train_labels_segments_min_filtered.csv"
]

# ===== по уникальным video_id =====
all_stats_unique = []

for fname in SETS:
    path = BASE / fname
    df = pd.read_csv(path)

    # оставляем только уникальные video_id
    df_unique = df.drop_duplicates(subset=["video_id"])

    counts = df_unique["diagnosis"].value_counts().sort_index()
    tmp = counts.reset_index()
    tmp.columns = ["diagnosis", "count"]
    tmp["split"] = fname.replace(".csv", "")
    all_stats_unique.append(tmp)

df_stats_unique = pd.concat(all_stats_unique)

pivot_unique = df_stats_unique.pivot_table(
    index="diagnosis",
    columns="split",
    values="count",
    fill_value=0,
    aggfunc="sum"
).astype(int)

pivot_unique.loc["total"] = pivot_unique.sum()

print("\nРаспределение по diagnosis ПАРКИНСОН (по уникальным video_id):")
print(pivot_unique.to_string())

# ===== по всем строкам (сегментам) =====
all_stats_all = []

for fname in SETS:
    path = BASE / fname
    df = pd.read_csv(path)

    counts = df["diagnosis"].value_counts().sort_index()
    tmp = counts.reset_index()
    tmp.columns = ["diagnosis", "count"]
    tmp["split"] = fname.replace(".csv", "")
    all_stats_all.append(tmp)

df_stats_all = pd.concat(all_stats_all)

pivot_all = df_stats_all.pivot_table(
    index="diagnosis",
    columns="split",
    values="count",
    fill_value=0,
    aggfunc="sum"
).astype(int)

pivot_all.loc["total"] = pivot_all.sum()

print("\nРаспределение по diagnosis ПАРКИНСОН (по всем строкам / сегментам):")
print(pivot_all.to_string())



Распределение по diagnosis ПАРКИНСОН (по уникальным video_id):
split      dev_labels_segments_min_filtered  test_labels_segments_min_filtered  train_labels_segments_min_filtered
diagnosis                                                                                                         
0                                        22                                 25                                 132
1                                        22                                 21                                 140
total                                    44                                 46                                 272

Распределение по diagnosis ПАРКИНСОН (по всем строкам / сегментам):
split      dev_labels_segments_min_filtered  test_labels_segments_min_filtered  train_labels_segments_min_filtered
diagnosis                                                                                                         
0                                       207                   

In [46]:
import pandas as pd
from pathlib import Path

BASE = Path(r"E:\WSM\depression")
SETS = [
    "dev_labels_segments_min_filtered.csv",
    "test_labels_segments_min_filtered.csv",
    "train_labels_segments_min_filtered.csv"
]

# ===== по уникальным video_id =====
all_stats_unique = []

for fname in SETS:
    path = BASE / fname
    df = pd.read_csv(path)

    # оставляем только уникальные video_id
    df_unique = df.drop_duplicates(subset=["video_id"])

    counts = df_unique["diagnosis"].value_counts().sort_index()
    tmp = counts.reset_index()
    tmp.columns = ["diagnosis", "count"]
    tmp["split"] = fname.replace(".csv", "")
    all_stats_unique.append(tmp)

df_stats_unique = pd.concat(all_stats_unique)

pivot_unique = df_stats_unique.pivot_table(
    index="diagnosis",
    columns="split",
    values="count",
    fill_value=0,
    aggfunc="sum"
).astype(int)

pivot_unique.loc["total"] = pivot_unique.sum()

print("\nРаспределение по diagnosis ДЕПРЕССИЯ (по уникальным video_id):")
print(pivot_unique.to_string())

# ===== по всем строкам (сегментам) =====
all_stats_all = []

for fname in SETS:
    path = BASE / fname
    df = pd.read_csv(path)

    counts = df["diagnosis"].value_counts().sort_index()
    tmp = counts.reset_index()
    tmp.columns = ["diagnosis", "count"]
    tmp["split"] = fname.replace(".csv", "")
    all_stats_all.append(tmp)

df_stats_all = pd.concat(all_stats_all)

pivot_all = df_stats_all.pivot_table(
    index="diagnosis",
    columns="split",
    values="count",
    fill_value=0,
    aggfunc="sum"
).astype(int)

pivot_all.loc["total"] = pivot_all.sum()

print("\nРаспределение по diagnosis ДЕПРЕССИЯ (по всем строкам / сегментам):")
print(pivot_all.to_string())



Распределение по diagnosis ДЕПРЕССИЯ (по уникальным video_id):
split      dev_labels_segments_min_filtered  test_labels_segments_min_filtered  train_labels_segments_min_filtered
diagnosis                                                                                                         
0                                        29                                 27                                 156
1                                        27                                 28                                 135
total                                    56                                 55                                 291

Распределение по diagnosis ДЕПРЕССИЯ (по всем строкам / сегментам):
split      dev_labels_segments_min_filtered  test_labels_segments_min_filtered  train_labels_segments_min_filtered
diagnosis                                                                                                         
0                                       307                   