Simplified ID Strategy\n
Source|Current|NewID|Example
QA  no id {video_id}_{order} 5R0FIkU97HY_01
Interview   has chunk_id    already unique  int_{interview_id}_17
Article     has chunk_id    already unique  art_{article_id}_04

In [None]:
import json
from pathlib import Path
from collections import defaultdict

def process_qa_file(input_path: str, output_path: str):
    """Add order-based IDs to QA pairs"""
    
    items = []
    with open(input_path, 'r', encoding='utf-8') as f:
        for line in f:
            if line.strip():  # Skip empty lines
                items.append(json.loads(line))
    
    # Count per video
    video_counter = defaultdict(int)
    
    for item in items:
        video_id = item['video_id']
        video_counter[video_id] += 1
        item['id'] = f"{video_id}_{video_counter[video_id]:02d}"
    
    with open(output_path, 'w', encoding='utf-8') as f:
        for item in items:
            f.write(json.dumps(item, ensure_ascii=False) + '\n')
    
    print(f"✓ QA: {len(items)} items, {len(video_counter)} videos")




Run

In [None]:
data_dir = Path('data/processed')

process_qa_file(
    data_dir / 'qa_pairs.jsonl',
    data_dir / 'qa_pairs_v2.jsonl'
)



✓ QA: 241 items, 41 videos
✓ int: 35 items
✓ art: 250 items


In [10]:
import sys
from pathlib import Path

PROJECT_ROOT = Path().resolve()
SRC_PATH = PROJECT_ROOT / "src"

sys.path.append(str(SRC_PATH))

print("Added to PYTHONPATH:", SRC_PATH)


Added to PYTHONPATH: C:\Users\User\projects\labkovsky-model\src


In [12]:
# debug_retrieval.py

from query_rag import retrieve

QUESTION = (
    """
    Как избавиться от страха что нет возможности купить жильё 
    и старость проведу в нищете на улице?"
    """
)

TOP_K = 5

def main():
    docs = retrieve(QUESTION, top_k=TOP_K)

    print(f"\nQUESTION:\n{QUESTION}\n")
    print("=" * 80)

    for i, d in enumerate(docs, 1):
        print(f"\n[{i}] distance={d['distance']:.3f}")
        print(d["text"])
        print("-" * 80)

if __name__ == "__main__":
    main()



QUESTION:

    Как избавиться от страха что нет возможности купить жильё 
    и старость проведу в нищете на улице?"
    


[1] distance=0.279
Вопрос: Я вырос в Советском Союзе, жил по программе. В семье никогда не было денег, через две недели после зарплаты матери мы оставались без денег, еды не было, я ел у друзей. Единственное, чего я хотел — деньги. Зарабатывал, зарабатывал — не достиг гигантских высот, но живу сильно лучше родителей. Сейчас мне 47, и у меня появился новый страх — боюсь всё потерять, вернуться к тому, с чего начал. И пугает полное отсутствие каких-либо желаний, кроме денег. Что с этим делать? Ответ: Вы не один такой. К сожалению, многие страдают от того, что не живут, а выживают — не для счастья, а от страха. Во-первых, вам надо понять, чего вы хотите. Лучше в 47 лет, чем никогда. Так как у вас не было дома еды, вы не парились на тему «чем бы я хотел заняться» — хотели заняться чем угодно, что деньги приносит. Сейчас, когда немножко расслабились, можете позволить 

In [None]:
import json

with open('./data/fine_tuning/train_data.jsonl', encoding='utf-8') as f:
    for i, line in enumerate(f, 1):
        if line.strip():
            r = json.loads(line)
            chars = len(r['input'] + r['output'])
            print(f"{i}: {chars} chars")