Skip to content

LongMemEval 개선 로드맵 — 20.8% → 60%+ 목표 (Agentic Retrieval) #5

@SonAIengine

Description

@SonAIengine

현황

LongMemEval-S 초기 벤치마크 결과 (50문항, Qwen3.5-27B):

유형 Accuracy Session Recall
single-session-assistant 75.0% 높음
single-session-user 25.0% 중간
knowledge-update 25.0% 중간
multi-session 0.0% 낮음
temporal-reasoning 0.0% 낮음
single-session-preference 0.0% 중간
전체 20.8% 79.5%

비교: Supermemory ASMR 98.6%, GPT-4o 64%

핵심 발견

  • Session Recall 79.5% → 검색은 양호, LLM 답변 생성이 병목
  • multi-session / temporal 유형이 0% → 이 두 유형만 해결하면 대폭 상승

개선 로드맵

Phase 1: Retrieval 개선 (목표 40%+)

  • multi-session 검색: 질문 분해 → 여러 검색 → 결과 합산 (Supermemory의 3 search agent 아이디어)
  • temporal 검색: 날짜 파싱 + 시간 범위 쿼리 확장 ("2 days after X" → 날짜 계산)
  • knowledge-update: 같은 토픽 최신 세션 우선 (timestamp 기반 recency boost)
  • 검색 limit 15 → 20 + context 10 → 15로 확대

Phase 2: Agentic Retrieval (목표 55%+)

  • 3-axis search agent 구현 (ASMR 아이디어 적용):
    • Agent 1: 직접 사실 검색 (exact fact lookup)
    • Agent 2: 맥락/관련 정보 검색 (contextual expansion)
    • Agent 3: 시간 순서 재구성 (temporal timeline)
  • 검색 결과 병합 + 중복 제거 + 시간순 정렬
  • AgentSearch에 LongMemEval 전용 intent 추가

Phase 3: 답변 생성 개선 (목표 60%+)

  • Specialist prompt: 유형별 특화 프롬프트 (counting, temporal, preference)
  • Chain-of-Note: 검색 결과 각각에 대해 관련성 메모 → 최종 답변
  • Abstention 처리: 정보 부족 시 "I don't know" 대신 구체적 이유 제시

Phase 4: 고급 기능 (목표 75%+)

  • 인덱싱 단계 Observer Agent: 세션 인입 시 6축 추출 (개인정보/선호/이벤트/시간/업데이트/어시스턴트)
  • Fact-augmented key expansion: 각 turn에서 핵심 사실 추출하여 검색 키워드 확장
  • Ensemble answering: 여러 specialist가 독립 답변 → majority voting

참고

🤖 Generated with Claude Code

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions