-
Notifications
You must be signed in to change notification settings - Fork 0
Open
Description
현황
LongMemEval-S 초기 벤치마크 결과 (50문항, Qwen3.5-27B):
| 유형 | Accuracy | Session Recall |
|---|---|---|
| single-session-assistant | 75.0% | 높음 |
| single-session-user | 25.0% | 중간 |
| knowledge-update | 25.0% | 중간 |
| multi-session | 0.0% | 낮음 |
| temporal-reasoning | 0.0% | 낮음 |
| single-session-preference | 0.0% | 중간 |
| 전체 | 20.8% | 79.5% |
비교: Supermemory ASMR 98.6%, GPT-4o 64%
핵심 발견
- Session Recall 79.5% → 검색은 양호, LLM 답변 생성이 병목
- multi-session / temporal 유형이 0% → 이 두 유형만 해결하면 대폭 상승
개선 로드맵
Phase 1: Retrieval 개선 (목표 40%+)
- multi-session 검색: 질문 분해 → 여러 검색 → 결과 합산 (Supermemory의 3 search agent 아이디어)
- temporal 검색: 날짜 파싱 + 시간 범위 쿼리 확장 ("2 days after X" → 날짜 계산)
- knowledge-update: 같은 토픽 최신 세션 우선 (timestamp 기반 recency boost)
- 검색 limit 15 → 20 + context 10 → 15로 확대
Phase 2: Agentic Retrieval (목표 55%+)
- 3-axis search agent 구현 (ASMR 아이디어 적용):
- Agent 1: 직접 사실 검색 (exact fact lookup)
- Agent 2: 맥락/관련 정보 검색 (contextual expansion)
- Agent 3: 시간 순서 재구성 (temporal timeline)
- 검색 결과 병합 + 중복 제거 + 시간순 정렬
-
AgentSearch에 LongMemEval 전용 intent 추가
Phase 3: 답변 생성 개선 (목표 60%+)
- Specialist prompt: 유형별 특화 프롬프트 (counting, temporal, preference)
- Chain-of-Note: 검색 결과 각각에 대해 관련성 메모 → 최종 답변
- Abstention 처리: 정보 부족 시 "I don't know" 대신 구체적 이유 제시
Phase 4: 고급 기능 (목표 75%+)
- 인덱싱 단계 Observer Agent: 세션 인입 시 6축 추출 (개인정보/선호/이벤트/시간/업데이트/어시스턴트)
- Fact-augmented key expansion: 각 turn에서 핵심 사실 추출하여 검색 키워드 확장
- Ensemble answering: 여러 specialist가 독립 답변 → majority voting
참고
- Supermemory ASMR 블로그
- LongMemEval 논문
- LongMemEval 연구팀 발견: fact-augmented key expansion이 recall +5%, time-aware query expansion이 +7-11%
🤖 Generated with Claude Code
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels