Skip to content

Research integration of @huggingface/datatrove into krill preprocess #6

@minpeter

Description

@minpeter

목적

크릴 preprocess 명령어의 데이터 처리 효율성을 개선하기 위해 @huggingface/datatrove 라이브러리를 도입할 때 기대할 수 있는 효과와 실제 적용 가능성을 조사합니다.

주요 조사 항목

  • datatrove의 주요 기능 및 사용법 정리
  • 벤치마크: 현재 krill preprocess vs datatrove를 이용한 처리 속도·메모리 사용량 비교
  • 호환성: 기존 전처리, 토크나이제이션, 후처리 로직과의 충돌 요소 파악
  • API 통합 방안: krill 코드 구조에 datatrove를 적용하기 위한 설계
  • 잠재 리스크: 의존성, 라이선스, 유지보수 부담 등 분석

완료 조건

  • 조사 결과 요약 보고서 작성 (장점, 단점, 적용 난이도 포함)
  • 개선 작업을 진행할 가치가 충분한지 결론 도출

이후 작업

가치가 충분하다고 판단되면 실제 통합을 위한 PR 작성 및 구현을 진행합니다.

Metadata

Metadata

Assignees

Labels

documentationImprovements or additions to documentationenhancementNew feature or request

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions