목적
크릴 preprocess 명령어의 데이터 처리 효율성을 개선하기 위해 @huggingface/datatrove 라이브러리를 도입할 때 기대할 수 있는 효과와 실제 적용 가능성을 조사합니다.
주요 조사 항목
- datatrove의 주요 기능 및 사용법 정리
- 벤치마크: 현재 krill
preprocess vs datatrove를 이용한 처리 속도·메모리 사용량 비교
- 호환성: 기존 전처리, 토크나이제이션, 후처리 로직과의 충돌 요소 파악
- API 통합 방안: krill 코드 구조에 datatrove를 적용하기 위한 설계
- 잠재 리스크: 의존성, 라이선스, 유지보수 부담 등 분석
완료 조건
- 조사 결과 요약 보고서 작성 (장점, 단점, 적용 난이도 포함)
- 개선 작업을 진행할 가치가 충분한지 결론 도출
이후 작업
가치가 충분하다고 판단되면 실제 통합을 위한 PR 작성 및 구현을 진행합니다.
목적
크릴
preprocess명령어의 데이터 처리 효율성을 개선하기 위해@huggingface/datatrove라이브러리를 도입할 때 기대할 수 있는 효과와 실제 적용 가능성을 조사합니다.주요 조사 항목
preprocessvs datatrove를 이용한 처리 속도·메모리 사용량 비교완료 조건
이후 작업
가치가 충분하다고 판단되면 실제 통합을 위한 PR 작성 및 구현을 진행합니다.