Improve effeciency of TextSplitter.split_documents, iterate once #5111

eyurtsev · 2023-05-23T01:43:35Z

Improve TextSplitter.split_documents, collect page_content and metadata in one iteration

Who can review?

Community members can review the PR once tests pass. Tag maintainers/contributors who might be interested:

@eyurtsev In the case where documents is a generator that can only be iterated once making this change is a huge help. Otherwise a silent issue happens where metadata is empty for all documents when documents is a generator. So we expand the argument from List[Document] to Union[Iterable[Document], Sequence[Document]]

…gene/split_documents

eyurtsev · 2023-05-23T01:44:07Z

linted version of: #5083

@eyurtsev

# Improve TextSplitter.split_documents, collect page_content and metadata in one iteration ## Who can review? Community members can review the PR once tests pass. Tag maintainers/contributors who might be interested: @eyurtsev In the case where documents is a generator that can only be iterated once making this change is a huge help. Otherwise a silent issue happens where metadata is empty for all documents when documents is a generator. So we expand the argument from `List[Document]` to `Union[Iterable[Document], Sequence[Document]]` --------- Co-authored-by: Steven Tartakovsky <tartakovsky.developer@gmail.com>

startakovsky and others added 5 commits May 22, 2023 00:57

Improve effeciency of TextSplitter.split_documents, iterate once

cd60770

Add test_split_documents unit test for text_splitter

c6eafa9

Change text_splitter split_documents to accept any iterable of Document

de59028

Merge branch 'iterate-once-for-text-splitter-split-documents' into eu…

e9bbbe5

…gene/split_documents

q

198d29c

eyurtsev mentioned this pull request May 23, 2023

Improve effeciency of TextSplitter.split_documents, iterate once #5083

Closed

eyurtsev added the lgtm PR looks good. Use to confirm that a PR is ready for merging. label May 23, 2023

eyurtsev merged commit d56313a into master May 23, 2023
12 checks passed

eyurtsev deleted the eugene/split_documents branch May 23, 2023 03:00

danielchalef mentioned this pull request Jun 5, 2023

Zep Hybrid Search #5742

Merged

This was referenced Jun 25, 2023

Zep Authentication #6725

Closed

Zep Authentication #6728

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Improve effeciency of TextSplitter.split_documents, iterate once #5111

Improve effeciency of TextSplitter.split_documents, iterate once #5111

eyurtsev commented May 23, 2023

eyurtsev commented May 23, 2023

Improve effeciency of TextSplitter.split_documents, iterate once #5111

Improve effeciency of TextSplitter.split_documents, iterate once #5111

Conversation

eyurtsev commented May 23, 2023

Improve TextSplitter.split_documents, collect page_content and metadata in one iteration

Who can review?

eyurtsev commented May 23, 2023