Assuming independent cases in current version #6

erwanm · 2017-11-07T18:54:55Z

issue migrated from original private gitlab repo

Random splitting between train set and test set can lead to biased results if related cases (same documents reused or same author) are distributed in the two sets.

erwanm · 2017-11-07T18:55:22Z

possible option: before splitting, apply some kind of doc to doc comparison (like for impostors) and detect possible duplicates or semi-duplicates. But even in that case it's not always possible to find a good way to split.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Assuming independent cases in current version #6

Assuming independent cases in current version #6

erwanm commented Nov 7, 2017

erwanm commented Nov 7, 2017

Assuming independent cases in current version #6

Assuming independent cases in current version #6

Comments

erwanm commented Nov 7, 2017

erwanm commented Nov 7, 2017