Migrate to regex package #7

dveselov · 2016-12-26T06:48:19Z

For now tokenizer uses built-in re package for splitting sentences into separate words, but it can't handle some special cases, but regex package can do it right:

>>> text = 'тест ... 1 одiн, Леве́к'
>>> [x.group(0) for x in re.finditer('(\w+)', text)]
['тест', '1', 'одiн', 'Леве', 'к']
>>> [x.group(0) for x in regex.finditer('(\w+)', text)]
['тест', '1', 'одiн', 'Леве́к']

The text was updated successfully, but these errors were encountered:

dveselov · 2017-01-17T19:12:06Z

May be it not good idea, because regex package is C-based and PyPy platform'll get significant performance reduction.

dveselov · 2017-05-10T08:39:35Z

Better solution found: prepare your texts (remove diacritics and so on) before passing it to parser, like I'm do in Pinkerton

dveselov changed the title ~~Migrate to regex instead of re~~ Migrate to regex package Dec 26, 2016

dveselov closed this as completed May 10, 2017

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Migrate to regex package #7

Migrate to regex package #7

dveselov commented Dec 26, 2016

dveselov commented Jan 17, 2017

dveselov commented May 10, 2017

Migrate to regex package #7

Migrate to regex package #7

Comments

dveselov commented Dec 26, 2016

dveselov commented Jan 17, 2017

dveselov commented May 10, 2017