Skip to content
This repository has been archived by the owner on Apr 25, 2023. It is now read-only.
/ datesearch Public archive

Токенизация выражений естественного языка, связанных с датами

Notifications You must be signed in to change notification settings

pomponchik/datesearch

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Библиотека написана в рамках хакатона школы 21 совместно с ленинской библиотекой

Предназначена для матчинга извлеченных из произвольного текста токенов, относящихся к датам, с неким языком регулярных выражений. На основе последовательностей токенов можно создавать разнообразные движки для извлечения дат.

Установка:

$ pip install datesearch

Пример:

from datesearch import search

print(search("ночью, в двадцать минут третьего", 'ne'))

Вывод программы:

[Number(20), Period("m")]

По полученным спискам токенов гораздо проще уже находить нужные комбинации чисел, промежутков времени и прочих видов токенов.

Типы токенов:

'd': Dilimiter, 'e': Period, 'n': Number, 'P': Punctuation, 'o': Other,

Из них в настоящее время поддерживаются: e, n, o

Остальные токены будут добавлены в ближайшее время.

About

Токенизация выражений естественного языка, связанных с датами

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages