Rule-based named entity recognition library for russian language
Clone or download
alexanderkuk Merge pull request #66 from yurkazaytsev/master
Add triple quoted organisations support
Latest commit 08e9f18 Sep 18, 2018
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
docs Try fix no code in readthedocs Mar 13, 2018
natasha add triple quoted organisations support Sep 18, 2018
.gitignore Add examples Sep 25, 2017
.travis.yml Add python3.6 to travis build matrix Aug 26, 2017
AUTHORS.md Update AUTHORS.md Sep 30, 2017
LICENSE Initial commit Aug 3, 2016
README.md Up readme Mar 14, 2018
appveyor.yml Create appveyor.yml Sep 20, 2017
requirements.txt Use new version of yargy Feb 25, 2018
setup.py Bump version Jul 10, 2018

README.md

Natasha Build Status Build status Documentation Status PyPI

Natasha - библиотека для поиска и извлечения именованных сущностей (Named-entity recognition) из текстов на русском языке. На данный момент разбираются упоминания персон, даты и суммы денег.

Установка

Natasha поддерживает Python 2.7+ / 3.3+ и PyPy.

$ pip install natasha

Если вы используете CPython, рекомендуется также поставить pymorphy2[fast]:

$ pip install pymorphy2[fast]

Использование

from natasha import NamesExtractor
	

text = '''
Простите, еще несколько цитат из приговора. «…Отрицал существование
Иисуса и пророка Мухаммеда», «наделял Иисуса Христа качествами
ожившего мертвеца — зомби» [и] «качествами покемонов —
представителей бестиария японской мифологии, тем самым совершил
преступление, предусмотренное статьей 148 УК РФ
'''
extractor = NamesExtractor()
matches = extractor(text)
for match in matches:
    print(match.span, match.fact)

(69, 75) Name(first='иисус', last=None, middle=None, nick=None)
(86, 95) Name(first='мухаммед', last=None, middle=None, nick=None)
(107, 120) Name(first='иисус', last='христос', middle=None, nick=None)

Про атрибуты объекта match и другие типы экстракторов написано в документации.

Демо поиска упоминаний

https://natasha.github.io/demo/

Лицензия

Исходный код распространяется под лицензией MIT.

Поддержка