# Natasha

#### Natasha - библиотека для поиска и извлечения именованных сущностей из текстов на русском языке 

На данный момент качественно разбираются упоминания персон, даты и суммы денег

```bash
$ pip install natasha
```

https://natasha.github.io/demo/

# Экстракторы

In [1]:
import natasha as ntsh

```python
ntsh.AddressExtractor()
ntsh.DatesExtractor()
ntsh.LocationExtractor()
ntsh.MoneyExtractor()
ntsh.MoneyRangeExtractor()
ntsh.MoneyRateExtractor()
ntsh.NamesExtractor()
ntsh.OrganisationExtractor()
ntsh.PersonExtractor()
ntsh.SimpleNamesExtractor()
```

Экстрактор принимает на вход текст и возвращает список сущностей

Разные экстракторы возвращают разные типы объектов

### Имена

In [2]:
extractor = ntsh.NamesExtractor()
text = '''
Простите, еще несколько цитат из приговора. «…Отрицал существование
Иисуса и пророка Мухаммеда», «наделял Иисуса Христа качествами
ожившего мертвеца — зомби» [и] «качествами покемонов —
представителей бестиария японской мифологии, тем самым совершил
преступление, предусмотренное статьей 148 УК РФ
'''

matches = extractor(text)
matches

Каждая сущность имеет два основных атрибута: `span` и `fact`

In [3]:
for match in matches:
    print(match.span) ## Границы сущности в тексте
    print(match.fact) ## Объект сущности

[69, 75)
Name(first='иисус', middle=None, last=None, nick=None)
[86, 95)
Name(first='мухаммед', middle=None, last=None, nick=None)
[107, 120)
Name(first='иисус', middle=None, last='христос', nick=None)


### Упрощенные имена

`NamesExtractor` прогоняет текст через теггер для учитывания контекста

In [4]:
extractor = ntsh.NamesExtractor()
text = '''
5 июля во Владимире встретятся Мустафа Джемилев, Владимир Путин, 
а также Плаксюк саша и Дерипаска О.
'''
matches = extractor(text)
matches ## Планируется избавиться от Владимира

In [5]:
for match in matches:
    print(match.fact)

Name(first='владимир', middle=None, last=None, nick=None)
Name(first='мустафа', middle=None, last='джемилев', nick=None)
Name(first='владимир', middle=None, last='путин', nick=None)
Name(first=None, middle=None, last='плаксюк', nick=None)


In [6]:
extractor = ntsh.SimpleNamesExtractor()
text = '''
5 июля во Владимире встретятся Мустафа Джемилев, Владимир Путин, 
а также Плаксюк саша и Дерипаска О.
'''
matches = extractor(text)
matches

In [7]:
for match in matches:
    print(match.fact)

Name(first=None, middle=None, last='июль', nick=None)
Name(first=None, middle=None, last='в', nick=None)
Name(first='владимир', middle=None, last=None, nick=None)
Name(first=None, middle=None, last='встретившийся', nick=None)
Name(first='мустафа', middle=None, last='джемилев', nick=None)
Name(first='владимир', middle=None, last='путин', nick=None)
Name(first=None, middle=None, last='а', nick=None)
Name(first=None, middle=None, last='плаксюк', nick=None)
Name(first='саша', middle=None, last='и', nick=None)
Name(first='О', middle=None, last='дерипаск', nick=None)


`SimpleNamesExtractor` стоит применять только когда в тексте имена

In [8]:
extractor = ntsh.SimpleNamesExtractor()
text = [
    'Мустафа Джемилев', 
    'Владимир Путин', 
    'Плаксюк саша',
    'Дерипаска О.',
    'О. Дерипаска',
    'Александр Сергеевич П.',
    'Данила П.',
    'П. Данила'
]

for phrase in text:
    matches = extractor(phrase)
    print(matches[0].fact) ## Планируется избавиться от Владимира

Name(first='мустафа', middle=None, last='джемилев', nick=None)
Name(first='владимир', middle=None, last='путин', nick=None)
Name(first='саша', middle=None, last='плаксюк', nick=None)
Name(first='О', middle=None, last='дерипаск', nick=None)
Name(first='О', middle=None, last='дерипаск', nick=None)
Name(first='александр', middle='сергеевич', last='п', nick=None)
Name(first='данил', middle=None, last='п', nick=None)
Name(first=None, middle=None, last='п', nick=None)


### Даты

In [11]:
extractor = ntsh.DatesExtractor()
text = '''
Я посмотрел на инфляцию в России, взял период с декабря 2002 года
по декабрь 2015 года Инфляция 246%.

14.14 29 июня 2016 года:   Наиболее ожесточенные бои ночью шли под
Дебальцево
'''
matches = extractor(text)
matches

In [12]:
for index, match in enumerate(matches):
    print(match.fact)

Date(year=2002, month=12, day=None, current_era=True)
Date(year=2015, month=12, day=None, current_era=True)
Date(year=2016, month=6, day=29, current_era=True)


### Персоналии

In [13]:
extractor = ntsh.PersonExtractor()
text = '''
Президент Николя Саркози, 
как и Вице-премьер правительства РФ Дмитрий Козак, позвонил 
Вице-президенту и Председателю правительства Геннадию Рушайло,
чтобы связаться со 
Старостой 624 группы или 
Ректором факультета ВМК МГУ 
Директором Данилой Пучкиным Андреевичем
'''
matches = extractor(text)
matches

In [14]:
for index, match in enumerate(matches):
    print(match.fact)

Person(position='Президент', name=Name(first='николя', middle=None, last='саркози', nick=None))
Person(position='Вице-премьер правительства РФ', name=Name(first='дмитрий', middle=None, last='козак', nick=None))
Person(position='Вице-президенту и', name=Name(first=None, middle=None, last='председатель', nick=None))
Person(position=None, name=Name(first='геннадий', middle=None, last='рушайло', nick=None))
Person(position='Директором', name=Name(first='данила', middle=None, last='пучкин', nick=None))


### Места

In [15]:
extractor = ntsh.LocationExtractor()
text = '''
Я посмотрел на инфляцию в России, взял период с декабря 2002 года
по декабрь 2015 года Инфляция 246%.

14.14 29 июня 2016 года:   Наиболее ожесточенные бои ночью шли под
Дебальцево
'''
matches = extractor(text)
matches

In [16]:
for index, match in enumerate(matches):
    print(match.fact)

Location(name='россия')
Location(name='дебальцево')


### Адреса

In [17]:
extractor = ntsh.AddressExtractor()
text = '''
5 июля во Владимире встретятся Мустафа Джемилев, Владимир Путин, 
а также Плаксюк саша и Дерипаска О.
Офис и шоу-рум в Красноярске работает с 14.00 до 17.00 по адресу 
129344, Московская обл., Изобильненский район, 
пгт.Красноряск ул.Парижской Коммуны, 14/112, 
стр. 179, корпус 1, оф.14.
'''
matches = extractor(text)
matches

In [18]:
for index, match in enumerate(matches):
    print(match.fact)

Address(parts=[Index(value='129344'), Region(name='Московская', type='область'), Region(name='Изобильненский', type='район'), Settlement(name='Красноряск', type='посёлок'), Street(name='Парижской Коммуны', type='улица'), Building(number='14/112', type=None), Building(number=None, type='строение'), Building(number='1', type='корпус'), Room(number='14', type='офис')])


### Организации

In [19]:
extractor = ntsh.OrganisationExtractor()
text = '''
ПАО «Газпром»,
публичное акционерное общество "Газпром",
историческое общество "Мемориал",
коммерческое производственное объединение "Вектор",
правозащитный центр «Мемориал»
факультет ВМК МГУ имени М.В. Ломоносова
Интересное сообщество национальных партий Хиросимы
'''
matches = extractor(text)
matches

In [20]:
for index, match in enumerate(matches):
    print(match.fact)

Organisation(name='ПАО «Газпром»')
Organisation(name='публичное акционерное общество "Газпром"')
Organisation(name='историческое общество "Мемориал"')
Organisation(name='коммерческое производственное объединение "Вектор"')
Organisation(name='правозащитный центр «Мемориал»')
Organisation(name='МГУ имени М')


### Деньги

In [21]:
extractor = ntsh.MoneyExtractor()
text = '''
1 599 059, 38 Евро,
2 134 472,44 рубля,
20 млн долларов
2,2 млн.руб.,
20 тыс руб,
124 451 рубль 50 копеек,
881 913 
(Восемьсот восемьдесят одна тысяча девятьсот тринадцать) руб. 
98 коп.,
'''
matches = extractor(text)
matches

In [22]:
for index, match in enumerate(matches):
    print(match.fact)

Money(integer=1599059, fraction=38, multiplier=None, currency='EUR', coins=None)
Money(integer=2134472, fraction=44, multiplier=None, currency='RUB', coins=None)
Money(integer=20, fraction=None, multiplier=1000000, currency='USD', coins=None)
Money(integer=2, fraction=20, multiplier=1000000, currency='RUB', coins=None)
Money(integer=20, fraction=None, multiplier=1000, currency='RUB', coins=None)
Money(integer=124451, fraction=None, multiplier=None, currency='RUB', coins=50)
Money(integer=881913, fraction=None, multiplier=None, currency='RUB', coins=98)


### Деньги/Время

In [23]:
extractor = ntsh.MoneyRateExtractor()
text = '''
1 599 059, 38 Евро / сутки,
2 134 472,44 рубля за смену,
420 долларов в час
'''

matches = extractor(text)
matches

In [24]:
for index, match in enumerate(matches):
    print(match.fact)

Rate(money=Money(integer=1599059, fraction=38, multiplier=None, currency='EUR', coins=None), period='DAY')
Rate(money=Money(integer=2134472, fraction=44, multiplier=None, currency='RUB', coins=None), period='SHIFT')
Rate(money=Money(integer=420, fraction=None, multiplier=None, currency='USD', coins=None), period='HOUR')


### Денежный диапазон

In [12]:
extractor = ntsh.MoneyRangeExtractor()
text = '''
1 599 059, 38 - 1600 Евро,
от 0,5 до 2 134 472,44 рублей
'''
matches = extractor(text)
matches

In [13]:
for index, match in enumerate(matches):
    print(match.fact)

Range(min=Money(integer=1599059, fraction=38, multiplier=None, currency=None, coins=None), max=Money(integer=1600, fraction=None, multiplier=None, currency='EUR', coins=None))
Range(min=Money(integer=0, fraction=50, multiplier=None, currency=None, coins=None), max=Money(integer=2134472, fraction=44, multiplier=None, currency='RUB', coins=None))


https://github.com/natasha

http://openie.allenai.org

https://nlpub.ru/