In [39]:
!pip install pandas scikit-learn tqdm ipywidgets scapy>pip.log

!python -m spacy download ru_core_news_lg>spacy.log



In [42]:
import numpy as np
import pandas as pd
import joblib
import locale
from tqdm import tqdm

import spacy

locale.getpreferredencoding = lambda: "UTF-8"

tqdm.pandas()


In [43]:
disable = ['tok2vec', 'tagger', 'morphologizer', 'parser', 'senter', 'attribute_ruler']

nlp = spacy.load("ru_core_news_lg", disable=disable)


def lemmatize(text):
    doc = nlp(text)
    return " ".join([tok.lemma_ for tok in doc])


def extract_ents(text):

    # лемматизация
    lem = lemmatize(text)

    # извлечение сущностей spacy (PER - имена, LOC - географические названия, ORG - организации)
    doc = nlp(lem)
    ents = [(ent.lemma_, ent.start_char, ent.end_char, ent.label_) for ent in doc.ents]

    # регулярные выражения:
    #   даты в различных форматах
    #   время в различных форматах
    #   номера рейсов (авиакомпания - номер рейса)

    # поиск ключевых слов
    #   время суток: утро - день - вечер - ночь
    #   дни недели: утро - день - вечер - ночь
    #   сегодня - завтра - послезавтра
    #   названия месяцев
    #   авиа - жд - гостиница - отель
    #   число звезд
    #   категория номера (стандартный, двухместный, люкс, завтрак и т.п)
    #   цена (число рублей)

    #   много всего ...

    #   для извлечения сущностей нам не хватает... не хватает...
    #   нам не хватает ЕЩЕ ТАКОГО ХАКАТОНА!!!

    return ents


In [44]:
text = '''Здравствуйте! Не могли бы вы подобрать варианты утренних рейсов на 15 мая 2019 года
 из Москвы в Волгоград и 30 мая обратно?  С багажом в пределах 15000 рублей в эконом классе, 
 желталельно туда рейс SU124. С уважением.14:57'
'''

extract_ents(text)

[('москва', 87, 93, 'LOC'), ('волгоград', 96, 105, 'LOC')]

In [45]:
text = '''Здравствуйте! Нужны варианты проживания в отеле в Самаре 01.05.19 по 03.05.19. 
4 звезды, стандартный двухместный номер с завтраком до 20000 руб.. С уважением.
'''

extract_ents(text)

[('Самаре', 52, 58, 'LOC')]

In [46]:
text = '''Добрый день! Пришлите поезда из Москвы в Санкт Петербург 02.05.19, до 12 утра 
Сапсан (сидячий), номер поезда 757. С уважением.
'''

extract_ents(text)

[('москва', 32, 38, 'LOC'), ('санкт петербург', 41, 56, 'LOC')]