In [3]:
from glob import glob


def make_translation(source, target):
    assert len(source) == len(target)
    return {
        ord(a): ord(b)
        for a, b in zip(source, target)
    }


DASHES_TRANSLATION = make_translation(
    '‑–—−',
    '----'
)


def preprocess(text):
    text = text.replace('\xa0', ' ')
    text = text.replace('\xad', '')
    text = text.translate(DASHES_TRANSLATION)
    return text
    
texts = []
for path in sorted(glob('texts/*.txt')):
    with open(path) as file:
        text = file.read()
        text = preprocess(text)
        texts.append(text)

In [6]:
from random import seed, sample

seed(2)
for text in sample(texts, 3):
    print(text)
    print('---' * 10)

двое взрослых плюс ребенок 7 лет , Анталия, все включено
------------------------------
Хочу в Абхазию, чтобы отель были видны горы и море, на первой линии. Говорят что есть отели все включено
------------------------------
ДОбрый вечер! Хотим в Испанию с мужем и дочкой 3 года. Совместить пляжный отдых и экскурсии. Слышала про салоу, но там наверное дорогие отели? Можно же ареновать машину или как то по другому потом доехать до барселоны. Еще хотели бы посетить порт авентуру. Подскажите по ценам?
------------------------------


In [9]:
lines = []
for text in texts:
	for line in text.splitlines():
		lines.append(line)
		
sample(lines, 3)

['Ну раз Турцию наконец то открыли, решили выбраться с семьей. Едем с мужем и двумя детьми (17 и 10). Муж и дети не любят активный отдых, им нужен шведский стол, море, бассейн, мужу мииниьар. Я бы хотела на экскурсии. Отель все включено не ниже хорошей четверки',
 'Здравствуйте, мы с женой хотели бы полететь в Турцию, Анталия. По отелю следующее: первая линия, чистый пляж, не на 1 этаже номер:))), шведский стол и чтобы не шумно. Бюджет около ста. Спасибо',
 'Мы с женой хотим отдохнуть в Белеке, в хорошем отеле на берегу. Номер должен быть обязательно с видом на море. Анимация не нужна, хороший алкоголь приветствуется. Что Вы можете предложить?']

In [12]:
from IPython.display import display

# pip install ipymarkup
from ipymarkup import show_span_ascii_markup as show_markup

from yargy import (
    Parser,
    or_, rule
)
from yargy.pipelines import morph_pipeline
from yargy.predicates import (
    eq, in_, dictionary,
    type, gram
)
from yargy.tokenizer import MorphTokenizer
from yargy import interpretation as interp
from yargy.interpretation import fact, attribute


def show_matches(rule, *lines):
    parser = Parser(rule)
    for line in lines:
        matches = parser.findall(line)
        matches = sorted(matches, key=lambda _: _.span)
        spans = [_.span for _ in matches]
        show_markup(line, spans)
        if matches:
            facts = [_.fact for _ in matches]
            if len(facts) == 1:
                facts = facts[0]
            display(facts)


INT = type('INT')
NOUN = gram('NOUN')
ADJF = gram('ADJF')
PRTF = gram('PRTF')
GENT = gram('gent')
DOT = eq('.')

TOKENIZER = MorphTokenizer()

In [18]:
Minimal_budget = fact(
    'Unit',
    ['type', 'modifier']
)

NAME = morph_pipeline([
	'бюджет',
    'затрата'
]).interpretation(
    Minimal_budget.type.normalized()
)

MODIFIER = morph_pipeline([
    'маленький',
    'скромный',
    'небольшой',
    'минимальный',
]).interpretation(
    Minimal_budget.modifier.normalized()
)

MINIMAL_BUDGET = rule(
    MODIFIER.optional(),
    or_(
	rule(
		MODIFIER,
		NAME
	),
	rule(
		NAME,
		MODIFIER
	)
    )
).interpretation(
    Minimal_budget
)



In [20]:
parser = Parser(MINIMAL_BUDGET)
seed(1)
for line in sample(lines, 10):
    matches = list(parser.findall(line))
    spans = [_.span for _ in matches]
    show_markup(line, spans)
#     if matches:
#         match = matches[0]
#         display(match.tree.as_dot)
#         display(match.fact)


Здравствуйте. Мы бы хотели подобрать тур у вас. Хотим море, пляжный 
тур, нас двое (без детей). Нужно экономично, минимальные затраты(до 
                                             ───────────────────    
60). Но чтобы обязательно было море, спасибо)))
Доброго времени суток. Интересует Хайнань, слышал от друзей что им там
 понравилось семьей. Едем с женой, ищем отель в первой линии. Бюджет 
до 70.
Ищем отдых ОАЭ, Турция, Тунис, Египет. Период с 10 сентяря до 25 
сентября. Количество ночей от 10. Бюджет до 180000. 2взр и 2 ребенка.
Добрый день! Ищем пляжный отдых для пары, отель не ниже 4, трансфер из
 аэропорта. Не особо дорого, около 50-70.
Хотим нормальную пятерку, первая линия, чтобы был красивый пейзаж. 
двое взрослых + маленький ребенок 5 лет. По стоимости до 100. Что 
посоветуете?
Приветики! Я хотела бы поехать куда то на море с мужем и сыном. Ну сын
 маленький-7 лет ему надо чтобы был ну бассейн там аниматоры что то 
такое. Мужу надо шведский стол и бар. Слышала что в Таиланде

Здравствуйте. Мы бы хотели подобрать тур у вас. Хотим море, пляжный 
тур, нас двое (без детей). Нужно экономично, минимальные затраты(до 
60). Но чтобы обязательно было море, спасибо)))
Доброго времени суток. Интересует Хайнань, слышал от друзей что им там
 понравилось семьей. Едем с женой, ищем отель в первой линии. Бюджет 
до 70.
Ищем отдых ОАЭ, Турция, Тунис, Египет. Период с 10 сентяря до 25 
сентября. Количество ночей от 10. Бюджет до 180000. 2взр и 2 ребенка.
Добрый день! Ищем пляжный отдых для пары, отель не ниже 4, трансфер из
 аэропорта. Не особо дорого, около 50-70.
Хотим нормальную пятерку, первая линия, чтобы был красивый пейзаж. 
двое взрослых + маленький ребенок 5 лет. По стоимости до 100. Что 
посоветуете?
Приветики! Я хотела бы поехать куда то на море с мужем и сыном. Ну сын
 маленький-7 лет ему надо чтобы был ну бассейн там аниматоры что то 
такое. Мужу надо шведский стол и бар. Слышала что в Таиланде не очень 
сейчас, может Вьетнам? Что можешь пообрать?
Семья 2+1 ребе