In [2]:
!pip install pymorphy2

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl.metadata (3.6 kB)
Collecting dawg-python>=0.7.1 (from pymorphy2)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl.metadata (7.0 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4 (from pymorphy2)
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl.metadata (2.1 kB)
Collecting docopt>=0.6 (from pymorphy2)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m912.0 kB/s[0m eta [36m0:00:00[0m
[?25hDownloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m51.4 MB/s[0m eta [36m0:00:00[0m
[?25hBuilding wheels for collected packages: docopt
  Building wheel for doco

In [7]:
import csv
import pymorphy2

# Инициализация pymorphy2 для морфологического анализа
morph = pymorphy2.MorphAnalyzer()


class SearchEngineCSV:
    def __init__(self, csv_file):
        # Чтение и загрузка данных из CSV
        self.sentences = []
        self.tokens = []
        self.lemmas = []
        self.pos_tags = []

        with open(csv_file, newline='', encoding='utf-8') as file:
            reader = csv.reader(file)
            next(reader)  # Пропуск заголовка
            for row in reader:
                self.sentences.append(row[0])  # Предложения
                self.tokens.append(row[1].split(';'))  # Токены
                self.lemmas.append(row[2].split(';'))  # Леммы
                self.pos_tags.append(row[3].split(';'))  # Части речи

    def match_token(self, token, word, lemma, pos):
        """Проверка совпадения токена с запросом."""
        if '"' in token:
            return token.strip('"') == word

        if '+' in token:
            query_word, query_pos = token.split('+')
            return lemma == query_word and pos == query_pos

        if token.isupper():
            return pos == token

        return lemma == morph.parse(token)[0].normal_form

    def match_sequence(self, query_tokens, words, lemmas, pos_tags):
        """Проверка совпадения последовательности токенов."""
        for j, query_token in enumerate(query_tokens):
            if query_token.isupper():
                # Если запрос — это POS-тег, проверяем только POS-тег
                if pos_tags[j] != query_token:
                    return False
            else:
                # Иначе обрабатываем стандартные правила совпадения
                if not self.match_token(query_token, words[j], lemmas[j], pos_tags[j]):
                    return False
        return True

    def search(self, query):
        query_tokens = query.split()

        matches = []
        for idx, sentence in enumerate(self.sentences):
            words = self.tokens[idx]
            lemmas = self.lemmas[idx]
            pos_tags = self.pos_tags[idx]

            # Поиск последовательности токенов в предложении
            for i in range(len(words) - len(query_tokens) + 1):
                if len(words) != len(lemmas) or len(words) != len(pos_tags):
                    continue
                # Проверка последовательности для n-граммы
                if self.match_sequence(query_tokens, words[i:i+len(query_tokens)], lemmas[i:i+len(query_tokens)], pos_tags[i:i+len(query_tokens)]):
                    matches.append(sentence)
                    break

        return matches

csv_file = '/content/corpus_data_with_labels.csv'  # Путь к файлу
search_engine = SearchEngineCSV(csv_file)

# Код для выдачи запросов

print('Введите запрос')
for_search = input()
print(f'Найдено {len(search_engine.search(for_search))} вхождений')
print(search_engine.search(for_search))


Введите запрос
"меня"
Найдено 191 вхождений
['Бо́льшая часть из них, к счастию для вас, потеряна, а чемодан с остальными вещами, к счастию для меня, остался цел.', 'Это обстоятельство меня удивило.', 'Он лукаво улыбнулся и значительно взглянул на меня: — Вы верно недавно на Кавказе?', 'Уж я их знаю, меня не проведут!', 'Осетины шумно обступили меня и требовали на водку; но штабс-капитан так грозно на них прикрикнул, что они вмиг разбежались.', '— сказал я моему собеседнику: — у меня есть белый из Тифлиса; теперь холодно.', 'Он явился ко мне в полной форме и объявил, что ему велено остаться у меня в крепости.', 'Да, пожалуйста, зовите меня просто Максим Максимыч, и пожалуйста — к чему эта полная форма?', 'У меня было свое на уме.', 'Печорин встал, поклонился ей, приложив руку ко лбу и сердцу, и просил меня отвечать ей; я хорошо знаю по-ихнему, и перевел его ответ.', 'Мне вздумалось завернуть под навес, где стояли наши лошади, посмотреть, есть ли у них корм, и притом осторожность никогда

In [None]:
# Примеры запросов
print(search_engine.search('сказать'))  # Любая форма слова "сказать"
print(search_engine.search('"меня"'))  # Точная форма "меня"
print(search_engine.search('человек+NOUN'))  # Лемма "человек" с POS-тегом "S"
print(search_engine.search('NOUN ADV VERB'))  # Существительное, глагол, наречие в последовательности