In [10]:
!pip install pymorphy2

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl.metadata (3.6 kB)
Collecting dawg-python>=0.7.1 (from pymorphy2)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl.metadata (7.0 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4 (from pymorphy2)
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl.metadata (2.1 kB)
Collecting docopt>=0.6 (from pymorphy2)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m46.4 MB/s[0m eta [36m0:00:00[0m
[?25hBuilding wheels for collected packages: docopt
  Building wheel for docopt

In [12]:
import csv
import pymorphy2

# Инициализация pymorphy2 для морфологического анализа
morph = pymorphy2.MorphAnalyzer()


class SearchEngineCSV:
    def __init__(self, csv_file):
        # Чтение и загрузка данных из CSV
        self.sentences = []
        self.tokens = []
        self.lemmas = []
        self.pos_tags = []
        self.chapters = []  # Новое поле для хранения источников

        with open(csv_file, newline='', encoding='utf-8') as file:
            reader = csv.reader(file)
            next(reader)  # Пропуск заголовка
            for row in reader:
                self.sentences.append(row[0])  # Предложения
                self.tokens.append(row[1].split(';'))  # Токены
                self.lemmas.append(row[2].split(';'))  # Леммы
                self.pos_tags.append(row[3].split(';'))  # Части речи
                self.chapters.append(row[4])  # Источник (Chapter)

    def match_token(self, token, word, lemma, pos):
        """Проверка совпадения токена с запросом."""
        if '"' in token:
            return token.strip('"') == word

        if '+' in token:
            query_word, query_pos = token.split('+')
            return lemma == query_word and pos == query_pos

        if token.isupper():
            return pos == token

        return lemma == morph.parse(token)[0].normal_form

    def match_sequence(self, query_tokens, words, lemmas, pos_tags):
        """Проверка совпадения последовательности токенов."""
        for j, query_token in enumerate(query_tokens):
            if query_token.isupper():
                # Если запрос — это POS-тег, проверяем только POS-тег
                if pos_tags[j] != query_token:
                    return False
            else:
                # Иначе обрабатываем стандартные правила совпадения
                if not self.match_token(query_token, words[j], lemmas[j], pos_tags[j]):
                    return False
        return True

    def search(self, query):
        query_tokens = query.split()

        matches = []
        for idx, sentence in enumerate(self.sentences):
            words = self.tokens[idx]
            lemmas = self.lemmas[idx]
            pos_tags = self.pos_tags[idx]

            # Поиск последовательности токенов в предложении
            for i in range(len(words) - len(query_tokens) + 1):
                if len(words) != len(lemmas) or len(words) != len(pos_tags):
                    continue
                # Проверка последовательности для n-граммы
                if self.match_sequence(query_tokens, words[i:i+len(query_tokens)], lemmas[i:i+len(query_tokens)], pos_tags[i:i+len(query_tokens)]):
                    # Форматируем предложение с источником
                    source_info = f"[{self.chapters[idx]}]"
                    formatted_sentence = f"{sentence} {source_info}"
                    matches.append(formatted_sentence)
                    break

        return matches

# Пример использования
csv_file = '/content/corpus_data_with_labels.csv'  # Путь к файлу
search_engine = SearchEngineCSV(csv_file)

# Примеры запросов
print(search_engine.search('сказать'))  # Любая форма слова "сказать"
print(search_engine.search('"меня"'))  # Точная форма "меня"
print(search_engine.search('человек+NOUN'))  # Лемма "человек" с POS-тегом "S"
print(search_engine.search('NOUN ADV VERB'))  # Существительное, глагол, наречие в последовательности

['Вы мне опять скажете, что человек не может быть так дурен, а я вам скажу, что ежели вы верили возможности существования всех трагических и романтических злодеев, отчего же вы не веруете в действительность Печорина? [Герой нашего времени. Предисловие. - rvb.ru - https://rvb.ru/19vek/lermontov/lp/text/01-01.html]', 'Вы скажете, что нравственность от этого не выигрывает? [Герой нашего времени. Предисловие. - rvb.ru - https://rvb.ru/19vek/lermontov/lp/text/01-01.html]', '— Скажите, пожалуйста, отчего это вашу тяжелую тележку четыре быка тащат шутя, а мою пустую шесть скотов едва подвигают с помощию этих осетин? [Герой нашего времени. Часть 1. Бэла. - rvb.ru - https://rvb.ru/19vek/lermontov/lp/text/01-02.html]', 'Я сказал ему. [Герой нашего времени. Часть 1. Бэла. - rvb.ru - https://rvb.ru/19vek/lermontov/lp/text/01-02.html]', '— сказал он: — и хлеба по-русски назвать не умеет, а выучил: «офицер, дай на водку!». [Герой нашего времени. Часть 1. Бэла. - rvb.ru - https://rvb.ru/19vek/lermont