In [65]:
# 1. Импорт библиотек
import pandas as pd
import numpy as np
import pickle
import math
from collections import defaultdict
import os
import nltk
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from nltk.tokenize import word_tokenize

nltk.download('punkt')
nltk.download('punkt_tab')  # именно этот пакет нужен для русского языка

[nltk_data] Downloading package punkt to /home/jovyan/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /home/jovyan/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [66]:
# 2. Загрузка данных и индекса
df = pd.read_csv('../shared_data/news.csv')

In [67]:
# Выберите нужный индекс (стеммированный или лемматизированный)
INDEX_FILE = '../shared_data/search_index.pkl'  # стеммированный
#INDEX_FILE = '../shared_data/lemmatized_search_index.pkl'  # лемматизированный

In [68]:
print("Загрузка индекса...")
with open(INDEX_FILE, 'rb') as f:
    index_data = pickle.load(f)

inverted_index = index_data['inverted_index']
doc_lengths = index_data['doc_lengths']

Загрузка индекса...


In [69]:
# 3. Класс поисковой системы
class VectorSearchEngine:
    def __init__(self, inverted_index, doc_lengths, total_docs):
        self.inverted_index = inverted_index
        self.doc_lengths = doc_lengths
        self.total_docs = total_docs
        self.idf_cache = {}
        self.doc_norms = {}
        
        # Предварительно вычисляем IDF для всех терминов
        self._precompute_idf()
        # Предварительно вычисляем нормы документов
        self._precompute_doc_norms()
    
    def _precompute_idf(self):
        """Предварительное вычисление IDF для всех терминов в индексе"""
        print("Вычисление IDF...")
        for term, doc_freqs in self.inverted_index.items():
            df_t = len(doc_freqs)  # количество документов с термином
            self.idf_cache[term] = math.log(self.total_docs / (1 + df_t))
    
    def _precompute_doc_norms(self):
        """Предварительное вычисление норм документов для косинусного сходства"""
        print("Вычисление норм документов...")
        # Инициализируем нулями
        doc_vectors = defaultdict(lambda: defaultdict(float))
        
        # Собираем TF-IDF векторы
        for term, doc_freqs in self.inverted_index.items():
            idf = self.idf_cache[term]
            for doc_id, freq in doc_freqs.items():
                if doc_id in self.doc_lengths and self.doc_lengths[doc_id] > 0:
                    tf = freq / self.doc_lengths[doc_id]
                    tf_idf = tf * idf
                    doc_vectors[doc_id][term] = tf_idf
        
        # Вычисляем нормы (длины векторов)
        for doc_id, vector in doc_vectors.items():
            self.doc_norms[doc_id] = math.sqrt(sum(tf_idf ** 2 for tf_idf in vector.values()))
    
    def _compute_query_vector(self, query_terms):
        """Вычисление TF-IDF вектора для запроса"""
        query_tf = defaultdict(int)
        for term in query_terms:
            query_tf[term] += 1
        
        query_vector = {}
        query_length = len(query_terms)
        
        for term, freq in query_tf.items():
            if term in self.idf_cache:
                tf = freq / query_length
                idf = self.idf_cache[term]
                query_vector[term] = tf * idf
        
        # Вычисляем норму запроса
        query_norm = math.sqrt(sum(tf_idf ** 2 for tf_idf in query_vector.values()))
        
        return query_vector, query_norm
    
    def search(self, query, preprocess_func, top_k=10):
        """
        Поиск релевантных документов по запросу
        
        Args:
            query: поисковый запрос
            preprocess_func: функция предобработки (стемминг или лемматизация)
            top_k: количество возвращаемых результатов
        """
        # Предобработка запроса
        query_terms = preprocess_func(query)
        print(f"Обработанный запрос: {query_terms}")
        
        if not query_terms:
            return []
        
        # Вычисляем вектор запроса
        query_vector, query_norm = self._compute_query_vector(query_terms)
        
        if not query_vector:
            return []
        
        # Вычисляем релевантность для каждого документа
        scores = defaultdict(float)
        
        for term, query_tf_idf in query_vector.items():
            if term in self.inverted_index:
                for doc_id, freq in self.inverted_index[term].items():
                    if doc_id not in self.doc_norms:
                        continue
                    
                    # Вычисляем TF-IDF для термина в документе
                    if self.doc_lengths[doc_id] > 0:
                        tf = freq / self.doc_lengths[doc_id]
                        doc_tf_idf = tf * self.idf_cache[term]
                        
                        # Косинусное сходство: dot product / (norm_q * norm_d)
                        scores[doc_id] += query_tf_idf * doc_tf_idf
        
        # Нормализуем по косинусному сходству
        for doc_id in scores:
            if self.doc_norms[doc_id] > 0 and query_norm > 0:
                scores[doc_id] /= (query_norm * self.doc_norms[doc_id])
        
        # Сортируем по убыванию релевантности
        sorted_docs = sorted(scores.items(), key=lambda x: x[1], reverse=True)[:top_k]
        
        return sorted_docs

In [70]:
# 4. Функции предобработки (должны быть такими же, как при построении индекса)
def get_preprocessing_function(index_type='stemmed'):
    """
    Возвращает функцию предобработки в зависимости от типа индекса
    """
    if index_type == 'lemmatized':
        # Импортируем и используем лемматизацию
        import pymorphy3
        from nltk.corpus import stopwords
        import re
        
        morph = pymorphy3.MorphAnalyzer()
        russian_stopwords = set(stopwords.words('russian'))
        
        def preprocess_lemmatized(text):
            if pd.isna(text):
                return []
            text = re.sub(r'[^a-zA-Zа-яА-ЯёЁ\s]', ' ', str(text))
            text = text.lower()
            tokens = text.split()
            processed_tokens = []
            for token in tokens:
                if token not in russian_stopwords and len(token) > 2:
                    lemma = morph.parse(token)[0].normal_form
                    if len(lemma) > 2:
                        processed_tokens.append(lemma)
            return processed_tokens
        
        return preprocess_lemmatized
    
    else:
        # Используем стемминг (по умолчанию)
        from nltk.stem import SnowballStemmer
        from nltk.corpus import stopwords
        import re
        
        stemmer = SnowballStemmer("russian")
        russian_stopwords = set(stopwords.words('russian'))
        
        def preprocess_stemmed(text):
            if pd.isna(text):
                return []
    
            # Шаг 1: Более аккуратная очистка
            # Сохраняем числа, дефисы в словах, email-адреса
            text = str(text)
            
            # Шаг 2: Используем интеллектуальную токенизацию nltk
            tokens = word_tokenize(text, language='russian')
            
            # Шаг 3: Фильтрация и нормализация
            processed_tokens = []
            for token in tokens:
                # Приводим к нижнему регистру
                token_lower = token.lower()
                
                # Пропускаем стоп-слова
                if token_lower in russian_stopwords:
                    continue
                    
                # Пропускаем короткие токены (кроме чисел и специальных случаев)
                if len(token_lower) <= 2 and not token_lower.isdigit():
                    continue
                    
                # Пропускаем чисто знаки препинания
                if re.match(r'^[^\w\s]+$', token_lower):
                    continue
                    
                # Стемминг для русских слов
                if re.match(r'[а-яё]+', token_lower):
                    stemmed_token = stemmer.stem(token_lower)
                    processed_tokens.append(stemmed_token)
                else:
                    # Для английских слов, чисел, специальных терминов оставляем как есть
                    processed_tokens.append(token_lower)
            
            return processed_tokens
        
        return preprocess_stemmed


In [71]:
# 5. Инициализация поисковой системы
print("Инициализация поисковой системы...")
total_docs = len(df)
search_engine = VectorSearchEngine(inverted_index, doc_lengths, total_docs)

Инициализация поисковой системы...
Вычисление IDF...
Вычисление норм документов...


In [72]:
# Определяем тип предобработки на основе используемого индекса
if 'lemmatized' in INDEX_FILE:
    preprocess_func = get_preprocessing_function('lemmatized')
    print("Используется лемматизированный индекс")
else:
    preprocess_func = get_preprocessing_function('stemmed')
    print("Используется стеммированный индекс")

Используется стеммированный индекс


In [73]:
# 6. Функция для красивого вывода результатов
def display_results(search_results, df, query):
    """Красивый вывод результатов поиска"""
    print(f"\n{'='*80}")
    print(f"РЕЗУЛЬТАТЫ ПОИСКА: '{query}'")
    print(f"Найдено документов: {len(search_results)}")
    print(f"{'='*80}")
    
    for i, (doc_id, score) in enumerate(search_results, 1):
        if doc_id < len(df):
            title = df.iloc[doc_id]['title']
            source = df.iloc[doc_id]['source']
            rubric = df.iloc[doc_id]['rubric']
            text_preview = df.iloc[doc_id]['text'][:300] + "..."
            
            print(f"\n#{i} (релевантность: {score:.4f})")
            print(f"Заголовок: {title}")
            print(f"Источник: {source} | Рубрика: {rubric}")
            print(f"Текст: {text_preview}")
            print(f"{'-'*80}")

In [74]:
# 7. Интерактивный поиск
def interactive_search():
    """Интерактивный режим поиска"""
    print("\n" + "="*50)
    print("ИНТЕРАКТИВНЫЙ ПОИСК НОВОСТЕЙ")
    print("="*50)
    print("Доступные команды:")
    print("  - Введите поисковый запрос для поиска")
    print("  - 'quit' или 'exit' для выхода")
    print("  - 'top N' для изменения количества результатов (по умолчанию 10)")
    print("="*50)
    
    top_k = 10
    
    while True:
        query = input("\nВведите поисковый запрос: ").strip()
        
        if query.lower() in ['quit', 'exit', 'выход']:
            print("Завершение работы поисковой системы...")
            break
        
        elif query.lower().startswith('top '):
            try:
                new_top = int(query.split()[1])
                if new_top > 0:
                    top_k = new_top
                    print(f"Количество результатов изменено на: {top_k}")
                else:
                    print("Количество результатов должно быть положительным числом")
            except:
                print("Использование: 'top N' где N - целое число")
            continue
        
        elif query:
            print(f"\nПоиск: '{query}'...")
            results = search_engine.search(query, preprocess_func, top_k=top_k)
            display_results(results, df, query)
        
        else:
            print("Введите непустой запрос")

In [75]:
# 8. Тестовые запросы для демонстрации
def test_queries():
    """Тестовые запросы для проверки работы системы"""
    test_cases = [
        "Баскетбол"
    ]
    
    print("\n" + "="*50)
    print("ТЕСТОВЫЕ ЗАПРОСЫ")
    print("="*50)
    
    for query in test_cases:
        print(f"\nТестовый запрос: '{query}'")
        results = search_engine.search(query, preprocess_func, top_k=3)
        display_results(results, df, query)

In [76]:
test_queries()


ТЕСТОВЫЕ ЗАПРОСЫ

Тестовый запрос: 'Баскетбол'
Обработанный запрос: ['баскетбол']

РЕЗУЛЬТАТЫ ПОИСКА: 'Баскетбол'
Найдено документов: 3

#1 (релевантность: 0.3267)
Заголовок: В Японии решили возобновить остановленные из-за коронавируса соревнования
Источник: lenta.ru | Рубрика: Спорт
Текст: В Японии решили возобновить остановленный из-за коронавируса национальный чемпионат по баскетболу. Об этом сообщает Japan Times. Первые после перерыва встречи прошли в субботу, 14 марта, без зрителей. При этом один из запланированных матчей лиги был отменен после того, как у троих членов одной из ко...
--------------------------------------------------------------------------------

#2 (релевантность: 0.2474)
Заголовок: «Последний танец» — важнейший документальный сериал о Майкле Джордане и «Чикаго Буллз»
Источник: meduza.io | Рубрика: nan
Текст: 18 мая на Netflix вышел последний эпизод документального сериала «Последний танец», 10 серий которого посвящены «золотому» составу «Чикаго Буллз» и его гл

In [None]:
interactive_search()


ИНТЕРАКТИВНЫЙ ПОИСК НОВОСТЕЙ
Доступные команды:
  - Введите поисковый запрос для поиска
  - 'quit' или 'exit' для выхода
  - 'top N' для изменения количества результатов (по умолчанию 10)



Введите поисковый запрос:  Баскетбол



Поиск: 'Баскетбол'...
Обработанный запрос: ['баскетбол']

РЕЗУЛЬТАТЫ ПОИСКА: 'Баскетбол'
Найдено документов: 10

#1 (релевантность: 0.3267)
Заголовок: В Японии решили возобновить остановленные из-за коронавируса соревнования
Источник: lenta.ru | Рубрика: Спорт
Текст: В Японии решили возобновить остановленный из-за коронавируса национальный чемпионат по баскетболу. Об этом сообщает Japan Times. Первые после перерыва встречи прошли в субботу, 14 марта, без зрителей. При этом один из запланированных матчей лиги был отменен после того, как у троих членов одной из ко...
--------------------------------------------------------------------------------

#2 (релевантность: 0.2474)
Заголовок: «Последний танец» — важнейший документальный сериал о Майкле Джордане и «Чикаго Буллз»
Источник: meduza.io | Рубрика: nan
Текст: 18 мая на Netflix вышел последний эпизод документального сериала «Последний танец», 10 серий которого посвящены «золотому» составу «Чикаго Буллз» и его главной звезде — баскетбол