In [2]:
# 1. Импорт библиотек
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
import re
from collections import defaultdict
import pickle
import os

In [4]:
# 2. Загрузка
df = pd.read_csv('../shared_data/news.csv')

In [6]:
# 3. Загрузка стоп-слов и инициализация стеммера
nltk.download('stopwords')
nltk.download('punkt')

russian_stopwords = set(stopwords.words('russian'))
stemmer = SnowballStemmer("russian")

[nltk_data] Downloading package stopwords to /home/jovyan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /home/jovyan/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [7]:
# 4. Функция предобработки текста
def preprocess_text(text):
    """
    Предобработка текста: очистка, токенизация, удаление стоп-слов и стемминг
    """
    if pd.isna(text):
        return []
    
    # Приведение к нижнему регистру и удаление знаков препинания/цифр
    text = re.sub(r'[^a-zA-Zа-яА-ЯёЁ\s]', ' ', str(text))
    text = text.lower()
    
    # Токенизация
    tokens = text.split()
    
    # Удаление стоп-слов и стемминг
    processed_tokens = []
    for token in tokens:
        if token not in russian_stopwords and len(token) > 2:
            stemmed_token = stemmer.stem(token)
            processed_tokens.append(stemmed_token)
    
    return processed_tokens

In [10]:
# 5. Построение инвертированного индекса
def build_inverted_index(df, text_columns=['title', 'text']):
    """
    Построение инвертированного индекса из DataFrame
    """
    inverted_index = defaultdict(dict)
    doc_lengths = {}
    
    for idx, row in df.iterrows():
        # Объединяем текст из указанных колонок
        combined_text = ' '.join(str(row[col]) for col in text_columns if col in row and pd.notna(row[col]))
        
        # Предобработка текста
        tokens = preprocess_text(combined_text)
        doc_lengths[idx] = len(tokens)
        
        # Подсчет TF (Term Frequency) для документа
        term_freq = defaultdict(int)
        for token in tokens:
            term_freq[token] += 1
        
        # Добавление в инвертированный индекс
        for token, freq in term_freq.items():
            inverted_index[token][idx] = freq
    
    return inverted_index, doc_lengths

In [11]:
# 6. Функции для сохранения и загрузки индекса
def save_index(inverted_index, doc_lengths, filename='../shared_data/search_index.pkl'):
    """
    Сохранение индекса в файл
    """
    index_data = {
        'inverted_index': dict(inverted_index),
        'doc_lengths': doc_lengths
    }
    with open(filename, 'wb') as f:
        pickle.dump(index_data, f)
    print(f"Индекс сохранен в {filename}")

def load_index(filename='../shared_data/search_index.pkl'):
    """
    Загрузка индекса из файла
    """
    if os.path.exists(filename):
        with open(filename, 'rb') as f:
            index_data = pickle.load(f)
        print(f"Индекс загружен из {filename}")
        return defaultdict(dict, index_data['inverted_index']), index_data['doc_lengths']
    else:
        print(f"Файл {filename} не найден")
        return None, None

In [12]:
# 7. Построение и сохранение индекса
print("Начинаем построение инвертированного индекса...")

# Проверяем структуру данных
print(f"Размер датасета: {len(df)} строк")
print(f"Колонки: {df.columns.tolist()}")
print("\nПервые 3 заголовка:")
for i in range(min(3, len(df))):
    print(f"{i}: {df.iloc[i]['title'][:100]}...")

Начинаем построение инвертированного индекса...
Размер датасета: 21673 строк
Колонки: ['N', 'source', 'rubric', 'title', 'text']

Первые 3 заголовка:
0: Синий богатырь...
1: Загитова согласилась вести «Ледниковый период»...
2: Объяснена опасность однообразного питания...


In [13]:
# Строим индекс
inverted_index, doc_lengths = build_inverted_index(df)

In [14]:
# Сохраняем индекс
save_index(inverted_index, doc_lengths)

Индекс сохранен в ../shared_data/search_index.pkl


In [15]:
# 8. Статистика индекса
print(f"\n=== СТАТИСТИКА ИНДЕКСА ===")
print(f"Количество документов: {len(df)}")
print(f"Количество уникальных терминов: {len(inverted_index)}")
print(f"Размер индекса в памяти: {sum(len(docs) for docs in inverted_index.values())} записей")



=== СТАТИСТИКА ИНДЕКСА ===
Количество документов: 21673
Количество уникальных терминов: 82061
Размер индекса в памяти: 2591411 записей


In [16]:
# Топ-10 самых частых терминов
term_doc_freq = {term: len(docs) for term, docs in inverted_index.items()}
top_terms = sorted(term_doc_freq.items(), key=lambda x: x[1], reverse=True)[:10]
print(f"\nТоп-10 самых частых терминов:")
for term, freq in top_terms:
    print(f"  {term}: встречается в {freq} документах")


Топ-10 самых частых терминов:
  новост: встречается в 16021 документах
  ри: встречается в 15198 документах
  котор: встречается в 13538 документах
  москв: встречается в 11071 документах
  росс: встречается в 9879 документах
  год: встречается в 9781 документах
  эт: встречается в 9757 документах
  такж: встречается в 8984 документах
  дан: встречается в 8472 документах
  ран: встречается в 7387 документах
