<a href="https://colab.research.google.com/github/Danilkat/AlgoLab3/blob/main/AlgoLab3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import nltk
nltk.download("stopwords")
#--------#

from nltk.corpus import stopwords
from pymystem3 import Mystem
from string import punctuation
import collections
from typing import List
import time
import re
global inverted_index_dict
inverted_index_dict = collections.defaultdict(list)
file_paths = [f'/content/drive/MyDrive/AlgoLab3Texts/{index}.txt' for index in range(1, 11)]

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
mystem = Mystem()
russian_stopwords = stopwords.words("russian")
russian_stopwords = []

In [None]:
# получаем лексемы из текста
def preprocess_text(text: str):
    tokens = mystem.lemmatize(text.lower())
    tokens = [token for token in tokens if token not in russian_stopwords\
              and token != " " \
              and token.strip() not in punctuation \
              and any([c.isalpha() for c in token])]

    return tokens

# добавляем лексемы в инвертированный индекс
def add_to_inverted(tokens: List[str], file: str):
    for token in tokens:
      try:
        inverted_index_dict[token].add(file)
      except:
        if file not in inverted_index_dict[token]:
          inverted_index_dict[token].append(file)

# формируем полный инвертированный индекс из всех файлов
def populate_inverted_dict():
    for path in file_paths:
      with open(path) as f:
        full_text = f.read()
        tokens = preprocess_text(full_text)
        add_to_inverted(tokens, path)
    sort_inverted_dict()

# сортируем  инвертированный индекс
def sort_inverted_dict():
    global inverted_index_dict
    inverted_index_dict = dict(sorted(inverted_index_dict.items()))
    for key, sett in inverted_index_dict.items():
        inverted_index_dict[key] = sorted(sett, key = get_number_in_path)

def get_number_in_path(path: str):
    m = re.search('/content/drive/MyDrive/AlgoLab3Texts/(\d+).txt', path)
    return int(m.group(1))

# ищем по алгоритму «грубой силы»
def search_brute_force(init_str: str):
    found_paths = []
    for path in file_paths:
      with open(path) as f:
        full_text = f.read()
        tokens = preprocess_text(full_text)
        if init_str in tokens:
          found_paths.append(path)
    return found_paths

# ищем с использованием инвертированных индексов
def search_in_inverted(init_str: str):
  try:
    return list(inverted_index_dict[init_str])
  except:
    return []

def search_wrapper(init_str: str, func):
    start = time.time()
    ret = func(init_str)
    end = time.time() - start
    print('{0:.10f}'.format(end))
    return (ret, end)

def test(init_str: str):
  init_str = mystem.lemmatize(init_str.lower())[0]
  print("Выполняем поиск слова", init_str)
  print("============================")
  print("Поиск с использованием инвертированных индексов:")
  res_inv, time_inv = search_wrapper(init_str, search_in_inverted)
  print(res_inv)
  print("Поиск по алгоритму «грубой силы»:")
  res_brute, time_brute = search_wrapper(init_str, search_brute_force)
  print(res_brute)
  print("Разница во времени", '{0:.10f}'.format(time_brute / time_inv))
  print()

In [None]:
populate_inverted_dict()

In [None]:
test("деревья")
test("задание")
test("бакалавр")
test("бакалавриат")
test("хэш")
test("номер")
test("бы")

Выполняем поиск слова дерево
Поиск с использованием инвертированных индексов:
0.0000050068
['/content/drive/MyDrive/AlgoLab3Texts/7.txt']
Поиск по алгоритму «грубой силы»:
0.4490005970
['/content/drive/MyDrive/AlgoLab3Texts/7.txt']
Разница во времени 89678.3333333333

Выполняем поиск слова задание
Поиск с использованием инвертированных индексов:
0.0000045300
['/content/drive/MyDrive/AlgoLab3Texts/1.txt', '/content/drive/MyDrive/AlgoLab3Texts/2.txt', '/content/drive/MyDrive/AlgoLab3Texts/3.txt', '/content/drive/MyDrive/AlgoLab3Texts/4.txt', '/content/drive/MyDrive/AlgoLab3Texts/5.txt', '/content/drive/MyDrive/AlgoLab3Texts/6.txt', '/content/drive/MyDrive/AlgoLab3Texts/7.txt']
Поиск по алгоритму «грубой силы»:
0.3774056435
['/content/drive/MyDrive/AlgoLab3Texts/1.txt', '/content/drive/MyDrive/AlgoLab3Texts/2.txt', '/content/drive/MyDrive/AlgoLab3Texts/3.txt', '/content/drive/MyDrive/AlgoLab3Texts/4.txt', '/content/drive/MyDrive/AlgoLab3Texts/5.txt', '/content/drive/MyDrive/AlgoLab3Texts/

In [None]:
inverted_index_dict

{'2k': ['/content/drive/MyDrive/AlgoLab3Texts/3.txt'],
 '2n': ['/content/drive/MyDrive/AlgoLab3Texts/3.txt'],
 '3n': ['/content/drive/MyDrive/AlgoLab3Texts/1.txt'],
 'a': ['/content/drive/MyDrive/AlgoLab3Texts/1.txt',
  '/content/drive/MyDrive/AlgoLab3Texts/4.txt'],
 'a1': ['/content/drive/MyDrive/AlgoLab3Texts/1.txt'],
 'a2': ['/content/drive/MyDrive/AlgoLab3Texts/1.txt'],
 'an': ['/content/drive/MyDrive/AlgoLab3Texts/1.txt'],
 'andrew': ['/content/drive/MyDrive/AlgoLab3Texts/4.txt'],
 'b': ['/content/drive/MyDrive/AlgoLab3Texts/6.txt'],
 'b1': ['/content/drive/MyDrive/AlgoLab3Texts/1.txt'],
 'begin': ['/content/drive/MyDrive/AlgoLab3Texts/3.txt'],
 'binary': ['/content/drive/MyDrive/AlgoLab3Texts/7.txt'],
 'black': ['/content/drive/MyDrive/AlgoLab3Texts/9.txt'],
 'bn': ['/content/drive/MyDrive/AlgoLab3Texts/1.txt'],
 'bubble': ['/content/drive/MyDrive/AlgoLab3Texts/3.txt'],
 'bucket': ['/content/drive/MyDrive/AlgoLab3Texts/3.txt'],
 'c': ['/content/drive/MyDrive/AlgoLab3Texts/1.txt',