In [5]:
import sys
import pickle
import pandas as pd

from coding import EliasCoding, NumberRepr
from retrieval import InformationRetrieval
from indexing import InvertedIndex

from preprocessing import Tokenization
from utils import get_object_size, load_data

In [10]:
# from bitstring import BitArray, BitStream
# from bitfields import Bits

### Кодирование Элиаса

In [2]:
#Проверка кодирования
for i in range(1, 4):
    num_repr = NumberRepr.Binary(i)
    elias_gamma_encode = EliasCoding.elias_gamma_encode(i)
    elias_gamma_decode = EliasCoding.elias_gamma_decode(elias_gamma_encode)
    elias_delta_encode = EliasCoding.elias_delta_encode(i)
    elias_delta_decode = EliasCoding.elias_delta_decode(elias_delta_encode)

    print(f"Бинарное представление числа {i}:", num_repr)
    print(f"Гамма кодирование Элиаса числа {i}:", elias_gamma_encode)
    print(f"Гамма декодирование Элиаса числа {i}:", elias_gamma_decode)
    print(f"Гамма кодирование Элиаса числа {i}:", elias_delta_encode)
    print(f"Дельта декодирование Элиаса числа {i}:", elias_delta_decode, "\n")

Бинарное представление числа 1: 1
Гамма кодирование Элиаса числа 1: 1
Гамма декодирование Элиаса числа 1: 1
Гамма кодирование Элиаса числа 1: 1
Дельта декодирование Элиаса числа 1: 1 

Бинарное представление числа 2: 10
Гамма кодирование Элиаса числа 2: 010
Гамма декодирование Элиаса числа 2: 2
Гамма кодирование Элиаса числа 2: 0100
Дельта декодирование Элиаса числа 2: 2 

Бинарное представление числа 3: 11
Гамма кодирование Элиаса числа 3: 011
Гамма декодирование Элиаса числа 3: 3
Гамма кодирование Элиаса числа 3: 0101
Дельта декодирование Элиаса числа 3: 3 



### Подготовка данных

In [3]:
#Путь к файлу с данными
data_path = "/Users/petrovich/Desktop/my_code/data_collecting_projects/inverted_index/data/МГУ_2023-12-31.csv"
#Загрузка данных
docs = load_data(data_path)
print("Количество записей:", len(docs))

Количество записей: 40069


In [4]:
#Токенизация документов
tokenized_docs = Tokenization.tokenize_doc_corpus(docs)

In [25]:
# def save_file(file, file_name):
#     with open(f'data/{file_name}.pkl', 'wb') as f:
#         pickle.dump(file, f)

### Построение инвертированного индекса

In [15]:
inverted_index = InvertedIndex.create_inverted_index(tokenized_docs, data_path)
#print(round(get_object_size(inverted_index)), "КБ – размер инвертированного индекса до сжатия")

In [22]:
print("Количество ключей инвертированного индекса:", len(inverted_index.keys()))

Количество ключей инвертированного индекса: 196138


### Оптимизация инвертированного индекса

In [23]:
elias_gamma_inverted_index = InvertedIndex.compress_inverted_index(inverted_index.copy(), mode="gamma")
#print(round(get_object_size(elias_gamma_inverted_index)), "КБ – размер инвертированного индекса после Гамма кодирования Элиаса")

In [24]:
elias_delta_inverted_index = InvertedIndex.compress_inverted_index(inverted_index.copy(), mode="delta")
#print(round(get_object_size(elias_gamma_inverted_index)), "КБ – размер инвертированного индекса после Дельта кодирования Элиаса")

### Информационный поиск

In [26]:
query = "Ректор МГУ"

In [31]:
relevant_docs = InformationRetrieval.get_relevant_doc_indices(query, inverted_index)

In [28]:
gamma_relevant_docs = InformationRetrieval.get_relevant_doc_indices(query, elias_gamma_inverted_index)

In [29]:
delta_relevant_docs = InformationRetrieval.get_relevant_doc_indices(query, elias_delta_inverted_index)