In [51]:
import pandas as pd
import redit as rd


class Index:
    """
    Index class
    """
    
    def __init__(self, docs=None, stemmed=None):
        self.inv_index = {}
        self.index = {}
        self.max_id = 0
        if docs is not None and stemmed is not None:
            self.update(docs, stemmed)
       
            
    @classmethod
    def from_eval_texts(cls, path='../../Data/eval_texts.csv'):
        """
        Method for testing from dump csv data
        """
        df = pd.read_csv(path, sep='\t')
        documents = df.text.values[:10]
        documents_stemmed = df.text_searchable.values[:10]
        stemmed = [s_doc.split() for s_doc in documents_stemmed]
        return cls(documents, stemmed)
    
    
    def update(self, docs, stemmed):
        """ 
        docs - list or array of strs
        stemmed - list of lists with token strs
        returns ids of updated docs
        """
        new_ids = range(self.max_id, len(docs), 1)
        for doc, stm_doc, doc_id in zip(docs, stemmed, new_ids):
            self.index[doc_id] = doc  #  add doc to index
            for tok in stm_doc:
                try:
                    self.inv_index[tok].add(doc_id)
                except KeyError:
                    self.inv_index[tok] = set()
                    self.inv_index[tok].add(doc_id)
        self.max_id += len(docs)
        return new_ids
    
        
    def search_by_tokens(self, tokens):
        """
        tokens - list of strs
        returns set of doc_ids
        """
        sets = []
        for tok in tokens:
            sets.append(self.inv_index[tok])
        ids = set.intersection(*sets)
        return ids
    
    
    def get_docs(self, ids):
        """
        ids - iterable object of ids
        """
        return [self.index[doc_id] for doc_id in ids]
                    
            
I = Index.from_eval_texts(path='../../../Data/eval_texts.csv')
I.index
print(I.max_id)
df = pd.read_csv('../../../Data/eval_texts.csv', sep='\t')
documents = df.text.values[200:300]
documents_stemmed = df.text_searchable.values[200:300]
stemmed = [s_doc.split() for s_doc in documents_stemmed]
I.update(documents, stemmed)
print(I.max_id)

10
110


In [52]:
I.inv_index
I.search_by_tokens(['обязанност','должност'])

{0, 2, 9, 16, 18, 24, 30, 37, 40, 51, 52, 58, 72, 76, 80, 84, 88, 96, 98}

In [53]:
I.get_docs(I.search_by_tokens(['обязанност','должност']))

['Должностные обязанности: * Грамотная выкладка товара Чиртон * Контроль ценников, сроков годности * Размещение рекламных материалов * Предоставление фотоотчета по эл.почте, whatsapp Требования: Опыт работы приветствуется Наличие л/а Предпочтительны кандидаты без опыта-всему с нуля обучаем! Водительские права категории: B. Мы предлагаем: * Официальное трудоустройство * гсм входит в заработную плату Полный рабочий день Разъездного характера',
 'Требования к кандидату: Грамотная письменная и устная речь, знание ПК, ответственность, дисциплинированность. Должностные обязанности: Должностные обязанности в соответствии с должностной инструкцией Дополнительная информация по вакансии: Строительство жилых и нежилых зданий Дисциплинированность Дополнительные бонусы: Социальный пакет',
 'Должностные обязанности: • Ездить на встречу с клиентами, вручать продукцию Банка; • Проводить консультацию по продуктам банка; • Ответственно обращаться с документацией; • Выполнять необходимый объем заданий. Т

In [57]:
I.__dict__


{'index': {0: 'Должностные обязанности: * Грамотная выкладка товара Чиртон * Контроль ценников, сроков годности * Размещение рекламных материалов * Предоставление фотоотчета по эл.почте, whatsapp Требования: Опыт работы приветствуется Наличие л/а Предпочтительны кандидаты без опыта-всему с нуля обучаем! Водительские права категории: B. Мы предлагаем: * Официальное трудоустройство * гсм входит в заработную плату Полный рабочий день Разъездного характера',
  1: 'В компанию требуется Курьер В молодой дружный коллектив требуются добросовестные сотрудники для разноски газет по почтовым ящикам жилых домов. С выездом в командировки Зарплата сдельная от 8000 руб. в неделю Выплаты еженедельно, без задержек. Жилье и проезд в командировках оплачивается. Полная занятость с 8-00 до 18-00, с понедельника по пятницу не указано не указано не указано',
  2: 'Должностные обязанности: • Ездить на встречу с клиентами, вручать продукцию Банка; • Проводить консультацию по продуктам банка; • Ответственно обр