### Словарь и вектор весов     

Дана коллекция текстов. Построим словарь (отображение из строкового представления токенов в их номера) и вектор весов (DF).    

$DF(w)=\frac{DocCount(w,c)}{size(c)}$   -- частота слова w в коллекции c (отношение количества документов, в которых слово используется, к общему количеству документов).     

При токенизации используется регулярное выражение: [\w\d]+. После токенизации все токены приводятся к нижнему регистру. Фильтрация по частоте не используется.   

В итоге получим:    

- словарь - список уникальных токенов через пробел в порядке возрастания частоты встречаемости. При одинаковой частоте происходит сортировка по алфавиту.   
- список весов (DF) токенов. 

In [1]:
import collections
import re
from dlnlputils.data import build_vocabulary

In [2]:
TOKEN_RE = re.compile(r'[\w\d]+')
def tokenize_text_simple_regex(txt, min_token_size=1):
    txt = txt.lower()
    all_tokens = TOKEN_RE.findall(txt)
    return [token for token in all_tokens if len(token) >= min_token_size]

def tokenize_corpus(texts, tokenizer=tokenize_text_simple_regex, **tokenizer_kwargs):
    return [tokenizer(text, **tokenizer_kwargs) for text in texts]

In [3]:
texts = ["Казнить нельзя, помиловать. Нельзя наказывать.", "Казнить, нельзя помиловать. Нельзя освободить.", "Нельзя не помиловать.", "Обязательно освободить."]
texts_tokenized = tokenize_corpus(texts)
print(' '.join(texts_tokenized[2]))
MAX_DF = 1
MIN_COUNT = 0
vocab, w_doc_freq = build_vocabulary(texts_tokenized, max_doc_freq=MAX_DF, min_count=MIN_COUNT)

нельзя не помиловать


In [4]:
w_doc_freq

array([0.75, 0.75, 0.5 , 0.5 , 0.25, 0.25, 0.25], dtype=float32)

In [5]:
vocab

{'нельзя': 0,
 'помиловать': 1,
 'казнить': 2,
 'освободить': 3,
 'наказывать': 4,
 'не': 5,
 'обязательно': 6}

In [6]:
dd = {x[0]: w_doc_freq[x[1]] for x in vocab.items()}
dd

{'нельзя': 0.75,
 'помиловать': 0.75,
 'казнить': 0.5,
 'освободить': 0.5,
 'наказывать': 0.25,
 'не': 0.25,
 'обязательно': 0.25}

In [7]:
e = sorted(dd.items(), key=lambda pair: (pair[1],pair[0]))
print(e)

[('наказывать', 0.25), ('не', 0.25), ('обязательно', 0.25), ('казнить', 0.5), ('освободить', 0.5), ('нельзя', 0.75), ('помиловать', 0.75)]
