In [1]:
import json
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from string import punctuation
from collections import Counter

In [2]:
detective = './dataset/detective.json'
def read_file(file_path: str) -> str:
    """читает файл"""
    with open(file_path, "r") as f:
        words = f.read()
    return words

In [3]:
file_contents = read_file(detective)
# print(file_contents)
parsed_json = json.loads(file_contents)

In [4]:
def tokenize_ru(file_text: str) -> list:
    """удаляет из текста символы пунктуации, стоп-слова"""
    # применим токенизацию
    tokens = word_tokenize(file_text)

    # удаляем пунктуационные символы
    tokens = [i for i in tokens if (i not in punctuation)]

    # удаляем стоп-слова
    stop_words = stopwords.words('russian')
    stop_words.extend(['что', 'это', 'так', 'вот', 'быть', 'как', 'в', '—', '–', 'к', 'на', '...', 'c'])
    tokens = [i for i in tokens if (i not in stop_words)]

    # чистим слова
    tokens = [i.lower().replace("«", "").replace("»", "") for i in tokens]
    return tokens

In [5]:
filtered_detective = tokenize_ru(parsed_json['collections'][0]['text'])
histogram_words = Counter(filtered_detective) # type: collections.Counter
# print((histogram_words))

In [6]:
def normalize_dict(input_dict: dict) -> dict:
    """минимаксная нормализация словаря"""
    new_dict = {}
    min_val = min(input_dict.values())
    max_val = max(input_dict.values())
    for key, value in input_dict.items():
        new_dict[key] = (input_dict[key] - min_val) / (max_val - min_val)
    return new_dict

In [7]:
normalized_dict = normalize_dict(histogram_words)
# normalized_dict

In [8]:
def dict_without_values_eq_zero(input_dict: dict) -> dict:
    """словарь без значений равных нулю"""
    return {k:v for k,v in input_dict.items() if v != 0}

dict_without_zero = dict_without_values_eq_zero(normalized_dict)
# dict_without_zero

In [9]:
feature_dict: dict[int, str] = {}
for index, item in enumerate(parsed_json['collections'], start=1):
    # обработка текста 
    tokenized_item = tokenize_ru(item['text'])
    item_histogram = dict(Counter(tokenized_item))
    normalized_histogram = normalize_dict(item_histogram)
    dict_without_zero = dict_without_values_eq_zero(normalized_dict)
    # cобираем словорь dict[index] = dict(feature)
    feature_dict[index] = dict_without_zero
    # # print(index, item['text'])
feature_dict

{1: {'я': 1.0,
  'редактор': 0.07142857142857142,
  'столь': 0.023809523809523808,
  'книги': 0.21428571428571427,
  'но': 0.2857142857142857,
  'разные': 0.047619047619047616,
  'так': 0.11904761904761904,
  'тысячи': 0.023809523809523808,
  'лет': 0.023809523809523808,
  'не': 0.19047619047619047,
  'давно': 0.023809523809523808,
  'назад': 0.047619047619047616,
  'стали': 0.023809523809523808,
  'книга': 0.023809523809523808,
  'все': 0.11904761904761904,
  'читатель': 0.047619047619047616,
  'переживает': 0.023809523809523808,
  'ридер': 0.09523809523809523,
  'прочих': 0.023809523809523808,
  'затем': 0.047619047619047616,
  'выбор': 0.023809523809523808,
  'написали': 0.023809523809523808,
  'специально': 0.023809523809523808,
  'любой': 0.023809523809523808,
  'мог': 0.047619047619047616,
  'приключения': 0.023809523809523808,
  'шкуре': 0.023809523809523808,
  'причем': 0.023809523809523808,
  'ощущения': 0.023809523809523808,
  'настолько': 0.023809523809523808,
  'жизни': 0.0