Created by Artur Samvelyan 

Email: arthur@rikkicom.io

Rikkicom

In [1]:
import re
import pickle

from collections import defaultdict
from tqdm.notebook import tqdm
from typing import List

In [2]:
def clean_text(text: str) -> str:
    cleaned_str = re.sub('[^а-яїіґє\\s]+', '',text,flags=re.IGNORECASE)
    cleaned_str = re.sub('(\\s+)', ' ',cleaned_str)
    cleaned_str = cleaned_str.lower()
    return cleaned_str

def preprocess_text(text: str) -> List[str]:
    cleaned = clean_text(text.lower())
    tokens = cleaned.split()
    return tokens
    
def count(tokens: List[int]) -> dict:
    dd = defaultdict(lambda: 0)
    for token in tokens:
        dd[token] += 1
    return dd

def merge(first, second):
    for k,v in first.items():
        second[k] += v
    return second

### Counting process

In [3]:
datasets = ['data/news.lemmatized.shuffled.txt',
            'data/wiki_dump.lemmatized.txt',
            'data/fiction.lemmatized.shuffled.txt']

In [4]:
freqs = defaultdict(lambda: 0)

In [5]:
for dataset_path in datasets:
    with open(dataset_path, 'r') as f:
        for line in tqdm(f):
            tokens = preprocess_text(line)
            d = count(tokens)
            freqs = merge(d, freqs)

0it [00:00, ?it/s]

0it [00:00, ?it/s]

0it [00:00, ?it/s]

In [6]:
with open('frequencies.txt', 'wb') as f:
    pickle.dump(dict(freqs), f)

In [7]:
#with open('frequencies.txt', 'rb') as f:
    #freqs = pickle.load(f)

In [8]:
list(freqs.items())[:50]

[('але', 1316113),
 ('передусім', 18564),
 ('збройний', 107562),
 ('конфлікт', 123624),
 ('з', 9474681),
 ('росія', 815145),
 ('треба', 221495),
 ('боятися', 50551),
 ('україна', 4043423),
 ('адже', 155134),
 ('її', 818532),
 ('сила', 447845),
 ('застаріти', 1352),
 ('і', 10688704),
 ('не', 6097124),
 ('здатний', 60541),
 ('успішно', 32009),
 ('протистояти', 13460),
 ('противник', 34685),
 ('в', 12830204),
 ('сучасне', 41688),
 ('на', 12600041),
 ('борт', 36233),
 ('лайнер', 9211),
 ('перебувати', 250944),
 ('особа', 722181),
 ('у', 11655571),
 ('тому', 756111),
 ('число', 240020),
 ('член', 416836),
 ('екіпаж', 42248),
 ('ви', 457836),
 ('сам', 571784),
 ('багато', 449157),
 ('репетирувати', 688),
 ('як', 3772679),
 ('повідомляти', 625772),
 ('державний', 693179),
 ('прикордонний', 46683),
 ('служба', 321821),
 ('під', 1223538),
 ('час', 1408419),
 ('контроль', 142455),
 ('один', 1453734),
 ('пасажир', 75076),
 ('який', 3959314),
 ('прибути', 67687),
 ('відень', 22408),
 ('спрацювати'

### Sorting elements

In [9]:
freqs_sorted = {k: v for k, v in sorted(freqs.items(), key=lambda item: item[1], reverse=True)}

In [10]:
list(freqs_sorted.items())[:40]

[('в', 12830204),
 ('на', 12600041),
 ('у', 11655571),
 ('і', 10688704),
 ('з', 9474681),
 ('що', 7579290),
 ('не', 6097124),
 ('бути', 5919322),
 ('до', 5549766),
 ('за', 5289288),
 ('та', 4794144),
 ('це', 4214535),
 ('україна', 4043423),
 ('який', 3959314),
 ('як', 3772679),
 ('про', 3559146),
 ('рік', 3348058),
 ('а', 3083457),
 ('він', 2756712),
 ('для', 2464221),
 ('від', 2344023),
 ('й', 2060777),
 ('свій', 1952564),
 ('вони', 1941613),
 ('його', 1815000),
 ('цей', 1802201),
 ('також', 1662993),
 ('я', 1649060),
 ('ми', 1628819),
 ('той', 1611214),
 ('категорія', 1528804),
 ('один', 1453734),
 ('мати', 1434553),
 ('час', 1408419),
 ('такий', 1400936),
 ('із', 1316518),
 ('але', 1316113),
 ('могти', 1302069),
 ('під', 1223538),
 ('рок', 1211673)]

In [11]:
with open('freqs_sorted.txt', 'wb') as f:
    pickle.dump(freqs_sorted, f)