In [1]:
import numpy as np
import pandas as pd
import operator

# Corus - NLP datasets
import corus
from corus import load_lenta

#NLTK - Natural Language Tool Kit
import nltk

from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
from nltk.corpus import words
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('words')
nltk.download('punkt')

from nltk.tokenize import sent_tokenize, word_tokenize
from nltk import bigrams
from nltk import ngrams

#Other
from collections import Counter
import re
import string
from tqdm import notebook

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/aptmess/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /home/aptmess/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package words to /home/aptmess/nltk_data...
[nltk_data]   Package words is already up-to-date!
[nltk_data] Downloading package punkt to /home/aptmess/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [2]:
from corus.sources.meta import METAS
from corus.readme import format_metas, show_html, patch_readme

html = format_metas(METAS)
show_html(html)

Dataset,API from corus import,Tags,Texts,Uncompressed,Description
Lenta.ru,load_lenta,news,739 351,1.66 Gb,wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Lib.rus.ec,load_librusec,fiction,301 871,144.92 Gb,Dump of lib.rus.ec prepared for RUSSE workshop wget http://panchenko.me/data/russe/librusec_fb2.plain.gz
Rossiya Segodnya,load_ria_raw load_ria,news,1 003 869,3.70 Gb,wget https://github.com/RossiyaSegodnya/ria_news_dataset/raw/master/ria.json.gz
Mokoron Russian Twitter Corpus,load_mokoron,social sentiment,17 633 417,1.86 Gb,Russian Twitter sentiment markup Manually download https://www.dropbox.com/s/9egqjszeicki4ho/db.sql
Wikipedia,load_wiki,,1 541 401,12.94 Gb,Russian Wiki dump wget https://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2
GramEval2020,load_gramru,,162 372,30.04 Mb,wget https://github.com/dialogue-evaluation/GramEval2020/archive/master.zip unzip master.zip mv GramEval2020-master/dataTrain train mv GramEval2020-master/dataOpenTest dev rm -r master.zip GramEval2020-master wget https://github.com/AlexeySorokin/GramEval2020/raw/master/data/GramEval_private_test.conllu
OpenCorpora,load_corpora,morph,4 030,20.21 Mb,wget http://opencorpora.org/files/export/annot/annot.opcorpora.xml.zip
RusVectores SimLex-965,load_simlex,emb sim,,,wget https://rusvectores.org/static/testsets/ru_simlex965_tagged.tsv wget https://rusvectores.org/static/testsets/ru_simlex965.tsv
Omnia Russica,load_omnia,morph web fiction,,489.62 Gb,"Taiga + Wiki + Araneum. Read ""Even larger Russian corpus"" https://events.spbu.ru/eventsContent/events/2019/corpora/corp_sborn.pdf Manually download http://bit.ly/2ZT4BY9"
factRuEval-2016,load_factru,ner news,254,969.27 Kb,"Manual PER, LOC, ORG markup prepared for 2016 Dialog competition wget https://github.com/dialogue-evaluation/factRuEval-2016/archive/master.zip unzip master.zip rm master.zip"


In [23]:
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

--2021-04-05 13:17:05--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 140.82.121.4, 198.51.44.8, 198.51.45.8, ...
Connecting to github.com (github.com)|140.82.121.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://github-releases.githubusercontent.com/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20210405%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20210405T101706Z&X-Amz-Expires=300&X-Amz-Signature=4b23292eb41af8807c5ce0e9ac4e34c5f92b57bb98565cac59ebc6260a8f6df6&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=87156914&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.gz&response-content-type=application%2Foctet-stream [following]
--2021-04-05 13:17:05--  https://github-releases.githubusercontent.com/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-H

In [3]:
def text_prepare(text, language='russian', delete_stop_words=False):
    """
        text: a string
        
        return: modified string
    """
    lemmatizer = WordNetLemmatizer()

    # 1. Перевести символы в нижний регистр
    text = text.lower() #your code
    
    # 2.1 Заменить символы пунктуации на пробелы
    text = re.sub(r'[{}]'.format(string.punctuation), ' ', text)
    
    
    
    # 2.2 Удалить "плохие" символы
    text = re.sub('[^A-Za-z0-9]' if language == 'english' else '[^А-яа-я]', ' ', text)

    
    # 3. Применить WordNetLemmatizer
    word_list = nltk.word_tokenize(text)
    text = ' '.join([lemmatizer.lemmatize(w) for w in word_list])
    
    # 4. Удалить стопслова.
    if delete_stop_words:
        stopWords = set(stopwords.words(language))
        for stopWord in stopWords:
            text = re.sub(r'\b{}\b'.format(stopWord), '', text)
        
    # 5. Удаляю пробелы у получая просто строку слов через пробел
    text = ' '.join(text.split())
    
    return text


def get_grams_from_text(path='lenta-ru-news.csv.gz', 
                        n=2, 
                        amount_of_sentense=1000, 
                        verbose=True, 
                        show_how_much=1000, **kwargs):
    records = load_lenta(path)
    grams, count = {}, 1
    flatten = lambda l: [' '.join(item) for sublist in l for item in sublist]
    try:
        while True and count != amount_of_sentense:
            item = next(records).text
            if verbose:
                print(f'Sentence {count}') if count % show_how_much == 0 else 'pass'
            
            for i in np.arange(1, n+1):
                if i not in list(grams.keys()):
                    grams[i] = Counter()
                ngram = [list(ngrams(text_prepare(sentense, **kwargs).lower().split(), n=i)) for sentense in nltk.sent_tokenize(item)]
                grams[i] += Counter(flatten(ngram))
            count +=1
    except StopIteration:
        pass
    finally:
        del records
    return grams


def predict(corpus, sentence, n=3):
    sen = text_prepare(sentence)
    cor = corpus.copy()
    rev = sen.split()[::-1]
    s = sum(list(cor[2].values()))
    s1 = sum(list(cor[1].values()))
    d = {}
    for key, value in list(cor[1].items()):
        a = []
        for i in np.arange(1, n+1):
            v = cor[2][f'{rev[i-1]} {key}']
            a.append(np.log(v / s) if v!=0 else np.log(0.000001))
        d[key] = sum([np.log(value / s1)] + a)    
    return sentence + ' ' + max(d.items(), key=operator.itemgetter(1))[0]

In [4]:
g = get_grams_from_text(n=1, 
                        amount_of_sentense=8000, 
                        show_how_much=2000, 
                        delete_stop_words=False)

Sentence 2000
Sentence 4000
Sentence 6000


In [5]:
l = list(g[1].keys())

### 4.1.1. Алгоритм максимального соответствия (`MaximalMatching`)

**Алгоритм максимального соответствия** -  это *жадный алгоритм*, в котором в тексте последовательно выделяются слова **наибольшей длины**, которые встретились в словаре. В качестве примера приведем строку:

In [6]:
string = "вицепремьерноваядомашняярыба"

In [7]:
s_eng = "themendinehere"

In [8]:
def maximal_by(string, words, return_amount=False):
    lowercaseCorpus = [x.lower() for x in words]
    tokens = []
    i = 0
    num_of_unknown_values = []
    while i < len(string):
        maxWord = ""
        for j in range(i, len(string)):
            tempWord = string[i:j+1]
            if tempWord in lowercaseCorpus and len(tempWord) > len(maxWord):
                maxWord = tempWord
        if maxWord == '':
            num_of_unknown_values.append(string[i])
            maxWord = string[i]
            
        i = i+len(maxWord)
        tokens.append(maxWord)
    if return_amount:
        return ' '.join(tokens), num_of_unknown_values
    else:
        return ' '.join(tokens)

In [9]:
maximal_by(string, l)

'вице премьер новая домашняя рыба'

In [10]:
maximal_by(s_eng, words.words())

'theme n dine here'

### 4.1.2 Обратный алгоритм максимального соответствия

В отличие от предыдущего алгоритма поиск оптимального разбиения начинается с конца строки. Таким образом, подпоследовательностью наибольшей длины окажется слово `here`.

Тогда по данному методу получится строка:

```python
themendinehere - > the men dine here
```

In [11]:
def maximal_by_reverse(string, words, return_amount=False):
    lowercaseCorpus = [x.lower() for x in words]
    tokens = []
    i = 0
    string = string[::-1]
    num_of_unknown_values = []
    while i < len(string):
        maxWord = ""
        for j in range(i, len(string)):
            tempWord = string[i:j+1][::-1]
            if tempWord in lowercaseCorpus and len(tempWord) > len(maxWord):
                maxWord = tempWord
           
        if maxWord == "":
            num_of_unknown_values.append(string[i])
            maxWord = string[i]
        i = i+len(maxWord)
        tokens.append(maxWord)
    if return_amount:
        return ' '.join(tokens[::-1]), num_of_unknown_values
    else:
        return ' '.join(tokens[::-1])

In [12]:
k = words.words()
k.remove('hemen')

In [13]:
maximal_by_reverse(s_eng, k)

'the men dine here'

In [14]:
maximal_by_reverse(string, l)

'вице премьер новая домашняя рыба'

In [15]:
maximal_by("молококровавыйяваразборкивакровавыйбангладешываываивангайвыывймолоко", l)

'молоко кровавый ява разборки ва кровавый бангладеш ы ва ы ваи ванг ай вы ы в й молоко'

In [16]:
maximal_by_reverse("молококровавыйяваразборкивакровавыйбангладешываываивангайвыывймолоко", l)

'молоко кровавый ява разбор кива кровавый бангладеш ы ва ы ва иван гай вы ы в й молоко'

### 4.1.3. Двунаправленный алгоритм максимального соответствия

Двунаправленный алгоритм является комбинацией предыдущих алгоритмов. 

1. На первом шаге данного алгоритма выполняются прямой поиск, т.е. применяется алгоритм максимального соответствия и обратный поиск. 

2. Затем рассматриваются все полученные слова и выбирается наименее *сегментированная последовательность* (**с наименьшим количеством неизвестных слов**).

In [17]:
def two_ways(string, words):
    w1, s1 = maximal_by(string, words, return_amount=True)
    w2, s2 = maximal_by_reverse(string, words, return_amount=True)
    print(w1, s1)
    print(w2, s2)
    if s1 > s2:
        return w2
    else:
        return w1

In [18]:
string

'вицепремьерноваядомашняярыба'

In [19]:
two_ways(string, l)

вице премьер новая домашняя рыба []
вице премьер новая домашняя рыба []


'вице премьер новая домашняя рыба'

In [20]:
new_ = list(filter(lambda x: len(x) != 1, l))

In [21]:
two_ways("визуальнаяпрогулка", new_)

визу аль на я прогулка ['я']
визу а льна я прогулка ['я', 'а']


'визу аль на я прогулка'

### 4.1.4 Выделение подпоследовательности с наименьшим количеством слов

Указанный алгоритм рассматривает все возможные подпоследовательности и выбирает ту, где содержится наименьшее количество слов не из словаря. Ниже приведен пример реализации, где на каждом шаге из рассмотрения удаляются те ребра, по которым невозможна дальнейшая сегментация.

In [22]:
class TreeNode:
    def __init__(self, value, in_vocabulary=True, is_terminal=False):
        self.value = value
        self.childrens = []
        self.in_vocabulary = in_vocabulary
        self.is_terminal = is_terminal

In [35]:
def maximal_by_rec(string, words, val=[], return_amount=False, use_words_not_in_vocab=False):
    lowercaseCorpus = [x.lower() for x in words]
    if val == []:
        node = TreeNode(value='')
    else:
        node = val
    i = 0
    if node.value == '':
        s = ''
    else:
        s = node.value + ' '
    for j in range(i, len(string)):
        tempWord = string[i:j+1]
        if string[len(tempWord):] != '':
            if tempWord in lowercaseCorpus:
                node.childrens.append(TreeNode(value=s + tempWord))
                maximal_by_rec(string[len(tempWord):], words, val=node.childrens[-1])
            else:
                node.childrens.append(TreeNode(value=s + tempWord, in_vocabulary=False))
                if use_words_not_in_vocab:
                    maximal_by_rec(string[len(tempWord):], words, val=node.childrens[-1])
        else:
            node.childrens.append(TreeNode(value=s + tempWord, is_terminal=True))
     
    return node

In [57]:
c = maximal_by_rec("книгановейшаяигра", new_, val=[], use_words_not_in_vocab=False)

In [63]:
import collections
def dfs(start, visited=None):
    if visited is None:
        visited = set()
    if start.is_terminal:
        visited.add(start.value)
    for next in set(start.childrens) - visited:
        dfs(next, visited)
    return visited

def bfs(root): 
    visited, queue = set(), collections.deque([root])
    visited.add(root)
    m = []
    while queue: 
        vertex = queue.popleft()
        for neighbour in vertex.childrens: 
            visited.add(neighbour) 
            queue.append(neighbour)
            if neighbour.is_terminal:
                m.append(neighbour.value)
    return m

In [64]:
dfs(c)

{'кн иг ан овейшаяигра',
 'кн иг ано вейшаяигра',
 'кн иг ановейшаяигра',
 'кн игановейшаяигра',
 'книг ан овейшаяигра',
 'книг ано вейшаяигра',
 'книг ановейшаяигра',
 'книга но вейшаяигра',
 'книга новейшая иг ра',
 'книга новейшая игр а',
 'книга новейшая игра',
 'книга новейшаяигра',
 'книгановейшаяигра'}

In [65]:
bfs(c)

['книгановейшаяигра',
 'кн игановейшаяигра',
 'книг ановейшаяигра',
 'книга новейшаяигра',
 'кн иг ановейшаяигра',
 'книг ан овейшаяигра',
 'книг ано вейшаяигра',
 'книга но вейшаяигра',
 'книга новейшая игра',
 'кн иг ан овейшаяигра',
 'кн иг ано вейшаяигра',
 'книга новейшая иг ра',
 'книга новейшая игр а']