In [1]:
import pymorphy2 as pm2 
pmm = pm2.MorphAnalyzer() 
import re
from collections import Counter, defaultdict

In [2]:
import nltk 
from nltk import ngrams
from nltk.text import Text 
nltk.download("stopwords") 
#--------# 
from nltk.corpus import stopwords 

#Create lemmatizer and stopwords list 
russian_stopwords = stopwords.words("russian")

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Sony\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [3]:
def open_text(name):
    with open(name, 'r', encoding='utf-8') as n:
        text = n.read()
    return text

In [4]:
def clean_text(text):
    text = re.sub(r'[^\w\s]','',text) 
    text = re.sub(r'\d', '', text) 
    text = re.sub(r'[A-Za-z]', '', text) 
    text = [pmm.normal_forms(x)[0] for x in text.split() if x not in russian_stopwords] 
    return text

In [5]:
text = clean_text(open_text('geometry.txt'))

In [6]:
text

['прямоугольный',
 'треугольник',
 'треугольник',
 'называться',
 'прямоугольный',
 'прямая',
 'угол',
 'треугольник',
 'называться',
 'остроугольный',
 'угол',
 'острый',
 'тупоугольный',
 'тупой',
 'угол',
 'так',
 'сумма',
 'угол',
 'треугольник',
 'равный',
 'сто',
 'восемьдесят',
 'градус',
 'прямоугольный',
 'треугольник',
 'прямая',
 'угол',
 'другой',
 'угол',
 'прямоугольный',
 'треугольник',
 'острый',
 'сумма',
 'острый',
 'угол',
 'прямоугольный',
 'треугольник',
 'равный',
 'сто',
 'восемьдесят',
 'градус',
 'минус',
 'девяносто',
 'градус',
 'равно',
 'девяносто',
 'градус',
 'сторона',
 'прямоугольный',
 'треугольник',
 'противолежащий',
 'прямой',
 'угол',
 'называться',
 'гипотенуза',
 'два',
 'другой',
 'сторона',
 'называться',
 'катет',
 'косинус',
 'угол',
 'косинус',
 'угол',
 'прямоугольный',
 'треугольник',
 'называться',
 'отношение',
 'прилежащий',
 'катет',
 'гипотенуза',
 'косинус',
 'угол',
 'альфа',
 'обозначаться',
 'кос',
 'альфа',
 'α',
 'рассмотреть',


In [7]:
len(text)

1650

In [8]:
def ngrammer(tokens, n):
    ngrams = []
    if n>1:
        for i in range(len(text) - (n - 1)):
            ngrams.append(tuple(text[i:i+n]))
    
    return ngrams

In [9]:
trigram = ngrammer(text, 3)

In [10]:
type(trigram[0])

tuple

In [11]:
trigram[:10]

[('прямоугольный', 'треугольник', 'треугольник'),
 ('треугольник', 'треугольник', 'называться'),
 ('треугольник', 'называться', 'прямоугольный'),
 ('называться', 'прямоугольный', 'прямая'),
 ('прямоугольный', 'прямая', 'угол'),
 ('прямая', 'угол', 'треугольник'),
 ('угол', 'треугольник', 'называться'),
 ('треугольник', 'называться', 'остроугольный'),
 ('называться', 'остроугольный', 'угол'),
 ('остроугольный', 'угол', 'острый')]

In [12]:
word_counter = Counter()

word_counter.update(ngrammer(text, 3))

In [13]:
word_counter.most_common(40)

[(('косинус', 'квадрат', 'альфа'), 11),
 (('альфа', 'равный', 'отношение'), 8),
 (('синус', 'квадрат', 'альфа'), 7),
 (('два', 'параллельный', 'прямая'), 7),
 (('накрест', 'лежать', 'угол'), 6),
 (('угол', 'альфа', 'равный'), 5),
 (('ц', 'а', 'б'), 5),
 (('а', 'штрих', 'б'), 5),
 (('штрих', 'б', 'штрих'), 5),
 (('штрих', 'ц', 'штрих'), 5),
 (('отношение', 'б', 'ц'), 5),
 (('угол', 'равный', 'угол'), 5),
 (('треугольник', 'б', 'ц'), 5),
 (('ц', 'делить', 'б'), 5),
 (('отношение', 'ц', 'б'), 5),
 (('квадрат', 'альфа', 'плюс'), 5),
 (('делить', 'косинус', 'квадрат'), 5),
 (('лежать', 'угол', 'равный'), 5),
 (('угол', 'прямоугольный', 'треугольник'), 4),
 (('а', 'б', 'ц'), 4),
 (('отношение', 'а', 'ц'), 4),
 (('а', 'ц', 'а'), 4),
 (('б', 'ц', 'равный'), 4),
 (('б', 'ц', 'б'), 4),
 (('равный', 'отношение', 'б'), 4),
 (('тангенс', 'альфа', 'равный'), 4),
 (('котангенс', 'альфа', 'равный'), 4),
 (('зависеть', 'величина', 'угол'), 4),
 (('корень', 'квадратный', 'разность'), 4),
 (('альфа', 'ко

In [None]:
##надо добавить стоп-слова