In [1]:
from pathlib import Path
import os
import json
from pymystem3 import Mystem

In [2]:
def get_text(path):
    files = {}
    whole_text = ''
    for file in Path(path).glob('*_processed.txt'):
        file_id = str(file).split('\\')[-1].split('_')[0]
        with open(file, 'r', encoding='utf-8') as f:
            files[int(file_id)] = f.read()
            whole_text += files[int(file_id)] + ' '
    return files, whole_text


def parse(text):
    tokens = []
    result = Mystem().analyze(text)

    for i, word in enumerate(result):
        if not word.get('analysis', 0) or not word.get('text', 0):
            continue

        word_base = word['analysis'][0]
        if not word_base.get('lex', 0) or not word_base.get('gr', 0):
            continue

        tokens.append(word['analysis'][0]['lex'])
    return tokens


def get_idioms():
    with open(r"D:\Python\diploma\idioms_collection.json", 'r', encoding='utf-8') as f:
        idioms = json.load(f)
    return idioms


def dump_idioms(idioms):
    with open(r"D:\Python\diploma\idioms_lemmatized.json", 'a', encoding='utf-8') as f:
        for idiom in idioms:
            json.dump(idiom, f, ensure_ascii=False, indent=4)


def lemmatize_idioms(idioms):
    idioms_lem = []
    for i, idiom in enumerate(idioms[::-1]):
        if i in range(3801):
            continue
        idioms_lem.append({'phrase': []})
        for phrase in idiom['phrase']:
            idioms_lem[-1]['phrase'].append(' '.join(parse(phrase)))
        idioms_lem[-1].update({key: value for key, value in idiom.items() if key != 'phrase'})
        if i % 100 == 0 and i > 0:
            print(f'-- {i} --\nLast idiom to be processed:\n{idioms_lem[-1]}\n\n')
            dump_idioms(idioms_lem[-100:])
    return idioms_lem

In [14]:
idioms = get_idioms()
idioms_lem = lemmatize_idioms(idioms)
print(*idioms_lem[-10], sep='\n\n')
dump_idioms()

-- 100 --
Last idiom to be processed:
{'phrase': ['с ум'], 'semantics': [{'dictionary': 'Volkova', 'role': [], 'meaning': 'Рассудительно, разумно, с пониманием.', 'abbr': [], 'examples': [{'text': 'Когда перенимать с умом, тогда не чудо и пользу от того сыскать, а без ума перенимать, и боже сохрани, как худо! Крылов.', 'source': ''}]}]}


-- 200 --
Last idiom to be processed:
{'phrase': ['за один спасибо сделать что н'], 'semantics': [{'dictionary': 'Volkova', 'role': [], 'meaning': 'Даром, без всякой выгоды.', 'abbr': ['разг', 'фам'], 'examples': [{'text': 'Кто же будет за одно спасибо стараться.', 'source': ''}]}]}


-- 300 --
Last idiom to be processed:
{'phrase': ['саврас без узда или безуздый саврас молодой мужчина склонный к кутеж бесшабашный разгул преимущий о купеческий сынок'], 'semantics': [{'dictionary': 'Volkova', 'role': [], 'meaning': '', 'abbr': ['разг', 'перен'], 'examples': []}]}


-- 400 --
Last idiom to be processed:
{'phrase': ['проливать проливать слеза'], 'semanti

-- 2700 --
Last idiom to be processed:
{'phrase': ['не видать как свой затылок'], 'semantics': [{'dictionary': 'Kveselevich', 'role': ['чего'], 'meaning': '', 'abbr': ['прост'], 'examples': [{'text': 'Вижу, Азамат, что тебе больно понравилась эта лошадь а не видать тебе её как своего затылка!..', 'source': 'М. Лермонтов, Герой нашего времени'}]}]}


-- 2800 --
Last idiom to be processed:
{'phrase': ['на ноль'], 'semantics': [{'dictionary': 'Kveselevich', 'role': ['быть, сидеть и т. п.'], 'meaning': '', 'abbr': ['прост'], 'examples': [{'text': 'Ждать помощи от отца ей не приходится  он сам на нуле.', 'source': 'В. Черняк, Час пробил'}]}]}


-- 2900 --
Last idiom to be processed:
{'phrase': ['ловить на себя взгляд'], 'semantics': [{'dictionary': 'Kveselevich', 'role': ['чей, кого'], 'meaning': '', 'abbr': [], 'examples': [{'text': 'Шамет всё чаще ловил на себе недоумевающий взгляд девочки.', 'source': 'К. Паустовский, Золотая роза'}]}]}


-- 3000 --
Last idiom to be processed:
{'phrase':

KeyboardInterrupt: 

-- 3800 --

In [4]:
idioms = get_idioms()
idioms_lem = lemmatize_idioms(idioms)

-- 3900 --
Last idiom to be processed:
{'phrase': ['много все на свет'], 'semantics': [{'dictionary': 'Kveselevich', 'role': [], 'meaning': '', 'abbr': ['разг'], 'examples': [{'text': 'Этот-то букет больше всего на свете злил Кешу. Он не мог и не хотел понять, зачем ей нужен был этот дурацкий букет...', 'source': 'Г. Семёнов, К зиме, минуя осень'}]}]}


-- 4000 --
Last idiom to be processed:
{'phrase': ['язык не повертываться у кто сказать спрашивать'], 'semantics': [{'dictionary': 'Fedosov', 'role': [], 'meaning': 'Нет решимости.', 'abbr': [], 'examples': []}]}


-- 4100 --
Last idiom to be processed:
{'phrase': ['черт знать кто или что какой куда'], 'semantics': [{'dictionary': 'Fedosov', 'role': [], 'meaning': 'Неизвестно кто (или что, какой, куда и т. п.).', 'abbr': ['прост'], 'examples': []}, {'dictionary': 'Fedosov', 'role': [], 'meaning': 'О ком-либо, чем-либо очень плохом, дурном.', 'abbr': [], 'examples': []}]}


-- 4200 --
Last idiom to be processed:
{'phrase': ['фря какой'],

-- 6800 --
Last idiom to be processed:
{'phrase': ['взять на себя воля'], 'semantics': [{'dictionary': 'Fedosov', 'role': [], 'meaning': 'Избаловаться, перестать слушаться старших.', 'abbr': [], 'examples': []}]}


-- 6900 --
Last idiom to be processed:
{'phrase': ['вздыхать некогда', 'дохнуть некогда', 'дыхнуть некогда'], 'semantics': [{'dictionary': 'Fedosov', 'role': [], 'meaning': 'О чрезвычайной занятости.', 'abbr': [], 'examples': []}, {'dictionary': 'Fedosov', 'role': [], 'meaning': 'Очень занят, нагружен чем-либо.', 'abbr': [], 'examples': []}, {'dictionary': 'Kveselevich', 'role': [], 'meaning': '', 'abbr': ['прост'], 'examples': [{'text': 'А разве я хуже мужчины работаю? Или я сына плохого вырастила? До сих пор мне дохнуть было некогда...', 'source': 'А. Коптяева, Дерзание'}]}, {'examples': [{'text': 'Да полно тебе, сватушка, церемониться, — говорила старостиха, — зайди, родная… — Право, неколи, — отвечала Петровна… — Таперича дыхнуть некогда. Ребятишки ждут тоже, сама знаешь

-- 8200 --
Last idiom to be processed:
{'phrase': ['сыр-бор', 'сыр-бор гореть'], 'semantics': [{'examples': [{'text': 'Ежели хочешь знать, тёзка Егорий, интеллектуалы эти у нас вот где сидят! — артист хлопнул себя ладошкою по шее. — Из-за них, понимаешь, весь сыр-бор горит', 'source': 'М. Юдалевич. Пятый год'}, {'text': 'Теперь-то дошло до меня, что к чему, из-за чего у них сыр-бор. Залётный Эдик высмотрел доярку Нюру — знатную работницу, с орденами, премиями и сманил к себе', 'source': 'А. Иванов. Филя Тропочкин'}], 'meaning': 'Происходит что-либо из-за кого-либо или по какой-то причине.', 'role': ['из-за кого, чего'], 'dictionary': 'Fedorov', 'abbr': []}]}


-- 8300 --
Last idiom to be processed:
{'phrase': ['стоять один нога во гроб в гроб'], 'semantics': [{'examples': [{'text': '— Я — старик, одной ногой во гробе стою, не чаю и завтрашнего утра увидеть, однако ж не плачусь. А ты — воевода, для чего ж срамишься?', 'source': 'Ю. Герман. Россия молодая'}], 'abbr': ['устар', 'экспрес']

KeyboardInterrupt: 

-- 9100 --

In [15]:
with open(r"D:\Python\diploma\idioms_lemmatized_charm.json", 'r', encoding='utf-8') as f:
        idioms_lem_charm = json.load(f)
len(idioms_lem_charm)

7800

In [17]:
for i, idiom in enumerate(idioms):
    if i in range(7999):
        continue
    
    idiom_cur = {'phrase': []}
    for phrase in idiom['phrase']:
        idiom_cur['phrase'].append(' '.join(parse(phrase)))
    idiom_cur.update({key: value for key, value in idiom.items() if key != 'phrase'})
    
    if idiom_cur in idioms_lem_charm:
        print('in first part', idiom_cur['phrase'])
        continue
    
    if idiom_cur in idioms_lem_jup:
        print('in other part')
        idioms_lem_charm.extend(idioms_lem_jup[::-1])
        print('total length ', len(idioms_lem_charm))
        break
    
    idioms_lem_charm.append(idiom_cur)
    
    if i % 100 == 0 and i > 0:
        print(f'-- {i} --\nLast idiom to be processed:\n{idioms_lem_charm[-1]}\n\n')
        #dump_idioms(idioms_lem[-100:])

in first part ['приводить на память']
in first part ['приводить в божеский вид']
-- 8100 --
Last idiom to be processed:
{'phrase': ['про и контра'], 'semantics': [{'examples': [], 'abbr': ['книжн'], 'meaning': 'То, что подтверждает что-либо в сопоставлении с тем, что отрицает его.', 'dictionary': 'Fedorov'}, {'dictionary': 'Kveselevich', 'role': [], 'meaning': '', 'abbr': ['книжн', 'лат'], 'examples': []}]}


-- 8200 --
Last idiom to be processed:
{'phrase': ['просклонять во весь падеж', 'склонять во весь падеж', 'просклонять на весь лад', 'склонять на весь лад'], 'semantics': [{'examples': [{'text': 'В этой связи во всех падежах просклоняли Лонк де Лоббеля с его проектом железной дороги Канск — Аляска', 'source': 'С. Сартаков. Хребты Саянские'}], 'abbr': ['разг', 'шутл'], 'meaning': 'Часто упоминать, осуждая, упрекая, критикуя и т. п.', 'role': ['кого, что'], 'dictionary': 'Fedorov'}, {'dictionary': 'Kveselevich', 'role': ['кого, что'], 'meaning': '', 'abbr': ['разг'], 'examples': [{'

In [18]:
len(idioms)

17847

In [23]:
len(idioms_lem_charm)

17346

In [20]:
len(idioms_lem_charm)

17346

In [24]:
with open(r"D:\Python\diploma\idioms_lemmatized.json", 'w', encoding='utf-8') as f:
    json.dump(idioms_lem_charm, f, ensure_ascii=False, indent=4)

In [5]:
with open(r"D:\Python\diploma\idioms_lemmatized.json", 'r', encoding='utf-8') as f:
    idioms_lem_charm = json.load(f)
len(idioms_lem_charm)

17346

In [7]:
all_sems = []
for phrase in idioms_lem_charm:
    all_sems.append(phrase['semantics'])
len(all_sems)

17346

In [9]:
idioms = get_idioms()

In [13]:
i = 0
for idiom in idioms:
    i += 1
    
    if i % 500 == 0:
        print(i, ' Milestone passed')
        
    if idiom['semantics'] in all_sems:
        continue
    
    idiom_cur = {'phrase': []}
    for phrase in idiom['phrase']:
        idiom_cur['phrase'].append(' '.join(parse(phrase)))
    idiom_cur.update({key: value for key, value in idiom.items() if key != 'phrase'})
    
    if idiom_cur in idioms_lem_charm:
        continue
    
    idioms_lem_charm.append(idiom_cur)
    
    if len(idioms_lem_charm) == len(idioms):
        print('Reached wanted length')
        break

len(idioms_lem_charm)

500  Milestone passed
1000  Milestone passed
1500  Milestone passed
2000  Milestone passed
2500  Milestone passed
3000  Milestone passed
3500  Milestone passed
4000  Milestone passed
4500  Milestone passed
5000  Milestone passed
5500  Milestone passed
6000  Milestone passed
6500  Milestone passed
7000  Milestone passed
7500  Milestone passed
8000  Milestone passed
8500  Milestone passed
9000  Milestone passed
9500  Milestone passed
10000  Milestone passed
10500  Milestone passed
11000  Milestone passed
11500  Milestone passed
12000  Milestone passed
12500  Milestone passed
13000  Milestone passed
13500  Milestone passed
14000  Milestone passed
14500  Milestone passed
15000  Milestone passed
15500  Milestone passed
16000  Milestone passed
16500  Milestone passed
17000  Milestone passed
17500  Milestone passed


17844

In [14]:
len(idioms)

17847

In [15]:
with open(r"D:\Python\diploma\idioms_lemmatized.json", 'w', encoding='utf-8') as f:
    json.dump(idioms_lem_charm, f, ensure_ascii=False, indent=4)