In [2]:
from deeppavlov import build_model, configs
from tqdm import tqdm_notebook as tqdm
import json
from os import listdir
from os.path import join
from nltk.tokenize import WordPunctTokenizer
import numpy as np
from sklearn.model_selection import train_test_split
from queue import Queue
from collections import defaultdict, Counter

### Лемматизация от deeppavlov

Эта лемматизация слишком простая. Хотим более сложную, где будет морфотеггинг, а также начальная форма

In [4]:
model = build_model(configs.morpho_tagger.BERT.morpho_ru_syntagrus_bert, download=False)

2020-03-23 01:27:27.652 INFO in 'deeppavlov.core.data.simple_vocab'['simple_vocab'] at line 115: [loading vocabulary from /home/loginov-ra/.deeppavlov/models/morpho_ru_syntagrus/tag.dict]
2020-03-23 01:27:50.258 INFO in 'deeppavlov.core.models.tf_model'['tf_model'] at line 51: [loading model from /home/loginov-ra/.deeppavlov/models/morpho_ru_syntagrus/model]


INFO:tensorflow:Restoring parameters from /home/loginov-ra/.deeppavlov/models/morpho_ru_syntagrus/model




In [3]:
sentence = "Кони неслись по гулкой мостовой, сметая всё на своём пути"

In [4]:
sentences = ["Кони неслись по гулкой мостовой, сметая всё на своём пути.", "Девушка пела в церковном хоре о всех уставших в чужом краю."]
for parse in model(sentences):
    print(parse)

1	Кони	конь	NOUN	_	Animacy=Anim|Case=Nom|Gender=Masc|Number=Plur	_	_	_	_
2	неслись	нестись	VERB	_	Aspect=Imp|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Mid	_	_	_	_
3	по	по	ADP	_	_	_	_	_	_
4	гулкой	гулкий	ADJ	_	Case=Dat|Degree=Pos|Gender=Fem|Number=Sing	_	_	_	_
5	мостовой	мостовая	NOUN	_	Animacy=Inan|Case=Dat|Gender=Fem|Number=Sing	_	_	_	_
6	,	,	PUNCT	_	_	_	_	_	_
7	сметая	сметать	VERB	_	Aspect=Imp|Tense=Pres|VerbForm=Conv|Voice=Act	_	_	_	_
8	всё	весь	PRON	_	Animacy=Inan|Case=Acc|Gender=Neut|Number=Sing	_	_	_	_
9	на	на	ADP	_	_	_	_	_	_
10	своём	свой	DET	_	Case=Loc|Gender=Masc|Number=Sing	_	_	_	_
11	пути	путь	NOUN	_	Animacy=Inan|Case=Loc|Gender=Masc|Number=Sing	_	_	_	_
12	.	.	PUNCT	_	_	_	_	_	_

1	Девушка	девушка	NOUN	_	Animacy=Anim|Case=Nom|Gender=Fem|Number=Sing	_	_	_	_
2	пела	петь	VERB	_	Aspect=Imp|Gender=Fem|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act	_	_	_	_
3	в	в	ADP	_	_	_	_	_	_
4	церковном	церковный	ADJ	_	Case=Loc|Degree=Pos|Gender=Masc|Number=Sing	_	_	_	_
5	хоре	х

In [5]:
sentences = ["Кони неслись по гулкой мостовой, сметая всё на своём пути."]
print(model(sentences)[0].split('\n')[2].split('\t')[2])

по


In [6]:
def lemmatize_sentence_short(sentence):
    sentences = [sentence]
    morpho_tokens = model(sentences)[0].split('\n')
    lemmatized_tokens = [x.split('\t')[2] for x in morpho_tokens if len(x.split('\t')) == 10]
    return ' '.join(list(lemmatized_tokens))

def lemmatize_sentence(sentence):
    ans_parts = []
    tokens = WordPunctTokenizer().tokenize(sentence)
    n_tokens = len(tokens)
    
    if n_tokens < 256:
        return lemmatize_sentence_short(sentence)
    else:
        return ""
    
    i = 0
    
    while i < n_tokens:
        if i + 256 < n_tokens:
            finish_i = i + 256
        else:
            finish_i = n_tokens
        
        ans_parts.append(lemmatize_sentence_short(' '.join(tokens[i:finish_i])))
        i += 256
        
    return ' '.join(ans_parts)

In [7]:
lemmatize_sentence(sentences[0])

'конь нестись по гулкий мостовая , сметать весь на свой путь .'

### Тезаурус Лукашевич

Разберемся с тем, как можно парсить тезаурус. Для начала соберём словарь понятий из html, затем из файла прочитаем отношения ВЫШЕ-НИЖЕ, полезные для поиска гиперонимов

In [9]:
def preprocess_token(name):
    if '(' in name:
        name = name.split('(')[0][:-1]
    return lemmatize_sentence(name)

def preprocess_multiterm(term):
    return [preprocess_token(token.strip()) for token in term.split(',')]

In [10]:
from lxml import etree
from io import StringIO, BytesIO
from collections import defaultdict
import sys

In [11]:
def get_id_to_word_matching(concepts_filename):
    id_to_words = dict()
    words_to_id = dict()
    
    with open(concepts_filename) as xml_file:
        xml = xml_file.read()
    
    root = etree.fromstring(xml)
    
    for concept in tqdm(root.getchildren()):
        name = concept.find('name')
        idx = concept.get('id')
        terms = preprocess_multiterm(name.text)
        
        for term in terms:
            words_to_id[term] = int(idx)
            id_to_words[int(idx)] = term
                
    return id_to_words, words_to_id

In [12]:
id_to_words, words_to_id = get_id_to_word_matching('RuThes/concepts.xml')




KeyboardInterrupt: 

In [76]:
words_to_id['российский федерация']

2636

In [80]:
words_to_id['абажур']

110725

In [81]:
words_to_id['плафон']

110725

Получили соответствие номеров сущностей и самих слов и наоборот. К сожалению, нескольким словам может соответствовать один и тот же номер сущности. Однако это может только помочь в определении похожих слов

**Запишем данные в формате JSON**, чтобы снова не запускать процесс лемматизации

In [85]:
with open('vocab_data/words_to_id.json', 'w', encoding='utf8') as json_file:
    json.dump(words_to_id, json_file)
    
with open('vocab_data/id_to_words.json', 'w', encoding='utf8') as json_file:
    json.dump(id_to_words, json_file)

___________________

Теперь распарсим конкретно словарь гиперонимов

In [12]:
with open('vocab_data/words_to_id.json', encoding='utf8') as json_file:
    words_to_id = json.load(json_file)

In [13]:
with open('vocab_data/id_to_words.json', encoding='utf8') as json_file:
     id_to_words = json.load(json_file)

In [14]:
id_to_words = dict([(int(a), b) for a, b in id_to_words.items()])

In [15]:
with open('RuThes/relations.xml') as xml_file:
    xml = xml_file.read()

In [16]:
root = etree.fromstring(xml)

In [17]:
for relation in root.getchildren():
    lhs = relation.get("from")
    rhs = relation.get("to")
    t = relation.get("name")
    if t == "ВЫШЕ":
        lhs = id_to_words[int(lhs)]
        rhs = id_to_words[int(rhs)] 
        print("[{}; {}]".format(lhs, rhs))

[энергетика; производить товар]
[энергетика; инфраструктурный отрасль]
[электростанция; энергетический объект]
[электростанция; производитель электроэнергия]
[энергия; физический свойство]
[энергетический обеспечение; предоставление услуга]
[электроснабжение; энергетический обеспечение]
[электроснабжение; коммунальный услуга]
[электрический энергия; энергия]
[тепловой энергия; энергия]
[гидроэлектростанция; электростанция]
[линия электропередача; энергетический объект]
[тепловой электростанция; электростанция]
[турбин; энергосиловой установка]
[атомный энергетика; энергетика]
[атомный электростанция; электростанция]
[атомный электростанция; ядерный объект]
[атомный энергия; энергия]
[ядерный реактор; атомный оборудование]
[ядерный реактор; ядерный объект]
[астрономия; естественный наука]
[астрономия; космический исследование]
[наука; сфера деятельность]
[научный работник; служащий]
[доктор наука; научный работник]
[доктор наука; учёный степень]
[кандидат наука; научный работник]
[канди

[хутор; усадьба]
[хранение газ; содержимый в целость]
[газохранилище; помещение для хранение]
[холера; кишечный инфекционный заболевание]
[растительный корма; корм животный]
[зернофураж; растительный корма]
[производственный обучение; профессиональный обучение]
[оросительный система; постройка]
[рецепт врач; документ]
[рентгеновский оборудование; медицинский оборудование]
[телевизионный передача; представление]
[телевизионный передача; телерадиопередача]
[телеграфный агентство; информационный агентство]
[телевизионный станция; оборудование для телевещание]
[телефонный сеть; сеть связь]
[почтовый предприятие; предприятие связь]
[техника безопасность; требование]
[технический наука; прикладной наука]
[тиф; кишечный инфекционный заболевание]
[геологический разведка; разведка]
[гидротехнический строительство; промышленный строительство]
[гидроминеральный ресурс; подземный вод]
[водный перевозка; транспортный перевозка]
[микрохирургия; хирургия]
[грузовой терминал; транспортный терминал]
[г

[декоративно-прикладной искусство; прикладной искусство]
[декоративно-прикладной искусство; пластический искусство]
[промышленный авария; авария]
[железнодорожный авария; транспортный авария]
[ледокольный работа; работа]
[стиральный машина; бытовой электроприбор]
[стиральный машина; потребительский товар длительный пользование]
[термальный источник; подземный вод]
[термальный источник; водный источник]
[верительный грамота; дипломатический документ]
[судоремонтный работа; ремонт]
[акт гражданский состояние; поступок человек]
[семейный положение; статус]
[детский безнадзорность; порок общество]
[неорганический химия; химический наука]
[авиационный компания; транспортный предприятие]
[авиационный отряд; подразделение]
[агроном; сельскохозяйственный работник]
[агроном; земледелец]
[багажник; инструмент]
[бытовой осветительный прибор; бытовой электроприбор]
[бытовой осветительный прибор; осветительный прибор]
[люстра; бытовой осветительный прибор]
[видеоролик; видеопродукция]
[видеоролик; 

[авианосец; надводный судно]
[авианосец; боевой корабль]
[нагревательный прибор; тепловой оборудование]
[автоклав; нагревательный прибор]
[президент государство; глава государство]
[сбор подпись; собрать в один место]
[партия зелёный; политический партия]
[алиби; отсутствие]
[алиби; доказательство по дело]
[антифашистский движение; общественный движение]
[антифашистский движение; стремиться уничтожить]
[агат; халцедон]
[избирательный ящик; ящик]
[мощность взрыв; мощность]
[народный танец; народный творчество]
[народный танец; танец]
[нарушение воинский дисциплина; преступить]
[националист; последователь]
[медресе; духовно-учебный заведение]
[политический борьба; политический деятельность]
[политический борьба; добиваться]
[политический борьба; бороться с соперник]
[резидент; субъект деятельность]
[аминокислота; органический кислота]
[англиканский церковь; протестантизм]
[болезнь кровь; болезнь]
[анемия; болезнь кровь]
[предвыборный кампания; кампания]
[апартеид; расовый сегрегация]
[ап

[хатанга; река]
[латвия; иностранный государство]
[латвия; прибалтийский страна]
[рига; столица государство]
[елгава; город]
[лиепая; город]
[юрмала; город]
[резекне; город]
[сигулда; город]
[екабпилс; город]
[вентспилс; город]
[даугавпилс; город]
[даугава /западный двина/; река]
[озеро; озеро]
[лена; река]
[река; река]
[река; приток река]
[вилюй; река]
[вилюй; приток река]
[согдийский область; область таджикистан]
[худжанд; центр административно-территориальный единица]
[ленинградский область; область рф]
[тосно; город ленинградский область]
[волхов; город ленинградский область]
[выборг; город ленинградский область]
[высоцк; город ленинградский область]
[кириши; город ленинградский область]
[тихвин; город ленинградский область]
[гатчина; город ленинградский область]
[ленинградский область .; город ленинградский область]
[пикалево; город ленинградский область]
[приморск ленинградский область; город ленинградский область]
[ивангород; город ленинградский область]
[кингисепп; город ленинг

[марокканец; араб]
[марокканец; население государство]
[марокканец; титульный народ]
[юго-западный африка; географический область]
[разменный монета; монета]
[северо-восточный африка; географический область]
[хартум; столица государство]
[дар-эс-салам; столица государство]
[тунис; столица государство]
[тунисец; араб]
[тунисец; население государство]
[тунисец; титульный народ]
[карибский море; море атлантический океан]
[антильский остров; архипелаг]
[аргентинец; южноамериканец]
[аргентинец; население государство]
[аргентинец; титульный народ]
[нью-провиденс; остров]
[нью-йорк; порт]
[нью-йорк; город-миллионер]
[бермудский остров; владение великобритания]
[бермудский остров; архипелаг атлантический океан]
[гамильтон; центр административно-территориальный единица]
[ла-пас; город]
[боливиец; южноамериканец]
[боливиец; население государство]
[боливиец; титульный народ]
[минеральный вод; город ставропольский край]
[арктика; географический область]
[горно-алтайск; город]
[назрань; республикан

[стиль в искусство; течение в сфера деятельность]
[ром; крепкий алкогольный напиток]
[крепкий алкогольный напиток; алкогольный напиток]
[романс; вокальный произведение]
[романтизм в искусство; стиль в искусство]
[ромашка; цветковый растение]
[ромашка; травянистый растение]
[росомаха; куний]
[койот; волк]
[прохладительный напиток; безалкогольный напиток]
[кока-кола; прохладительный напиток]
[кокосовый пальма; орехоплодный культура]
[кокосовый пальма; пальма]
[кольт; револьвер]
[колпак; головной убор]
[коньяк; бренди]
[мясной продукт; мясомолочный продукт]
[копчёный мясной продукт; мясной продукт]
[копчёный мясной продукт; копчёный продукт]
[нарядный одежда; одежда]
[ликёр; крепкий алкогольный напиток]
[лимонад; прохладительный напиток]
[аллигатор; крокодил]
[амбар; зернохранилище]
[амбар; сельскохозяйственный помещение]
[водевиль; комедия]
[водка; крепкий алкогольный напиток]
[мужской головной убор; головной убор]
[мужской головной убор; мужской одежда]
[фуксия; цветковый растение]
[фук

[вылить часть; отбавить]
[отпевание; треба]
[спилить; отделить часть от целый]
[отрезать; отделить часть от целый]
[отрубить; отделить часть от целый]
[отщипать; отделить часть от целый]
[укоротить длина; уменьшить]
[фосфат; химический соединение]
[кошка-мышка; детский игра]
[кошачий; хищный млекопитающее]
[тигрица; тигр]
[тигрица; самка]
[тигрёнок; тигр]
[тигрёнок; детёныш животный]
[знак препинание; графический знак]
[тире; знак препинание]
[точка; знак препинание]
[лыжный двоеборье; лыжный спорт]
[лыжный двоеборье; двоеборье]
[многоточие; знак препинание]
[вопросительный знак; знак препинание]
[восклицательный знак; знак препинание]
[протодьякон; дьякон]
[иеромонах; мона]
[иеромонах; священник]
[католический монах; католик]
[католический монах; мона]
[иезуит; католический монах]
[иезуит; мона орден]
[выделение из организм; органический вещество]
[моча; выделение из организм]
[физический величина; количественный параметр]
[пот; выделение из организм]
[вольт; единица электрический нап

[рост живой организм; физиологический процесс]
[жить; иметься]
[жить; биологический процесс]
[стеарин; жировой вещество]
[свеча; источник освещение]
[свеча; лекарственный форма]
[хорист; музыкант]
[хорист; петь человек]
[вагонетка; грузовой вагон]
[крем для обувь; мазь]
[долгий; значительный]
[недлинный; малый]
[недолгий; малый]
[мякина; отход]
[мякина; остаться часть]
[относиться с уважение; межличностный отношение]
[относиться с уважение; признать ценность]
[почитатель; человек]
[претензия; жалоба]
[жалоба; письменный заявление]
[подавать жалоба; обратиться с слово]
[подавать жалоба; подача документ]
[обжалование решение; подавать жалоба]
[обжалование решение; заявить свой несогласие )]
[студия; внутренность здание]
[фундамент сооружение; опорный конструкция]
[боковой ответвление; боковой часть]
[железнодорожный ветка; железнодорожный путь]
[железнодорожный ветка; боковой ответвление]
[доярка; скотник]
[выцедить; процеживание жидкость]
[коалиция; союз]
[кобура; вместилище]
[кобура; ф

[фальсифицировать; представить в ложный свет]
[благоприятствовать; содействие]
[благоустройство территория; оборудовать]
[расследовать; выяснить]
[искать; стараться]
[ископать; вскопать]
[статика; механика]
[динамика; механика]
[скорбеть; горевать]
[горевать; испытать]
[оплакать; проливать слеза]
[оплакать; скорбеть]
[узнать знакомый; обнаружить]
[опознать; узнать знакомый]
[обнаружить; обратить внимание]
[оправить; ошибка]
[оправиться; оправить]
[лопнуть; разорваться на часть]
[лопнуть; дать трещина]
[лопнуть; разрушиться физически]
[раскашляться; кашель]
[сострадать; испытать]
[сожаление; грусть]
[сожалеть о прошлое; грустить]
[раскаяться; каяться]
[раскаяться; сожалеть о прошлое]
[раскаяние; сожаление]
[спохватиться; обнаружить]
[спохватиться; что забыть]
[просить разрешение; обращаться с просьба]
[фреска; произведение изобразительный искусство]
[фьорд; залив]
[говорить в бреда; проговорить]
[бред; физический самочувствие]
[бред; расстройство функция]
[бредить; мечтать]
[броня; обли

[спортивный судейство; наблюдать]
[установить граница; разделять на часть]
[установить граница; определить]
[дать определение; формулировать]
[разграничить; установить различие]
[разграничить; дать определение]
[сблизиться в общение; связь]
[сблизиться в общение; улучшение отношение]
[подружиться; завязать отношение]
[подружиться; сблизиться в общение]
[уловить смысл; воспринять]
[чуять; воспринимать]
[нюх животный; обоняние]
[бесшабашный; бездумный]
[бесшабашный; отчаянный до безрассудство]
[пагубный; вредный]
[губить; прекратить существование]
[усиленный ); внимание )]
[инсценировка; театральный постановка]
[инсценировка; литературно-драматический произведение]
[местный; появление )]
[приезжий; посторонний лицо]
[привозный; не свой]
[привозный; неместный происхождение]
[опахать вокруг; заключить в круг]
[половинчатый; частичный]
[половинчатый; непоследовательный]
[разувериться; переубедиться]
[сплавить; избавиться]
[сплавиться; соединиться в один целое]
[музыкальный фраза; мелодия]
[

[райский; прекрасный]
[военно-инженерный сооружение; военный объект]
[военно-инженерный сооружение; укрытие]
[крепость; военно-инженерный сооружение]
[бравурный; громкий по звук]
[бравурный; бодрый]
[бравурный; неискренний]
[вырезать отверстие; отверстие]
[декольте; вырезать отверстие]
[каземат; внутренность здание]
[каземат; военно-инженерный сооружение]
[громоотвод; стержень]
[громоотвод; электрозащитный средство]
[основание; химический соединение]
[морально разложить; делать плохой]
[морально разложить; деморализовать )]
[стеллаж; мебель]
[валик диван; подушка]
[декоративный подушка; подушка]
[декоративный подушка; предмет интерьер]
[кафедральный собор; собор]
[мясник; продавец]
[мясник; рубщик]
[подверженный эмоция; нервный]
[поэтически настроить; восторженный]
[реквием; хоровой музыка]
[веха; шест]
[веха; метка]
[плётка; инструмент]
[плётка; ремень]
[плётка; верёвка]
[доска; настил]
[преподать урок; советовать]
[давать наставление; советовать]
[давать наставление; направить деятел

[первобытнообщинный строй; общественно-экономический формация]
[матриархат; общественно-экономический уклад]
[патриархат; общественный положение]
[медвежий услуга; причинение вред]
[мгла; дымка]
[маятник час; деталь устройство]
[маятник час; совёрш . колебание )]
[мебельщик; работник промышленность]
[машиностроитель; работник промышленность]
[междуречье; местность]
[уровень вод; развитие )]
[мелководье; уровень вод]
[глубоководье; уровень вод]
[социал-демократия; политический течение]
[член социалистический партия; член партия]
[менструация; выделение из организм]
[менструация; физиологический процесс]
[ничтожный человек; человек по роль]
[хэви-металл; рок-музыка]
[метафора; языковой выражение]
[метафора; стилистический приём]
[метаться в волнение; бежать]
[метла; инструмент]
[метла; уборочный инвентарь]
[метис; человек]
[метис; потомок]
[потомок; родственник]
[метраж; число]
[мечтатель; человек по характер]
[мешковатый; широкий]
[мизансцена; порядок размещение]
[мизантропия; ненависть

[снискать слава; добиться )]
[снискать слава; повышение в статус]
[снискать слава; получить известность]
[выдвижение кандидат; внести предложение]
[выдвижение кандидат; давать рекомендация]
[выесть середина; принимать пища]
[выдуть; удалять грязь]
[выдуть; удалить наружу]
[место выезд; место проезд]
[остаться живой; жить]
[остаться живой; сохраниться]
[остаться живой; стойко перенести]
[чтобы на звонок ответить ); прибытие]
[выпендриваться; важничать]
[выпендриваться; позёрство]
[аналитик; эксперт]
[исламский террорист; террорист]
[исламский террорист; исламист]
[управлять дело; менеджер]
[наркопритон; преступный притон]
[маршрутный такси; автобус]
[маршрутный такси; миниавтобус]
[миниавтобус; автобус]
[столица олимпиада; город]
[баннерный реклама; рекламный продукция]
[баннерный реклама; реклама по интернет]
[торговля по интернет; торговля]
[торговля по интернет; электронный коммерция]
[торговля по интернет; дистанционный продажа]
[автомобиль иностранный марка; автомобиль]
[походный в

[заместитель председатель; заместитель руководитель]
[вице-губернатор; государственный служащий]
[вице-губернатор; заместитель должностной лицо]
[вице-спикер; государственный служащий]
[вице-спикер; заместитель председатель]
[подстанция; технический устройство]
[якутянин; житель город]
[славка; певчий птица]
[слезоотделение; выделить из организм]
[двухпалатный парламент; законодательный орган]
[парламентский партия; политический партия]
[партийный собрание; собрание]
[цыганский табор; лагерь]
[съездить туда и обратно; выехать]
[съездить туда и обратно; обернуться туда и обратно]
[слетать туда и обратно; лететь]
[слетать туда и обратно; съездить туда и обратно]
[слизать язык; счистить]
[слизать язык; поднимать )]
[словоизменение; изменение]
[город башкирия; город российский федерация]
[тиражировать; полиграфический работа]
[тиражировать; количество )]
[осмелеть; изменение]
[сумерки; полумрак]
[смести; сбросить вниз]
[смести; сгрести в один место]
[смести; подметать]
[сменный работа; тру

[разрыв; различие]
[разрыв; несоответствие]
[вид ); превратиться]
[вече; собрание]
[омич; житель город]
[прорваться; проявление чувство]
[перерыть в поиск; поиск]
[перерыть в поиск; разобрать )]
[предписать; отдать приказ]
[сочинительный связь; синтаксический связь]
[составиться; начаться]
[подобраться; составиться]
[киль самолёт; плоскость]
[киль самолёт; часть летательный аппарат]
[предсказуемый; допустимый )]
[прикаспийский регион; географический область]
[переработать; сделать заново]
[ухватиться за возможность; употреблять]
[ухватиться за возможность; браться за дело]
[неактуальный; незначительный]
[поглотить; заставить]
[форпост; на который можно опереться )]
[пылать; излучать свет]
[подведомственный; зависимый]
[тоска по прошлый; уныние )]
[натворить; поступок человек]
[натворить; причинение вред]
[незапланированный; неожиданный]
[незапланированный; дополнительный]
[келейный; секретный]
[разнородный смесь; комбинация]
[терзать; вызывать тревога]
[терзать; мучить]
[информированны

[термостойкость; стойкость к воздействие]
[термостойкость; физический свойство]
[устойчивость к высокий температура; термостойкость]
[поступление на работа; поступить]
[экономический класс; пассажирский тариф]
[экономический класс; класс обслуживание]
[сечка; ножевой изделие]
[спортивный плавание; водный вид спорт]
[спортивный плавание; плавание]
[тепловыделение; теплообмен]
[тепловыделение; энергия]
[тепломагистраль; теплопровод]
[тепломагистраль; магистральный линия]
[теплопроводность; проводимость]
[теплопроводность; теплообмен]
[беспроводный связь; телекоммуникационный связь]
[проводной связь; телекоммуникационный связь]
[нелегальный экономика; правонарушение]
[нелегальный экономика; теневой экономика]
[конкурсный торг; торговый операция]
[теплоцентраль; энергетический объект]
[термоядерный энергия; атомный энергия]
[математический теория; математический наука]
[математический теория; научный теория]
[семейство тетеревиный; птица]
[семейство тетеревиный; пернатый дичь]
[производств

[система счисление; формальный система]
[подводный пространство; пространство]
[глубоководный пространство; подводный пространство]
[наезд на пешеход; автомобильный авария]
[наезд на пешеход; сбить вниз]
[наезд на пешеход; наезд транспортный средство]
[столкновение автомобиль; автомобильный авария]
[столкновение автомобиль; столкновение с препятствие]
[наезд транспортный средство; дорожно-транспортный происшествие]
[наезд транспортный средство; столкновение с препятствие]
[наезд транспортный средство; наехать]
[столкнуться с проблема; деятельность]
[исчерпаемый природный ресурс; природный ресурс]
[выброс парниковый газ; загрязнение атмосфера]
[составить целый; войти в состав]
[составить целый; вызвать появление )]
[участок недра; участок]
[жидкий отход; отход]
[жидкий отход; жидкость]
[обращение с отход; работа]
[размещение отход; разместить]
[размещение отход; обращение с отход]
[транспортировка отход; грузовой перевозка]
[транспортировка отход; обращение с отход]
[оценочный деятельно

[силовой упражнение; спортивный тренировка]
[плохой перспектива; перспектива на будущее]
[красный ковровый дорожка; ковровый дорожка]
[суперкар; спортивный автомобиль]
[силовой служба; государственный орган]
[переходник; деталь устройство]
[служебный карьера; повышение в должность]
[служебный карьера; трудовой карьера]
[скупой на проявление чувство; черта характер]
[скупой на проявление чувство; сдержанность в поведение]
[опасность социальный взрыв; угроза]
[комплекс взаимосвязанный часть; целый]
[тусон; город]
[гипсокартон; строительный материал]
[отшельничество; образ жизнь]
[зацикленный на один; устремить )]
[шахтный печь; печь для нагревание]
[трансплантолог; хирург]
[воспользоваться случать; употреблять]
[грамотный с точка зрение язык; соответствовать правило]
[грамотный с точка зрение язык; безошибочный]
[режим реальный время; режим функционирование устройство]
[плакать от радость; проливать слеза]
[нечистый сила; сверхъестественный сущность]
[колёсный база; расстояние]
[косметол

In [18]:
def get_hypernymy_dict(relations_filename):
    hypernyms = defaultdict(list)
    hyponyms = defaultdict(list)
    
    with open(relations_filename) as xml_file:
        xml = xml_file.read()
    root = etree.fromstring(xml)
    
    for relation in root.getchildren():
        lhs = relation.get("from")
        rhs = relation.get("to")
        t = relation.get("name")
        lhs = id_to_words[int(lhs)]
        rhs = id_to_words[int(rhs)]

        if t == "ВЫШЕ":
            hyponyms[rhs].append(lhs)
            hypernyms[lhs].append(rhs)
            
    return hyponyms, hypernyms

In [19]:
hyponyms, hypernyms = get_hypernymy_dict('RuThes/relations.xml')

In [20]:
hypernyms['человек']

['живой организм', 'субъект деятельность']

Видно, что в данном случае всё работает быстро, а значит не обязательно сохранять это в папку со словарями. Таким образом, словарь гиперонимов распарсился и лемматизировался

### Токенизация предложений

Словарь в тезаурусе очень небольшой, поэтому понадобится выделять токены и другие, при этом отдавая приоритет токенам из словаря. Поэтому требуется, чтобы работало распознавание мультитокенов, для этого можно использовать `MWETokenizer` из библиотеки `nltk`

In [21]:
from nltk.tokenize import MWETokenizer, WordPunctTokenizer

In [22]:
def get_tesaurus_multitokens(words_to_id):
    mwes = []
    
    for term in words_to_id.keys():
        splitted = term.split()
        if len(term.split()) > 1:
            mwes.append(tuple(splitted))
    
    return mwes

In [23]:
mwes = get_tesaurus_multitokens(words_to_id)

In [24]:
mwes[:10]

[('v-образный', 'вырез'),
 ('абазинский', 'язык'),
 ('абзац', 'текст'),
 ('абонентский', 'плата'),
 ('абонентский', 'громкоговоритель'),
 ('абонентский', 'обслуживание'),
 ('абразивный', 'материал'),
 ('абразивный', 'работа'),
 ('абрикосовый', 'дерево'),
 ('абрикосовый', 'цвет')]

In [25]:
word_punct_tokenizer = WordPunctTokenizer()
mwe_tokenizer = MWETokenizer(mwes=mwes, separator=' ')

In [26]:
def tokenize_sentence(sentence, need_lemmatize=True):
    if need_lemmatize:
        sentence = lemmatize_sentence(sentence)
    return mwe_tokenizer.tokenize(word_punct_tokenizer.tokenize(sentence))

In [27]:
tokenize_sentence('Саша Исаева - самая лучшая девушка на планете Земля! И улыбается лучше всех')

['саша',
 'исаев',
 '-',
 'самый',
 'хороший',
 'девушка',
 'на',
 'планета земля',
 '!',
 'и',
 'улыбаться',
 'хороший',
 'весь']

### Токенизация из tagged_texts

Задача этого блока в том, чтобы прочитать предложения, которые уже были некоторым образом нормализованы. Дальше соединить в единое целое, а потом разбить на токены так, чтобы там находились слова из тезауруса

In [28]:
def read_sentences_from_tagged_file(filename):
    sentences = []
    with open(filename) as tagged_file:
        current_sentence_tokens = []
        need_append = False
        
        for line in tagged_file.readlines():
            if line.startswith("# sent_id"):
                need_append = True
            elif line.startswith("# text"):
                continue
            elif len(line) < 2:
                sentence_normalized = ' '.join(current_sentence_tokens)
                tokens = tokenize_sentence(sentence_normalized, need_lemmatize=False)
                sentences.append(tokens)
                need_append = False
                current_sentence_tokens = []
            else:
                if need_append:
                    current_sentence_tokens.append(line.split('\t')[2])
    return sentences

In [29]:
np.array(read_sentences_from_tagged_file('Lenta/texts_tagged/20120702strike.txt'))

array([list(['Релиз', 'дополнение', 'Arctic', 'Strike', 'для', 'шутер', 'Ghost', 'Recon', ':', 'Future', 'Soldier', 'отлагать', '.']),
       list(['о', 'это', 'сообщавать', 'портал', 'Videogamer', '.']),
       list(['ранее', 'планировать', ',', 'что', 'оно', 'поступать', 'в', 'продажа', '3', 'июль', '.']),
       list(['Dlс', 'должен', 'быть', 'выходить', 'для', 'Xbox', '360', 'и', 'Ps3', '.', 'издательство', 'Ubisoft', ',', 'который', 'выпускать', 'серия', 'Ghost', 'Recon', ',', 'объяснять', 'перенос', 'то', ',', 'что', 'создатель', 'игра', 'необходимый', 'время', 'на', 'доработка', 'дополнение', '.']),
       list(['по', 'слово', 'он', 'представитель', ',', 'Arctic', 'Strike', 'поступать', 'в', 'продажа', 'до', 'конец', 'июль', '.']),
       list(['точный', 'дата', 'быть', 'объявливать', 'позднебыть', 'дополнение', 'Arctic', 'Strike', 'быть', 'анонсировать', 'в', 'середина', 'май', '.']),
       list(['в', 'он', 'должен', 'воходить', 'несколько', 'карта', 'и', 'новый', 'режим', 'дл

### Разделение на обучение и тест

Разделим в отношении $70$ на $30$ на обучение и тест как словарь гиперонимов, так и набор текстов. Конечная цель - выявление гиперонимов внутри текстов с помощью глубинного обучения, при этом хотим искать те гиперонимы, которые не встречались до этого в словаре (то есть их не видели на обучающей выборке)

Возможно, что в тест стоит брать лишь более поздние тексты, но на самом деле в поисках гиперонимов для пополнения словаря никто не мешает обсматривать и более старые источники информации

In [30]:
text_names = listdir('Lenta/texts_tagged')
train_names, test_names = train_test_split(text_names, test_size=0.3)

In [31]:
len(test_names)

10932

In [32]:
hyponym_keys = list(hyponyms.keys())
train_hyponym_keys, test_hyponym_keys = train_test_split(hyponym_keys, test_size=0.3)

In [33]:
len(test_hyponym_keys)

3271

In [34]:
def make_hyponym_hypernym_dicts(key_subset):
    hypernyms_subset = defaultdict(list)
    hyponyms_subset = defaultdict(list)
    
    for hyper in key_subset:
        for hypo in hyponyms[hyper]:
            hyponyms_subset[hyper].append(hypo)
            hypernyms_subset[hypo].append(hyper)
            
    return hyponyms_subset, hypernyms_subset

In [35]:
train_hyponyms, train_hypernyms = make_hyponym_hypernym_dicts(train_hyponym_keys)

In [36]:
test_hyponyms, test_hypernyms = make_hyponym_hypernym_dicts(test_hyponym_keys)

Найдём, сколько раз встречаются в наборе текстов пары гипонимов и гиперонимов из обучающего и тестового словаря. Для этого научимся вычленять пары гипоним-гипероним из одного предложения.

### Поиск гиперонимов внутри одного предложения

Напишем функцию, которая будет принимать предложения и детектировать в нем гиперонимию, если она есть. Тогда, если она есть, будет отмечать слова, где она встретилась

In [37]:
def find_sentence_hypernymy(sentence, need_tokenization=True):
    if need_tokenization:
        tokens = tokenize_sentence(sentence)
    else:
        tokens = sentence
        
    hyper_ind = None
    hypo_ind = None
    
    n_train = n_test = 0
    marked_sentence = "NOT FOUND"
    
    for i, hypo_cand in enumerate(tokens):
        for j, hyper_cand in enumerate(tokens):
            if hypo_cand in hyponyms[hyper_cand]:
                if len(hypo_cand) > 1 and len(hyper_cand) > 1:
                    if hyper_cand in train_hypernyms:
                        n_train += 1
                    else:
                        n_test += 1
                    hyper_ind = j
                    hypo_ind = i
                    
    if hyper_ind is not None and hyper_ind != hypo_ind:
        sent_tokens = []
        for i, token in enumerate(tokens):
            if i == hypo_ind:
                token = "__" + token + "__"
            elif i == hyper_ind:
                token = "**" + token + "**"
            sent_tokens.append(token)
        marked_sentence = ' '.join(sent_tokens)
        
    return marked_sentence, n_train, n_test

In [38]:
'город' in hyponyms['город']

True

In [39]:
find_sentence_hypernymy('Известно, что приматами являются не только обезьяны, но и люди.')

('известный , что **примат** являться не только __обезьяна__ , но и человек .',
 1,
 0)

Теперь пройдемся по имеющемуся корпусу и попробуем найти подобные предложения в новостях

In [40]:
def get_train_test_hypernyms(filenames, verbose=False):
    n_train_all = 0
    n_test_all = 0
    
    for i, filename in tqdm(enumerate(filenames)):
        sentences_tokens = read_sentences_from_tagged_file(filename)
        
        if verbose and i % 1000 == 0:
            print("{}k: {} {}".format(i // 1000, n_train_all, n_test_all))
        
        for sentence_tokens in sentences_tokens:
            marked, n_train, n_test = find_sentence_hypernymy(sentence_tokens, False)
            n_train_all += n_train
            n_test_all += n_test
    
    return n_train_all, n_test_all

In [90]:
train_paths = [join('Lenta/texts_tagged', filename) for filename in train_names]
test_paths = [join('Lenta/texts_tagged', filename) for filename in test_names]

In [59]:
for i, filename in tqdm(enumerate(train_paths)):
    sentences_tokens = read_sentences_from_tagged_file(filename)
        
    for sentence_tokens in sentences_tokens:
        marked, n_train, n_test = find_sentence_hypernymy(sentence_tokens, False)
        if n_train + n_test > 0:
            print(filename)
            print(marked)
            print()

Lenta/texts_tagged/20160207kadyrov.txt
NOT FOUND

Lenta/texts_tagged/20120905brando.txt
инцидент происходить в время то , как __лидер__ партия Полин Маруа ( Pauline Marois ) произносить со сцена речь , приурочивать к победа на выборы . в результат стрельба один **человек** быть убивать , еще один ранить .

Lenta/texts_tagged/20170108gorka.txt
NOT FOUND

Lenta/texts_tagged/20170108gorka.txt
NOT FOUND

Lenta/texts_tagged/20160606gas.txt
о это в понедельник , 6 июнь , в эфир украинский " 5 канал " заявлять глава " Нафтогаз " андрей Коболев , передавать риа новость . в качество условие он называть согласие " газпром " на внесение временный **изменение** к существуть контракт , который , по он слово , " являться невыгодный и нерыночный " , " с цель приведение цена до уровень , который хоть как - то приближать к рыночный " . материал по теме12 : 26 10 ноябрь 2015Н голуб газуЗач украинский власть отказываться от закупка российский топливо " если цена быть низкий , чем тот цена , который мы пр

Lenta/texts_tagged/20140603blockpos.txt
в свой очередь , в областной управление Мвд взрыв в обладминистрация называть **ошибка** сам ополченец , который якобы , пытаться сбивать самолет из зенитный комплекс , по __оплошность__ выпусчивать ракет по здание .

Lenta/texts_tagged/20121106firstvote.txt
NOT FOUND

Lenta/texts_tagged/20121106firstvote.txt
NOT FOUND

Lenta/texts_tagged/20121106firstvote.txt
NOT FOUND

Lenta/texts_tagged/20100206park.txt
NOT FOUND

Lenta/texts_tagged/20140905redwings.txt
NOT FOUND

Lenta/texts_tagged/20130504karachi.txt
NOT FOUND

Lenta/texts_tagged/20130504karachi.txt
NOT FOUND

Lenta/texts_tagged/20150409airbus320.txt
NOT FOUND

Lenta/texts_tagged/20120706emirates.txt
правительство швейцария приостановлять весь поставка **вооружение** и __военный техника__ объединять арабский Эмирата , сообщать reuters .

Lenta/texts_tagged/20120706emirates.txt
Приостановка военный экспорт и отзывший лицензия у оаэ состояться вскоре после то , как швейцарский газета Sonntagsz

Lenta/texts_tagged/20120502dtp.txt
NOT FOUND

Lenta/texts_tagged/20100902rosavia.txt
в связь с это министр транспорт игорь Левитин 9 август поручать Росавиация и Ростуризй сокращать транзитный пассажиропоток через __московский аэропорт__ . решение министерство ранее уже критиковать ассоциация туроператор россия ( Атор ) , отмечать , что предложение Минтранс перенаправлять транзитный пассажиропоток из столичный аэропорт в регион приводить к рост цена на авиабилет . по мнение Атхор , в случай , если пропускной способность столичный **аэропорт** падать , на московский авиаузел существенно обостряться конкуренция за свободный слот ( время , выделять для выполнение самолет посадка / взлет в определенный дата или период ) .

Lenta/texts_tagged/20130806sharapova.txt
на пятый место оказываться американский автогонщица Даник Патриколо как отмечать forbes , заработка __спортсменка__ по - прежнему сильно уступать доход самый высокооплачиваемый **спортсмен** .

Lenta/texts_tagged/20100607severstal

Lenta/texts_tagged/20100209avalanche.txt
NOT FOUND

Lenta/texts_tagged/20100209avalanche.txt
NOT FOUND

Lenta/texts_tagged/20100209avalanche.txt
NOT FOUND

Lenta/texts_tagged/20100203come.txt
уже тогда астрофизик отмечать необычность объект - внешне он напоминать комета , однако он местоположение ( внутри главный поясо астероид ) вместе с **необычный** траектория заставлять исследователь предполагать , что перед они тело совершенно иной природа . на новый снимок " Хаббвать " хорошо видно , что у основание хвост иметься хаотичный структура , __нехарактерный__ для комета .

Lenta/texts_tagged/20160408poroh.txt
NOT FOUND

Lenta/texts_tagged/20160408poroh.txt
NOT FOUND

Lenta/texts_tagged/20150306sanctions_relieved.txt
Ограничительный мера быть снимать с сын бывший премьер - министр украина николай Азаров -- алексей азарова . Кроме то , санкция решать не продлевать в отношение бывший **руководитель** администрация президент андрей Портнов и ранее занимавать пост __председатель__ служба без

Lenta/texts_tagged/20100507ap.txt
лауреат премия имя герман Гесса ( 1982 ) , __государственный премия__ австрия ( 1986 ) , премия фонд " знамя " ( 1995 ) , **премия** имя жуковский ( 2000 ) .

Lenta/texts_tagged/20170203withoutrusoil.txt
NOT FOUND

Lenta/texts_tagged/20161203nihon.txt
NOT FOUND

Lenta/texts_tagged/20161203nihon.txt
NOT FOUND

Lenta/texts_tagged/20161203nihon.txt
**министр** также подчеркивать , сторона готовый " продолжать линия на максимальный всесторонний развитие отношение во все без исключение сфера " . по слово глава мид , москва рассчитывать , что итог предстоящий визит президент россия владимир путин в япония , а также " готовиться двусторонний документ придавать новый импульс развитие весь комплекс двусторонний отношение " . кроме то , лавров сообщать , что москва " обращать внимание наш японский коллега на тот угроза , который создавать в результат размещение элемент глобальный система противоракетный оборона сша в этот регион " . встреча __министр иностранный

Lenta/texts_tagged/20100204help.txt
так , председатель комитет страдать от отключение электроэнергия замечать , что проблема венесуэла должен решать правительство страна , а не вице - президент кубы . при это __агентство__ отмечать , что и сам куба испытывать аналогичный трудность - власть страна пытаться экономить на электроэнергия , проводить плановый и внеплановый отключение на завод , в офисный здание , банк и другой крупный **учреждение** . к подобный меры также прибегать и в венесуэла , однако затем уго чавес признавать , что этот план в многое оказываться неэффективной и отменять отключение электричество в столица страна Каракасе и еще несколько регион .

Lenta/texts_tagged/20100204help.txt
NOT FOUND

Lenta/texts_tagged/20100601infiltrate.txt
NOT FOUND

Lenta/texts_tagged/20111101minister.txt
NOT FOUND

Lenta/texts_tagged/20120403blame.txt
NOT FOUND

Lenta/texts_tagged/20130408cyprus1.txt
NOT FOUND

Lenta/texts_tagged/20130408cyprus1.txt
NOT FOUND

Lenta/texts_tagged/20120903die

Lenta/texts_tagged/20130606dalny.txt
NOT FOUND

Lenta/texts_tagged/20130606dalny.txt
о это 6 июнь сообщать на сайт следственный комитет РФ . перед суд предстать быть заместитель начальник уголовный розыск " дальний " Алмаз Василов , начальник отдел уголовный розыск Айнур Рахматуллин , начальник __криминальный милиция__ , заместитель начальник отдел **полиция** Фаиль Сабирзянов , а также оперуполномочять Рамиль Ахметзянов , Ильнар Ибатуллин , амир Шарафуллин , александр фадеев и денис васильев .

Lenta/texts_tagged/20100404terreblanch.txt
NOT FOUND

Lenta/texts_tagged/20160803ib.txt
мочь , я говорить какой - то белиберда сейчас , но я казаться , что можно быть бы поступлять как - то по - другому " , -- сказать артист в ответ на вопрос , не считать ли он , что украина следовать воевать за полуостров в 2014 году . Бобул добавлять , что крым " всегда тянуться в россия " , но при это , по он мнение , никогда не быть российский . " **человек** вбивать в голова , писать песня " , -- так артис

NOT FOUND

Lenta/texts_tagged/20100407bomb.txt
NOT FOUND

Lenta/texts_tagged/20130809arres.txt
NOT FOUND

Lenta/texts_tagged/20130809arres.txt
NOT FOUND

Lenta/texts_tagged/20130809arres.txt
NOT FOUND

Lenta/texts_tagged/20140304error1.txt
NOT FOUND

Lenta/texts_tagged/20140304error1.txt
NOT FOUND

Lenta/texts_tagged/20100101murders.txt
там завязываться драка между __гражданин__ таджикистан , в результат который ножевой ранение получать два **человек** , один из они умирать до приезд " скорый помощь " . второй убийство происходить в Лефортово возле дом 4 по шоссе энтузиаст примерно в 2 : 30 .

Lenta/texts_tagged/20100101murders.txt
он отмечать , что в новогодний ночь в москва происходить __большой количество__ уличный драка , в тот число с использование холодный оружие , в результат который , по предварительный данные , более 20 человек получать ножевой ранение . всего за сутки в москва регистрировать 202 преступление , из они раскрывать 145 , в тот **число** два разбой , 21 грабежа ( 

Lenta/texts_tagged/20110801return.txt
тогда египетский __археолог__ и **историк** Заха Хавасс рассказывать , что среди прочий в каир вернуться миниатюрный бронзовый пес , фрагмент браслет в форма сфинкс и ожерелье .

Lenta/texts_tagged/20120309water.txt
NOT FOUND

Lenta/texts_tagged/20120309water.txt
NOT FOUND

Lenta/texts_tagged/20120309water.txt
NOT FOUND

Lenta/texts_tagged/20120309water.txt
NOT FOUND

Lenta/texts_tagged/20120309water.txt
NOT FOUND

Lenta/texts_tagged/20140703cdm.txt
в свой исследование физик моделировать вещество темный материя в качество холодной квантовый __жидкость__ , находиться в состояние конденсат Бозе - Эйнштейн . компьютерный симуляция , проводить ученый , позволять устанавливать , что в центр большинство карликовый галактика иметься ядро , происхождение который связывать с образование стоячий волна в результат возмущение вещество темный материи . темный материя -- **вещество** в вселенная , который не участвовать в электромагнитный , но проявлять себя в г

Lenta/texts_tagged/20120809hoskins.txt
кроме то , Хоскинса номинировать на " золотой Глобус " за **фильм** " кто подставлять кролик Роджер " ( Who Framed Roger Rabbit , 1988 год ) и " Миссис Хендерсон представлять " ( Mrs Henderson Presents , 2005 год ) . он также играть в " стен " ( Pink Floyd the wall ) , " Уилла " ( Will ) , " у море " ( Beyond the Sea ) , " бразилия " ( Brazil ) и другой кино - и __телефильм__ и сериал .

Lenta/texts_tagged/20160609water.txt
китайский инвестор подтверждать намерение строить завод по розлив вода на берег **озеро** __байкал__ .

Lenta/texts_tagged/20160609water.txt
в случай реализация __проект__ , **предприятие** быть поставлять на экспорт 2 миллион кубометр вода в год .

Lenta/texts_tagged/20160609water.txt
NOT FOUND

Lenta/texts_tagged/20110308grenade.txt
по данные министр , за январь - февраль 2011 год в регион быть уничтожать пятеро боевик , 16 **человек** задерживать за участие в __деятельность__ бандподполье .

Lenta/texts_tagged/20150903blanch

Lenta/texts_tagged/20100704goal.txt
NOT FOUND

Lenta/texts_tagged/20150406cyprus.txt
NOT FOUND

Lenta/texts_tagged/20130106wpmaps.txt
NOT FOUND

Lenta/texts_tagged/20130108aerosvi.txt
NOT FOUND

Lenta/texts_tagged/20110509italibya.txt
NOT FOUND

Lenta/texts_tagged/20161101robocop.txt
помимо силовой структура , этот разработка мочь заинтересовать **предприятие** нефтегазовой отрасль , энергетик , ржд , различный транспортный , логистический и инфраструктурный __компания__ " , -- заявлять заместитель руководитель департамент инновационный развитие Опк Павел Анисимовадратный Материала по теме11 : 36 7 февраль 2015 " конец цивилизация начинаться с боевой робот " заместитель директор институт политический и военный анализ александр Храмчихин о перспектива военный технологийКомплекс мочь вести наблюдение в любой время сутки даже в сложный климатический условие , находить нарушитель и отслеживать они передвижение , передавать весь информация на операторский пункт .

Lenta/texts_tagged/2013020

Lenta/texts_tagged/20131007pumpkins.txt
NOT FOUND

Lenta/texts_tagged/20131007pumpkins.txt
этот **овощ** являться один из основной атрибут праздник -- из __тыква__ пекать пирога и вырезать светильник в вид голова , который называться " Джек с фонарь " .

Lenta/texts_tagged/20141007flin.txt
он специализируть на финансирование высокотехнологичной проект в область информационный технология , медиа и телекоммуникация , а также финансовый и __потребительский__ **услуга** на рынок восточный европа ( включая россия ) , израиль и сша .

Lenta/texts_tagged/20120301dobkin.txt
NOT FOUND

Lenta/texts_tagged/20120301dobkin.txt
NOT FOUND

Lenta/texts_tagged/20161205travel.txt
NOT FOUND

Lenta/texts_tagged/20130606prosecute.txt
NOT FOUND

Lenta/texts_tagged/20130808pwned.txt
NOT FOUND

Lenta/texts_tagged/20130808pwned.txt
NOT FOUND

Lenta/texts_tagged/20130208symmetry.txt
NOT FOUND

Lenta/texts_tagged/20141204chechen.txt
com / share . phpact = count & index = 1 & url = url & format = json & callback 

Lenta/texts_tagged/20150506island.txt
NOT FOUND

Lenta/texts_tagged/20120131exexua.txt
NOT FOUND

Lenta/texts_tagged/20160307avtovaz.txt
с решение о смена руководитель " АвтоВАЗ " соглашаться и альянс Renault - Nissan , чей ставленник , по данные сми , мочь занимать **место** шведский топ - менеджера . деятельность Андерссон подвергаться критика из - за он социальный и кадровый политика ( при он происходить массовый сокращение __рабочий место__ ) .

Lenta/texts_tagged/20150508markin.txt
NOT FOUND

Lenta/texts_tagged/20150508markin.txt
NOT FOUND

Lenta/texts_tagged/20120801alco.txt
NOT FOUND

Lenta/texts_tagged/20120801alco.txt
этот __куратор__ должен быть проводить с алкоголик морально - психологический работа , причем , в случай , если пьть **человек** начинать " исправляться " , он наставник получать премия .

Lenta/texts_tagged/20110406peacestate.txt
NOT FOUND

Lenta/texts_tagged/20110406peacestate.txt
он расположенный на северо - __восток__ сша , на сам граница с канада , и входить

Lenta/texts_tagged/20151002usaresor.txt
как сообщавать портал Inquisitr , площадка для он становиться территория резервация племя санть - сиу . предполагаться , что для посетитель оборудовать специальный зона для курение , быть открывать ночной клуб , __бар__ и **ресторан** , устанавливать игровый автомат , а также концертный площадка под открытый небо .

Lenta/texts_tagged/20140703ege.txt
NOT FOUND

Lenta/texts_tagged/20150507nemeruk.txt
__руководитель__ столичный департамент торговля и услуга алексей Немерюк поддерживать предложение **лидер** лдпр владимир Жириновский запрещать использование символика , связывать с великий отечественный война в реклама .

Lenta/texts_tagged/20150507nemeruk.txt
ведь нельзя прикасаться к религиозный символ , нельзя использовать они в потребительский сфера " , -- отмечать глава Лдпр . в начало апрель депутат госдума игорь зотов предлагать сажать за осквернение **символ** победа : знамень победа , орден победа и георгиевский ленты . согласно действовать 

Lenta/texts_tagged/20130208mariinka.txt
здание второй сцена Мариинский театр , сентябрь 2012 год Фото : вадим Жернов / риа новость 1 / 5window . settings . modules . sharing равно - знак { enabled : true , mode : ' desktop ' , production : true , relativeUrl : " / news / 2013 / 02 / 08 / mariinka / " , urls : { fb : ' https :// graph . facebook . com / id = url ' , vk : ' https :// vk . com / share . phpact = count & index = 1 & url = url & format = json & callback =' , ok : ' https :// ok . ru / dkst . cmd = extLike & uid = okLenta & ref = url & callback =' } }; Переходить в " моя лент " обсудитьwindow . settings . components . ramblerCommentsCounter равно - знак { el : '# comments - count ' , appId : 126 , xid : " https :// lenta . ru / news / 2013 / 02 / 08 / mariinka / " , enabled : true }; ссылка по темеПиотровском не нравиться вид второй сцена мариинкиlenta . ru , 05 февраль 2013Последний новости01 : 49член конгресс сша рассказывать о " нападение " россия наКорею02 : 31Президент 

Lenta/texts_tagged/20130108hockey.txt
NOT FOUND

Lenta/texts_tagged/20140905shooting.txt
NOT FOUND

Lenta/texts_tagged/20130108colony.txt
NOT FOUND

Lenta/texts_tagged/20130108colony.txt
NOT FOUND

Lenta/texts_tagged/20120503delay.txt
истец утверждать , что если польский власть передавать Игнатенко россия , он мочь ждать расправа . Правозащитник и адвокат казаться подозрительный **гибель** два человек , иметь отношение к " игорный дело " - суицид начальник главный управление Генпрокуратура по надзор за исполнение законодательство о федеральный безопасность вячеслав Сизов и __смерть__ под колесо грузовик начальник инспекторский управление Генпрокуратура генерал - лейтенант юстиция геннадий нисифорова . до недавний пора польский власть обещать решать вопрос о экстрадиция Игнатенко в начало май .

Lenta/texts_tagged/20120503delay.txt
NOT FOUND

Lenta/texts_tagged/20120503delay.txt
NOT FOUND

Lenta/texts_tagged/20120503delay.txt
NOT FOUND

Lenta/texts_tagged/20101207bribeater.txt
NOT FOUND

Lenta/texts_tagged/20161003disappointing.txt
NOT FOUND

Lenta/texts_tagged/20121103temptation.txt
однако этот противоречие не повод для запрет или бездумный агрессия , а повод спорить , " сказать ясно и ярко о Христ Евангелий " и " свидетельствовать о свой вера " , убежденный протоиерей . при это Чаплин оговориваться , что в вопрос о признание " последний искушение христос " экстремистский материал должен разбираться **правоохранительный орган** , а если требоваться , то и судей напоминать , 2 ноябрь становиться известный , что __прокуратура__ москва по поручение Генпрокуратура намерен проверять " последний искушение христос " на экстремизм .

Lenta/texts_tagged/20150406eskerkhanov.txt
NOT FOUND

Lenta/texts_tagged/20150406eskerkhanov.txt
NOT FOUND

Lenta/texts_tagged/20150406eskerkhanov.txt
NOT FOUND

Lenta/texts_tagged/20130701abkhazia.txt
речь идти о таджик , который запрещать въезд в рф и который в связь с это не мочь пересегать граница на законный основание . как рассказывать офиц

Lenta/texts_tagged/20131204rowling.txt
Двенадцатый подвеска на браслет становиться бабочка , который являться логотип благотворительный организация Lumos . как передавать the daily mail , на создание **украшение** он автор вдохнавливать браслет с __подвеска__ , который сам Роулинг получать от издатель в день публикация последний книга про Гарри поттера . средство от продажа браслет быть перечисливать Lumos .

Lenta/texts_tagged/20121109sentence.txt
NOT FOUND

Lenta/texts_tagged/20121109sentence.txt
NOT FOUND

Lenta/texts_tagged/20121109sentence.txt
NOT FOUND

Lenta/texts_tagged/20121109sentence.txt
NOT FOUND

Lenta/texts_tagged/20121109sentence.txt
NOT FOUND

Lenta/texts_tagged/20121109sentence.txt
NOT FOUND

Lenta/texts_tagged/20121109sentence.txt
NOT FOUND

Lenta/texts_tagged/20100903mozambique.txt
NOT FOUND

Lenta/texts_tagged/20130207brands.txt
NOT FOUND

Lenta/texts_tagged/20130207brands.txt
NOT FOUND

Lenta/texts_tagged/20130207brands.txt
NOT FOUND

Lenta/texts_tagged/20130204box

Lenta/texts_tagged/20151203nadal.txt
спасибо , что живойПок непрыгнешьФотограф , который поднимать навоздух Голливуд ибританский парламент " Постельный сцена должен сообщать зритель правда " режиссер " на 50оттенок темный " осекс , Бдсм июмор вкиноМуг метрополитен опубликовать более 300тысяча снимок произведение искусство " патриотизм -- это нетолько гордость засвоть страна , ной стыд " наталия Солженицына осемье , долг иреволюцииКирилл Серебренников снимать фильм про Цой иий первый альбомГраффити художник Zoom наулица Щипок закрашивать белый прямоугольникомВс материалыИнтернет и СМИГлубокое внедрениеКак жить человек с " взломанный " тело икамера вместо глазва казнить загомосексуализ саудовский аравия массово любить геевБогатство , уважение идьявол служениеКто стоить засетевый разоблачение масон , иллюминат исатанистовЕлена Малышева заставлять __пенсионер__ любить компьютерный игра " игр " изсуицидальный паблик " ВКонтакт " перекочевать вInstagramБлогер снять пародия на " джон Уик " сп

Lenta/texts_tagged/20120202winter.txt
но __сурок__ , предсказывать погода , еще перед мороз попроситься в тепло , прятаться в конур в свой вольер и не хотеть выходить " , - рассказывать Каплуновек однако в заповедник считать , что даже отказ **грызун** выходить из нора можно пытаться растолковать с метеорологический точка зрение .

Lenta/texts_tagged/20120202winter.txt
NOT FOUND

Lenta/texts_tagged/20120202winter.txt
NOT FOUND

Lenta/texts_tagged/20111004tokelau.txt
NOT FOUND

Lenta/texts_tagged/20111004tokelau.txt
NOT FOUND

Lenta/texts_tagged/20111004tokelau.txt
NOT FOUND

Lenta/texts_tagged/20160301oilprice1.txt
NOT FOUND

Lenta/texts_tagged/20160309kamenchik.txt
первоначально следственный комитет настаивать на заключение Каменщик под стража , но в дальнейший позиция следователь меняться . материал по теме22 : 08 18 февраль 2016Объявлять посадкуХозяина Домодедово выдвигать обвинениеДмитрий Каменщик и топ - менеджер домодедово - - светлана Тришина , вячеслав некрасов , андрей Данилов

Lenta/texts_tagged/20150609kazantip.txt
вслед за то " KaZaнтип " пробовать проводить в Камбодж , но местный власть отменять мероприятие за два __неделя__ до начала . " КаZантип " быть впервые проводить в 1992 год и к 1998 - м превращаться в один из центральный **событие** российский электронный музыка .

Lenta/texts_tagged/20150609kazantip.txt
NOT FOUND

Lenta/texts_tagged/20100809mafiaii.txt
NOT FOUND

Lenta/texts_tagged/20100809mafiaii.txt
NOT FOUND

Lenta/texts_tagged/20140801banks.txt
в частность , **кредитный организация** не мочь продавать облигация с срок погашение более 90 день на европейский рынкбыть весь санкция быть вводить в отношение пять российский __банк__ с государственный участие .

Lenta/texts_tagged/20100809rfpl.txt
NOT FOUND

Lenta/texts_tagged/20140503kramatorsk2.txt
NOT FOUND

Lenta/texts_tagged/20140503kramatorsk2.txt
NOT FOUND

Lenta/texts_tagged/20140503kramatorsk2.txt
NOT FOUND

Lenta/texts_tagged/20140503kramatorsk2.txt
NOT FOUND

Lenta/texts_tagged/20140503k

Lenta/texts_tagged/20101004nobelmed.txt
лауреат нобелевский премия по физиология и медицина становиться ученый Роберт Эдвардс ( robert Edwards ) , разработать технология __искусственный оплодотворение__ in vitro ( экстракорпоральный **оплодотворение** - Эко ) .

Lenta/texts_tagged/20101004nobelmed.txt
церемония объявление __лауреат__ проходить в Каролинский институт в стокгольмеей Эдвардс начинать заниматься исследованье оплодотворение у **человек** с 1960 - й год .

Lenta/texts_tagged/20101003elections.txt
22 мест получать " **союз** зеленый и крестьянин " , входить в править __коалиция__ .

Lenta/texts_tagged/20160405rammstein.txt
NOT FOUND

Lenta/texts_tagged/20110505partis.txt
NOT FOUND

Lenta/texts_tagged/20160701tisso.txt
NOT FOUND

Lenta/texts_tagged/20160701tisso.txt
NOT FOUND

Lenta/texts_tagged/20160603sochi.txt
в ход подготовка к игра регион получать современный транспортный инфраструктура , в тот число 370 километр **дорога** , 22 тоннель , 200 километр __железнодорожный пу

Lenta/texts_tagged/20140801train.txt
в москва из симферополь также ходить еще три поезд , маршрут который пролегать через территория Украины . window . settings . modules . sharing равно - знак { enabled : true , mode : ' desktop ' , production : true , relativeUrl : " / news / 2014 / 08 / 01 / train / " , urls : { fb : ' https :// graph . facebook . com / id = url ' , vk : ' https :// vk . com / share . phpact = count & index = 1 & url = url & format = json & callback =' , ok : ' https :// ok . ru / dkst . cmd = extLike & uid = okLenta & ref = url & callback =' } }; перейти в " моя лент " обсудитьwindow . settings . components . ramblerCommentsCounter равно - знак { el : '# comments - count ' , appId : 126 , xid : " https :// lenta . ru / news / 2014 / 08 / 01 / train / " , enabled : true } ; ссылка по тема " прямой " поезда в крым начинать курсировать в августеlenta . ru , 04 июль 2014Последний новости01 : 49член конгресс сша рассказывать о " нападение " россия наКорею02 : 31Президен

Lenta/texts_tagged/20101103governmen.txt
Праветь " единство " , одержать победа , рассматривать различный вариант __коалиция__ , но в итог предпочитать сотрудничать с прежний партнер по правительство -- **союз** " зеленый " и крестьянин .

Lenta/texts_tagged/20141003samole.txt
NOT FOUND

Lenta/texts_tagged/20141003samole.txt
NOT FOUND

Lenta/texts_tagged/20110309die.txt
NOT FOUND

Lenta/texts_tagged/20101104radio.txt
NOT FOUND

Lenta/texts_tagged/20161005minfinbeer.txt
о это в среда , 5 октябрь , сообщать риа новость с ссылка на проект " основной направление налоговый политика россия на 2017 - 2019 год " . Ставка акциз на сидр , медовуху , а также пиво с содержание этиловый спирт до 0 , 5 процент необходимый устанавливать в такой же размер , как и на пиво крепость 0 , 5 - 8 , 6 процент , -- 21 рубль за один литрамм Материала по теме00 : 05 2 август 2016Кошелька сжимать минфин признавать нехватка деньги на зарплата и пенсия Также минфин предлагать увеличивать в два раз -- с девять до 18

Lenta/texts_tagged/20100901archos.txt
NOT FOUND

Lenta/texts_tagged/20131102taiga.txt
NOT FOUND

Lenta/texts_tagged/20131102taiga.txt
NOT FOUND

Lenta/texts_tagged/20131102taiga.txt
это Обухов вадим Викторович , рождаться в **город** Михайловск __свердловский область .__

Lenta/texts_tagged/20100208almos.txt
NOT FOUND

Lenta/texts_tagged/20100208almos.txt
NOT FOUND

Lenta/texts_tagged/20100208almos.txt
NOT FOUND

Lenta/texts_tagged/20150507biebz.txt
как сообщать mirror , артист вести переговоры с американский компания world Wrestling entertainment ( Wwe ) -- крупный в мир организатор шоу профессиональный рестлинга . Материала по теме08 : 01 5 апрель 2015Танка на КалифорниюБолгарский рестлер производить __фурор__ на шоу Wrestlemaniaпо информация издание , 21 - летний певец намерный объединяться с чемпион Wwe джон Сина и пол Уайт по прозвище Биг шоу для бой против Уиндэм Ротунда , выступать под имя Брэй Уайатто Креативный менеджер Wwe кевин Эк дтвержать факт переговоры с Бибер , но усомн

Lenta/texts_tagged/20151208kovitidi.txt
NOT FOUND

Lenta/texts_tagged/20131005enclaves.txt
NOT FOUND

Lenta/texts_tagged/20131005enclaves.txt
с такой обращение __лидер__ " единый россия " выступать на съезд партия в суббота , 5 октябрь . по слово медведев , который приводить риа новость , россиянин приветствовать приезжать к они в страна **человек** .

Lenta/texts_tagged/20131005enclaves.txt
NOT FOUND

Lenta/texts_tagged/20160606swatch.txt
NOT FOUND

Lenta/texts_tagged/20160406boeing.txt
проект предусматривать запуск на ракете - носитель средний класс " зенит - 3sl " космический аппарат с пусковый **площадка** Odyssey , представлять себя переоборудовать японский нефтедобывающий __платформа__ .

Lenta/texts_tagged/20100608turis.txt
NOT FOUND

Lenta/texts_tagged/20160908lastoffer.txt
" там действительно идти __речь__ о некий **документ** , ( . . . ) который , однако , пока еще не финализировать .

Lenta/texts_tagged/20160908lastoffer.txt
NOT FOUND

Lenta/texts_tagged/20161006fermers_kuba

Lenta/texts_tagged/20150501gazprom.txt
Перевоспитание газомГлав украинский " Нафтогаз " : мы сокращать энергопотребление , чтобы украинец избавляться от мифовпо слово Яценюк , в течение полугод после первый обращение в арбитраж по транзитный __контракт__ ведущий международный эксперт и юрист проводить большой работа , чтобы доказывать несправедливость этот **договор** по отношение к украина .

Lenta/texts_tagged/20150501gazprom.txt
NOT FOUND

Lenta/texts_tagged/20110901verletzte.txt
отмечать , что выплата предназначавать солдат , получидать телесный и психологический травма во время зарубежный боевой операция , а также __родственник__ погибать военнослужащий . в настоящий время в зарубежный операция бундесвер задействовать 7140 военнослужащий , из они 5167 человек участвовать в международный миссия по поддержание стабильность в афганистан ( Isaf ) , 1377 человек находиться в косово ( Kfor ) , 272 **человек** участвовать в миссия Вмс ес " Аталант " у берег сомали .

Lenta/texts_tagged/2

Lenta/texts_tagged/20161009greencarditaly.txt
Азов " в Днр вубийство Гиви обвинать украинской спецслужбыНацполиция украина называть приоритетной версия убийство ШереметаЧмырь изадминистрация президент Украина обвинивать вразгон МайданаВс материалыФинансыСвободный кассаОставлять лиробот без работа банкировОставлять навторый годПочто " мусорный " рейтинг россия повышать еще нескоро " оставлять попытка играть нарубло " что быть сроссийский валюта после интервенция ЦБя минфин фьючерс наапельсиновый сок обваливаться натретьцб отзывать лицензия украсноярский банк " енисей " Минпромторг исключать водка исигарета изпродуктовый карточеква россия находить кредит под 7000процент годовыхвсе материалыБизнесРавнение нагрузовикиРоссийский автопром пытаться выходить изкризис наотложеть спросеShell закрывать давший название эталоть марка нефть месторождение BrentЗавять помидорычем обернуться очередной продуктовый конфликт между россия иБелоруссиейПродажа легковый машина вянвара упадать на5процентовПеск

Lenta/texts_tagged/20151006clown.txt
window . settings . modules . sharing равно - знак { enabled : true , mode : ' desktop ' , production : true , relativeUrl : " / news / 2015 / 10 / 06 / clown / " , urls : { fb : ' https :// graph . facebook . com / id = url ' , vk : ' https :// vk . com / share . phpact = count & index = 1 & url = url & format = json & callback =' , ok : ' https :// ok . ru / dkst . cmd = extLike & uid = okLenta & ref = url & callback =' } }; Переходить в " моя лент " обсудитьwindow . settings . components . ramblerCommentsCounter равно - знак { el : '# comments - count ' , appId : 126 , xid : " https :// lenta . ru / news / 2015 / 10 / 06 / clown / " , enabled : true } ; ссылка по темеPrince of hearts : Harry brings a smile to seriously ill children and is left in stitches as girl , 9 , asks : ' Are you a clown ' the daily mail , 05 октябрь 2015сми узнавать о тайный помолвка принец гарриlenta . ru , 18 июнь 2015Личный услуга приннец Гарри британской трон отмечать 

Lenta/texts_tagged/20100603neutrino.txt
физик из проект Opera ( Oscillation project with Emulsion - tRacking Apparatus - проект по **изучение** нейтринный осцилляция , использовать __анализ__ эмульсионный пленка ) впервые получать прямой экспериментальной доказательство то , что мюонный нейтрино способный превращаться в тау - нейтрино .

Lenta/texts_tagged/20100607kill.txt
NOT FOUND

Lenta/texts_tagged/20150603another.txt
NOT FOUND

Lenta/texts_tagged/20150603another.txt
" поскольку сейчас появляться весь новый доказательство достоверность слово свидетель , а также с учет различный вброс , касаться сомнение отдельной ангажировать сми в реальный существование этот свидетель , на __данный__ этап мы принимать решение раскрывать информация о он " , -- говорить в заявление комитета . Материала по теме17 : 34 9 сентябрь 2014Разваливаться в воздухе . . . представлять предварительный доклад о результат расследование катастрофа малайзийский " Боинг " воинский часть а4465 -- это 299 - й бригада 

Lenta/texts_tagged/20130208tests.txt
как передавать Bloomberg , последующий проверка показывать , что в этот товар более 60 процент **мясо** являться не говядина , а конина . Материала по теме19 : 08 25 январь 2013Мый вкусный понив ирландия и великобритания в бургер из говядина находить конидывать середина январь днк лошадь и свинья быть обнаруживать в бургер из __говядина__ , который выпускать на два завод в Ирландия и один в великобритания .

Lenta/texts_tagged/20120702holland.txt
NOT FOUND

Lenta/texts_tagged/20160708mid.txt
NOT FOUND

Lenta/texts_tagged/20160708mid.txt
NOT FOUND

Lenta/texts_tagged/20160708mid.txt
санкция , по **мнение** парламентарий , оказываться непродуктивными . рано , 6 июль , __совет__ итальянской область Тоскан одобрять резолюция с призыв добиваться " преодоление режим секторальный экономический санкция " против россия .

Lenta/texts_tagged/20160708mid.txt
NOT FOUND

Lenta/texts_tagged/20100506bomj.txt
NOT FOUND

Lenta/texts_tagged/20160505rosselhoznadzor.tx

Lenta/texts_tagged/20131006lawyer.txt
NOT FOUND

Lenta/texts_tagged/20151105ferrari.txt
в результат авария страдать три **человек** , в тот число __гражданин__ франция .

Lenta/texts_tagged/20140703koval.txt
последний являться миллиардер и возглавлявать агрохолдинг " Мироновский хлебопродукт " . __глава государство__ иметь право выдвигать претендент на пост глава минобороны , генпрокурор , министр иностранный дело и ряд другой **руководитель** ведомствадратный кадровый перестановка в высш украинский руководство быть проводить в июнь .

Lenta/texts_tagged/20161108sofi.txt
список лауреат опубликовывать на официальный сайт __премия__ . за " Гамлет " Додин также получать **награда** в категория " лучший работа режиссер " .

Lenta/texts_tagged/20161004marrio.txt
NOT FOUND

Lenta/texts_tagged/20150307whitehouseturnedred.txt
NOT FOUND

Lenta/texts_tagged/20140306notify.txt
NOT FOUND

Lenta/texts_tagged/20140306notify.txt
NOT FOUND

Lenta/texts_tagged/20140306notify.txt
NOT FOUND

Lenta/texts_

Lenta/texts_tagged/20141209statecompany.txt
" но закупать только уникальной оборудование и технология , без который мы развиваться не мочь либо быть развиваться неэффективно " ,-- указывать президентак сей сентябрь в россия действовать запрет на госзакупок для федеральный нужда товар легкий промышленность , производить вне таможенный союз либо с использование иностранный материал и полуфабрикатов . window . settings . modules . sharing равно - знак { enabled : true , mode : ' desktop ' , production : true , relativeUrl : " / news / 2014 / 12 / 09 / statecompany / " , urls : { fb : ' https :// graph . facebook . com / id = url ' , vk : ' https :// vk . com / share . phpact = count & index = 1 & url = url & format = json & callback =' , ok : ' https :// ok . ru / dkst . cmd = extLike & uid = okLenta & ref = url & callback =' } }; перейти в " моя лент " обсудитьwindow . settings . components . ramblerCommentsCounter равно - знак { el : '# comments - count ' , appId : 126 , xid : " https :

Lenta/texts_tagged/20131205found.txt
в комиссия по ядерный безопасность мексика утверждать , что предполагать похититель получать серьезной доза радиация . по данные associated press , радиоактивный **вещество** кобальт - 60 , который находиться в контейнер , быть находить , угроза загрязнение окружать __среда__ нет .

Lenta/texts_tagged/20120604spiders.txt
NOT FOUND

Lenta/texts_tagged/20120604spiders.txt
NOT FOUND

Lenta/texts_tagged/20120604spiders.txt
NOT FOUND

Lenta/texts_tagged/20160504gosh.txt
погибать сам полковник , он __жена__ , **супруга** брат , племянница и родитель .

Lenta/texts_tagged/20150303peskovsaid.txt
com / share . phpact = count & index = 1 & url = url & format = json & callback =' , ok : ' https :// ok . ru / dkst . cmd = extLike & uid = okLenta & ref = url & callback =' } }; Переходить в " моя лент " обсудитьwindow . settings . components . ramblerCommentsCounter равно - знак { el : '# comments - count ' , appId : 126 , xid : " https :// lenta . ru / news / 20

Lenta/texts_tagged/20150302azotosome.txt
однако если представлять себя , что клетка основывать не на вода , а на метана , то граница зона обитаемость резко расширяться . материал по теме12 : 51 27 январь 2010Долгождать встречаОсновать на последний новость рассуждение о инопланетянах23 : 52 7 июнь 2010нета весть с Титанаученые пытаться " оживать " спутник СатурнаОдин из первый шаг к зарождение жизнь на земля становиться фосфолипид -- этот **вещество** обеспечивать водонепроницаемость и пластичность мембрана , изолировать клетка от внешний __среда__ .

Lenta/texts_tagged/20101004pif.txt
NOT FOUND

Lenta/texts_tagged/20111204dfo.txt
в сахалинский область , отмечать агентство " интерфакс " , открываться 316 **участок** для голосование на __суша__ и еще 142 - в море на суд .

Lenta/texts_tagged/20111204dfo.txt
NOT FOUND

Lenta/texts_tagged/20111204dfo.txt
в якутия регистрировать около 600 тысяча избиратель , для они открыто 812 участковек между то , согласно сайт цик рф , данные о открытие 

Lenta/texts_tagged/20121101rao.txt
по данные газета , о соглашение сторона мочь объявлять уже в четвергород Срка __контракт__ длиться с 2016 по 2040 год , а объем поставка , по слово источник издание , быть такой же , как и по **договор** " Интер рао " с " Новатэк " , " и даже сверх то " .

Lenta/texts_tagged/20161201pase.txt
NOT FOUND

Lenta/texts_tagged/20161201pase.txt
NOT FOUND

Lenta/texts_tagged/20160802brisco.txt
NOT FOUND

Lenta/texts_tagged/20160802brisco.txt
этот страна быть единственный направление работа Brisco , в связь с это на протяжение весь зима 2015 - 2016 год у фирма отсутствовать операционный **деятельность** . материал по теме00 : 06 17 март 2016Сбивать секунда курса " Когалымавиа " не мочь оправляться от атака ИГ00 : 01 17 июль 2016Контрольный выстрелНеудачный попытка госпереворот грозить серьезно подрывать туризм в Турциив компания подчеркивать , что свой роль сыграть также отзывший лицензия у два страховой фирма , заниматься финансовый обеспечение __работа__ орг

Lenta/texts_tagged/20100608safari.txt
NOT FOUND

Lenta/texts_tagged/20121001laptop.txt
NOT FOUND

Lenta/texts_tagged/20150203embassy.txt
NOT FOUND

Lenta/texts_tagged/20150203embassy.txt
два **заседание** арбитражный суд проходить без участие польский дипломат -- на __слушание__ они не являться .

Lenta/texts_tagged/20150203embassy.txt
NOT FOUND

Lenta/texts_tagged/20100805priva.txt
к конец третий квартал 2006 год по общий размер актив __банк__ занимать первый место среди украинской **кредитный организация** .

Lenta/texts_tagged/20100906grayipad.txt
NOT FOUND

Lenta/texts_tagged/20141208volyn.txt
вслед за __арбитр__ поле покидать и футболист . в итог после пауза **судья** принимать решение не доигрывать встреча , фиксировать победа харьковчанин с счет 2 : 1 .

Lenta/texts_tagged/20150407plane.txt
NOT FOUND

Lenta/texts_tagged/20101103bribe.txt
NOT FOUND

Lenta/texts_tagged/20101103bribe.txt
NOT FOUND

Lenta/texts_tagged/20121109si.txt
NOT FOUND

Lenta/texts_tagged/20121109si.txt
NOT F

Lenta/texts_tagged/20161103antarktida.txt
кроме то , участник мероприятие посещать российский станция и станция **иностранный государство** в антарктида ( чили и __китай__ ) для ознакомление и обмен опытомя первый Антарктический саммит предприниматель проходить в антарктида с 29 октябрь по 10 ноябрь .

Lenta/texts_tagged/20161103antarktida.txt
NOT FOUND

Lenta/texts_tagged/20141207kusserb.txt
NOT FOUND

Lenta/texts_tagged/20141207kusserb.txt
NOT FOUND

Lenta/texts_tagged/20141005grozny1.txt
NOT FOUND

Lenta/texts_tagged/20141005grozny1.txt
NOT FOUND

Lenta/texts_tagged/20151106canoebelarus.txt
ожидать , что этот шаг стимулировать туризм : литовский **путешественник** мочь на суд ходить в Гродин , а белорус - - в Друскининкай . белорусский власть активно работать над привлечение __турист__ .

Lenta/texts_tagged/20160807poehali.txt
NOT FOUND

Lenta/texts_tagged/20121205inves.txt
по данные bloomberg , Усманов продать в рамка Ipo около треть свой **доля** , заработать 1 , 4 миллиард доллар

Lenta/texts_tagged/20111109bargaining.txt
они оппонент удаваться собирать лишь 7 , 5 миллион долларовек закон затрагивать право 350 тысяча бюджетный **работник** штат , в тот число учитель , __пожарный__ и полицейский .

Lenta/texts_tagged/20151203fallos.txt
NOT FOUND

Lenta/texts_tagged/20100907hugo.txt
на сайт литературной __премия__ " Хьюй " быть опубликовывать список лауреат 2010 гектодар **награда** в основной номинация " лучший роман " удостаиваться сразу два книга - " the City & the City " Чайна Мьевилль и " the Windup Girl "

Lenta/texts_tagged/20100907hugo.txt
" лучший __новелла__ " признавать " Palimpsest " чарльз Стросс , лучший **рассказ** - " Bridesicle " Уилл Макинтош .

Lenta/texts_tagged/20130704rao.txt
российский **академия** образование должен становиться часть новый общественно - государственный организация " российский __академия наука__ " наряду с ран , Рамн и Расхн .

Lenta/texts_tagged/20130704rao.txt
три другой **академия** ( медицинский наука , сельскохозяйстве

Lenta/texts_tagged/20100902pipeline.txt
NOT FOUND

Lenta/texts_tagged/20100902pipeline.txt
в этот __случай__ управление газопровод Ямал - Европа переходить к Gaz - System в течение шесть месяц на **условие** , который устанавливать Ure . действовать межправительственный соглашение по газ с польша , а также российский вариант новый соглашение позволять сохранять монополия на транзит газ за " газпром " и Pgnig до 2045 год .

Lenta/texts_tagged/20100902pipeline.txt
Весной представитель министерство экономика польша предупреждать , что Варшава мочь оставаться без российский газ в октябрь , если не подписывать договор в ближайший месяцы . Стаивать отмечать , что правительство литва в июль рассмотретать законопроект о разделение национальный газовый концерн Lietuvos dujos ( на 37 процент принадлежать " газпром " ) на два **предприятие** ( транспортный и торговый __компания__ ) не поздно март 2012 год .

Lenta/texts_tagged/20100902pipeline.txt
NOT FOUND

Lenta/texts_tagged/20110802water.txt
и

Lenta/texts_tagged/20140602banki.txt
Агенство по страхование вклад начинать выплата вкладчик **кредитный организация** не поздно 16 июня . Банка " Софрино " и кб " банк Бфт " входить в третий сотня российский __банк__ по величина актив .

Lenta/texts_tagged/20140602banki.txt
согласно сообщение цб , кредитный организация лишиваться лицензия , так как проводить высокорискованный кредитный __политика__ , связывать с размещенье денежный **средство** в низкокачественный актив .

Lenta/texts_tagged/20160302savchenko1.txt
она нести служба в должность штурмана - оператор вертолет Ми - 24 , во время отпуск доброволец вступать в батальон " Айдар " и отправляться в Донбасс для участие в **боевой действие** . по данные следствие , во время __военный действие__ в район Луганск в июнь 2014 год савченко , узнавать координата блокпост луганский ополченец , переать они украинский военный .

Lenta/texts_tagged/20110802onemore.txt
NOT FOUND

Lenta/texts_tagged/20110802onemore.txt
статья , по который чино

Lenta/texts_tagged/20160108doctor.txt
Енись " Минпромторг исключать водка исигарета изпродуктовый карточеква россия находить кредит под 7000процент годовыхвсе материалыБизнесРавнение нагрузовикиРоссийский автопром пытаться выходить изкризис наотложеть спросеShell закрывать давший название эталоть марка нефть месторождение BrentЗавять помидорычем обернуться очередной продуктовый конфликт между россия иБелоруссиейПродажа легковый машина вянвара упадать на5процентовПеск комментировать возможность снижение доля государство вэкономикемвд Белоруссия начинать проверка вотношение сотрудник РоссельхознадзораАкция " детский мир " выкупать инвестор изсш ивеликобританиивсе материалыСиловый структурыУбить ДантесаКак дрываться напистолет пушкин : разбор знаменитый дуэль Жесткий наездкак нарушитель " сажать " полицейский накапота свой автомобилейРогинать тоже плачутКакий преступление совершать изревность " новой сноуден " обвинять вкраже секретный материаловскра предлагать выработавать мера противоде

Lenta/texts_tagged/20121109panov.txt
NOT FOUND

Lenta/texts_tagged/20121109panov.txt
в мвд сообщать , что подозревать по дело о хищение проходить " целый ряд должностный лицо руководить звено Минрегион " . саммит Атэс проходить по владивосток на **остров** __русский__ с 2 по 9 сентябрь 2012 год .

Lenta/texts_tagged/20121109panov.txt
NOT FOUND

Lenta/texts_tagged/20100603parrots.txt
NOT FOUND

Lenta/texts_tagged/20100603parrots.txt
NOT FOUND

Lenta/texts_tagged/20150203mosschool.txt
NOT FOUND

Lenta/texts_tagged/20150203mosschool.txt
NOT FOUND

Lenta/texts_tagged/20110204costs1.txt
NOT FOUND

Lenta/texts_tagged/20110204costs1.txt
NOT FOUND

Lenta/texts_tagged/20120808discriminate.txt
NOT FOUND

Lenta/texts_tagged/20120808discriminate.txt
однако газета называть она имя Карла ( Karlaa ) . по информация associated press , за два год девушка останавливаться в этот __мотель__ 17 раз , но в 2010 год владелец узнавать , с какой цель она снимать номер , и выгонять из **гостиница** .

Lenta/tex

Lenta/texts_tagged/20150904rada.txt
NOT FOUND

Lenta/texts_tagged/20150904rada.txt
NOT FOUND

Lenta/texts_tagged/20110601ogurtzy.txt
министр здравоохранение Гамбург Корнелия Прюфер - Штрокс ( Cornelia Prufer - Storcks ) отмечать , что власть нисколько не спешить с предупреждение о опасность испанский __огурец__ , Министр добавлять , что в она обязанность так или иначе входить предупредивать гражданин германия и ес о результат анализ брать для исследование **овощ** . напоминать в этот связь , что на испанский огурца , брать с центральный рынок гамбург , действительно быть обнаруживать бактерия кишечный палочка .

Lenta/texts_tagged/20151001peskov.txt
NOT FOUND

Lenta/texts_tagged/20120605scioperobianco.txt
NOT FOUND

Lenta/texts_tagged/20161202hawking.txt
NOT FOUND

Lenta/texts_tagged/20161202hawking.txt
NOT FOUND

Lenta/texts_tagged/20160607mcdonalds_water.txt
NOT FOUND

Lenta/texts_tagged/20160607mcdonalds_water.txt
NOT FOUND

Lenta/texts_tagged/20150506kobzonmonumen.txt
NOT FOUND

Le

Lenta/texts_tagged/20151002tomford.txt
window . settings . modules . sharing равно - знак { enabled : true , mode : ' desktop ' , production : true , relativeUrl : " / news / 2015 / 10 / 02 / tomford / " , urls : { fb : ' https :// graph . facebook . com / id = url ' , vk : ' https :// vk . com / share . phpact = count & index = 1 & url = url & format = json & callback =' , ok : ' https :// ok . ru / dkst . cmd = extLike & uid = okLenta & ref = url & callback =' } }; Переходить в " моя лент " обсудитьwindow . settings . components . ramblerCommentsCounter равно - знак { el : '# comments - count ' , appId : 126 , xid : " https :// lenta . ru / news / 2015 / 10 / 02 / tomford / " , enabled : true }; ссылка по темеTom Ford Taps a Lady : Gaga to Appear in Designer " s Runway video for Spring 2016WWd , 02 октябрь 2015Мясный платье Ледь Гага превращаться в вяленый говядинуlenta . ru , 02 сентябрь 2015Леди Гагу превращать в стикер для японский соцсетиlenta . ru , 25 август 2015Последние новос

Lenta/texts_tagged/20100608redufa.txt
NOT FOUND

Lenta/texts_tagged/20100608redufa.txt
NOT FOUND

Lenta/texts_tagged/20100608ruins.txt
NOT FOUND

Lenta/texts_tagged/20100608ruins.txt
NOT FOUND

Lenta/texts_tagged/20100608ruins.txt
NOT FOUND

Lenta/texts_tagged/20100608ruins.txt
согласие на застройка быть получать от " высокий чин русский православный церковь " , добавлять мэранцузский сторонник сохранение старинный здание в центр москва вести борьба против застройка в Кадаши на протяжение несколько год ; в результат осень 2009 год Москомнаследие приостановлять снос исторический **постройка** , а в апрель быть представлять новый план строительство . в конец май снос здание резко активизироваться ; он противник в ответ стать устраивать акция протест и дежурство , чтобы не допускать к __здание__ техника .

Lenta/texts_tagged/20100608ruins.txt
NOT FOUND

Lenta/texts_tagged/20100303embargo.txt
NOT FOUND

Lenta/texts_tagged/20100303embargo.txt
NOT FOUND

Lenta/texts_tagged/20120808false.txt


Lenta/texts_tagged/20151004tsunami.txt
NOT FOUND

Lenta/texts_tagged/20151004tsunami.txt
NOT FOUND

Lenta/texts_tagged/20151004tsunami.txt
осколок горный порода объть примерно 160 кубический километр падать в вода __атлантический океан__ ( в настоящий время он покоиться на день **океан** ) . падение вулканический фрагмент спровоцировать по меньший мера один гигантский цунами , и ученый до сей пора не знать , сколько все они мочь возникать .

Lenta/texts_tagged/20151004tsunami.txt
NOT FOUND

Lenta/texts_tagged/20151004tsunami.txt
NOT FOUND

Lenta/texts_tagged/20151004tsunami.txt
NOT FOUND

Lenta/texts_tagged/20151004tsunami.txt
NOT FOUND

Lenta/texts_tagged/20161102amnesty.txt
NOT FOUND

Lenta/texts_tagged/20130303hosni.txt
NOT FOUND

Lenta/texts_tagged/20130303hosni.txt
NOT FOUND

Lenta/texts_tagged/20100507mice.txt
одновременно основной **показатель** ртс рухнуть на 3 , 39 процент до 1401 пункта . Котировка российский рынок акция двигаться вниз вслед за иностранный фондовый __индекс__

Lenta/texts_tagged/20130708mayor.txt
NOT FOUND

Lenta/texts_tagged/20130708mayor.txt
NOT FOUND

Lenta/texts_tagged/20130109apcs.txt
NOT FOUND

Lenta/texts_tagged/20130109apcs.txt
в этот сумма входить прямой финансирование ливанский оборонный бюджет , а также подготовка военнослужащий , поставка **вооружение** и __военный техника__ .

Lenta/texts_tagged/20101207evac.txt
NOT FOUND

Lenta/texts_tagged/20101101bo.txt
NOT FOUND

Lenta/texts_tagged/20100106open.txt
NOT FOUND

Lenta/texts_tagged/20120831sklad.txt
NOT FOUND

Lenta/texts_tagged/20120831sklad.txt
NOT FOUND

Lenta/texts_tagged/20120409help.txt
NOT FOUND

Lenta/texts_tagged/20120409help.txt
NOT FOUND

Lenta/texts_tagged/20150901reason.txt
Признаков насильственный __смерть__ юношь обнаруживать не былотец в управление уточнять , что в общий сложность молодой человек проводить за игра более два тысяча часовадратный Случаи **гибель** геймер во время игра на компьютер в последний время переставать быть редкость .

Lenta/texts_tagged/20

Lenta/texts_tagged/20161206lawyer.txt
о это в вторник , 6 декабрь , " Ленте . р " сообщать пресс - секретарь суд мария прохорычеваент " смерть 66 - летний **юрист** наступлять 5 декабрь около 13 : 00 , во время следственный действие в один из судебный кабинет " , -- сказать Прохорычева . по слово источник в правоохранительный орган , предположительно , причина смерть адвокат становиться сердечной недостаточность . 31 август в подмосковье быть обнаруживать тело __адвокат__ , предположительно стрелеть из пневматический оружие . по данные следствие , 30 август у подъезд дом в поселок Оболенск Серпуховский район прохожий обнаруживать тело мужчина .

Lenta/texts_tagged/20161206lawyer.txt
убитый оказиваться **юрист** , регистрировать в реестр __адвокат__ ростовский область .

Lenta/texts_tagged/20130108border.txt
по слово представитель украинский погранслужба , за попытка пересечение граница россиянин мочь понести как административный ( если они действовать самостоятельно ) , так и уголовный

Lenta/texts_tagged/20170109good_wishes_trump.txt
NOT FOUND

Lenta/texts_tagged/20100407burn.txt
NOT FOUND

Lenta/texts_tagged/20100407burn.txt
NOT FOUND

Lenta/texts_tagged/20100807hurd.txt
расследование не установить **факт** домогательство , однако приходить к вывод , что " Херд быть на грань нарушение корпоративной деловой стандарт " . сам марк Херд , комментировать свой отставка , заявлять : " в ход расследование выясняться , что в ряд __случай__ я не соответствовать принцип доверие , уважение и честность , который придерживаваться Hewlett - Packard " .

Lenta/texts_tagged/20100406hold.txt
NOT FOUND

Lenta/texts_tagged/20150403ukrmrmuskel.txt
этот __продукция__ производить ооо " Ск джонсон " ( украина , входить в структура Sс Jonson ) . рано Россельхознадзор запрещать поставка украинский свинья из киевский область . в 2014 год россия ограничивать поставка **целый** ряд украинский товар .

Lenta/texts_tagged/20150403ukrmrmuskel.txt
кроме то , накладывать запрет на поставка сыр , сое

Lenta/texts_tagged/20100504jakuzi.txt
NOT FOUND

Lenta/texts_tagged/20151005spintronics.txt
результат исследование опубликовывать в журнал Nature Physics , а коротко о это сообщаваться в пресс - релиза Ниияф мгу , поступивать в редакция " Ленты . р " . группа ученый , в который входить наталья Пугач из нии ядерный физика имя Скобельцын при мгу , исследовать взаимодействие сверхпроводимость и намагниченность для то , чтобы научаться управлять спина ( магнитный момент ) электроновек если в обычный __микроэлектроника__ информация кодируть с помощь электрический заряд , то в спиновый **электроника** , или спинтроника , информация предоставлять с помощь спин электрон , который мочь быть направлять вдоль или поперек определять ось .

Lenta/texts_tagged/20100607mayor1.txt
в поддержка он главный соперник - представитель Кпрф сергей тонкий - отдавать 26 , 09 процент голос избиратель . кроме Пархоменко и тонкий в бюллетень для голосование быть включать еще трое **кандидат** - артур Амелин , пред

Lenta/texts_tagged/20110704poverty.txt
в первый квартал 2011 год число россиянин , чей **доход** низкий величина __прожиточный минимум__ , увеличиваться с 20 , 6 до 22 , 9 миллион человек по сравнение с первый квартал прошлый год .

Lenta/texts_tagged/20110704poverty.txt
газета " коммерсант " писать , что 2 , 3 миллион россиянин , жить за черта бедность , Росстат позволять выявлять новый данные , получать в результат всероссийский перепись население . перепись , проходить осень 2010 год , показывать , что тенденция по снижение количество человек , жить на **доход** низкий __прожиточный минимум__ ( в первый квартал 2011 год он составлять 6473 рубль ) , наблюдаваться после кризис , прерываться в 2011 год .

Lenta/texts_tagged/20110704poverty.txt
данные Росстат говорить о то , что число бедный в страна в первый квартал превышать 16 процент от общий __численность__ население . эксперт , опрашивать издание , указывать , что росстат точно фиксировать рост количество бедный , однако цифра вед

Lenta/texts_tagged/20120806odessa.txt
NOT FOUND

Lenta/texts_tagged/20120806odessa.txt
NOT FOUND

Lenta/texts_tagged/20100809book.txt
в __тот__ же время , как ожидать , в 2011 год объем продажа цифровой **книга** издательство удваиваться . издательство не прекращать полностью выпуск бумажный литература .

Lenta/texts_tagged/20120509patriots.txt
NOT FOUND

Lenta/texts_tagged/20151005weatherinsyria.txt
NOT FOUND

Lenta/texts_tagged/20100203polystyrene.txt
NOT FOUND

Lenta/texts_tagged/20100203polystyrene.txt
NOT FOUND

Lenta/texts_tagged/20100203polystyrene.txt
NOT FOUND

Lenta/texts_tagged/20161108taxreal.txt
NOT FOUND

Lenta/texts_tagged/20100503nikulin.txt
NOT FOUND

Lenta/texts_tagged/20160709onfire.txt
михаил степанов сообщать , что Садыков приезжать на евро - 2016 в качество фанат за свой счетей Материала по теме13 : 48 11 июнь 2016Беспорядочный связиСборная россия по футбол стартовать на Ча на фон фанатский разборокТакже должность лишаться непосредственный руководитель Садыков дми

Lenta/texts_tagged/20111007anotherfire.txt
NOT FOUND

Lenta/texts_tagged/20160401kamazmaz.txt
Белоруссия и россия решать приостанавливать **работа** по интеграционный __проект__ маз -- " камаз " .

Lenta/texts_tagged/20160401kamazmaz.txt
NOT FOUND

Lenta/texts_tagged/20130405talks.txt
NOT FOUND

Lenta/texts_tagged/20160905polar.txt
NOT FOUND

Lenta/texts_tagged/20160905polar.txt
NOT FOUND

Lenta/texts_tagged/20101005sun.txt
интерес к активо , судить по неофициальный данные " коммерсант " , проявлять также международный концерн Total и shell , однако официальный подтверждение этот информация не получила . Газет " ведомость " , в свой очередь , отмечать , что переговоры по покупка **доля** в " Итер " уже несколько месяц вехать Тнк - вр , который мочь получать до __половина__ компания .

Lenta/texts_tagged/20151108ambassadors.txt
NOT FOUND

Lenta/texts_tagged/20110704ekologi.txt
в гу мвд рф по московский область опровергать информация о то , что 3 июль в ход драка с сотрудник охранный пре

Lenta/texts_tagged/20110701passpor.txt
обмен старый паспорт на новый не предусматривать , за исключение устанавливать регламент **условие** - к пример , в __случай__ утрата или порча документа . рано сообщаться , что к конец 2011 год Фмс планировать подготавливать опытный образец новый загранпаспорт , в электронный чип который помимо регистрационный данные паспорт быть вносить информация о отпечаток палец владелец .

Lenta/texts_tagged/20110701passpor.txt
однако точный дата введение новый образец загранпаспорт в Фмс называть не мочь , отмечать , что в течение 2011 год это точно не произойдетинский указание информация о отпечатка палец в микрочип загранпаспорт должен существенно упрощать процедура оформление виза в ряд **иностранный государство** , в частность , в __сша__ и страна евросоюз .

Lenta/texts_tagged/20150602mutko1.txt
до тот пора он быть оставаться исполнять обязанность президента . внеочередной конгресса Фифа , на который переизбирать **глава организация** , состояться в пе

Lenta/texts_tagged/20120502ipad.txt
австралийский комиссия по конкуренция и **потребитель** ( Accc ) подавать в суд на компания apple сразу же после начало продажа iPad в австралия за дезинформация __покупатель__ .

Lenta/texts_tagged/20151103identification.txt
NOT FOUND

Lenta/texts_tagged/20111005accuse.txt
NOT FOUND

Lenta/texts_tagged/20111005accuse.txt
NOT FOUND

Lenta/texts_tagged/20151009stephenhawking.txt
NOT FOUND

Lenta/texts_tagged/20151009stephenhawking.txt
NOT FOUND

Lenta/texts_tagged/20151009stephenhawking.txt
NOT FOUND

Lenta/texts_tagged/20151009stephenhawking.txt
такой задержка связывать с то , что ученый из - за болезнь мочь набирать на компьютер несколько сл в минуту . Материала по теме17 : 27 6 октябрь 2015ЗаколебалиПочий за превращение нейтрино присудивать нобелевский премия по **физика** британец известный свой работа по __космология__ , а также популяризация наука .

Lenta/texts_tagged/20140808banks.txt
Финорганизация лишать лицензия из - за неисполнение федерал

Lenta/texts_tagged/20141003three.txt
нужный проявлять и усердие , и творческий навык , и талант , без это быть интересный сегодняшний ученик практически невозможный " , -- заявлять Путин . window . settings . modules . sharing равно - знак { enabled : true , mode : ' desktop ' , production : true , relativeUrl : " / news / 2014 / 10 / 03 / three / " , urls : { fb : ' https :// graph . facebook . com / id = url ' , vk : ' https :// vk . com / share . phpact = count & index = 1 & url = url & format = json & callback =' , ok : ' https :// ok . ru / dkst . cmd = extLike & uid = okLenta & ref = url & callback =' } }; Переходить в " моя ленту " обсудитьwindow . settings . components . ramblerCommentsCounter равно - знак { el : '# comments - count ' , appId : 126 , xid : " https :// lenta . ru / news / 2014 / 10 / 03 / three / " , enabled : true } ; ссылка по темеПутин предлагать пересматривать требование к учитель lenta . ru , 03 июль 2014Последние новости05 : 49Опубликовать письмо главный о

Lenta/texts_tagged/20130809gang.txt
NOT FOUND

Lenta/texts_tagged/20121002opposition.txt
NOT FOUND

Lenta/texts_tagged/20140608colombia.txt
NOT FOUND

Lenta/texts_tagged/20100408neonazis.txt
сотрудник ведомство по охрана конституция - спецслужба , заниматься отслеживание деятельность экстремистский группа - выступать с предупреждение , что неонацист и ультраправый активизироваться в интернет и вербовать сторонник через популярный в германия социальный сеть такой , как фейсбук , Schuelervz , Studivz , Meinvz , Wer - kennt - wen или StayFriends , сообщать Welt . при это отмечать , что , поскольку в немецкий соцсеть неонацистский пропаганда активно преследовать , ультраправый действовать исподволь : они не используять ни __свастика__ , ни прямой агитация , а прибегать к более изощренный метод , брать на вооружение многочисленный **символ** молодежный культура , как например граффити и то подобнобыть " правый экстремист появляться в социальный сеть , как волк в овечья шкур , - отмечать пре

Lenta/texts_tagged/20110704real.txt
Моуринь намерен назначлять новый капитан команда один из полевой игрок , поскольку такой футболист быть удобный общаться с арбитр , чем голкиперу . как отмечавать издание , в предыдущий команд Моуринь капитан быть именно **полевой игрок** ( Хавьер Дзанетти в миланский " Интер " и джон терри в лондонский " челси " ) . Marca писать , что новый капитан " Реал " мочь становиться защитник Серхио Рамос или __полузащитник__ Хаби Алонсотец Касильяс получать капитанский повязка в мадридский клуб лето 2010 год после то , как многолетний капитан " Реал " Рауль покидать команда и переходить в немецкий " Шальк " .

Lenta/texts_tagged/20120305search.txt
NOT FOUND

Lenta/texts_tagged/20120305search.txt
NOT FOUND

Lenta/texts_tagged/20101006blas.txt
в столица йемен городе сан происходить взрыв возле __посольство__ великобритания , передавать 6 октябрь агентство reuters . в британский **дипломатический представительство** подтверждать информация о взрыв , отмечать , 

Lenta/texts_tagged/20120806chavela.txt
если посетитель неправильно отвечать хотя бы на один из вопрос , дверь не открываться . как сообщаться в промо - ролика рекламный кампания , в результат размещение тест о __деятельность__ Euglena узнавать около 3000 **человек** .

Lenta/texts_tagged/20120806chavela.txt
NOT FOUND

Lenta/texts_tagged/20100706onlineta.txt
сейчас в греция облагать налог весь печатный и телевизионный реклама , в связь с ч агентство предпочитать обращаться к интернет , чтобы избегать возможный финансовый потеря . отказ от налог уже осуждать Всегреческий __федерация__ **союз** журналист ( Panhellenic Federation of Journalists " Unions ) .

Lenta/texts_tagged/20130401shrooms.txt
NOT FOUND

Lenta/texts_tagged/20130401shrooms.txt
NOT FOUND

Lenta/texts_tagged/20130401shrooms.txt
NOT FOUND

Lenta/texts_tagged/20130401shrooms.txt
NOT FOUND

Lenta/texts_tagged/20100707reality.txt
NOT FOUND

Lenta/texts_tagged/20120301sponsor.txt
NOT FOUND

Lenta/texts_tagged/20120301sponsor.tx

Lenta/texts_tagged/20151208putin_italia.txt
NOT FOUND

Lenta/texts_tagged/20151208putin_italia.txt
Самывать " михаил ТолстыхКиевлян призывать добираться наработу навелосипеде в20 - градусный морозЗаместитель Аваков становиться один изкомандир пол " Азов " в Днр вубийство Гиви обвинать украинской спецслужбыНацполиция украина называть приоритетной версия убийство ШереметаЧмырь изадминистрация президент Украина обвинивать вразгон МайданаВс материалыФинансыСвободный кассаОставлять лиробот без работа банкировОставлять навторый годПочто " мусорный " рейтинг россия повышать еще нескоро " оставлять попытка играть нарубло " что быть сроссийский валюта после интервенция ЦБя минфин фьючерс наапельсиновый сок обваливаться натретьцб отзывать лицензия украсноярский банк " енисей " Минпромторг исключать водка исигарета изпродуктовый карточеква россия находить кредит под 7000процент годовыхвсе материалыБизнесРавнение нагрузовикиРоссийский автопром пытаться выходить изкризис наотложеть спросеShell закр

Lenta/texts_tagged/20160109fryazino.txt
информация о это опубликовывать в суббота , 9 январь , на сайт правительства . оэза технико - внедренческий тип " исток " быть расположенный на база якорный участник __проект__ ао " Научно - производственный **предприятие** " исток " имя А . И . Шокин " .

Lenta/texts_tagged/20131107ecb.txt
**изменение** вступать в сила с 13 ноябрь . такой образ , Ецб опустывать __уровень__ ставка до новый исторический минимум .

Lenta/texts_tagged/20131206qaeda.txt
террористический организация " аль - каида на Аравийской полуостров " брать на себя ответственность за вчерашний нападение на комплекс здание __министерство оборона__ йемен , сообщать Agence France - Presse . в заявление , распространять по этот повод , исламист объявлять , что цель для нападение быть выбирать неслучайно : по они данные , в атаковать **министерство** находиться центр управление американский БПЛа . , а также военный советник из сша . по слово террорист , в ход они операция быть уничтож

Lenta/texts_tagged/20130603go.txt
о это сообщать официальный представитель мчс ирина Россиус , передавать " интерфакс " . по слово Россиус , в Мчс подготавливать проект __приказ__ министр , упрощать **требование** в область гражданский оборона для организация , чей работа не предусматривать в военный время .

Lenta/texts_tagged/20160905primor.txt
NOT FOUND

Lenta/texts_tagged/20100702klose.txt
Роналдо за время выступление на первенство планета забивать 15 голова , а Клозе - 12 ( в тот **число** два гол на чемпионат мир в юар ) . Клозе напоминать , что он забивать по пять __голова__ на чм - 2002 в япония и южный корея и на чм - 2006 в германия .

Lenta/texts_tagged/20100702klose.txt
32 - летний Клозе заявлять , что он планировать выступать как минимум до **чемпионат** европа 2012 гектодар в настоящий время в список лучший бомбардир __чемпионат мир__ Клозе делеть четвертое - пятый место с бразилец Пель ( по 12 гоел ) .

Lenta/texts_tagged/20131107project636.txt
NOT FOUND

Lenta/texts_tag

Lenta/texts_tagged/20101005ice.txt
**температура** в ледяной корка находиться в предел от минус 187 до минус 143 градус Цельсий . до сей пора считать , что в такой __холод__ реакция не мочь происходить с высокий скорость .

Lenta/texts_tagged/20101005ice.txt
Сера попадать на шестой юпитерианский **спутник** от он " напарница " - близкий к Юпитер __луна__ ио .

Lenta/texts_tagged/20101101microskolkovo.txt
о это сообщаваться в пресс - релиза , поступивать в редакция " Ленты . р " . в качество приоритетный задача называться следующий : размещение центр разработка микрософт на территория сколково , проведение научный исследование совместно с российский университет и научный институт , расширение программа по поддержка российский инновационный стартап , создание центр коллективный доступ к IT - технология , а также участие в создание Сколковский технологический университета . " Создание ' Сколково ' - важный шаг на путь **модернизация** российский экономика и ускорение технологической __инн

Lenta/texts_tagged/20160602cosmicloza.txt
NOT FOUND

Lenta/texts_tagged/20130403grozny.txt
о причина пожар на __данный__ момент никакой **информация** нет .

Lenta/texts_tagged/20100805more.txt
еще один человек скончаться в больница в воронежский области . 4 август министерство региональный развитие рф сообщать , что в результат пожар без кров оставаться 3 , 5 тысяча человек ; в 12 наиболее страдать от пожар регион **сгорать** 1940 домовек вечер 4 август мчс рф объявлять , что в россия действовать 520 очаг __пожар__ на общий площадь свыше 188 , 5 тысяча гектар , при это 310 на площадь почти 79 тысяча гектар локализовать .

Lenta/texts_tagged/20130903alone.txt
NOT FOUND

Lenta/texts_tagged/20100708curfew.txt
NOT FOUND

Lenta/texts_tagged/20100708curfew.txt
Риа Новость сообщать , что , согласно поправка , ночь наступать с 22 час , однако интернет - газета " Башвест " передавать , что в летний время комендантский час начинаться с полночь и длиться до шесть утра . Кроме то , башкирской деп

Lenta/texts_tagged/20110208laroja.txt
NOT FOUND

Lenta/texts_tagged/20150904summa.txt
NOT FOUND

Lenta/texts_tagged/20130706mayor.txt
NOT FOUND

Lenta/texts_tagged/20130706mayor.txt
NOT FOUND

Lenta/texts_tagged/20130706mayor.txt
NOT FOUND

Lenta/texts_tagged/20130706mayor.txt
NOT FOUND

Lenta/texts_tagged/20130706mayor.txt
NOT FOUND

Lenta/texts_tagged/20130706mayor.txt
NOT FOUND

Lenta/texts_tagged/20160309skrpoligraph.txt
перед финал оба **спортсмен** проходить контроль , пробы быть чистый " , -- заявлять Кравцовадратный Материала по теме02 : 11 8 март 2016Препаратный игрыЧто быть с Мария Шарапова после допинг - скандала01 : 03 9 март 2016Эр мельдонияЧто за препарат применять Шарапов , Бобров , Елистратов , Кулижников и МаркинКравцов также отмечать , что проверка предстоять врач и весь член сборная россия по шорт - треок по возвращение с чм , который проходить с 11 по 13 март в сеулеаница в вторник , 8 март , становиться известный о обнаруженть в кровь пятикратный чемпион мир __конь

Lenta/texts_tagged/20131001foreignban.txt
NOT FOUND

Lenta/texts_tagged/20131001foreignban.txt
NOT FOUND

Lenta/texts_tagged/20100402s300.txt
NOT FOUND

Lenta/texts_tagged/20120202af.txt
еще около тысяча человек быть госпитализировать с **травма** , вызывать переохлаждение и __обморожение__ .

Lenta/texts_tagged/20100402nose.txt
NOT FOUND

Lenta/texts_tagged/20100402nose.txt
поэтому начальник станция признавать __виновный__ еще и в истязании . сам подсудимый свой **вина** не признавать .

Lenta/texts_tagged/20140305lyapis.txt
NOT FOUND

Lenta/texts_tagged/20140305lyapis.txt
NOT FOUND

Lenta/texts_tagged/20100104cour.txt
вооружать преступник открывать огонь в вестибюл здание федеральный суд в лас - вегас , сообщать Cnn . два **человек** - __помощник__ судебный исполнитель и охранник - получать ранение .

Lenta/texts_tagged/20130506ask.txt
NOT FOUND

Lenta/texts_tagged/20141105rusmarsh.txt
" остальной материал сейчас в процесс рассмотрение " ,-- отмечать __собеседник__ . по данные гу мвд

Lenta/texts_tagged/20131202targeting.txt
NOT FOUND

Lenta/texts_tagged/20131202targeting.txt
NOT FOUND

Lenta/texts_tagged/20131202targeting.txt
NOT FOUND

Lenta/texts_tagged/20100405nafta.txt
NOT FOUND

Lenta/texts_tagged/20130603ale.txt
NOT FOUND

Lenta/texts_tagged/20150706matvienko.txt
NOT FOUND

Lenta/texts_tagged/20150706matvienko.txt
она уточнять , что зачастую этот **человек** заниматься благотворительность , в частность , " строить центр реабилитация для ребенок - __инвалид__ в свой регион , реализовать другой социальный проект " . в интервью Матвиенко также отвечать на вопрос о ситуация на украина и антироссийский санкция .

Lenta/texts_tagged/20150706matvienko.txt
а у мы по - прежнему польский яблоко через прибалтийский государство идти в россия под вид транзитный __груз__ " , -- заявлять спикер , добавлять , что рассмотрение парламент находиться поправка к закон о торговля , который призывать " умерить аппетит торговый сеть , вводить свой наценка на **товар** " .

Lenta/tex

Lenta/texts_tagged/20100909fidel.txt
NOT FOUND

Lenta/texts_tagged/20100909fidel.txt
Переводчица Джулия Свейг , присутствовать на __интервью__ , пояснять , что кубинский лидер не иметь в вид отказ от идея революция , а говорить о чрезмерный роль государство в экономический жизнь страныей Такж в ход **беседа** быть затродывать событие 1962 год - так называть карибский кризис , который считать один из наиболее острый эпизод " холодный война " между сша и ссср .

Lenta/texts_tagged/20100909fidel.txt
NOT FOUND

Lenta/texts_tagged/20130508executed.txt
NOT FOUND

Lenta/texts_tagged/20141105pismo.txt
NOT FOUND

Lenta/texts_tagged/20141105pismo.txt
письмо направлять в **министерство** культура и советник президент по культура владимир толстой , а также опубликовывать на сайт Change . org , где проходить сбор подпись за этот инициативу . источник в __министерство культура__ сообщать " Ленте . р " , что один из причина конфликт мочь являться действие Солоницыный по приведение работа музей в соот

Lenta/texts_tagged/20100802sirakov.txt
NOT FOUND

Lenta/texts_tagged/20140802mutko.txt
NOT FOUND

Lenta/texts_tagged/20160601freebeaf.txt
кроме то , быть учитывать производство необходимый сырье в россия и на территория страна , не попадать под эмбарго 27 май минсельхоз сообщать о то , что **работа** над __проект__ постановление правительство о продление продовольственный эмбарго до конец 2017 год начата . в тот же день премьер - министр дмитрий медведев поручать дготовить предложение , согласно который ответный мера россия на санкция запад быть продлевать .

Lenta/texts_tagged/20140507bora.txt
NOT FOUND

Lenta/texts_tagged/20101005reaction.txt
NOT FOUND

Lenta/texts_tagged/20101005reaction.txt
NOT FOUND

Lenta/texts_tagged/20110801rain.txt
NOT FOUND

Lenta/texts_tagged/20110801rain.txt
о то , какой последствие вызвавать последний __наводнение__ , от который в южный корея также погибать десяток человек , не сообщать . рано северный корея не раз обращаться к международный сообщество за 

Lenta/texts_tagged/20100501bomb.txt
NOT FOUND

Lenta/texts_tagged/20110609ecology.txt
NOT FOUND

Lenta/texts_tagged/20120206charity.txt
однако не известный , относить ли в " роснефть " __спонсорство__ этот проект к **благотворительность** . в 2010 год лидер по социальный расход в россия быть " газпром " .

Lenta/texts_tagged/20141107muzkino.txt
NOT FOUND

Lenta/texts_tagged/20160101nile.txt
NOT FOUND

Lenta/texts_tagged/20160101nile.txt
все на борт находиться 22 **человек** , судьба четверый оставаться неизвестный . как сообщлять власть провинция Кафр - эш - Шейх , пар перевозить местный __житель__ . причина инцидент выясняться .

Lenta/texts_tagged/20141003wcchampion.txt
NOT FOUND

Lenta/texts_tagged/20131105symbol.txt
на специальный страница __россиянин__ мочь делать выбор из пять вариант или голосовать против весь предлагать проектовент для голосование нужный указывать свой пол , возраст и образование , а также по желание объяснять свой выборождение в цб отмечать , что рассматривать

Lenta/texts_tagged/20160301snegopad.txt
NOT FOUND

Lenta/texts_tagged/20101006museum.txt
кроме то , в музей можно взглядывать на желтый мотороллер Vespa , приобретать влюблать в надежда , что он и он подруга отправляться на этот транспортной средство в романтический путешествибыть по слово учредитель музей , экспозиция посещать три тип **человек** - просто любопытный __посетитель__ ; тот , кто в настоящий время переживать из - за разрыв отношение с любимый ; а также тот , кто можно называть и любопытный , и несчастной в любовь .

Lenta/texts_tagged/20100507chita.txt
NOT FOUND

Lenta/texts_tagged/20140708cr.txt
__солнце__ и другой **звезда** производить космический луч много меньший энергия . в качество причина возникновение частица высокий энергия ученый рассматривать также гипотеза о они образование от ударной волна от сталкиваться галактика и распад космический струней Исследователь наблюдать источник высокоэнергетический космический луч в область , где , предположительно , находитьс

Lenta/texts_tagged/20160709potapovawimbledon.txt
Самывать " михаил ТолстыхКиевлян призывать добираться наработу навелосипеде в20 - градусный морозЗаместитель Аваков становиться один изкомандир пол " Азов " в Днр вубийство Гиви обвинать украинской спецслужбыНацполиция украина называть приоритетной версия убийство ШереметаЧмырь изадминистрация президент Украина обвинивать вразгон МайданаВс материалыФинансыСвободный кассаОставлять лиробот без работа банкировОставлять навторый годПочто " мусорный " рейтинг россия повышать еще нескоро " оставлять попытка играть нарубло " что быть сроссийский валюта после интервенция ЦБя минфин фьючерс наапельсиновый сок обваливаться натретьцб отзывать лицензия украсноярский банк " енисей " Минпромторг исключать водка исигарета изпродуктовый карточеква россия находить кредит под 7000процент годовыхвсе материалыБизнесПоследние звонокНасколько дорожать роуминг во для россиянShell закрывать давший название эталоть марка нефть месторождение BrentПесков комментир

Lenta/texts_tagged/20151207yak130.txt
Самывать " михаил ТолстыхТимошенко обидеться наразговор оо встреко сТрамп удверь туалетаСоратницо Ярош заявлять обубийство Гиви иМоторола украинский пецслужбамиНазвать возможный дата введение безвизовый режим между украина иЕСУкраина уличать взакупка российский двигатель для бтр через молдавский фирмыМолдавский премьер поторопить правительство соткрытие офис нато вкишиневевать Вса призывать житель Донбасс спонимание отнесаться кэкономический блокадевсе материалыФинансыСвободный кассаОставлять лиробот без работа банкировБанк Рпц предъявлять иск Альфа - банка на11миллиардов рублейцб задумываться ораскрытие банковский тайныЗадержанин топ - менеджер Татфондбанк " оставлять попытка играть нарубло " что быть сроссийский валюта после интервенция ЦБя минфин оставивать навторый годПочто " мусорный " рейтинг россия повышать еще нескоро цб отзывать лицензия украсноярский банк " енисей " весь материалыБизнесПоследние звонокНасколько дорожать роуминг во для рос

Lenta/texts_tagged/20141201walker.txt
NOT FOUND

Lenta/texts_tagged/20141201walker.txt
NOT FOUND

Lenta/texts_tagged/20100807luf.txt
в суббота , 7 август , загрязнение московский воздух достигать максимальный __значение__ с начало задымление , сообщать риа новость с ссылка на представитель " Мосэкомониторинг " . содержание угарный газ превышать предельно допустимый концентрация в 6 , 6 раз , **содержание** взвешенный вещество в - 2 , 2 раз .

Lenta/texts_tagged/20100903voskr.txt
NOT FOUND

Lenta/texts_tagged/20111208bogoslovsk.txt
NOT FOUND

Lenta/texts_tagged/20111208bogoslovsk.txt
NOT FOUND

Lenta/texts_tagged/20161004china.txt
свой вывод ученый представлять в препринт , опубликовывать в репозитория bioRxiv . org . Материала по теме00 : 02 8 июль 2016Пор размножатьсимать сша отвечать на главный вопрос __эволюция__ , доказывать естественный отбор человекава 2014 год быть опубликовывать работа , согласно который 40 процент китаец являться потомок три " суперпрародитель " , жить во врем

в 80 матч регулярный чемпионат НБа . сезон - 2010 / 11 пол набирать по 15 , 8 очок , делать 4 , 6 подбор и 9 , 9 передача в среднее за игру . из остальной участник несостояваться обмен самый известный являться двукратный чемпион европа в состав сборная испания , __чемпион мир__ 2006 год , двукратный **чемпион** Нба Поу Газоль .

Lenta/texts_tagged/20140307march.txt
NOT FOUND

Lenta/texts_tagged/20140307march.txt
для **мероприятие** , который начинаться в 17 : 00 на Васильевский спуск , как сообщать в департамент транспорт москва , ограничить движение по ряд центральный улица : Москворецкая , Ильинк , варварка и больший Москворецкий мосту . 2 март в москва проходить три __акция__ , связывать с ситуация на украина .

Lenta/texts_tagged/20110706livan.txt
во время трехдневный парламентский дебаты о основа политика недавно формировать **правительство** ливан депутат из противоборствующий лагерь обмениваться рядом резкий заявление , писать местный газета the daily star . так , депутат от сун

Lenta/texts_tagged/20101005debu.txt
Уэллс выступать не только в качество режиссер __проект__ - он также принимать участие в **работа** над сценарий и исполнивать главный роль .

Lenta/texts_tagged/20101005debu.txt
в список также попадать Сидин Люмет ( " 12 разгневанный мужчина " , 10 место ) , стивен Спилберг ( __телефильм__ " дуэль " , 19 место ) и чарльз чаплин ( " малыш " , 25 место ) . россия представлять в список один **фильм** .

Lenta/texts_tagged/20160202crimeadiscoun.txt
NOT FOUND

Lenta/texts_tagged/20160903mi8.txt
вертолет ми - 8 с военный на борт сгорать в результат жесткий посадка на аэродром в Долинский район **остров** __сахалин__ , сообщать РИа . новость в суббота , 3 сентябрь , источник в экстренный служба . " вертолет совершать жесткий посадка на военный аэродром " сокол " .

Lenta/texts_tagged/20150906isis.txt
__неделя__ ранее быть казнять журналист Сам Мухаммад ( Sabah Muhammad ) и фотограф Валид абдулла ( Waleed abdullah ) , работать на телеканал Al - Musiliyah в1 

Lenta/texts_tagged/20161006avastin.txt
территориальный орган Росздравнадзор должен обеспечивать изъятие препарат из обращение . руководитель кафедра офтальмология медицинский факультет мгу профессор владимир Акопян заявлять " интерфакс " , что __инцидент__ в нии Гельмгольц , возможно , использовать в конкурентный борьба на рынок лекарствек " весь это выглядеть поспешный попытка использовать подвертываться **случай** для дискредитация как институт , так и в равный мера лекарственный средство , выпускать конкретный корпорация " , -- отмечать эксперт .

Lenta/texts_tagged/20130507employ.txt
NOT FOUND

Lenta/texts_tagged/20130507employ.txt
NOT FOUND

Lenta/texts_tagged/20100808litoy.txt
NOT FOUND

Lenta/texts_tagged/20100808litoy.txt
NOT FOUND

Lenta/texts_tagged/20100808litoy.txt
NOT FOUND

Lenta/texts_tagged/20100808litoy.txt
NOT FOUND

Lenta/texts_tagged/20100808litoy.txt
NOT FOUND

Lenta/texts_tagged/20170202trump_rating.txt
в тот же время , пресс - секретарь " Медиалогия " надежда Жук

Lenta/texts_tagged/20100706edu.txt
за принятие законопроект голосовать 248 депутат при минимально необходимый 226 в общеобразовательный учебный учреждение первый степень ( __начальный школа__ ) ребенок проводить по четыре год , второй степень ( основной школа ) -- по пять год , а третий степень ( старший школа , как правило , с профильный обучение ) -- по два гектодар Кроме то , ребенок мочь до пять год получать дошкольный образование дом , а по достижение этот возраст дошкольный образование быть обеспечивать государствотец парламент также устанавливать , что общеобразовательной учебный учреждение мочь входить в состав образовательный округ , союз и другой объединение соответствующий направленность . как писать иа " новый регион " , отказ от введять несколько год назад 12 - летка в министерство образование объяснять так : " в сельский **школа** , как правило , не желать идти в 12 - й класса " .

Lenta/texts_tagged/20100408gazprom.txt
NOT FOUND

Lenta/texts_tagged/20100701mir.txt
Глубок

Lenta/texts_tagged/20160602crimeamillon.txt
Фнс по итог декларационный кампания за 2015 год насчитавать в крым около тысяча **миллионер** и один __миллиардер__ , сообщать риа новость .

Lenta/texts_tagged/20160602crimeamillon.txt
866 гражданин декларировать доход от миллион до 10 миллион рубль , от 10 до 100 миллион рубль зарабатывать 71 человек , доход от 100 миллион до 500 миллион рубль располагавать восемь __житель__ республика . по один **человек** декларировать доход в размер от 500 миллион до миллиард рубль и свыше миллиард рубль .

Lenta/texts_tagged/20160602crimeamillon.txt
среди они почти 22 тысяча индивидуальный предприниматель , 188 нотариус , 416 адвокат , 34 глава крестьянско - фермерский хозяйство и более 11 тысяча физический лиц . Материала по теме08 : 00 20 март 2015Отнимать и поделить власть вновь задумываться о повышение налоговый нагрузка на __гражданин__ в этот раз в крым отчитываться вдвое много **человек** , чем в прошлогоднюя декларационный кампания .

Lenta/text

Lenta/texts_tagged/20151207lightsaber.txt
NOT FOUND

Lenta/texts_tagged/20151207lightsaber.txt
NOT FOUND

Lenta/texts_tagged/20150703gazprom.txt
NOT FOUND

Lenta/texts_tagged/20150703gazprom.txt
NOT FOUND

Lenta/texts_tagged/20150703gazprom.txt
NOT FOUND

Lenta/texts_tagged/20160405swiss_hands.txt
NOT FOUND

Lenta/texts_tagged/20160405swiss_hands.txt
Кристиан Амслер , глава швейцарский конференция министр образование разный кантон , сказать , что школа пытаться решать проблема самый простой способ , но все же допускать ошибка . " в наш культура и в наш способ общение рукопожатие -- это нормальный , оно выражать уважение другый человек , и ребенок должен это усваивать " , -- сказать мэр Тервиль Рето вульф . Материала по теме11 : 04 8 январь 2016Преступление новый масштабава европа мигрант начинать " охота на женщина " **мнение** мусульманский организация по этот повод разделаться -- если швейцарский федерация исламский организация отмечать , что в коран нет запрет на рукопожатие между м

Lenta/texts_tagged/20151005vacheroncreative.txt
NOT FOUND

Lenta/texts_tagged/20130708case.txt
NOT FOUND

Lenta/texts_tagged/20130307vladivostok.txt
__прокуратура__ начинать проверка по факт обрушение . в **правоохранительный орган** заявлять , что еще в минувший год районный суд Владивосток запрещать строительство данный здание , а администрация город подавать иск с требование признавать возведение дома самовольный застройка . между то , застройщик , по сообщение местный житель , размещать в интернет предложение о покупка жилплощадь в дом .

Lenta/texts_tagged/20100903gazprom.txt
газета " ведомость " писать , что продажа газ приносить он в первый квартал лишь 64 процент выручка , хотя еще в первый квартал 2009 год на продажа газ приходиться 73 процент выручка концерна . несмотря на падение **доход** от продажа топливо в европа на 22 процент , концерн утраивать __прибыль__ - с 110 , 2 до 336 , 85 миллиард рубль .

Lenta/texts_tagged/20101106cuba.txt
весь **человек** погибли . как выясн

Lenta/texts_tagged/20160602sovfed.txt
NOT FOUND

Lenta/texts_tagged/20100908yazik.txt
трое депутат Верховный рада - александр Ефремов из партия регион , петр симоненко из компартия и сергей Гринивецкий из блок Литвин регистрировать в аппарат парламент законопроект " о язык в украина " , сообщать иа " украинский новость " . депутат предлагать гарантировать свободный развитие русский язык с учет то , что они пользуться большинство гражданин страна , и признавать украино - русский двуязычие важный достояние украинский народа . документ разрешавать использование русский язык наравне с украинской практически в весь сфера жизнь , а также предоставлявать расширять право язык другой национальный меньшинство , компактно проживать на территория украины . в частность , право выбор язык обучение для школьник делегируть родитель , для студент госвуз - сам учащиться , а в частный вуз язык обучение мочь выбирать собственник учебный заведение . судопроизводство предлагать осуществлять на украинский ли

Lenta/texts_tagged/20151003doctors.txt
NOT FOUND

Lenta/texts_tagged/20100602etoo.txt
Это ' о присоединяться к свой сборная на прошлый неделя после победа с миланский " Интер " в финал лига __чемпион__ над мюнхенский " Бавария " ( 2 : 0 ) . в матч португалия - Камерун в состав **победитель** отличаться рауль Мейрелеш ( дважды ) и Нани .

Lenta/texts_tagged/20120606archnadzor.txt
NOT FOUND

Lenta/texts_tagged/20110908kniga.txt
церемония награждение состояться в Музыкальный театр имя Станиславский и Немировича - Данченко вечер 7 сентябрь . в главный номинация - " **книга** год " - победа одержать __собрание сочинение__ андрей Платонов в 8 томы ( " время " ) .

Lenta/texts_tagged/20110908kniga.txt
в номинация " __учебник__ xxi век " побеждать **книга** " о редактирование и редактор " , составлять Аркадий Мильчин ( " новый литературный обозрение " ) .

Lenta/texts_tagged/20110908kniga.txt
лучший **книга** для ребенок жюри выбрать поэтический __сборник__ " Парикмахер трава " сергей Белорусе

Lenta/texts_tagged/20160104shanghai.txt
по правило , курс на биржа мочь колебаться в граница 2 процент от официальный в оба стороныаница ранее частный исследование показывать , что китайский __индекс__ промпроизводство падать в декабрь с 48 , 6 до 48 , 2 пункт ( **показатель** низкий 50 означать снижение активность в этот сфера ) .

Lenta/texts_tagged/20110707ifruc.txt
NOT FOUND

Lenta/texts_tagged/20111103ferry.txt
NOT FOUND

Lenta/texts_tagged/20130409gorshukov.txt
в отношение Иванин быть возбуждать уголовный дело по факт избиение два __командир__ отряд спецназаей 56 - летний генерал - лейтенант владимир Горшуков занимать должность **руководитель** управление по обеспечение деятельность подразделение специальный назначение и авиация мвд с 2011 год .

Lenta/texts_tagged/20100907miass.txt
о это 7 сентябрь сообщать агентство " интерфакс " . увольнять заместитель начальник управление __общественный порядок__ увд Миасса Рафис Ганеев и начальник городской милиция общественный **безопасност

Lenta/texts_tagged/20160901apartaments.txt
NOT FOUND

Lenta/texts_tagged/20160901apartaments.txt
NOT FOUND

Lenta/texts_tagged/20160901apartaments.txt
NOT FOUND

Lenta/texts_tagged/20160901apartaments.txt
NOT FOUND

Lenta/texts_tagged/20150707hughjackman.txt
__жена__ голливудский актер Хь Джекман Деборра - вать Фернесс признаваться , что запрещать **супруга** работать с Анджелина джоли .

Lenta/texts_tagged/20150904merkel_approval.txt
NOT FOUND

Lenta/texts_tagged/20150904merkel_approval.txt
NOT FOUND

Lenta/texts_tagged/20151202drugs.txt
соответствующий __документ__ от 30 ноябрь опубликовывать на сайт кабмин в среда , 2 декабрь . " принятый решение направлять на развитие отечественный производство лекарственный препарат " ,-- говорить в **текст** распоряжение . Материала по теме00 : 04 26 октябрь 2015 " мы мало знать о качество " импортозамещенный " лекарство " Онколог сергей Тюляндин о то , почему врач не доверять российский медикаментам00 : 07 19 ноябрь 2015 " мы ждать много разочар

Lenta/texts_tagged/20161209zasedaniesiriya.txt
NOT FOUND

Lenta/texts_tagged/20120308statue.txt
однако после то , как он переизбраться на второй срок ( по официальный данные -- с результат в 97 процент голос ) , быть объявлять , что в страна отныне наступать новый __исторический период__ -- **эпоха** могущество и счастье .

Lenta/texts_tagged/20100208charge.txt
это , к пример , жесткий срок оплата товар , **обязательство** раскрывать условие __договор__ и другой нормы . Антимонопольный служба предлагать вводить предельный размер штраф для торговый сеть в размер миллион рубль .

Lenta/texts_tagged/20141204kto.txt
NOT FOUND

Lenta/texts_tagged/20160105wowzedong.txt
NOT FOUND

Lenta/texts_tagged/20140301sena.txt
NOT FOUND

Lenta/texts_tagged/20151108ethanol.txt
в результат спирт выливаться в **река** __миссисипи__ .

Lenta/texts_tagged/20151108ethanol.txt
NOT FOUND

Lenta/texts_tagged/20151108ethanol.txt
NOT FOUND

Lenta/texts_tagged/20130408hmao.txt
NOT FOUND

Lenta/texts_tagged/20130408

Lenta/texts_tagged/20140606close.txt
NOT FOUND

Lenta/texts_tagged/20140606close.txt
NOT FOUND

Lenta/texts_tagged/20140606close.txt
NOT FOUND

Lenta/texts_tagged/20140606close.txt
NOT FOUND

Lenta/texts_tagged/20140606close.txt
глава __республика__ , выступать в конец июль , сообщать , что задерживать некий " предатель , который служить в спецслужба и который через представитель католической церковь быть связывать с **иностранный государство** " .

Lenta/texts_tagged/20140606close.txt
по слово президент , давать гражданин " давать информация " , кроме то , из - за он __деятельность__ " страдать **человек** , который работать за граница " .

Lenta/texts_tagged/20140202aes.txt
но , по слово замглавный инженер станция валерий шаманский , именно загрузка топливо являться психологический рубеж , после который можно сказать , что " жизнь реактор начинаться " . Белоярский Аэс находиться в **город** Заречный __свердловский область .__

Lenta/texts_tagged/20110209house.txt
NOT FOUND

Lenta/tex

Lenta/texts_tagged/20110407protectandserve.txt
NOT FOUND

Lenta/texts_tagged/20150408bondarchukkamaz.txt
NOT FOUND

Lenta/texts_tagged/20150408bondarchukkamaz.txt
NOT FOUND

Lenta/texts_tagged/20110301dio.txt
лидер Foo Fighters Дэйв Грол , вокалист Judas Priest Роб Хэлфорд и Элис Купер принимать участие в запись альбом в память о покойный __певец__ Роннь Джеймсе Дио , сообщать new Musical express . инициатор выпуск трибьть - диска выступивать вдова **музыкант** Венди Галаксиол ( Wendy Galaxiola ) .

Lenta/texts_tagged/20170203minajj.txt
NOT FOUND

Lenta/texts_tagged/20160909sweden_attack.txt
NOT FOUND




KeyboardInterrupt: 

In [42]:
get_train_test_hypernyms(train_paths, True)

0k: 0 0
1k: 1197 55
2k: 2387 119
3k: 3512 197
4k: 4703 255
5k: 5856 313
6k: 7033 384
7k: 8317 445
8k: 9446 495
9k: 10557 553
10k: 11685 609
11k: 12832 666
12k: 14129 725
13k: 15325 780
14k: 16586 843
15k: 17786 887
16k: 18919 952
17k: 20075 1019
18k: 21283 1088
19k: 22538 1153
20k: 23701 1214
21k: 24901 1265
22k: 26038 1342
23k: 27312 1401
24k: 28504 1463
25k: 29679 1523



(30288, 1555)

In [43]:
get_train_test_hypernyms(test_paths, True)

0k: 0 0
1k: 1136 61
2k: 2357 116
3k: 3510 155
4k: 4713 200
5k: 5938 250
6k: 7110 302
7k: 8341 366
8k: 9581 412
9k: 10742 466
10k: 11895 524



(13001, 572)

Как видим, довольно много вхождений есть, и это ещё при условии, что транзитивное замыкание пока что построено не было

### Автоматический поиск паттернов гиперонимии

В этом разделе построим паттерны, основанные на дереве разбора, предложенные в статье [Snow et al. 2004]

Будем строить дерево разбора, исходя из данных в tagged texts, затем брать пары слов, которые встречаются в предложении гипонимом и гиперонимом, искать кратчайший путь между ними в дереве (можно строить банальный BFS), а затем писать то, что находится на рёбрах этого пути в зависимости от направления прохода по ребру.

При этом вместо существительных, между которыми построено отношение, можно писать {}

**TODO:** Что делать с тем, что токены там не являются токенами в тезаурусе?

**TODO:** Добавить специальные линки и разветвления

Для начала научимся строить дерево разбора

In [67]:
def make_syntax_tree(token_descriptions):
    parents = {}
    children = defaultdict(list)
    root = None
    
    for (i, desc) in enumerate(token_descriptions):
        if desc[-3] == "root":
            root = i
        else:
            parent = int(desc[-4]) - 1
            parents[i] = parent
            children[i].append(parent)
            children[parent].append(i)
            
    return root, parents, children

Следующий шаг - это поиск кратчайшего пути от одного слова до другого. Реализуем всё же через BFS

In [84]:
def find_shortest_path(children, v_from, v_to):
    used = defaultdict(lambda: False)
    prev_in_shortest = {}
    
    q = Queue()
    q.put(v_from)
    
    while not q.empty():
        v = q.get()
        used[v] = True
        
        for u in children[v]:
            if not used[u]:
                q.put(u)
                prev_in_shortest[u] = v
    
    if not used[v_to]:
        return None
    
    path = [v_to]
    curr_vertex = v_to
    
    while curr_vertex != v_from:
        new_vertex = prev_in_shortest[curr_vertex]
        path.append(new_vertex)
        curr_vertex = new_vertex
        
    return path

Теперь, имея информацию о рёбрах и путь, надо научиться записывать эту информацию в виде паттерна. При этом надо не забыть учесть, что гипероним и гипоним надо заменить на какой-нибудь универсальный токен

In [53]:
def make_pattern_from_path(path, token_descriptions, parents):
    hyper_id = path[0]
    hypo_id = path[-1]
    
    pattern = ""
    
    for i in range(len(path) - 1):
        left_id = path[i]
        right_id = path[i + 1]
        
        left_token = token_descriptions[left_id][2]
        right_token = token_descriptions[right_id][2]
        
        if left_id in parents and parents[left_id] == right_id:
            rel = token_descriptions[left_id][-3]
        else:
            rel = token_descriptions[right_id][-3]
            
        left_pos = token_descriptions[left_id][3]
        right_pos = token_descriptions[right_id][3]
        
        if left_id in [hypo_id, hyper_id]:
            left_token = "{}"
        
        if right_id in [hypo_id, hyper_id]:
            right_token = "{}"
            
        new_part = "{}:{}:{}:{}:{}".format(left_token, left_pos, rel, right_pos, right_token)
        pattern += new_part
        pattern += ";"
    
    return pattern[:-1] # Removing last ;

Научимся читать из файла список предложений, где каждое предложение - список token_desctiptions, где каждый token_description - это тоже список из фиксированных в texts tagged полей

In [54]:
def parse_texts_tagged_file(filename):
    sentences = []
    
    with open(filename) as tagged_file:
        current_sentence_tokens = []
        need_append = False
        
        for line in tagged_file.readlines():
            if line.startswith("# sent_id"):
                need_append = True
            elif line.startswith("# text"):
                continue
            elif len(line) < 2:
                sentences.append(current_sentence_tokens)
                need_append = False
                current_sentence_tokens = []
            else:
                if need_append:
                    current_sentence_tokens.append(line.split('\t'))
                    
    return sentences

In [64]:
tokens_description = parse_texts_tagged_file("Lenta/texts_tagged/20100401coverage.txt")[4]

In [65]:
tokens_description

[['1', 'По', 'по', 'ADP', '_', '_', '2', 'case', '_', '_\n'],
 ['2',
  'словам',
  'слово',
  'NOUN',
  '_',
  'Animacy=Inan|Case=Dat|Gender=Neut|Number=Plur',
  '13',
  'parataxis',
  '_',
  '_\n'],
 ['3',
  'Медведева',
  'медведев',
  'PROPN',
  '_',
  'Animacy=Anim|Case=Gen|Gender=Masc|Number=Sing',
  '2',
  'nmod',
  '_',
  'SpaceAfter=No\n'],
 ['4', ',', ',', 'PUNCT', '_', '_', '3', 'punct', '_', '_\n'],
 ['5',
  'подавляющее',
  'подавляющий',
  'ADJ',
  '_',
  'Case=Nom|Degree=Pos|Gender=Neut|Number=Sing',
  '6',
  'amod',
  '_',
  '_\n'],
 ['6',
  'большинство',
  'большинство',
  'NOUN',
  '_',
  'Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing',
  '13',
  'nsubj',
  '_',
  '_\n'],
 ['7',
  'местных',
  'местный',
  'ADJ',
  '_',
  'Case=Gen|Degree=Pos|Number=Plur',
  '8',
  'amod',
  '_',
  '_\n'],
 ['8',
  'жителей',
  'житель',
  'NOUN',
  '_',
  'Animacy=Anim|Case=Gen|Gender=Masc|Number=Plur',
  '6',
  'nmod',
  '_',
  '_\n'],
 ['9', '-', '-', 'PUNCT', '_', '_', '8', 'punct

In [68]:
root, parents, children = make_syntax_tree(tokens_description)

In [69]:
root

12

In [70]:
parents

{0: 1,
 1: 12,
 2: 1,
 3: 2,
 4: 5,
 5: 12,
 6: 7,
 7: 5,
 8: 7,
 9: 12,
 10: 11,
 11: 9,
 13: 12}

In [71]:
children

defaultdict(list,
            {0: [1],
             1: [0, 12, 2],
             12: [1, 5, 9, 13],
             2: [1, 3],
             3: [2],
             4: [5],
             5: [4, 12, 7],
             6: [7],
             7: [6, 5, 8],
             8: [7],
             9: [12, 11],
             10: [11],
             11: [10, 9],
             13: [12]})

In [72]:
path = find_shortest_path(children, 12, 7)

In [73]:
path

[7, 5, 12]

In [74]:
make_pattern_from_path(path, tokens_description, parents)

'{}:NOUN:nmod:NOUN:большинство;большинство:NOUN:nsubj:NOUN:{}'

В этом предложении паттерн выделился верно. Запустим поиск на всех предложениях, которые есть. Пока без особых хитростей.

In [99]:
def find_hypernymy_patterns(filenames):
    patterns_dict = Counter()
    
    for filename in tqdm(filenames):
        sentences_full_info = parse_texts_tagged_file(filename)
        for (num, tokens_description) in enumerate(sentences_full_info):
            tokens = [desc[2] for desc in tokens_description]

            hyper_ind = None
            hypo_ind = None

            n_train = n_test = 0
            marked_sentence = "NOT FOUND"

            for i, hypo_cand in enumerate(tokens):
                for j, hyper_cand in enumerate(tokens):
                    if hypo_cand in hyponyms[hyper_cand]:
                        if len(hypo_cand) > 1 and len(hyper_cand) > 1:
                            if hyper_cand in train_hypernyms:
                                n_train += 1
                            else:
                                n_test += 1
                            hyper_ind = j
                            hypo_ind = i

            if hyper_ind is not None and hyper_ind != hypo_ind:
                root, parents, children = make_syntax_tree(tokens_description)
                path = find_shortest_path(children, hyper_ind, hypo_ind)
                
                if path is None:
                    continue
                
                pattern = make_pattern_from_path(path, tokens_description, parents)
                patterns_dict[pattern] += 1
                
    return patterns_dict

In [100]:
cntr = find_hypernymy_patterns(train_paths)




In [105]:
cntr.most_common(6)

[('{}:NOUN:nmod:NOUN:{}', 281),
 ('{}:NOUN:conj:NOUN:{}', 276),
 ('{}:NOUN:nsubj:VERB:отставать;отставать:VERB:nsubj:NOUN:{}', 83),
 ('{}:PROPN:appos:NOUN:{}', 46),
 ('{}:ADJ:amod:NOUN:{}', 35),
 ('{}:NOUN:appos:NOUN:{}', 35)]