In [124]:
import requests
import pymorphy2
import numpy as np
import re
from bs4 import BeautifulSoup
from nltk.tokenize import sent_tokenize, word_tokenize
from collections import defaultdict
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

In [125]:
morph = pymorphy2.MorphAnalyzer()
def normalize_split_sentence(sentence):
    sentence_dict = defaultdict(int)
    for word in word_tokenize(re.sub(r'[^\w]|[0-9]+', ' ', sentence, flags=re.U), language='russian'):
        sentence_dict[morph.parse(word)[0].normal_form] += 1
    return sentence_dict

In [281]:
def extract_sentences(urls):
    if type(urls) != list:
        urls = [urls]
    sentences = []
    sentences_normal = []
    for url in urls:
        wiki = requests.get(url)
        soup = BeautifulSoup(wiki.text, 'html.parser')
        content = soup.find(id="mw-content-text")
        for p in content.findAll(['p', 'blockquote', 'ul'], recursive=False):
            for sentence in sent_tokenize(p.text, language='russian'):
                if len(sentence) > 4:
                    sentences.append(sentence)
                    sentences_normal.append(normalize_split_sentence(sentence))
    return np.array(sentences), sentences_normal

In [282]:
def vectorize(sentences_normal, with_idf=True):
    dict_to_vec = DictVectorizer()
    vec_to_weights = TfidfTransformer(use_idf=with_idf)
    sentences_weights = vec_to_weights.fit_transform(dict_to_vec.fit_transform(sentences_normal)).toarray()
    vectorizer = lambda x: vec_to_weights.transform(dict_to_vec.transform(x)).toarray()
    return sentences_weights, vectorizer

In [283]:
def sort_sentences_by_query(urls, query, with_idf=True):
    sentences, sentences_normal = extract_sentences(urls)
    sentences_weights, vectorizer = vectorize(sentences_normal, with_idf=with_idf)
    query_weights = vectorizer(normalize_split_sentence(query))
    cosine = np.sum(sentences_weights*query_weights, axis=1)
    return sentences[cosine.argsort()[::-1]], cosine[cosine.argsort()[::-1]]

In [284]:
def print_sorted(sentences, cosine):
    for i in xrange(len(sentences)):
        print u'{0:2d} [weight={1:7.5f}]: {2}'.format(i+1, cosine[i], sentences[i])

# --------------------------------------------------------------------------------------------

In [267]:
url = u'https://ru.wikipedia.org/wiki/FMK-3_(мина)'
query = u'Минирование берегов спасает популяцию пингвинов.'

## IDF <center><font size="5">Факт <b>"Минирование берегов спасает популяцию пингвинов"</b> содержится в 1-м предложении.</font></center>

In [268]:
sentences_sorted, cosine = sort_sentences_by_query(url, query)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.28399]: Эти огороженные колючей проволокой территории неожиданно способствовали увеличению популяции пингвинов, находившихся здесь на грани исчезновения[10].
 2 [weight=0.25425]: В. Минное оружие: вопросы минирования и разминирования.
 3 [weight=0.20588]: Вес пингвина оказался недостачным для срабатывания мин.
 4 [weight=0.00000]: Разработана в Аргентине.
 5 [weight=0.00000]: Производство велось государственной оборонной компанией DGFM (англ.)русск..


## NO IDF <center><font size="5">Факт <b>"Минирование берегов спасает популяцию пингвинов"</b> содержится в 1-м предложении.</font></center>

In [269]:
sentences_sorted, cosine = sort_sentences_by_query(url, query, False)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.29814]: Эти огороженные колючей проволокой территории неожиданно способствовали увеличению популяции пингвинов, находившихся здесь на грани исчезновения[10].
 2 [weight=0.21822]: Вес пингвина оказался недостачным для срабатывания мин.
 3 [weight=0.21822]: В. Минное оружие: вопросы минирования и разминирования.
 4 [weight=0.00000]: Разработана в Аргентине.
 5 [weight=0.00000]: Производство велось государственной оборонной компанией DGFM (англ.)русск..


# --------------------------------------------------------------------------------------------

In [270]:
url = u'https://ru.wikipedia.org/wiki/Футбол_в_Японии'
query = u'Для профессионального японского футболиста очень важна причёска.'

## IDF <center><font size="5">Факт <b>"Для профессионального японского футболиста очень важна причёска"</b> содержится во 2-м предложении.</font></center>

In [271]:
sentences_sorted, cosine = sort_sentences_by_query(url, query)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.32872]: В Японской профессиональной футбольной лиге зарегистрировано более 900 000 футболистов, а количество профессиональных футбольных клубов в стране превышает 40[2].
 2 [weight=0.24094]: Для привлечения фанатов используются разнообразные маркетинговые стратегии: изначально при выборе клубов-основателей перед созданием Джей-лиги выбор был сделан в пользу провинциальных команд, что увеличило популярность футбола в сельской местности; кроме того, особое внимание уделяется образу игроков для завлечения фанаток, в частности в модных журналах регулярно выходят обзоры причёсок и одежды футболистов[8].
 3 [weight=0.15454]: Зарплаты футболистов составляют около половины затрат[7].
 4 [weight=0.14671]: Японская профессиональная футбольная лига является одной из сильнейших в Азии, она дважды (в 2007 и 2008) выигрывала кубок АФК.
 5 [weight=0.11518]: На вершине структуры футбольных лиг находятся первый и второй дивизионы Японской профессиональной футбольной лиги (называемой также 

## NO IDF <center><font size="5">Факт <b>"Для профессионального японского футболиста очень важна причёска"</b> содержится во 2-м предложении.</font></center>

In [272]:
sentences_sorted, cosine = sort_sentences_by_query(url, query, False)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.38139]: В Японской профессиональной футбольной лиге зарегистрировано более 900 000 футболистов, а количество профессиональных футбольных клубов в стране превышает 40[2].
 2 [weight=0.21693]: Для привлечения фанатов используются разнообразные маркетинговые стратегии: изначально при выборе клубов-основателей перед созданием Джей-лиги выбор был сделан в пользу провинциальных команд, что увеличило популярность футбола в сельской местности; кроме того, особое внимание уделяется образу игроков для завлечения фанаток, в частности в модных журналах регулярно выходят обзоры причёсок и одежды футболистов[8].
 3 [weight=0.20520]: Японская профессиональная футбольная лига является одной из сильнейших в Азии, она дважды (в 2007 и 2008) выигрывала кубок АФК.
 4 [weight=0.18257]: Зарплаты футболистов составляют около половины затрат[7].
 5 [weight=0.15390]: На вершине структуры футбольных лиг находятся первый и второй дивизионы Японской профессиональной футбольной лиги (называемой также 

# --------------------------------------------------------------------------------------------

In [273]:
url = u'https://ru.wikipedia.org/wiki/Аннексия_Центральной_Америки_Мексикой'
query = u'Мексиканская империя терпеливо ждала, пока страны Центральной Америки согласятся быть аннексированными.'

## IDF <center><font size="5">Факт <b>"Мексиканская империя терпеливо ждала, пока страны Центральной Америки согласятся быть аннексированными"</b> содержится во 2-м предложении.</font></center>

In [274]:
sentences_sorted, cosine = sort_sentences_by_query(url, query)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.20006]: 1 июля 1823 года была принята Декларация о полной независимости Центральной Америки, вновь отделившая её от Мексики.
 2 [weight=0.19860]: 3 декабря 1821 года, Гаинса написал ответное письмо к Итурбиде, в котором указал, что для принятия решения ему необходимо выяснить мнение представителей всех административных единиц Центральной Америки, и попросил срок до 3 января 1822 года, а до этого времени мексиканские войска, уже подошедшие к границе[2], не должны были вторгаться в Центральную Америку.
 3 [weight=0.19116]: Центральная Америка была административно выделена в качестве генерал-капитанства Гватемалы внутри вицекоролевства Новой Испании (Мексики) в 1609 году.
 4 [weight=0.18352]: Однако 29 октября 1821 года Итурбиде — уже в качестве регента Мексиканской империи — отправил письмо генерал-капитану Временной консультативной хунты Центральной Америки Габино Гаинсе (исп.) с предложением о присоединении к Мексике[1] на основе «трёх гарантий», указанных в Кордовском дог

## NO IDF <center><font size="5">Факт <b>"Мексиканская империя терпеливо ждала, пока страны Центральной Америки согласятся быть аннексированными"</b> содержится во 2-м предложении.</font></center>

In [275]:
sentences_sorted, cosine = sort_sentences_by_query(url3, query, False)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.29277]: 1 июля 1823 года была принята Декларация о полной независимости Центральной Америки, вновь отделившая её от Мексики.
 2 [weight=0.29277]: 3 декабря 1821 года, Гаинса написал ответное письмо к Итурбиде, в котором указал, что для принятия решения ему необходимо выяснить мнение представителей всех административных единиц Центральной Америки, и попросил срок до 3 января 1822 года, а до этого времени мексиканские войска, уже подошедшие к границе[2], не должны были вторгаться в Центральную Америку.
 3 [weight=0.26013]: Центральная Америка была административно выделена в качестве генерал-капитанства Гватемалы внутри вицекоролевства Новой Испании (Мексики) в 1609 году.
 4 [weight=0.25198]: Аннексия Центральной Америки Мексикой произошла в первой половине 1822 года.
 5 [weight=0.24526]: Однако 29 октября 1821 года Итурбиде — уже в качестве регента Мексиканской империи — отправил письмо генерал-капитану Временной консультативной хунты Центральной Америки Габино Гаинсе (исп.)

# --------------------------------------------------------------------------------------------

In [276]:
url = u'https://ru.wikipedia.org/wiki/Дуж-Душевский,_Клавдий_Степанович'
query = u'Создатель бело-красно-белого флага (на илл.) сидел в немецких и советских лагерях.'

## IDF <center><font size="5">Факт <b>"Создатель бело-красно-белого флага (на илл.) сидел в немецких и советских лагерях"</b> содержится в 1, 2 и 5-м предложениях.</font></center>

In [277]:
sentences_sorted, cosine = sort_sentences_by_query(url, query)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.57685]: Считается автором[1][2] бело-красно-белого флага — официального флага Белорусской народной республики (1918—1919) и Республики Беларусь (1991—1995).
 2 [weight=0.10961]: После освобождения Литвы короткое время работал доцентом Каунасского университета, но в 1946 году вновь был арестован советскими властями.
 3 [weight=0.10869]: По другим данным — в Каунасе, где и похоронен на Пятрашюнском кладбище[3].
 4 [weight=0.09323]: В 2012 году на этом же доме была установлена новая доска, где говорится: «Рядом находился дом, в котором родился и жил общественно-политический и культурный деятель, архитектор Клавдий Дуж-Душевский»[6].
 5 [weight=0.09270]: После оккупации Литовской ССР немецкой армией отказался от сотрудничества с немцами, за что (а также за помощь евреям) в 1943 году попал в концлагерь[3].


## NO IDF <center><font size="5">Факт <b>"Создатель бело-красно-белого флага (на илл.) сидел в немецких и советских лагерях"</b> содержится в 1, 10 и 19-м предложениях.</font></center>

In [278]:
sentences_sorted, cosine = sort_sentences_by_query(url, query, False)
print_sorted(sentences_sorted[:20], cosine[:20])

 1 [weight=0.53936]: Считается автором[1][2] бело-красно-белого флага — официального флага Белорусской народной республики (1918—1919) и Республики Беларусь (1991—1995).
 2 [weight=0.27273]: По другим данным — в Каунасе, где и похоронен на Пятрашюнском кладбище[3].
 3 [weight=0.25482]: В 2012 году на этом же доме была установлена новая доска, где говорится: «Рядом находился дом, в котором родился и жил общественно-политический и культурный деятель, архитектор Клавдий Дуж-Душевский»[6].
 4 [weight=0.24175]: В апреле 1919 года переехал в Вильну и стал членом Белорусского национального комитета.
 5 [weight=0.23262]: В начале 1921 года был арестован польскими властями и после нескольких месяцев нахождения в тюрьме был освобождён; в этом же году вместе с семьей перебрался в Каунас.
 6 [weight=0.22792]: В качестве архитектора работал в Литве в 1930-х годах, прошёл обучение в архитектурном бюро Владимира Дубенецкого.
 7 [weight=0.21320]: В 2008 году в городе Глубокое К.
 8 [weight=0.20101]: В

# --------------------------------------------------------------------------------------------

In [285]:
url = u'https://ru.wikipedia.org/wiki/Коллекция_Таплинга'
query = u'Британский музей не надёжнее Эрмитажа.'

## IDF <center><font size="5">Факт <b>"Британский музей не надёжнее Эрмитажа"</b> явно не был найден.</font></center>

In [286]:
sentences_sorted, cosine = sort_sentences_by_query(url, query)
print_sorted(sentences_sorted[:10], cosine[:10])

 1 [weight=0.25469]: Колле́кция Та́плинга (англ. Tapling Collection) — филателистическая коллекция, которая была завещана известным коллекционером Томасом Таплингом (1855—1891) библиотеке Британского музея в Лондоне и передана туда на хранение и экспонирование в 1891 году[1].
 2 [weight=0.13366]: Свою коллекцию Таплинг передал в Британскую библиотеку, где она легла в основу формирования национальной филателистической коллекции Великобритании.
 3 [weight=0.11696]: «Перевёрнутый лебедь» — почтовая марка, отпечатанная в 1855 году в британской колонии Западная Австралия, одна из первых в мире марок-перевёрток.

 4 [weight=0.00000]: 
Philatelic Collections: The Tapling Collection

 5 [weight=0.00000]: [Коллекция почтовых и телеграфных марок и цельных вещей Таплинга.]
 6 [weight=0.00000]: — 53 p.
 7 [weight=0.00000]: — British Museum, 1964.
 8 [weight=0.00000]: The Tapling Collection of Postage Stamps and Telegraph Stamps and Postal Stationery.
 9 [weight=0.00000]: 
Day, Alan Edwin (1998), I

## NO IDF <center><font size="5">Факт <b>"Британский музей не надёжнее Эрмитажа"</b> явно не был найден.</font></center>

In [289]:
sentences_sorted, cosine = sort_sentences_by_query(url, query, False)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.24254]: Колле́кция Та́плинга (англ. Tapling Collection) — филателистическая коллекция, которая была завещана известным коллекционером Томасом Таплингом (1855—1891) библиотеке Британского музея в Лондоне и передана туда на хранение и экспонирование в 1891 году[1].
 2 [weight=0.15430]: Свою коллекцию Таплинг передал в Британскую библиотеку, где она легла в основу формирования национальной филателистической коллекции Великобритании.
 3 [weight=0.13131]: «Перевёрнутый лебедь» — почтовая марка, отпечатанная в 1855 году в британской колонии Западная Австралия, одна из первых в мире марок-перевёрток.

 4 [weight=0.00000]: 
Philatelic Collections: The Tapling Collection

 5 [weight=0.00000]: [Коллекция почтовых и телеграфных марок и цельных вещей Таплинга.]


# --------------------------------------------------------------------------------------------

In [290]:
url = u'https://ru.wikipedia.org/wiki/Фоли,_Фрэнсис'
query = u'Тихий и малоизвестный британский разведчик спас больше евреев, чем Оскар Шиндлер.'

## IDF <center><font size="5">Факт <b>"Тихий и малоизвестный британский разведчик спас больше евреев, чем Оскар Шиндлер"</b> содержится в 1-м предложении.</font></center>

In [291]:
sentences_sorted, cosine = sort_sentences_by_query(url, query)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.37509]: Фоли называли «британским Шиндлером» в связи с большим количеством спасённых евреев[14].
 2 [weight=0.15994]: В 2010 году британское правительство посмертно присвоило Фоли звание «Британского героя Холокоста» (англ.)[17].
 3 [weight=0.15333]: Фоли уехал из Германии через Нидерланды и вступил в британскую армию.
 4 [weight=0.14827]: Лишь почти через 40 лет история Фоли получила широкую известность благодаря журналисту The Daily Telegraph и бывшему военному разведчику Майклу Смиту, опубликовавшему в 1999 году книгу «Foley: The Spy who Saved 10 000 Jews»[2][13].
 5 [weight=0.14384]: В 1938—1939 годы Фоли выдал немецким евреям множество поддельных британских паспортов, что позволило им бежать в Великобританию.


## NO IDF <center><font size="5">Факт <b>"Тихий и малоизвестный британский разведчик спас больше евреев, чем Оскар Шиндлер"</b> содержится в 1-м предложении.</font></center>

In [292]:
sentences_sorted, cosine = sort_sentences_by_query(url, query, False)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.40452]: Фоли называли «британским Шиндлером» в связи с большим количеством спасённых евреев[14].
 2 [weight=0.26968]: Фоли уехал из Германии через Нидерланды и вступил в британскую армию.
 3 [weight=0.24807]: Фоли манипулировал британскими законами и служебными инструкциями для того, чтобы помочь отчаявшимся людям[3].
 4 [weight=0.23905]: В 2010 году британское правительство посмертно присвоило Фоли звание «Британского героя Холокоста» (англ.)[17].
 5 [weight=0.22361]: Не имея дипломатического иммунитета, Фоли с риском для собственной жизни посещал концлагеря и добивался освобождения евреев.


# --------------------------------------------------------------------------------------------

In [293]:
url = u'https://ru.wikipedia.org/wiki/Мэй_Сян'
query = u'Мишель Обама и Пэн Лиюань назвали сына знаменитой панды (на илл.) «драгоценным сокровищем».'

## IDF <center><font size="5">Факт <b>"Мишель Обама и Пэн Лиюань назвали сына знаменитой панды (на илл.) «драгоценным сокровищем»."</b> содержится в 1-4-м предложениях.</font></center>

In [294]:
sentences_sorted, cosine = sort_sentences_by_query(url, query)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.28930]: 25 сентября 2015 года малыша навестили первая леди США, Мишель Обама, и первая леди Китая Пэн Люиянь.
 2 [weight=0.28451]: Первые леди раскрыли свитки с именем медведя — Обама показала присутствующим написание имени на английском языке, а Пэн Лиюань — на китайском[6].
 3 [weight=0.26235]: Имя Бэй Бэй переводится как «драгоценное сокровище».
 4 [weight=0.20484]: Первые леди назвали панду «Бэй Бэй».
 5 [weight=0.13511]: Сайт стал довольно популярным и имеет свои страницы на Facebook, Twitter и Instagram.


## NO IDF <center><font size="5">Факт <b>"Мишель Обама и Пэн Лиюань назвали сына знаменитой панды (на илл.) «драгоценным сокровищем»"</b> содержится в 1, 2, 5, 6-м предложениях.</font></center>

In [295]:
sentences_sorted, cosine = sort_sentences_by_query(url, query, False)
print_sorted(sentences_sorted[:6], cosine[:6])

 1 [weight=0.32275]: Первые леди раскрыли свитки с именем медведя — Обама показала присутствующим написание имени на английском языке, а Пэн Лиюань — на китайском[6].
 2 [weight=0.29019]: 25 сентября 2015 года малыша навестили первая леди США, Мишель Обама, и первая леди Китая Пэн Люиянь.
 3 [weight=0.24495]: Сайт стал довольно популярным и имеет свои страницы на Facebook, Twitter и Instagram.
 4 [weight=0.22361]: Рождение новых панд очень значимо для мировой зоологии, так как популяция панд находится на грани вымирания.
 5 [weight=0.22361]: Первые леди назвали панду «Бэй Бэй».
 6 [weight=0.21082]: Имя Бэй Бэй переводится как «драгоценное сокровище».


# --------------------------------------------------------------------------------------------

In [296]:
url = u'https://ru.wikipedia.org/wiki/Гейро,_Режис'
query = u'Французский русист занялся русским благодаря дяде Вове.'

## IDF <center><font size="5">Факт <b>"Французский русист занялся русским благодаря дяде Вове"</b> содержится в 1-м предложении.</font></center>

In [297]:
sentences_sorted, cosine = sort_sentences_by_query(url, query)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.48650]: И я часто думаю, что благодаря дяде Вове я стал заниматься русским.
 2 [weight=0.30630]: И особенно помню одного человека, которого мы, дети, звали дядя Вова.
 3 [weight=0.12999]: Проследил влияние русского футуризма на французский авангард, в частности — влияние Ильи Зданевича и будетлян на леттризм (в первую очередь, на творчество Исидора Изу, использовавшего некоторые приёмы русских футуристов)[2].
 4 [weight=0.12428]: Режи́с Гейро́ (фр. Régis Gayraud, р. 1959, Париж) — французский славист, переводчик.
 5 [weight=0.12309]: О том, как французский интеллектуал стал русским литератором, и о многом другом в беседе Сергея Бирюкова с Режисом Гейро // Дети Ра.


## NO IDF <center><font size="5">Факт <b>"Французский русист занялся русским благодаря дяде Вове"</b> содержится в 1-м предложении.</font></center>

In [298]:
sentences_sorted, cosine = sort_sentences_by_query(url, query, False)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.47809]: И я часто думаю, что благодаря дяде Вове я стал заниматься русским.
 2 [weight=0.26968]: И особенно помню одного человека, которого мы, дети, звали дядя Вова.
 3 [weight=0.22361]: — ISBN 5-7859-0074-2
Гейро Р. Группировки и журналы русского авангарда в Париже (1920—1940) // Русский Париж.
 4 [weight=0.22361]: Русский музей и др.
 5 [weight=0.22361]: М.: Языки русской культуры, 2000.


# --------------------------------------------------------------------------------------------

In [305]:
url = u'https://ru.wikipedia.org/wiki/Реттигова,_Магдалена_Добромила'
query = u'В XIX веке чешек обучала родному языку поваренная книга.'

## IDF <center><font size="5">Факт <b>"В XIX веке чешек обучала родному языку поваренная книга"</b> содержится в 3-4-м предложениях.</font></center>

In [306]:
sentences_sorted, cosine = sort_sentences_by_query(url, query)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.15977]: В 1804 познакомилась с работником адвокатской конторы Яном Алоизом Судиправом Реттигом, сыном немца и чешки[4], активистом чешского национального движения, будителем.
 2 [weight=0.15508]: Первые литературные опыты (на немецком языке) относятся к 1810 году[7].
 3 [weight=0.14186]: Подлинную славу М. Реттиговой принесла изданная в 1826 году книга поваренных рецептов «Домашняя кухарка, или Трактат о мясных и постных блюдах для дочерей чешских и моравских» («Domácí kuchařka aneb Pojednání o masitých a postních pokrmech pro dcerky české a moravské»), содержавшая около тысячи традиционных рецептов чешской кухни.
 4 [weight=0.13382]: Этой книгой писательница стремилась разбудить национальные чувства соотечественниц из семей среднего достатка, составлявших в то время большую часть национального движения, а также повысить уровень знания ими чешского языка, особенно тех из них, кто совсем не умел читать по-чешски[2].
 5 [weight=0.11845]: В 1843 издала книгу «Кофе и всё, что 

## NO IDF <center><font size="5">Факт <b>"В XIX веке чешек обучала родному языку поваренная книга"</b> содержится в 8-м предложении.</font></center>

In [307]:
sentences_sorted, cosine = sort_sentences_by_query(url, query, False)
print_sorted(sentences_sorted[:10], cosine[:10])

 1 [weight=0.29814]: В 2005 году вошла в список 100 величайших чехов[3].
 2 [weight=0.26312]: В Литомишле организовала школу домоводства и кулинарии для девушек, в которой также прививались навыки в науке и этикете.
 3 [weight=0.25820]: После смерти отца в 1792 году переехала с матерью в Прагу.
 4 [weight=0.23094]: В 1843 издала книгу «Кофе и всё, что есть сладкого» («Kafíčko a vše, co je sladkého»).
 5 [weight=0.22361]: В 1820 году в журнале «Доброслав» было опубликовано её стихотворение «Яблочки», подписанное Магдаленой Добромилой Реттиговой.
 6 [weight=0.22361]: Воспитывалась в немецкоговорящей среде.
 7 [weight=0.20520]: В 1804 познакомилась с работником адвокатской конторы Яном Алоизом Судиправом Реттигом, сыном немца и чешки[4], активистом чешского национального движения, будителем.
 8 [weight=0.20000]: Этой книгой писательница стремилась разбудить национальные чувства соотечественниц из семей среднего достатка, составлявших в то время большую часть национального движения, а такж

# --------------------------------------------------------------------------------------------

In [310]:
url = u'https://ru.wikipedia.org/wiki/Шеппард,_Кейт'
query = u'Новозеландская активистка-трезвенница попала на десятидолларовую банкноту.'

## IDF <center><font size="5">Факт <b>"Новозеландская активистка-трезвенница попала на десятидолларовую банкноту"</b> содержится в 1, 3-м предложениях.</font></center>

In [311]:
sentences_sorted, cosine = sort_sentences_by_query(url, query)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.42312]: Её изображение находится на 10-долларовой банкноте.
 2 [weight=0.31109]: Новозеландский биографический словарьruen.
 3 [weight=0.30586]: В Крайстчерче установлен памятник Кейт Шеппард, а её изображение появилось на 10-долларовой банкноте.
 4 [weight=0.23678]: Несколько новозеландских школ названы в её честь.
 5 [weight=0.12417]: Она похоронена на кладбище Аддингтон в семейном склепе.


## NO IDF <center><font size="5">Факт <b>"Новозеландская активистка-трезвенница попала на десятидолларовую банкноту"</b> содержится в 1, 3-м предложениях.</font></center>

In [312]:
sentences_sorted, cosine = sort_sentences_by_query(url, query, False)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.47140]: Её изображение находится на 10-долларовой банкноте.
 2 [weight=0.33333]: Новозеландский биографический словарьruen.
 3 [weight=0.32026]: В Крайстчерче установлен памятник Кейт Шеппард, а её изображение появилось на 10-долларовой банкноте.
 4 [weight=0.21822]: Несколько новозеландских школ названы в её честь.
 5 [weight=0.20412]: Она похоронена на кладбище Аддингтон в семейном склепе.


# --------------------------------------------------------------------------------------------

In [313]:
url = u'https://ru.wikipedia.org/wiki/Щукин,_Николай_Васильевич'
query = u'«Русский пряник» не продаётся, а покупает.'

## IDF <center><font size="5">Факт <b>"«Русский пряник» не продаётся, а покупает"</b> содержится в 2, 4-м предложениях, но очень неточно и непонятно.</font></center>

In [314]:
sentences_sorted, cosine = sort_sentences_by_query(url, query)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.29542]: 
Агунович К. Николай Щукин: «Галерея — это не хобби и не работа на уровне каких-то ощущений и предпочтений „нравится — не нравится“» // The Art Newspaper Russia : газета.
 2 [weight=0.28467]: В художественной среде также известен под прозвищем «Русский пряник»[источник?
 3 [weight=0.08730]: Постепенно галерея превратилась в международный проект: в 2006 году (по другим данным, в октябре 2013) был открыт филиал в Париже на Avenue Matignon, а в 2013 году филиал в Нью-Йорке (с весны 2014 занимает постоянное помещение в районе Челси на Манхэттене).
 4 [weight=0.08498]: 16 декабря 1953, Москва) — первый советский частный галерист[⇨], коллекционер картин художников русского авангарда и современного искусства[⇨].
 5 [weight=0.07296]: В 1990 году «Русская коллекция» организовала выставку в Лондоне, где были представлены работы Александра Семёнова, Владимира Сулягина и других советских авангардистов[1][2].


## NO IDF <center><font size="5">Факт <b>"«Русский пряник» не продаётся, а покупает"</b> содержится в 1, 3, 4-м предложениях, тоже не явно.</font></center>

In [315]:
sentences_sorted, cosine = sort_sentences_by_query(url, query, False)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.31623]: В художественной среде также известен под прозвищем «Русский пряник»[источник?
 2 [weight=0.25000]: 
Агунович К. Николай Щукин: «Галерея — это не хобби и не работа на уровне каких-то ощущений и предпочтений „нравится — не нравится“» // The Art Newspaper Russia : газета.
 3 [weight=0.13363]: 16 декабря 1953, Москва) — первый советский частный галерист[⇨], коллекционер картин художников русского авангарда и современного искусства[⇨].
 4 [weight=0.10660]: Через какое-то время Щукину удалось стать владельцем большой группы образцов русского авангарда разных лет, собранной художником и историком искусства Николаем Гордеевым.
 5 [weight=0.10660]: В 1990 году «Русская коллекция» организовала выставку в Лондоне, где были представлены работы Александра Семёнова, Владимира Сулягина и других советских авангардистов[1][2].


# --------------------------------------------------------------------------------------------

In [316]:
url = u'https://ru.wikipedia.org/wiki/Фонология_маори'
query = u'Чтобы из слова «страх» сделать «голубя», нужно протянуть гласные звуки.'

## IDF <center><font size="5">Факт <b>"Чтобы из слова «страх» сделать «голубя», нужно протянуть гласные звуки"</b> содержится в 1-м предложении.</font></center>

In [317]:
sentences_sorted, cosine = sort_sentences_by_query(url, query)
print_sorted(sentences_sorted[:5], cosine[:5])

 1 [weight=0.19973]: 
kēkē «подмышка» ~ keke «пирог»;
kākā «нестор-кака» ~ kaka «стебель»;
kōkō «туи» ~ koko «лопата»;
kīkī «говорить» ~ kiki «пинать, бить»;
kūkū «голубь» ~ kuku «страх».

 2 [weight=0.13922]: Заимствования из английского языка не подчиняются правилам, определяющим место ударения в исконных словах[20].
 3 [weight=0.13867]: Первый слог приставки whaka- «заставить произойти, вызвать» никогда не бывает ударным, однако если первый слог слова, к которому она прибавляется, состоит из гласного звука, то образуется долгий гласный или дифтонг, который перетягивает на себя ударение: whakapúta «заставить появиться; публиковать», но whakā́ko «учить»[20].
 4 [weight=0.12591]: Ввиду малого числа гласных звуков при их реализации встречаются значительные отличия.
 5 [weight=0.10673]: Фонетический инвентарь маори — один из беднейших в мире[1].


## NO IDF <center><font size="5">Факт <b>"Чтобы из слова «страх» сделать «голубя», нужно протянуть гласные звуки"</b> содержится в 7-м предложении.</font></center>

In [318]:
sentences_sorted, cosine = sort_sentences_by_query(url, query, False)
print_sorted(sentences_sorted[:10], cosine[:10])

 1 [weight=0.25959]: Первый слог приставки whaka- «заставить произойти, вызвать» никогда не бывает ударным, однако если первый слог слова, к которому она прибавляется, состоит из гласного звука, то образуется долгий гласный или дифтонг, который перетягивает на себя ударение: whakapúta «заставить появиться; публиковать», но whakā́ko «учить»[20].
 2 [weight=0.22792]: Ввиду малого числа гласных звуков при их реализации встречаются значительные отличия.
 3 [weight=0.20966]: Хотя в словах встречаются любые сочетания гласных, выделение дифтонгов вызывает у исследователей споры[16].
 4 [weight=0.20966]: Заимствования из английского языка не подчиняются правилам, определяющим место ударения в исконных словах[20].
 5 [weight=0.17010]: К примеру, при редупликации слов ako «учить» получается ákoako «советовать(ся)» с ударением на первом слоге, однако при редупликации слова oho «просыпаться» у слова ohooho «быть пробуждённым/пробуждённой» ударение часто падает на второй слог: /oa/ в первом примере

# --------------------------------------------------------------------------------------------

## Вывод:
### Из полученных результатов можно сделать вывод, что использование tf-idf выполняет свою задачу чаще лучше, чем использование просто частотности. Выражается это в том, что предложения, нужные для составления факта, находятся ближе к первой строчке. Главный минус частотных векторов без tf-idf - это так называемые стоп-слова (предлоги, напр.) - если их не отсекать, то они зачастую выводят в топ предложения, не содержащие какой-то полезной информации, но содержащие эти стоп-слова. Tf-idf старается минимизировать влияние таких слов.