In [1]:
from indexer import index
from pagerank_mapreduce import pagerank_mapreduce
from pagerank_pregel import pagerank_pregel
from search import search_daat, search_taat

In [2]:
def print_ranks(ranks, label, docs):
    print(f"\n=== PageRank ({label}) ===")
    for doc_id, score in sorted(ranks.items(), key=lambda x: x[1], reverse=True):
        info = docs.get(doc_id, {})
        print(f"{score:.4f}  [{doc_id}] {info.get('title', '')} -> {info.get('url', '')}")

In [3]:
index()

#PageRank через MapReduce
mr_ranks = pagerank_mapreduce()

#PageRank через Pregel
pr_ranks = pagerank_pregel()

from search import load_index
_, _, _, docs = load_index()

print_ranks(mr_ranks, "MapReduce", docs)
print_ranks(pr_ranks, "Pregel", docs)

[crawl] Fetch https://ru.wikipedia.org/wiki/Очень_странные_дела
[crawl] Fetch https://ru.wikipedia.org/wiki/Netflix
[crawl] Fetch https://ru.wikipedia.org/wiki/Братья_Даффер
[crawl] Fetch https://ru.wikipedia.org/wiki/Список_персонажей_телесериала_«Очень_странные_дела»
[crawl] Fetch https://ru.wikipedia.org/wiki/Проект_Монток
[index] Indexed 5 documents

=== PageRank (MapReduce) ===
0.6435  [2] Netflix -> https://ru.wikipedia.org/wiki/Netflix
0.2000  [5] Проект Монток -> https://ru.wikipedia.org/wiki/Проект_Монток
0.0522  [3] Братья Даффер -> https://ru.wikipedia.org/wiki/Братья_Даффер
0.0522  [1] Очень странные дела -> https://ru.wikipedia.org/wiki/Очень_странные_дела
0.0522  [4] Список персонажей телесериала «Очень странные дела» -> https://ru.wikipedia.org/wiki/Список_персонажей_телесериала_«Очень_странные_дела»

=== PageRank (Pregel) ===
0.6435  [2] Netflix -> https://ru.wikipedia.org/wiki/Netflix
0.2000  [5] Проект Монток -> https://ru.wikipedia.org/wiki/Проект_Монток
0.0522  [3] 

In [None]:
# 4. Полнотекстовый поиск
while True:
    q = input("\nВведите запрос (пусто для выхода): ").strip()
    if not q:
        break

    taat_res, docs = search_taat(q)
    daat_res, _ = search_daat(q)

    print("\n-- TAAT --")
    for doc_id, score in taat_res:
        info = docs[doc_id]
        print(f"{score:.4f}  {info['title']} -> {info['url']}")

    print("\n-- DAAT --")
    for doc_id, score in daat_res:
        info = docs[doc_id]
        print(f"{score:.4f}  {info['title']} -> {info['url']}")


Введите запрос (пусто для выхода):  сюжет



-- TAAT --
0.0007  Очень странные дела -> https://ru.wikipedia.org/wiki/Очень_странные_дела

-- DAAT --
0.0007  Очень странные дела -> https://ru.wikipedia.org/wiki/Очень_странные_дела



Введите запрос (пусто для выхода):  хоппер



-- TAAT --
0.0029  Список персонажей телесериала «Очень странные дела» -> https://ru.wikipedia.org/wiki/Список_персонажей_телесериала_«Очень_странные_дела»
0.0008  Очень странные дела -> https://ru.wikipedia.org/wiki/Очень_странные_дела

-- DAAT --
0.0029  Список персонажей телесериала «Очень странные дела» -> https://ru.wikipedia.org/wiki/Список_персонажей_телесериала_«Очень_странные_дела»
0.0008  Очень странные дела -> https://ru.wikipedia.org/wiki/Очень_странные_дела



Введите запрос (пусто для выхода):  теория заговора



-- TAAT --
0.0070  Проект Монток -> https://ru.wikipedia.org/wiki/Проект_Монток
0.0004  Список персонажей телесериала «Очень странные дела» -> https://ru.wikipedia.org/wiki/Список_персонажей_телесериала_«Очень_странные_дела»
0.0002  Очень странные дела -> https://ru.wikipedia.org/wiki/Очень_странные_дела

-- DAAT --
0.0070  Проект Монток -> https://ru.wikipedia.org/wiki/Проект_Монток
0.0004  Список персонажей телесериала «Очень странные дела» -> https://ru.wikipedia.org/wiki/Список_персонажей_телесериала_«Очень_странные_дела»
0.0002  Очень странные дела -> https://ru.wikipedia.org/wiki/Очень_странные_дела
