In [2]:
from indexer import index
from pagerank_mapreduce import pagerank_mapreduce
from pagerank_pregel import pagerank_pregel
from search import search_daat, search_taat

In [3]:
def print_ranks(ranks, label, docs):
    print(f"\n=== PageRank ({label}) ===")
    for doc_id, score in sorted(ranks.items(), key=lambda x: x[1], reverse=True):
        info = docs.get(doc_id, {})
        print(f"{score:.4f}  [{doc_id}] {info.get('title', '')} -> {info.get('url', '')}")

In [5]:
index()

#PageRank через MapReduce
mr_ranks = pagerank_mapreduce()

#PageRank через Pregel
pr_ranks = pagerank_pregel()

from search import load_index
_, _, _, docs = load_index()

print_ranks(mr_ranks, "MapReduce", docs)
print_ranks(pr_ranks, "Pregel", docs)

[crawl] Fetch https://ru.wikipedia.org/wiki/Агентство_«Локвуд_и_компания»
[crawl] Fetch https://ru.wikipedia.org/wiki/Страуд,_Джонатан
[crawl] Fetch https://ru.wikipedia.org/wiki/Категория:Приключенческие_телесериалы_Великобритании
[crawl] Fetch https://ru.wikipedia.org/wiki/Привидение
[crawl] Fetch https://ru.wikipedia.org/wiki/Сверхъестественное_(телесериал)
[index] Indexed 5 documents

=== PageRank (MapReduce) ===
0.2000  [1] Агентство «Локвуд и компания» -> https://ru.wikipedia.org/wiki/Агентство_«Локвуд_и_компания»
0.2000  [3] Категория:Приключенческие телесериалы Великобритании -> https://ru.wikipedia.org/wiki/Категория:Приключенческие_телесериалы_Великобритании
0.2000  [4] Привидение -> https://ru.wikipedia.org/wiki/Привидение
0.2000  [5] Сверхъестественное (телесериал) -> https://ru.wikipedia.org/wiki/Сверхъестественное_(телесериал)
0.2000  [2] Страуд, Джонатан -> https://ru.wikipedia.org/wiki/Страуд,_Джонатан

=== PageRank (Pregel) ===
0.2000  [1] Агентство «Локвуд и компания»

In [8]:
# 4. Полнотекстовый поиск
while True:
    q = input("\nВведите запрос (пусто для выхода): ").strip()
    if not q:
        break

    taat_res, docs = search_taat(q)
    daat_res, _ = search_daat(q)

    print(q)
    print("\n-- TAAT --")
    for doc_id, score in taat_res:
        info = docs[doc_id]
        print(f"{score:.4f}  {info['title']} -> {info['url']}")

    print("\n-- DAAT --")
    for doc_id, score in daat_res:
        info = docs[doc_id]
        print(f"{score:.4f}  {info['title']} -> {info['url']}")

Страуда

-- TAAT --
0.0098  Агентство «Локвуд и компания» -> https://ru.wikipedia.org/wiki/Агентство_«Локвуд_и_компания»

-- DAAT --
0.0098  Агентство «Локвуд и компания» -> https://ru.wikipedia.org/wiki/Агентство_«Локвуд_и_компания»
Страуд Страуда

-- TAAT --
0.0153  Страуд, Джонатан -> https://ru.wikipedia.org/wiki/Страуд,_Джонатан
0.0098  Агентство «Локвуд и компания» -> https://ru.wikipedia.org/wiki/Агентство_«Локвуд_и_компания»

-- DAAT --
0.0153  Страуд, Джонатан -> https://ru.wikipedia.org/wiki/Страуд,_Джонатан
0.0098  Агентство «Локвуд и компания» -> https://ru.wikipedia.org/wiki/Агентство_«Локвуд_и_компания»


KeyboardInterrupt: Interrupted by user