In [1]:
def ReadPages(pages):
    with open('data/pages.txt') as f:
        for data in f.read().splitlines():
            page = data.split('\t')
            # page[0]: id, page[1]: title
            pages[page[0]] = {'title': page[1], 'score': 100}


def ReadLinks(links):
    with open('data/links.txt') as f:
        for data in f.read().splitlines():
            link = data.split('\t')
            # link[0]: id (from), links[1]: id (to)
            if link[0] in links:
                links[link[0]].add(link[1])
            else:
                links[link[0]] = {link[1]}


def AddScore(pages, links, score_list):
    new_score_list = {}
    for id in pages:
        if id in links:
            add_score = score_list[id] / len(links[id])
            for each_id in links[id]:
                if each_id in new_score_list:
                    new_score_list[each_id] += add_score
                else:
                    new_score_list[each_id] = add_score
    # No Link Pages
    for id in pages:
        if id not in new_score_list:
            new_score_list[id] = 0
    return new_score_list


def InitScoreList(score_list, pages, init_score):
    for id in pages:
        score_list[id] = init_score


def PageRank(pages, links, times, init_score):
    # Initialize
    score_list = {}
    InitScoreList(score_list, pages, init_score)

    # Calculation
    for count in range(times):
        score_list = AddScore(pages, links, score_list)
    return score_list


def PrintPageRank(result, pages, output_count):
    result_sorted = sorted(result.items(), key=lambda x: x[1], reverse=True)
    if output_count == 'ALL':
        output_count = len(result_sorted)
    else:
        output_count = int(output_count)
        print("\nRanking, ID, Title, Score")
        count = 1
        for id, score in result_sorted:
            print('{0}, {1}, {2}, {3:.3f}, '.format(
                count, id, pages[id]['title'], score))
            if count == output_count:
                break
            count += 1


if __name__ == '__main__':
    pages = {}
    links = {}
    ReadPages(pages)
    ReadLinks(links)

In [2]:
# Times 1
result = PageRank(pages, links, 1, 100)
PrintPageRank(result, pages, 20)


Ranking, ID, Title, Score
1, 927119, 日本, 751625.392, 
2, 851077, アメリカ合衆国, 370940.555, 
3, 2245, 英語, 305012.100, 
4, 1038457, 地理座標系, 261578.945, 
5, 409713, 東京都, 232939.048, 
6, 1307, 俳優, 135950.765, 
7, 851107, イギリス, 134006.473, 
8, 215164, インターネット・ムービー・データベース, 128965.855, 
9, 6138, レコードレーベル, 117482.136, 
10, 851093, フランス, 114324.088, 
11, 718884, 学校, 112745.369, 
12, 3525, ポピュラー音楽のジャンル一覧, 110004.684, 
13, 16203, 企業, 108650.290, 
14, 5007, 会社, 102055.762, 
15, 53269, 公立学校, 99358.288, 
16, 851096, ドイツ, 99351.137, 
17, 2882, 道路, 96849.430, 
18, 197, 北海道, 95043.516, 
19, 123166, 男女共学, 94168.823, 
20, 215511, 大阪府, 93919.281, 


In [3]:
# Times 2
result = PageRank(pages, links, 2, 100)
PrintPageRank(result, pages, 20)


Ranking, ID, Title, Score
1, 927119, 日本, 527780.690, 
2, 2245, 英語, 419194.991, 
3, 851077, アメリカ合衆国, 378940.508, 
4, 409713, 東京都, 198602.966, 
5, 1038457, 地理座標系, 190271.819, 
6, 851107, イギリス, 167406.757, 
7, 851093, フランス, 138027.528, 
8, 2882, 道路, 128992.477, 
9, 851096, ドイツ, 124095.874, 
10, 13119, 都道府県道, 121322.753, 
11, 25872, Portable_Document_Format, 106119.542, 
12, 1236579, 第二次世界大戦, 105607.775, 
13, 197, 北海道, 98534.479, 
14, 5007, 会社, 95867.249, 
15, 1244, 中華人民共和国, 90101.021, 
16, 2244, イタリア, 89382.857, 
17, 718884, 学校, 86327.630, 
18, 16203, 企業, 83810.885, 
19, 2156, 業種, 82909.947, 
20, 53269, 公立学校, 82584.728, 


In [4]:
# Times 5
result = PageRank(pages, links, 5, 100)
PrintPageRank(result, pages, 20)


Ranking, ID, Title, Score
1, 927119, 日本, 439021.978, 
2, 2245, 英語, 404326.541, 
3, 851077, アメリカ合衆国, 280440.349, 
4, 851107, イギリス, 150681.841, 
5, 409713, 東京都, 146577.902, 
6, 851093, フランス, 124098.357, 
7, 1038457, 地理座標系, 112022.532, 
8, 3385, ウィクショナリー, 108505.645, 
9, 851096, ドイツ, 107737.520, 
10, 25872, Portable_Document_Format, 93180.907, 
11, 1236579, 第二次世界大戦, 91298.958, 
12, 1244, 中華人民共和国, 87206.163, 
13, 2, 日本語, 79667.158, 
14, 8, ヨーロッパ, 77212.490, 
15, 2244, イタリア, 76390.871, 
16, 1786, 江戸時代, 73570.035, 
17, 2579, ドイツ語, 71881.485, 
18, 197, 北海道, 70486.526, 
19, 37, フランス語, 70105.685, 
20, 215457, 大韓民国, 68417.634, 


In [5]:
# Times 10
result = PageRank(pages, links, 10, 100)
PrintPageRank(result, pages, 20)


Ranking, ID, Title, Score
1, 2245, 英語, 442325.629, 
2, 927119, 日本, 404780.026, 
3, 851077, アメリカ合衆国, 265848.361, 
4, 851107, イギリス, 150339.639, 
5, 409713, 東京都, 133461.766, 
6, 851093, フランス, 124972.178, 
7, 3385, ウィクショナリー, 122947.243, 
8, 851096, ドイツ, 108321.500, 
9, 1038457, 地理座標系, 100691.185, 
10, 25872, Portable_Document_Format, 91019.035, 
11, 1236579, 第二次世界大戦, 89399.185, 
12, 1244, 中華人民共和国, 88669.392, 
13, 2, 日本語, 85983.624, 
14, 2579, ドイツ語, 80707.987, 
15, 8, ヨーロッパ, 80341.144, 
16, 4353, ラテン語, 76697.901, 
17, 37, フランス語, 75085.933, 
18, 1786, 江戸時代, 74047.178, 
19, 2244, イタリア, 73756.609, 
20, 215457, 大韓民国, 64729.509, 


In [6]:
# Times 20
result = PageRank(pages, links, 20, 100)
PrintPageRank(result, pages, 20)


Ranking, ID, Title, Score
1, 2245, 英語, 467098.453, 
2, 927119, 日本, 381932.575, 
3, 851077, アメリカ合衆国, 258178.139, 
4, 851107, イギリス, 150336.322, 
5, 3385, ウィクショナリー, 129600.423, 
6, 851093, フランス, 125509.030, 
7, 409713, 東京都, 123569.226, 
8, 851096, ドイツ, 109510.288, 
9, 1038457, 地理座標系, 94968.366, 
10, 2, 日本語, 90667.913, 
11, 1244, 中華人民共和国, 90119.644, 
12, 25872, Portable_Document_Format, 89139.248, 
13, 1236579, 第二次世界大戦, 88780.696, 
14, 2579, ドイツ語, 86345.726, 
15, 4353, ラテン語, 83448.624, 
16, 8, ヨーロッパ, 81530.821, 
17, 37, フランス語, 78182.919, 
18, 1786, 江戸時代, 74338.707, 
19, 2244, イタリア, 72167.495, 
20, 2781, ISBN, 69374.552, 
