# 教養としてのアルゴリズムとデータ構造

* 以下の各問について、問の次（もしくはその次）にあるコードセルに解答すること。
    * 特に指定がある場合を除いて複数のセルに分けて解答してはならない。
* 全ての解答を終えた後に必ずリスタートを実行し、上のセルから順番に実行して各解答が正しく動くことを確認すること。
 * ただし、ローカル環境で解答する場合、 `!wget...` の記載のあるセルは実行しなくてよい。 
* 提出にあたっては、各当該のセルに解答のコードを記入し、それを実行した結果を表示させた後に、保存したこのファイルをITC-LMS経由で提出すること。
* 解答のコードには適宜コメントを入れること。
* 受講者間の協力は原則許可しない。
* 解答がコピペと判断された場合、その解答（コピペ元も含めて）は0点となる可能性があるので注意すること。
* 特に指定がない限りモジュールを用いて解答してはならない。


<b><font color="red">
各問に解答するにあたり、以下の点に注意して下さい。

1. `bisect, collections (deque), heapq ` は使用可能です。
</font></b>

* ローカル環境で行う場合、課題によってはデータを別にダウンロードする必要があります。
* Colaboratoryを利用して課題を行う場合には、最初に以下のセルを実行して下さい。

In [None]:
!wget https://drive.google.com/uc?id=1f5tjyfqDgcoHYyqedfhRKrmZ-eOGivX7 -O utaadevalcpx.zip
!unzip utaadevalcpx.zip
!wget https://drive.google.com/uc?id=1IlUTw77i5kINfdrAc7JnbPVOyV3pid6l -O ex6_data.zip
!unzip ex6_data.zip
!wget https://drive.google.com/uc?id=1GH2AcXD0tfpdowUZDD4mEO5mid3v-Rwh -O ex5-4.mp4

以下のセルは各解答セルのプログラムの計算量を自動的に評価するのに利用します。
* ローカル環境で解答している人はファイルを保存してから以下のセルをそのまま実行して下さい（このファイルと同じフォルダ内に `utaadevalcpx.py` があることを確認して下さい）。
* Colaboratoryを利用している人は評価用セル内部の `str_code_X_Y  = '''...'''` の `...` に自分の解答をコピペして下さい（`X` と `Y` は問の通し番号です。ファイル冒頭のデータのダウンロードを事前に行う必要があります）。

計算量の自動評価は、常に正しい計算量を求められる訳ではありません（<font color="red">正しく求められなかった場合、実際の計算量よりも計算量が少なく求まります</font>）。例えば、以下の様な内容のコードは正しく評価できないことがあります。
* 組み込み関数などの名前を別名に変更している
* 条件式の使用（例えば、for文中のif文＋`break`など）
* while文を使用する

計算量の評価を行うセルでエラーが発生しても解答が間違っているという訳ではありません（模範解答とは違う解答である可能性が高いです）。

Pythonのバージョンが3.7以外だと、正しく評価されないことが多い様です（Colab.は3.7です）。

In [None]:
str_exfilename = "ex6.ipynb" # ファイル名を変更している場合、ここをその名前に変更する必要があります（ローカル環境のみ/Colab環境では使用しませんが実行はして下さい

# 第6回本課題

## 3. 修正サン・ラグ方式

<a href="https://ja.wikipedia.org/wiki/%E3%82%B5%E3%83%B3%EF%BC%9D%E3%83%A9%E3%82%B0%E6%96%B9%E5%BC%8F#%E4%BF%AE%E6%AD%A3%E3%82%B5%E3%83%B3%EF%BC%9D%E3%83%A9%E3%82%B0%E6%96%B9%E5%BC%8F">修正サン・ラグ方式</a> (<a href="https://en.wikipedia.org/wiki/Webster/Sainte-Lagu%C3%AB_method#Modified_Sainte-Lagu%C3%AB_method">Modified Sainte-Laguë method</a>) は比例代表制選挙において各政党に配分される議席を求める方法です。この方式では各政党が獲得した総得票数を、1.4, 3, 5, 7, ... で割っていき、その商の大きい順に各政党に議席を割り当てます。例えば、政党A,B,Cがそれぞれ1400票、1000票、700票を獲得した場合には、1.4, 3, 5, ... でこれらの値を割った場合、以下の表の様な結果になります。

　     |  政党A    | 政党B     | 政党C  
----------|-----------|-----------|-------
総得票数      | 1400      | 1000	    | 700
/1.4      | 1000      | 714.28...	    | 500
/3      | 466.66...      | 333.33...	    | 233.33...
/5      | 280      | 200	    | 140
/7      | 200      | 142	    | 100
/9      | 155.55...      | 111.11...	    | 77.77...

この結果に対して、議席を割り当てられる政党の順序は A(1000), B(714), C(500), A(466), B(333), A(280), C(233), .... となります（括弧内の数値は商）。ただし、全く同じ値（商）が複数存在する場合にはどの政党を選んでも良いと考えます。

そこで、各政党が取得した総得票数を格納したリスト `list_vote` と議席の数 `seatnum` が引数として与えられたとき、この修正サン・ラグ方式に従って各政党が獲得する議席数を格納したリスト `list_seat` を返す関数  `ModifiedSainteLague` を作成して下さい。以下の点に注意して解答して下さい。

1. 各政党は `0` 以上の整数で表すとします。
2. `list_vote` の `i` 番目の要素 `list_vote[i]` は、政党 `i` の総得票数を格納しています。
3. `list_seat` の `i` 番目の要素 `list_seat[i]` は、政党 `i` の獲得議席数を格納します。
4. ヒープを使って解答して下さい。

なお、各値の大きさは以下の通りとします。
* $n =$ 政党の数（`list_vote` の要素数）
* $k =$ `seatnum`

以下のセルの `...` のところを書き換えて解答して下さい。

In [None]:
### この行のコメントを改変してはいけません %6-3% ### 
#解答用セル
import ... # モジュールを使わない場合、この行は削除して良い
def ModifiedSainteLague(list_vote, k):
    ...
    return list_seat

上のセルで解答を作成した後、以下のセルを実行し、実行結果が全て `True` になることを確認して下さい。

In [None]:
list_vote_test1 = [1400, 1000, 700]; seatnum_test1 = 3
print(ModifiedSainteLague(list_vote_test1, seatnum_test1)==[1, 1, 1])
seatnum_test12 = 6
print(ModifiedSainteLague(list_vote_test1, seatnum_test12)==[3, 2, 1])
list_vote_test2 = [2000, 1400, 800, 300]; seatnum_test2 = 7
print(ModifiedSainteLague(list_vote_test2, seatnum_test2)==[4, 2, 1, 0])

以下のセルを実行すると解答セルのプログラムの計算量を自動的に評価します。

この課題の模範解答の時間計算量は<font color="white"> $O(k+n)$ と評価されますが、正しくは$O((k+n) \log n)$です。</font>（←白黒反転しています）  
想像（模範解答）よりも大きな計算量となっている場合、どこに問題があるのか考えてみて下さい。

In [None]:
import utaadevalcpx;dic_varinfo_6_3 = {"list_vote": ["list", set(), {"n"}],"seatnum": ["int", set(), {"k"}],}
str_code_6_3 = '''...'''
utaadevalcpx.evaluateCpx(str_exfilename, "6-3", dic_varinfo_6_3, str_code_6_3) # str_exfilenameはファイルの冒頭で定義されています

<b>問題の難易度評価：</b>
下のセルにこの問の難易度を5段階（1:簡単、2:やや簡単、3:普通、4:やや難しい、5:難しい）で評価して下さい。（次回以降の課題の難易度の調整に使います）
また、解答するのにかかった時間や感想などがあれば適宜記載して下さい。

In [None]:
#難易度（1:簡単、2:やや簡単、3:普通、4:やや難しい、5:難しい）

#感想


## 4. ジョブスケジューラ

ヒープは時間の経過と共に発生するデータ（ジョブ）を処理する場合に、有効なデータ構造であることが知られています。そこで時系列順に発生するジョブを実時間で処理することを意図した次の様な関数 `processJobs(maxtime, maxjobnum)` を設計することを考えます。

1. `processJobs` 内には整数 `0` で初期化されている `timecnt` という変数と、その `timecnt` の値を1ずつ増加するwhile文が存在します。この値によって擬似的に時間の経過を表すものとし、`timecnt` （の値）を**時刻**と呼びます。
2. そのwhile文の中では `yieldJobs(timecnt)` という関数が毎回呼び出されており、この関数は時刻 `timecnt` に発生する**ジョブの情報**を幾つか格納したリスト `list_newjob` を返り値として返します（すなわち、ジョブを発生させます）。 
3. `list_newjob` の各要素である、ジョブの情報は大きさ3のリストとなっており、**ジョブの名前**、**ジョブの終了時刻**（整数）、**ジョブの優先度**（実数）の3つの値が格納されています。
 * 例えば、`list_newjob` がリスト `["A", 6, 500]` を要素としてもつ場合、このリストが表すジョブの名前は `A` で、その終了時刻は `6`, その優先度は `500` であることを意味します。
 * 例えば、`yieldJobs` は `[["A", 6, 500], ["B", 9, 400]]` というような値を返します。
 * `list_newjob` に含まれるジョブの情報の数は0個以上です。0個の場合は空リストが返ります。
 * ジョブの名前はジョブ毎に異なります。
4.  `processJobs` は2つの引数 `maxtime` と `maxjobnum` を取ります。 `maxtime` は関数の終了時刻を表し、`maxtime` は同時に処理可能なジョブの最大数を表します。どちらも `0` 以上の整数です。 
 * 時刻が `maxtime+1` になると `processJobs` はwhile文の実行を止めます。
5. `timecnt` より大きいジョブの終了時刻を持つジョブを、時刻 `timecnt` の時点で**処理中のジョブ**と呼びます。
6. 時刻 `timecnt` に処理中のジョブの数が `maxjobnum` より多くなった場合、時刻 `timecnt` に処理中のジョブを優先度の大きい順に並べたとき、`maxjobnum+1` 位以上の順位を持つジョブは、<font color="red">時刻 `timecnt` 以降</font>、**破棄したジョブ**と呼びます。
 * すなわち、時刻 `timecnt` の時点で `processJobs` はそれらのジョブの処理を中止した（諦めた）とみなします。
 * 例えば、 `maxjobnum=2` で時刻 `3` にジョブの情報が `["A", 5, 10]`, `["B", 6, 20]`, `["C", 4, 30]`, `["D", 9, 15]` である様なジョブが処理中のジョブである場合、時刻 `3` 以降（時刻 `3` であれ、`5` であれ）、優先度の低い2つのジョブ  `["A", 5, 10]`, `["D", 9, 15]` は破棄したジョブと呼ばれます。
 * 優先度が同じであるジョブが複数存在する場合は、その同じ優先度をもつジョブのうち、いずれのジョブの順位を上にしても良いものとします。
7. `processJobs` は、時刻 `maxtime` に処理中であり、かつ破棄していないジョブの名前を集合 `set_active` に格納して返り値として返します。
 * ただし、結果を可視化する為に途中経過を格納したリスト `list_activelist` も返しています。 
8. セル内において指定された箇所以外に解答を記述してはいけません。
9. ヒープを使って解答して下さい。
10. ソートを使ってはいけません。（使っても効率的にはなりません）
11. （ヒント1）<font color="white">`set1` から要素 `val` を削除するときは `set1.discard(val)` とするとエラーが発生しません。</font>
12. （ヒント2）<font color="white">通常2つのヒープを用いて解答する問題です。具体的には、終了時刻を管理するヒープと優先度を管理するヒープの2つを使います。</font>

以下のセルの `...` のところを書き換えて解答して下さい。  
<font color="red">「ここより下の行に解答は記述する」と「ここより上の行に解答は記述する」の間（厳密は「ここ」より2つ下と2つ上の行）以外の行に解答を記述してはいけません。</font>

In [None]:
### この行のコメントを改変してはいけません %6-4% ### 
#解答用セル
########################################
#ここより下の行に解答は記述する
########################################

import ... # モジュールを使わない場合、この行は削除して良い


########################################
#ここより上の行に解答は記述する
########################################

def processJobs(maxtime, maxjobnum):

########################################
#ここより下の行に解答は記述する
########################################

    ...
        
########################################
#ここより上の行に解答は記述する
########################################

    #時刻
    timecnt = 0
    #set_activeの途中経過を保存するリスト
    list_activeset = []
    while timecnt <= maxtime:
        #新しいジョブが発生する
        list_newjob = yieldJobs(timecnt)

########################################
#ここより下の行に解答は記述する
########################################
        
        ... #ここは全てwhile文の中です
        
########################################
#ここより上の行に解答は記述する
########################################
        
        #時刻増加
        timecnt += 1
        #set_activeの途中経過を保存する
        list_activeset.append(set_active.copy())
    #結果を返す
    return set_active, list_activeset
#新しいジョブが発生する
def yieldJobs(timecnt):
    return []

上のセルで解答を作成した後、以下のセルを実行し、実行結果が全て `True` になることを確認して下さい。

In [None]:
#テスト1
def yieldJobs(timecnt):
    if timecnt == 0:
        return [["A", 6, 500], ["B", 9, 400]]
    if timecnt == 2:
        return [["C", 5, 600]]
    if timecnt == 4:
        return [["D", 5, 300], ["E", 8, 700]]
    return []
maxtime_test11 = 2; maxjobnum_test1 = 3
tup_test11 = processJobs(maxtime_test11, maxjobnum_test1)
print(tup_test11[0]=={'A', 'B', 'C'})
maxtime_test12 = 4
tup_test12 = processJobs(maxtime_test12, maxjobnum_test1)
print(tup_test12[0]=={'A', 'C', 'E'})
maxtime_test13 = 7
tup_test13 = processJobs(maxtime_test13, maxjobnum_test1)
print(tup_test13[0]=={'E'})
maxtime_test14 = 10
tup_test14 = processJobs(maxtime_test14, maxjobnum_test1)
print(tup_test14[0]==set())
#テスト2
def yieldJobs(timecnt):
    return [[timecnt, timecnt+5, timecnt+5]]
maxjobnum_test2 = 4; maxtime_test24 = 1000000
tup_test24 = processJobs(maxtime_test24, maxjobnum_test2)
print(tup_test24[0]=={1000000, 999997, 999998, 999999})
#テスト3
def yieldJobs(timecnt):
    if timecnt == 0:
        return [["A1", 2, 80], ["A2", 2, 90], ["A3", 2, 100]]
    if timecnt == 2:
        return []
    if timecnt == 4:
        return [["C1", 10, 1], ["C2", 10, 2], ["C3", 10, 3]]
    return []
maxjobnum_test4 = 2; maxtime_test41 = 0
tup_test41 = processJobs(maxtime_test41, maxjobnum_test4)
print(tup_test41[0]=={'A3', 'A2'})
maxtime_test43 = 5
tup_test43 = processJobs(maxtime_test43, maxjobnum_test4)
print(tup_test43[0]=={'C3', 'C2'})

以下のセルを実行すると解答セルのプログラムの計算量を自動的に評価します。

この課題の模範解答の時間計算量は<font color="white"> $O(kL)$ と評価されます。</font>（←白黒反転しています）  
想像（模範解答）よりも大きな計算量となっている場合、どこに問題があるのか考えてみて下さい。

In [None]:
import utaadevalcpx;dic_varinfo_6_4 = {"yieldJobs": ["list", set(), {"k"}], "maxtime": ["int", set(), {"L"}],}
str_code_6_4 = '''...'''
utaadevalcpx.evaluateCpx(str_exfilename, "6-4", dic_varinfo_6_4, str_code_6_4) # str_exfilenameはファイルの冒頭で定義されています

模範解答を用いた出題者の環境では以下のセルの実行に9から15ミリ秒程度かかりました。

In [None]:
%%timeit -r 10 -n 10
maxjobnum_test2 = 4;maxtime_test24 = 10000
processJobs(maxtime_test24, maxjobnum_test2)

実際のジョブスケジューラで用いるデータは、時刻と共に変動する値、例えば、株価であったり特定の道路の交通量であったり様々です。

そこで以下では英語版ウィキペディア（Wikipedia, https://en.wikipedia.org/ ）の人物（？）の記事をジョブとみなしたデータを用意しました。ジョブが発生するのはその人物の誕生年、ジョブの終了時刻をその人物の没年、ジョブの優先度をその人物の記事としての重要度とみなします。重要度はウィキペディア上のリンク関係から算出しています（このデータがいかにも唐突であるのは十分に有意なデータを用意できなかったためです。ごめんなさい）。

以下のセルを実行して `True` が表示されることを確認して下さい。

In [None]:
%matplotlib notebook
import json, networkx as nx, matplotlib.pyplot as plt; from matplotlib import animation
if 'dic_jobinfo_wikipedia' not in globals(): 
    #wikipediaによるジョブの情報の呼び出し
    with open("ex6_data_wikipedia_dic_jobinfo.json", "r", encoding="utf-8") as f:
        dic_jobinfo_wikipedia = json.load(f)
def yieldJobs(timecnt):
    key1 = str(timecnt)
    if key1 in dic_jobinfo_wikipedia:
        return dic_jobinfo_wikipedia[key1]
    return []
maxjobnum_wikipedia = 10
maxtime_wikipedia = 300
tup_wikipedia = processJobs(maxtime_wikipedia, maxjobnum_wikipedia)
print('Nero' in tup_wikipedia[1][50], 'Antoninus Pius' in tup_wikipedia[1][100], 'Nagarjuna' in tup_wikipedia[1][150], 'Cao Cao' in tup_wikipedia[1][200])

人物をグラフの点、人物（の記事）から人物（の記事）へのウィキペディア上のリンクを枝とみなして可視化します。この可視化はアニメーションによって実現されますが、環境によっては非常に重くなりますので注意して下さい。


Colaboratoryでは表示できませんので結果を部分的に動画化したファイルを用意しました。2つ下のセルを実行して下さい。

In [None]:
%matplotlib notebook
import json, networkx as nx, matplotlib.pyplot as plt; from matplotlib import animation
if 'list_IDToName_wikipedia' not in globals(): 
    #wikipediaのジョブを可視化する為の値の呼び出し
    with open("ex6_data_wikipedia_list_IDToName.json", "r", encoding="utf-8") as f:
        list_IDToName_wikipedia = json.load(f)
    with open("ex6_data_wikipedia_dic_NameToID.json", "r", encoding="utf-8") as f:
        dic_NameToID_wikipedia = json.load(f)
    with open("ex6_data_wikipedia_list_personlink.json", "r", encoding="utf-8") as f:
        list_personlink_wikipedia = json.load(f)
    with open("ex6_data_wikipedia_dic_priority.json", "r", encoding="utf-8") as f:
        dic_priority_wikipedia = json.load(f)
#可視化
def drawing(cnt, list_activeset):
    plt.cla()
    if cnt == len(list_activeset):
        #
        cnt = len(list_activeset)-1
    if cnt == 0:
        pcnt = 0
        nx_g_wikipedia.clear()
    else:
        pcnt = cnt-1
    set_plus = list_activeset[cnt] - list_activeset[pcnt]
    set_minus = list_activeset[pcnt] - list_activeset[cnt]
    #この時刻に新しく追加されるジョブ
    for name1 in set_plus:
        nx_g_wikipedia.add_node(name1)
        ID1 = dic_NameToID_wikipedia[name1]
        for ID2 in list_personlink_wikipedia[ID1]:
            name2 = list_IDToName_wikipedia[ID2]
            if name2 not in list_activeset[cnt]:
                continue
            nx_g_wikipedia.add_edge(name1, name2)
    #キャプション
    plt.title("Year:" + str(cnt) + " #activejobs:" + str(len(list_activeset[cnt])))
    #この時刻に処理中でなくなる、もしくは破棄されるジョブ
    for name1 in set_minus:
        nx_g_wikipedia.remove_node(name1)
    #頂点の大きさは優先度に比例する
    list_nodesize = []
    for name1 in nx_g_wikipedia.nodes():
        list_nodesize.append(dic_priority_wikipedia[name1]*5)
    #描画
    #pos1 = nx.spring_layout(nx_g1)
    pos1= nx.circular_layout(nx_g_wikipedia)
    nx.draw_networkx(nx_g_wikipedia, pos=pos1, node_size=list_nodesize, alpha=0.7)
    plt.axis('off')
#グラフ作成
nx_g_wikipedia = nx.DiGraph()
#ジョブスケジュール
maxjobnum_wikipedia = 10 #表示する点の数
maxtime_wikipedia = 300 #終了年 最大1900くらい
tup_wikipedia2 = processJobs(maxtime_wikipedia, maxjobnum_wikipedia)

In [None]:
#アニメーションの実行
fig_wikipedia = plt.figure(figsize=(8, 7)) #表示範囲の大きさ
interval_wikipedia=10 #アニメーションの速さ
anime = animation.FuncAnimation(fig_wikipedia, drawing, fargs=(tup_wikipedia2[1],), interval=interval_wikipedia, blit=True)

In [None]:
from IPython.display import HTML
from base64 import b64encode
mp4file = open('ex5-4.mp4', 'rb').read()
data_url = 'data:video/mp4;base64,' + b64encode(mp4file).decode()
HTML(f"""
<video width="80%" height="80%" controls>
      <source src="{data_url}" type="video/mp4">
</video>""")

<b>問題の難易度評価：</b>
下のセルにこの問の難易度を5段階（1:簡単、2:やや簡単、3:普通、4:やや難しい、5:難しい）で評価して下さい。（次回以降の課題の難易度の調整に使います）
また、解答するのにかかった時間や感想などがあれば適宜記載して下さい。

In [None]:
#難易度（1:簡単、2:やや簡単、3:普通、4:やや難しい、5:難しい）

#感想
