# 教養としてのアルゴリズムとデータ構造

* 以下の各問について、問の次（もしくはその次）にあるコードセルに解答すること。
    * 特に指定がある場合を除いて複数のセルに分けて解答してはならない。
* 全ての解答を終えた後に必ずリスタートを実行し、上のセルから順番に実行して各解答が正しく動くことを確認すること。
 * ただし、ローカル環境で解答する場合、 `!wget...` の記載のあるセルは実行しなくてよい。 
* 提出にあたっては、各当該のセルに解答のコードを記入し、それを実行した結果を表示させた後に、保存したこのファイルをITC-LMS経由で提出すること。
* 解答のコードには適宜コメントを入れること。
* 受講者間の協力は原則許可しない。
* 解答がコピペと判断された場合、その解答（コピペ元も含めて）は0点となる可能性があるので注意すること。
* 特に指定がない限りモジュールを用いて解答してはならない。


* ローカル環境で行う場合、課題によってはデータを別にダウンロードする必要があります。
* Colaboratoryを利用して課題を行う場合には、最初に以下のセルを実行して下さい。

In [None]:
!wget https://drive.google.com/uc?id=1QaiJnsUmlAwwZ-OVqBrK1SFPRtO5x9X7 -O ex2_data_focuslist.zip
!unzip ex2_data_focuslist.zip
!wget https://drive.google.com/uc?id=1NIrNRV85gk3p9Aw7lkR8lYHb7u1nsRgm -O ex2_data_twitter_dic_ScrNameToID.zip
!unzip ex2_data_twitter_dic_ScrNameToID.zip
!wget https://drive.google.com/uc?id=14OHAuURbUyjaZr8JWgJJwbIcrqK3PNec -O ex2_data_twitter_list_IDToScrName.zip
!unzip ex2_data_twitter_list_IDToScrName.zip
!wget https://drive.google.com/uc?id=1feag5hRazejzG4R8joZk7stCaTu1MttV -O ex2_data_twitter_dic_FollowingList.zip
!unzip ex2_data_twitter_dic_FollowingList.zip
!wget https://drive.google.com/uc?id=1f5tjyfqDgcoHYyqedfhRKrmZ-eOGivX7 -O utaadevalcpx.zip
!unzip utaadevalcpx.zip

<b><font color="red">
各問に解答するにあたり、以下の点に注意して下さい。

この課題では `bisect` を使うことが出来ます。
</font></b>

# 第2回本課題


In [None]:
str_exfilename = "ex2.ipynb" # ファイル名を変更している場合、ここをその名前に変更する必要があります（ローカル環境のみ/Colab環境では使用しません

各問の解答を作成する際、自分の解答がどれくらいの計算量になるのか考えてみて下さい。

# 4. 震源地データの取得

気象庁のサイト（ https://www.jma.go.jp/jma/menu/menureport.html ） から日本周辺で発生した2011年から2018年までの地震の震源地のデータを用意しました。このデータは震源地の位置を表す緯度と経度の値からなるリスト（位置データと呼びます）を格納した多重リストになっています。例えば、`[[41.2985, 142.8021], [35.4256, 139.922], [35.9556, 140.1558]]` の様な値です。

そこで、このリスト `list_focus` と実数で表される2つの地点を表す緯度と経度の値（`baselati1`, `baselongi1` と `baselati2`, `baselongi2`。ただし、`baselati1` $\leq$ `baselati2` かつ `baselongi1`$\leq$`baselongi2` が成立する） とが与えられたとき、`list_focus` に含まれる位置データの中から、 `baselati1` と `baselongi1`、 `baselati2` と `baselongi2` の2点から構成される四角形の領域内に含まれる位置データを全て格納したリスト `list_res` を返す関数 `getFocuses(dic_focus, latitude)` を作成して下さい。 

例えば、`baselati1 = 30`, `baselongi1 = 130`, `baselongi2 = 40`, `baselongi2 = 140`, `list_focus = [[20, 130], [35, 130], [40, 130], [35, 135], [30, 150], [50, 150], [20, 150]]` である場合、`[[35, 130], [40, 130], [35, 135]]` という結果を返します。

なお、$n =$ `list_focus` の大きさ (`len(list_focus)`) とします。

以下のセルの `...` のところを書き換えて解答して下さい。

In [None]:
### この行のコメントを改変してはいけません %2-4% ### 
#解答用セル
import ... # モジュールを使わない場合、この行は削除して良い
def getFocuses(list_focus, baselati1, baselongi1, baselati2, baselongi2):
    ...
    return list_res

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認して下さい。

In [None]:
list_focus_test1 = [[20, 130], [35, 130], [40, 130], [35, 135], [30, 150], [50, 150], [20, 150]]
baselati1_test1 = 30; baselongi1_test1 = 130; baselati2_test1 = 40; baselongi2_test1 = 140; 
list_res_test1 = getFocuses(list_focus_test1, baselati1_test1, baselongi1_test1, baselati2_test1, baselongi2_test1)
print(sorted(list_res_test1)==[[35, 130], [35, 135], [40, 130]])
list_res2_test1 = getFocuses(list_focus_test1, baselati2_test1, baselongi1_test1, baselati1_test1, baselongi2_test1)
print(list_res2_test1==[])

以下の実際の震源地データの場合も、実行結果が `True` になることを確認して下さい。

In [None]:
import json
if 'list_focus_test2' not in globals(): # 同じデータは1回だけ呼び出す
    f = open("ex2_data_focuslist.json", "r", encoding="utf-8")
    list_focus_test2 = json.load(f); f.close()
baselati1_test2 = 35; baselongi1_test2 = 135; baselati2_test2 = 35.1; baselongi2_test2 = 135.1; 
list_res_test2 = getFocuses(list_focus_test2, baselati1_test2, baselongi1_test2, baselati2_test2, baselongi2_test2)
print(len(list_res_test2)==63)
print(sorted(list_res_test2)[:5]==[[35.0055, 135.0586], [35.0143, 135.0693], [35.0208, 135.068], [35.0225, 135.0363], [35.0236, 135.0875]])
print(sorted(list_res_test2)[-3:]== [[35.0951, 135.0236], [35.0955, 135.076], [35.0983, 135.048]])

以下のセルを実行すると解答セルのプログラムの計算量を自動的に評価します。
* ローカル環境で解答している人はファイルを保存してから以下のセルをそのまま実行して下さい（このファイルと同じフォルダ内に `utaadevalcpx.py` があることを確認して下さい）。
* Colaboratoryを利用している人はセル内部の `str_code_2_4  = '''...'''` の `...` に自分の解答をコピペして下さい（ファイル冒頭のデータのダウンロードを事前に行う必要があります）。
`

ただし、常に正しい計算量を求められる訳ではありません（<font color="red">正しく求められなかった場合、実際の計算量よりも計算量が少なく求まります</font>）。例えば、以下の様な内容のコードは正しく評価できないことがあります。
* 組み込み関数などの名前を別名に変更している
* 条件式の使用（例えば、for文中のif文＋`break`など）
* while文を使用する

この課題の模範解答の時間計算量は<font color="white"> $O(n)$ </font>です。（←白黒反転しています）  
想像（模範解答）よりも大きな計算量となっている場合、どこに問題があるのか考えてみて下さい。

正しく計算量が評価できていないと思った場合、感想などで教えて下さい。

In [None]:
import utaadevalcpx;dic_varinfo_2_4 = {"list_focus": ["list", set(), {"n"}],}
str_code_2_4 = '''...'''
utaadevalcpx.evaluateCpx(str_exfilename, "2-4", dic_varinfo_2_4, str_code_2_4)# str_exfilenameはファイルの冒頭で定義されています

駒場を左下の位置、本郷を右上の位置とした範囲に含まれる震源地を調べてみましょう。

In [None]:
import csv
y1 = 35.65891640275403; x1 = 139.6759201429802 # 駒場
y2 =35.717436123899944; x2 = 139.7657119289086 # 本郷
list_res = getFocuses(list_focus_test2, y1, x1, y2, x2)
list_csv = []
for index1, (y1, x1) in enumerate(list_res):
    list_csv.append([index1, y1, x1])
with open('ex2_1.csv', 'w', encoding='utf-8', newline='') as f:
    csv_writer = csv.writer(f)
    csv_writer.writerows(list_csv)

上のセルを実行するとこの範囲の震源地を保存した ex2_1.csv というcsvファイルが作成されます。このファイルをGoogleマップにアップロードするとこの<a href="https://www.google.com/maps/d/u/0/edit?mid=1rFE370eYxiv3gxDgDBNqnDb4_nYDHPAv&usp=sharing">リンク先</a>の様になります。

…微妙に描画位置がずれていますね…。

<b>問題の難易度評価：</b>
下のセルにこの問の難易度を5段階（1:簡単、2:やや簡単、3:普通、4:やや難しい、5:難しい）で評価して下さい。（次回以降の課題の難易度の調整に使います）
また、解答するのにかかった時間や感想などがあれば適宜記載して下さい。

In [None]:
#難易度（1:簡単、2:やや簡単、3:普通、4:やや難しい、5:難しい）

#感想


## 5. Twitterの相互フォロー取得

Twitter（ https://twitter.com/ ）は著名なSNSの1つですが、アカウントは別のアカウントを「フォロー」することが出来ます。

そこで、Twitterのフォロー関係が格納されたリスト `list_following` と アカウントの総数 `accnum` が引数として与えられたとき、その与えられたフォロー関係の中から相互にフォローしているアカウント、すなわち、アカウント `acc1` がアカウント `acc2` をフォローし、`acc2` がアカウント `acc1` をフォローしている様な2つのアカウントから構成されるリスト `[acc1, acc2]` を格納したリスト（すなわち、多重リスト） `list_FF` を返す関数 `getFF()` を作成して下さい。

ただし、以下の点に注意して解答して下さい。

1. 全てのアカウントは整数で表されます。
2. リスト `list_following` は（多重）リストになっています。`list_following` の `acc1` 番目の要素 `list_following[acc1]` はリスト（フォローリストと呼びます）になっており、アカウント `acc1` はフォローリストを構成する要素であるアカウントをフォローしていることを表します。
3. `list_following[acc1]` の値はソートされていません。
4. `accnum` は `followinglink` に現れるアカウントの総数を表す整数です。（のべ数ではありません）
5. `acc1` と `acc2` がお互いをフォローをしている場合、`[acc1, acc2]` というペアを `list_FF` に格納します。ただし、`acc1 < acc2` が成立しているものとします。結果として、`[acc2, acc1]` は `list_FF` に<b>格納されません</b>。
<font color="white">6. 二分探索、もしくはハッシュ（集合、辞書）を使って探索するのが望ましいです。</font>



例えば、<b>二分探索を実行する毎に `sorted` や `sort` を使う様な手順になっていると、非常に時間がかかるので注意して下さい。</b>

なお、各値の大きさは以下の通りとします。
* $n =$ アカウント数 (`accnum`, `len(list_following)`) 
* $k =$ 最大フォロー数（list_followingの要素（リスト）の中で最も要素の多いリストの要素数） (`max([len(list_acc) for list_acc in list_following])`) 

以下のセルの `...` のところを書き換えて解答して下さい。

In [None]:
### この行のコメントを改変してはいけません %2-5% ### 
#解答用セル
import ... # モジュールを使わない場合、この行は削除して良い
def getFF(list_following, accnum):
    ...
    return list_FF

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認して下さい。

In [None]:
list_following_test = [[4, 1], [5, 3], [4, 1], [5], [7, 2, 1, 0], [3, 6], [0], [6, 1, 5]]
accnum = 8
list_FF_test = sorted(getFF(list_following_test, accnum))
print(list_FF_test == [[0, 4], [2, 4], [3, 5]])

 `ex2_data_twitter_FollowingList.json` には、実際のTwitterから取得したフォロー関係が、上記の問題文の形式に沿った辞書として保存されています。
ある程度大きなファイルである為、<b>上のセルのテストが全て上手く行った後に</b>以下のセルを実行し、実行結果が全て `True` になることを確認して下さい。

`getFF` の構成によっては、結果の表示に時間がかかることがあることに注意して下さい。また、「このテストが停止しない」という場合でも誤答になる訳ではありませんが、解答のコードに何らかの改善すべき点があるということは意識する様にして下さい。

In [None]:
import json
if 'dic_FollowingList' not in globals(): 
    f = open("ex2_data_twitter_dic_FollowingList.json", "r", encoding="utf-8")
    dic_FollowingList = json.load(f)
    f.close()
list_FF_test2 = sorted(getFF(dic_FollowingList["followinglist"], dic_FollowingList["accnum"]));f.close()
print(len(list_FF_test2)==46847, list_FF_test2[10000]==[658, 949], list_FF_test2[20000]==[1341, 1900], list_FF_test2[30000]==[2161, 3829], list_FF_test2[40000]==[3311, 3314])

なお、`ex2_data_twitter_dic_ScrNameToID.json` というファイルには、各アカウントのTwitter上の `screen_name` （Twitter上で表示される一般的なアカウント名）と、この教材において勝手に割り当てたアカウントの通し番号（本課題で用いた値）を保存してあります。具体的には、このファイルには辞書が格納されており、アカウント名 `screen_name` をキー、対応する値としてアカウントの通し番号が格納されています。

逆に、`ex2_data_twitter_list_IDToScrName.json` にはリストが保存されており、アカウントの通し番号のインデックスに アカウント名 `screen_name` が格納されています。

例えば、東大のアカウント（`UTokyo_News`）も格納されています。

In [None]:
if 'dic_ScrNameToID' not in globals(): 
    f = open("ex2_data_twitter_dic_ScrNameToID.json", "r", encoding="utf-8")
    dic_ScrNameToID = json.load(f)
    f.close()
print(dic_ScrNameToID["UTokyo_News"])
if 'list_IDToScrName' not in globals(): 
    f = open("ex2_data_twitter_list_IDToScrName.json", "r", encoding="utf-8")
    list_IDToScrName = json.load(f)
    f.close()
print(list_IDToScrName[5153])

興味があれば、どのアカウント同士が相互にフォローをしているのか `screen_name` を調べてみて下さい。

以下は東大のアカウントと相互フォローになっているアカウントです。

In [None]:
for list1 in list_FF_test2:
    if dic_ScrNameToID["UTokyo_News"] in list1:
        index1 = 1
        if list1[0] != dic_ScrNameToID["UTokyo_News"]:
            index1 = 0
        print(list1[index1], list_IDToScrName[list1[index1]])

実行時間の参考までに、Colaboratoryにおいて模範解答を実行（以下のコードを実行）した場合、`1 loop, best of 10: 2.25 s per loop` (出題者の jupyter notebookでは `2.26 s ± 252 ms per loop (mean ± std. dev. of 10 runs, 1 loop each)`) と表示されました。


---
```Python
%%timeit -r 10 -n 1
list_FF_test2 = sorted(getFF(dic_FollowingList["followinglist"], dic_FollowingList["accnum"]))
```
---

なお、セルに `%%timeit -r `（繰り返し回数）`-n`（実行回数）と書くと、当該のセルの（実行回数）回の実行を1セットにして、（繰り返し回数）セット行ったときの平均実行時間と標準偏差を求めることができます。



In [None]:
%%timeit -r 10 -n 1
#10回実行しますので大分時間がかかります。#実行が終了しない場合は、「10」の値を減らしてみて下さい。（但し、1以上の整数）
list_FF_test2 = sorted(getFF(dic_FollowingList["followinglist"], dic_FollowingList["accnum"]))

以下のセルを実行すると解答セルのプログラムの計算量を自動的に評価します。
* ローカル環境で解答している人はファイルを保存してから以下のセルをそのまま実行して下さい（このファイルと同じフォルダ内に `utaadevalcpx.py` があることを確認して下さい）。
* Colaboratoryを利用している人はセル内部の `str_code_2_5  = '''...'''` の `...` に自分の解答をコピペして下さい（ファイル冒頭のデータのダウンロードを事前に行う必要があります）。
`

ただし、常に正しい計算量を求められる訳ではありません（<font color="red">正しく求められなかった場合、実際の計算量よりも計算量が少なく求まります</font>）。例えば、以下の様な内容のコードは正しく評価できないことがあります。
* 組み込み関数などの名前を別名に変更している
* 条件式の使用（例えば、for文中のif文＋`break`など）
* while文を使用する

この課題の模範解答の時間計算量は<font color="white"> $O(kn)$、もしくは $O(nk\log k)$ </font>です。（←白黒反転しています）  
想像（模範解答）よりも大きな計算量となっている場合、どこに問題があるのか考えてみて下さい。

正しく計算量が評価できていないと思った場合、感想などで教えて下さい。

In [None]:
import utaadevalcpx;dic_varinfo_2_5 = {"list_following": ["list", set(), {"n"}],"list_following*": ["list", set(), {"k"}],}
str_code_2_5 = '''...'''
utaadevalcpx.evaluateCpx(str_exfilename, "2-5", dic_varinfo_2_5, str_code_2_5) # str_exfilenameはファイルの冒頭で定義されています

<b>問題の難易度評価：</b>
下のセルにこの問の難易度を5段階（1:簡単、2:やや簡単、3:普通、4:やや難しい、5:難しい）で評価して下さい。（次回以降の課題の難易度の調整に使います）
また、解答するのにかかった時間や感想などがあれば適宜記載して下さい。

In [None]:
#難易度（1:簡単、2:やや簡単、3:普通、4:やや難しい、5:難しい）

#感想
