# Python 入門編６：基本データ型の応用
## 目次
* [練習6.1: オークションの結果](#練習6.1:-オークションの結果)
* [練習6.2: 文検索](#練習6.2:-文検索)
 * [Step 1：文の表示](#Step-1：文の表示)
 * [Step 2：索引データの作成](#Step-2：索引データの作成)
 * [Step 3: キーワード１つによる検索結果の表示](#Step-3:-キーワード１つによる検索結果の表示)
 * [Step 4: ２つのキーワードによるAND検索結果の表示](#Step-4:-２つのキーワードによるAND検索結果の表示)
 * [Step 5: 任意の数のキーワードによるAND検索](#Step-5:-任意の数のキーワードによるAND検索)
* [課題提出の前の注意](#課題提出の前の注意)
* [チャレンジ課題6.3: 最長コラッツ列](#チャレンジ課題6.3:-最長コラッツ列)
  * [進行状況を見るには](#進行状況を見るには)
* [課題提出の前の注意](#課題提出の前の注意)

---
このノートブックでは，基本的なデータ型であるリスト・文字列・辞書を応用したプログラミングの練習をする．

課題ではデータが入った２つのファイルを使用する．始める前に，ノートブックと同じところから "bids.txt" と "neko.txt" をダウンロードし，ノートブックと同じフォルダに置きなさい．

## 練習6.1: オークションの結果
以下のセルを実行すると，変数 `bids` に，いくつかの商品に対するオークションの入札記録が読み込まれ，先頭の要素 `bids[0]` が表示される（読み込みのプログラム内容を今理解する必要はない）：

In [1]:
bids = []
with open("bids.txt", encoding="utf-8") as f:
    for line in f:
        item, bidder, price_s = line.rstrip().split()
        bids.append([item, bidder, int(price_s)])
bids[0]

['どんぐり', 'リス', 100]

入札記録 `bids` は `[item, bidder, price]` という形の3要素からなるリストを要素とするリスト（2重リスト）である．
item および bidder は文字列型，price は整数である．

`bids` の各要素 `[item, bidder, price]` は，商品 `item` に対し，入札者 `bidder` が，金額 `price` で入札を行ったことを表す（すなわち，`bidder` が「価格 `price` で商品 `item` を買う」と宣言したことを表す）．

オークションの結果，それぞれの商品は，その商品に対し最も大きな金額をつけた入札者が買うことになる．

入札記録を引数として受け取り，**記録に含まれる各商品名をキーとし，その商品を買うことになった入札者名を値とする辞書**を返す関数 `auction(bids)` を実装しなさい．同一の最高金額で入札した人が複数いる（つまり「引き分け」の）商品は存在しないと仮定してよい．

以下は小さな入札記録に対する実行例である（実際の `bids` はもっと長い）：
```python
bids = [["どんぐり", "リス", 100],
        ["どんぐり", "たぬき", 120],
        ["木の棒", "チョビ", 500],
        ["どんぐり", "ブタ", 90],
        ["木の棒", "平九郎", 600]]

auction(bids) --> {"どんぐり": "たぬき", "木の棒": "平九郎"}
```

ヒント（ダブルクリックで表示）
<!--

以下では { キーの意味 : 値の意味 } という形で，どういう辞書を作ればよいか書く．

やり方(1)
* 空の辞書を二つ用意する．
  * 一方の辞書には各商品に対する最高の入札価格を記録する．つまり { 商品名 : 最高入札価格 } という辞書を作る．
  * 他方の辞書には各商品に対する最高価格の入札を行った人を記録する．つまり { 商品名 : 最高額入札者 } という辞書を作る．
* リスト bids の要素を一つずつ見てゆき，
  * 初めて出てきた商品だったら２つの辞書にそれぞれ価格と入札者を記録する
  * 既に出てきた商品だったら，入札額を記録してある価格と比較し，
    より高い価格による入札だったら２つの辞書を更新する
* 最後に最高額入札者を記録した辞書を return する

やり方(2)
* 空の辞書をひとつ用意する．この辞書には { 商品名 : [最高入札額, 最高額入札者] } の形で記録を行う．
* リスト bids の要素を一つずつ見てゆき，
  * 初めて出てきた商品だったら入札者名と金額を記録する
  * 既に出てきた商品だったら，記録してある金額と入札額を比較し，
    より高い価格による入札だったら記録してある入札者名と金額を更新する
* 最後に，空の辞書 result を作り，記録してある商品名それぞれについて
  最高額入札者を値としてセットし return する
  !! return する辞書は最初に作った辞書とは異なり，最高額入札者だけを記録することに注意
-->

In [12]:
def auction(bids):
    # *** 実装しなさい ***
    r={} #商品:落札額
    s={} #商品:落札者
    
    for i in bids:
        item = i[0]
        bidder = i[1]
        price = i[2]
        
        if item not in r:
            r[item]=price
            s[item]=bidder

        else:
            if price>r[item]:
                r[item]=price
                s[item]=bidder

    return s

実装できたら，まずは小さなデータで試してみなさい：

In [13]:
mini_bids = [
    ["どんぐり", "リス", 100],
    ["どんぐり", "たぬき", 120],
    ["木の棒", "チョビ", 500],
    ["どんぐり", "ブタ", 90],
    ["木の棒", "平九郎", 600]]
result = auction(mini_bids)
result

{'どんぐり': 'たぬき', '木の棒': '平九郎'}

正しく動いていそうだったら，大きなデータ（`bids`）でテストしなさい：

In [10]:
result = auction(bids)

prices = {i: p for i, _, p in sorted(bids, key=lambda x: x[2])}
seen = set()
num_err = 0
for item, bidder, price in bids:
    if item not in result:
        if item not in seen:
            print(f"商品 {item} に対する落札結果がありません")
            num_err += 1
    else:
        if price == prices[item]:
            if bidder == result[item]:
                pass # OK
            else:
                print(f"商品 {item} の最高額入札者が異なります")
                num_err += 1
    seen.add(item)
if num_err == 0:
    print("テストOK")
else:
    print(f"{num_err}個の誤りがありました")

テストOK


## 練習6.2: 文検索
この練習では，多数の文（あるいは文書）から，いくつかのキーワードを含むものを高速に見つけるプログラムをいくつかのステップに分けて作成する．

### Step 1：文の表示
文は単語（文字列）のリストで表し，いくつかの文を単語のリストのリストで表すことにする．

たとえば
```
    ブタはドングリが好き．
    リスはドングリもクルミも好き．
```
という2文は
```python
[["ブタ", "は", "ドングリ", "が", "好き", "．"],
 ["リス", "は", "ドングリ", "も", "クルミ", "も", "好き", "．"]]
```
という2重リストで表される．「．」や「，」のような句読点も一つの単語と考える．

上のように単語のリストのリスト（2重リスト）として表された文のリスト `sentences` と，文の番号（最初の文が 0）`i` を受け取り，`i` 番目の文を**文字列として**返す関数 `stringize(sentences, i)` を実装しなさい．

`stringize` は結果を文字列として返すのであって，print するのではないことに注意せよ．

例えば上の2文のリストと番号 `0` を入力した場合，実行結果は以下のようになる：
```python
ss = [["ブタ", "は", "ドングリ", "が", "好き", "．"],
      ["リス", "は", "ドングリ", "も", "クルミ", "も", "好き", "．"]]
stringize(ss, 0)
--> "ブタはドングリが好き．"
```

ヒント（ダブルクリックで表示）
<!--
区切り文字列 s で文字列のリスト xs を結合するメソッド s.join(xs) を思い出そう：

xs = ["あ", "い", "う"]
"".join(xs)
→ "あいう"
-->

In [16]:
# *** 実装しなさい ***
def stringize(sentences, i):
    sentence_list=sentences[i]
    joined_string="".join(sentence_list)
    result=joined_string.strip()
    return result

実装できたらテストしなさい：

In [17]:
ss = [["ブタ", "は", "ドングリ", "が", "好き", "．"],
      ["リス", "は", "ドングリ", "も", "クルミ", "も", "好き", "．"],
      ["", "Hello", ",", " ", "World"], # 空文字を含むリスト
      ["", "", ""],  # 空文字だけのリスト
      ["word"]]      # 要素がひとつだけの場合

#「ブタはドングリが好き．」と表示されるはず
print(stringize(ss, 0))

# 結果をテスト
print(stringize(ss, 0) == 'ブタはドングリが好き．')
print(stringize(ss, 1) == 'リスはドングリもクルミも好き．')
print(stringize(ss, 2) == 'Hello, World')
print(stringize(ss, 3) == '')
print(stringize(ss, 4) == 'word')

ブタはドングリが好き．
True
True
True
True
True


下のセルをクリックすると，「吾輩は猫である」の全ての文を並べた2重リストが変数 `neko` にセットされる：

In [18]:
with open("neko.txt", encoding="utf-8") as f:
    neko = [line.rstrip().split() for line in f]

`neko` の適当な文を `stringize` を使っていくつか表示してみなさい：

In [21]:
stringize(neko, 1)

'吾輩は猫である。'

つぎに，後のステップで使うために，2重リストで表した文のリスト `sentences` と文番号のリスト `indices` を受け取って，`indices` の中のそれぞれの番号に対応する文を一行に一文ずつ表示する関数 `show_all(sentences, indices)` を実装しなさい．

例えば `sentences` として上記の「吾輩は猫である」の文のリスト `neko` を入力し，`indices` として1番目，2番目，3番目の文を表す `indices = [1, 2, 3]` を入力した場合は以下のように「吾輩は猫である」の（先頭を0番目と数えて）1〜3番目の文が以下のように表示されるはずである（--> の行のあとの3行が出力結果）：
```python
show_all(neko, [1, 2, 3])
-->
吾輩は猫である。
名前はまだ無い。
どこで生れたかとんと見当がつかぬ。
```

In [31]:
# *** 実装しなさい ***
def show_all(sentences, indices):
    result=""
    for i in indices:
        result=stringize(sentences, i)
        print(result)

実装できたらテストしなさい：

In [32]:
show_all(neko, [1,2,3])

吾輩は猫である。
名前はまだ無い。
どこで生れたかとんと見当がつかぬ。


（`neko` の最初の文 `neko[0]` は章番号 "ー" なので，上のテストは「吾輩は猫である。」からの3文が表示されれば正しい）

### Step 2：索引データの作成
Step 1 のように，2重リストで表した文のリストを受け取り，どの単語が何番目の文に出てきたかを表す「索引」の役割をするデータを
辞書で表したい．例えば，上で例にあげた2文のリスト：
```python
[["ブタ", "は", "ドングリ", "が", "好き", "．"],
 ["リス", "は", "ドングリ", "も", "クルミ", "も", "好き", "．"]]
```
からは，以下のような索引データを作りたい：
```python
{"ブタ": [0],
 "は": [0, 1],
 "ドングリ": [0, 1],
 "が": [0],
 "好き": [0, 1],
 "．": [0, 1],
 "リス": [1],
 "も": [1],
 "クルミ": [1]}
```

例えば上の索引データで，キー `"ドングリ"` に対する値が `[0, 1]` なのは，単語「ドングリ」が文のリストの添字 0 の文（最初の文）と添字 1 の文（次の文）に出てきたことを表す．キー `"ブタ"` に対する値が `[0]` なのは，単語「ブタ」が添字 0 の文にだけ出てきたことを表す．

ある文 `s` に同じ単語 `w` が何度出てきた場合でも，キー `w` に対する文番号のリストには文 `s` の番号が1度だけ含まれるようにしなさい．
上の例では，単語「も」は添字 1 の文に2度出てくるが，索引でキー `"も"` に対する値は `[1, 1]` ではなく `[1]` である．

また，各キーに対する文番号のリストの中では，文番号が昇順に並ぶようにしなさい（自然に実装すればそうなる）．

同じ文番号を2度セットすることを防ぐ方法のヒント：文番号のリスト `ns` の最後の要素は `ns[len(ns)-1]` で得られる．同じことは `ns[-1]` とも書ける．

例えば，索引データの辞書を `index` とするとき，各文・各単語を順番に処理（索引に登録）していけば，上の添字 `1` の文の2つ目の「も」を処理する時点で，同じ文の最初の「も」が登録ずみなので `index["も"][-1]` の値は，既に `1` になっているはずである．

では，2重リストで表された文のリスト `sentences` を入力とし，索引データを作成して返す関数 `make_index(sentences)` を実装しなさい：

In [35]:
# *** 実装しなさい ***
def make_index(sentences):
    index={}
    for i in range (0,len(sentences)):
        for w in sentences[i]:
            if w in index:
                if index[w][-1]!=i:
                    index[w].append(i)
            else:
                index[w]=[i]
    return index

さらにヒント（ダブルクリックで表示）
<!--
だいたい次のような手順になるだろう
* 空の辞書 index を用意する
* 文番号 i = 0, 1, 2, ..., (文の数-1) のそれぞれに対して
    * sentences[i] の中のそれぞれの単語 w に対して
        * もしもキー w が index に存在したら
            * index[w] の最後の要素が i 以外なら
                * index[w] に i を追加する
            * index[w] の最後の要素が i ならなにもしない
        * もしもキー w が index に存在しなければ
            * index[w] を [i] で初期化する
-->

実装できたら，まず小さな例でテストしなさい：

In [36]:
ss = [["ブタ", "は", "ドングリ", "が", "好き", "．"],
      ["リス", "は", "ドングリ", "も", "クルミ", "も", "好き", "．"]]

test_result = make_index(ss) # ss の索引を作成

print("test_result =", test_result, "\n")

test_answer = {
    'ブタ': [0],
    'は': [0, 1],
    'ドングリ': [0, 1],
    'が': [0],
    '好き': [0, 1],
    '．': [0, 1],
    'リス': [1],
    'も': [1],
    'クルミ': [1]
}

if test_result == test_answer:
    print("テスト成功")
else:
    print("テスト失敗")

test_result = {'ブタ': [0], 'は': [0, 1], 'ドングリ': [0, 1], 'が': [0], '好き': [0, 1], '．': [0, 1], 'リス': [1], 'も': [1], 'クルミ': [1]} 

テスト成功


正しく動いていたら，「吾輩は猫である」の索引データを作成し，変数 `neko_index` にセットしなさい：

In [37]:
neko_index = make_index(neko)

辞書に対して `len` 関数を適用すると，辞書のサイズ，すなわち辞書の中のキーの数が返される．

`neko_index` に `len` 関数を適用し，索引のサイズ（＝「吾輩は猫である」に出てくる異なる単語の総数）を見てみなさい．`13583` になるはずである：

In [38]:
len(neko_index)

13583

いくつかの単語について索引が正しく作れているかテスト：

In [39]:
print(neko_index["巨人"] == [971, 982, 983, 990, 992, 994, 1379, 1380])
print(neko_index["吃驚"] == [4601, 9107])
print(neko_index["ニャー"] == [34])

True
True
True


### Step 3: キーワード１つによる検索結果の表示
索引データの辞書に，添え字演算子でキーワードを与えると文番号のリストが返される：

In [40]:
neko_index["学生"]

[304, 2160, 2629, 8009]

索引に含まれないキーワードを添え字演算子で指定するとエラーになる：

In [42]:
#neko_index["iphone"]

エラーになることを確認したら上のセルの中身はコメントアウトして，後で Run All したとき止まらないようにしなさい．

<!--
上で見た KeyError というエラーは，この先何度も体験することになるだろう．
修正する手順としてはだいたい以下のようになる：
1. エラーが起きた行（メッセージで→から始まっている行）を見て，どの辞書をどのキーで検索したのか特定する
2. 上の例では "iphone" という文字列で検索しているので，それが辞書に存在しなかったのが原因だとすぐわかる．しかし普通は変数で `neko_index[x]` のように検索するので，エラーが起きている行の直前で `print(x)` して，どのキーで検索してエラーになったのか調べる．
3. エラーの原因になったキーが辞書に存在するはずのものなら辞書を作成した部分を見直す
4. そもそも辞書に存在しない可能性があるキーで検索していたら，キーの選び方が間違っているか，あるいは `if x in neko_index` のようにキーの存在チェックをする必要がある
-->

このエラーを防ぐには，`in` 演算子を使って 
```python
if "iphone" in neko_index:
   # "iphone" が索引に存在した場合の処理
else:
   # "iphone" が索引に存在しない場合の処理
```
のように場合分けすればよい．

しかし，ややめんどうくさいので，代わりに `get` メソッドを使おう．

辞書 `d` に対し `d.get(k, default)` のようにキー `k` とデフォルト値 `default` を引数として `get` メソッドを呼び出すと，
* キー `k` が辞書に存在する場合は，対応する値が返される（添え字演算子を使った `d[k]` と同様）
* キー `k` が辞書に存在しない場合は `default` が返される

`default` のところに空リスト `[]` を指定することで，「吾輩は猫である」に存在しないキーワードを指定した場合は空リストが返るようにできる．

**ミニミニ練習**：`get` メソッドを使って `neko_index` からキー `"python"` を検索しなさい．その際デフォルト値として `[]` を指定しなさい．

In [47]:
# get メソッドを使って neko_index から "python" を検索しなさい
neko_index.get("python", [])

[]

答え（ダブルクリックで表示）
<!--

neko_index.get("python", [])

-->

**ミニミニ練習**: もう一度 `get` メソッドを使って `neko_index` からキー "学生" を検索しなさい．デフォルト値として `[]` を指定しなさい．返ってくる値は `[]` ではなくいくつか上のセルの `neko_index["学生"]` の結果と同じであることを確認しなさい．


In [48]:
# get メソッドを使って neko_index から "学生" を検索しなさい
neko_index.get("学生", [])

[304, 2160, 2629, 8009]

索引データ `index` と，単語のリストとして表した文のリスト `sentences`，およびキーワード `k` を受け取り，`k` を含む文を一行に一文ずつ全て表示（print）する関数 `search_1(index, sentences, k)` を実装しなさい．`sentences` の中身は表示のためだけに使い，`k` を含む文を調べるのには `index` を用いること．（上で実装した `show_all` を使えば `search_1` の本体は1行で書ける）：

In [53]:
# *** 実装しなさい ***
def search_1(index, sentences, k):
    number_of_included_sentences=index.get(k,[])
    return show_all(sentences,number_of_included_sentences)

実装できたら，まず小さいデータでテストしなさい：

In [54]:
ss = [["ブタ", "は", "ドングリ", "が", "好き", "．"],
      ["リス", "は", "ドングリ", "も", "クルミ", "も", "好き", "．"]]
mini_index = make_index(ss)

search_1(mini_index, ss, "ドングリ")

ブタはドングリが好き．
リスはドングリもクルミも好き．


In [55]:
search_1(mini_index, ss, "クルミ")

リスはドングリもクルミも好き．


In [56]:
search_1(mini_index, ss, "アーモンド")

最後の例は，実行しても何も表示されないのが正しい動作である．

ここまでのテストが正しく動いていたら，「吾輩」を適当なキーワードで検索してみなさい：

In [60]:
search_1(neko_index, neko, "吾輩")

吾輩は猫である。
吾輩はここで始めて人間というものを見た。
吾輩は藁の上から急に笹原の中へ棄てられたのである。
吾輩は池の前に坐ってどうしたらよかろうと考えて見た。
縁は不思議なもので、もしこの竹垣が破れていなかったなら、吾輩はついに路傍に餓死したかも知れんのである。
この垣根の穴は今日に至るまで吾輩が隣家の三毛を訪問する時の通路になっている。
ここで吾輩は彼の書生以外の人間を再び見るべき機会に遭遇したのである。
これは前の書生より一層乱暴な方で吾輩を見るや否やいきなり頸筋をつかんで表へ抛り出した。
吾輩は再びおさんの隙を見て台所へ這い上った。
吾輩は投げ出されては這い上り、這い上っては投げ出され、何でも同じ事を四五遍繰り返したのを記憶している。
吾輩が最後につまみ出されようとしたときに、この家の主人が騒々しい何だといいながら出て来た。
下女は吾輩をぶら下げて主人の方へ向けてこの宿なしの小猫がいくら出しても出しても御台所へ上って来て困りますという。
主人は鼻の下の黒い毛を撚りながら吾輩の顔をしばらく眺めておったが、やがてそんなら内へ置いてやれといったまま奥へ這入ってしまった。
下女は口惜しそうに吾輩を台所へ抛り出した。
かくして吾輩はついにこの家を自分の住家と極める事にしたのである。
吾輩の主人は滅多に吾輩と顔を合せる事がない。
吾輩は時々忍び足に彼の書斎を覗いて見るが、彼はよく昼寝をしている事がある。
吾輩は猫ながら時々考える事がある。
吾輩がこの家へ住み込んだ当時は、主人以外のものにははなはだ不人望であった。
吾輩は仕方がないから、出来得る限り吾輩を入れてくれた主人の傍にいる事をつとめた。
吾輩はいつでも彼等の中間に己れを容るべき余地を見出してどうにか、こうにか割り込むのであるが、運悪く小供の一人が眼を醒ますが最後大変な事になる。
吾輩は人間と同居して彼等を観察すればするほど、彼等は我儘なものだと断言せざるを得ないようになった。
ことに吾輩が時々同衾する小供のごときに至っては言語同断である。
しかも吾輩の方で少しでも手出しをしようものなら家内総がかりで追い廻して迫害を加える。
吾輩の尊敬する筋向の白君などは逢う度毎に人間ほど不人情なものはないと言っておらるる。
吾輩は教師の家に住んでいるだけ、こんな事に関すると両君よりもむしろ楽天である。
我儘で思い出したからち

「鬼」で検索すると2つの文が表示されるはずである．表示される文が多すぎ・少なすぎの場合は実装がどこかで間違っている．

In [58]:
search_1(neko_index, neko, "鬼")

海老の鬼殻焼はあるが亀の子の甲羅煮は今でさえないくらいだから、当時は無論なかったに極っている。
「好漢この鬼窟裏に向って生計を営む。


### Step 4: ２つのキーワードによるAND検索結果の表示
次は，２つのキーワードを両方とも含む文を検索することを考える．

例えば，「猫」を含む文の番号のリストが `[0, 2, 5, 7]`，「犬」を含む文の番号のリストが `[1, 2, 3, 5, 9]` だったとすると，「犬」と「猫」を両方含む文の番号は `[2, 5]` となる．

もしも2つの文番号リスト `xs = [x1, x2, x3, ...]` と `ys = [y1, y2, y3, ...]` が**どちらも昇順にならんでいれば**，つぎのようにして `xs` と `ys` 両方に現れる番号のリストを得ることができる：
* まず，`xs` の要素を指定する添え字 `i` および `ys` の要素を指定する添え字 `j` をどちらも `0` で初期化する
* また，`xs` と `ys` の両方に含まれる番号を入れるリスト `zs` を `[]` で初期化する
* `i` が `xs` の長さより小さく，`j` が `ys` の長さより小さい間（while 文を使おう），以下を繰り返す
  * もし `xs[i] == ys[j]` ならば，`xs[i]` は `xs` にも `ys` にも含まれる．よって `xs[i]` を結果のリスト `zs` に追加し，`i` と `j` をどちらも1増やす
  * もし `xs[i] < ys[j]` ならば，`xs[i]` は `xs` にしか含まれないので，`i` を1増やす
  * もし `xs[i] > ys[j]` ならば，`ys[j]` は `ys` にしか含まれないので，`j` を1増やす
  
上のやり方で，2つの文番号リスト `xs` と `ys` を受け取り，共通の文番号のリストを返す関数 `intersect` を実装しなさい：

In [None]:
# *** 実装しなさい ***
def intersect(xs, ys):


実装できたら，まず `intersect` を単体でテストしましょう（全て True が表示されるはず）：

In [None]:
print(intersect([0, 2, 5, 7], [1, 2, 3, 5, 9]) == [2, 5])
print(intersect([0, 3, 4, 6], [1, 3, 4, 7]) == [3, 4])
print(intersect([1, 3, 4, 7], [1, 3, 4, 7]) == [1, 3, 4, 7])
print(intersect([0, 3, 4, 6], [1, 2, 5, 7]) == [])

# どちらかが空リストなら結果も空
print(intersect([1, 2, 3], []) == [])
print(intersect([], [1, 2, 3]) == [])

`intersect` が正しく動いたら，索引データ `index` と，単語のリストとして表した文のリスト `sentences`，およびキーワード２つ `k1` と `k2` を受け取り，`k1` と `k2` を両方含む文をすべて検索して1行に1文ずつ表示する関数 `search_2(index, sentences, k1, k2)` を実装しなさい： 

In [None]:
def search_2(index, sentences, k1, k2):
    # ** 実装しなさい **


実装できたら，まず小さいデータで検索してみましょう：

In [None]:
ss = [["ブタ", "は", "ドングリ", "が", "好き", "．"],
      ["猫", "は", "ドングリ", "が", "嫌い", "．"],
      ["犬", "は", "泳ぎ", "が", "得意", "．"],
      ["リス", "は", "ドングリ", "も", "クルミ", "も", "好き", "．"],
      ["猫", "は", "魚", "が", "好き", "．"]]
mini_index = make_index(ss)

search_2(mini_index, ss, "ドングリ", "好き")

In [None]:
search_2(mini_index, ss, "リス", "好き")

結果がひとつもない場合もテストして，エラーにならないことを確かめなさい：

In [None]:
search_2(mini_index, ss, "ブタ", "クルミ")

正しく動いているようだったら，「吾輩」を適当な二つのキーワードで検索してみなさい：

In [None]:
search_2(neko_index, neko, "犬", "猫")

「吾輩」「乱暴」の二つのキーワードで検索すると，ちょうど2つの文が表示されるはずである：

In [None]:
search_2(neko_index, neko, "吾輩", "乱暴")

### Step 5: 任意の数のキーワードによるAND検索
最後に，任意の数のキーワードをすべて含む文を検索できるようにしよう．

このために，まず任意の数の文番号のリストのリスト（2重リスト）`xss = [xs1, xs2, ..., xs_n]` を受け取り，`xs1, ..., xs_n` 全てに共通して含まれる番号のリストを返す関数 `intersect_n` を実装しなさい：

ヒント（ダブルクリックで表示）
<!--
xss = [xs1, xs2, ..., xs_n] とする．

もしも xss が空リスト [] ならば結果として [] を返せばよい．

そうでなければ，
ix1, ix2, ..., ix_n すべてに含まれる文番号のリスト zs は

zs = ix1
zs = intersect(zs, ix2) # zs は ix1 と ix2 の共通部分になる
zs = intersect(zs, ix3) # zs は ix1, ix2, ix3 の共通部分になる
...
zs = intersect(zs, ix_n) # zs は ix1, .., ix_n の共通部分になる

で求めることができる．
これをループを使って実現すればよい．
-->

In [None]:
# *** 実装しなさい ***
def intersect_n(xss):


実装できたらテストしましょう（全て True になるはず）：

In [None]:
print(intersect_n([[0, 1, 2, 4],
                   [0, 1, 2, 3, 4, 5],
                   [2, 3, 4, 7]]) == [2, 4])

# 2つ目のリストまでで共通部分が空になる場合
print(intersect_n([[1, 3, 5, 7],
                   [2, 4, 6, 8],
                   [2, 4, 6, 8]]) == [])

# そもそもリストのリストが空の場合
print(intersect_n([]) == [])

# リストが1つだけの場合
print(intersect_n([[1, 3, 5, 7]]) == [1, 3, 5, 7])

# リストが2つだけの場合
print(intersect_n([[1, 3, 5, 7], [3, 4, 5]]) == [3, 5])

`intersect_n` が正しく実装できたら，索引データ `index` と，単語のリストとして表した文のリスト `sentences`，および，任意の数のキーワードのリスト `keywords` を受け取って，`keywords` に含まれる単語をすべて含む文を一行に一文ずつ表示する関数 `search_n(index, sentences, keywords)` を実装しなさい．

ヒント（ダブルクリックで表示）
<!--
以下の手順でできるだろう：
* まず各キーワードを含む文番号リストのリスト xss を空リストで初期化する
* keywords の中の各単語 w について
    * index から get メソッドを使って w を含む文のリスト xs を得る
    * xss に xs を追加する（append メソッド）
* intersect_n を使って，xss の中の文番号リストの共通部分を得る
* あとは search_1, search_2 と同じ
-->

In [None]:
def search_n(index, sentences, keywords):


実装できたらまずは小さいデータでテストしましょう：

In [None]:
ss = [["ブタ", "は", "ドングリ", "が", "好き", "．"],
      ["リス", "は", "ドングリ", "も", "クルミ", "も", "好き", "．"]]
mini_index = make_index(ss)

search_n(mini_index, ss, ["ドングリ", "クルミ", "好き"])

キーワードが一つでも検索できることをテストしなさい：

In [None]:
search_n(mini_index, ss, ["ドングリ"])

結果が一つもない場合もエラーにはならないことを確認しなさい：

In [None]:
search_n(mini_index, ss, ["ドングリ", "クルミ", "ブタ"])

正しく動いていそうだったら，「吾輩は猫である」を適当な複数のキーワードで検索してみなさい：

In [None]:
search_n(neko_index, neko, ["猫", "先生", "人間"])

In [None]:
search_n(neko_index, neko, ["僕", "人", "です"])

「猫」「虎」「吾輩」の3つのキーワードで検索すると，ちょうど3つの文が表示されるはずである．

（長い文は改行されるので3行以上に見えることがあるが「。」までが一文）

In [None]:
search_n(neko_index, neko, ["猫", "虎", "吾輩"])

---
お疲れ様でした．以上で今回の必須課題は終わりです．

## 課題提出の前の注意
* かならずメニューの "Run" から "Run All Cells" を選択し，全てのセルが正しく実行されることを確認すること
* "Run All Cells" を実行したら，各セルの実行結果が表示されている状態で保存のボタンを押してノートブックを保存すること
* 上記のようにして，実行結果まで含めて保存してからノートブックを提出すること．
* 以下の「チャレンジ課題」は余力がある人のための課題です．セルを正しく実装して提出すれば加点します．

## チャレンジ課題6.3: 最長コラッツ列
自然数 $k\ge 1$ を初項とするコラッツ列は以下のように定義される自然数列である：
* $c_1 = k$
* $c_n$ が偶数のとき，$c_{n+1} = \frac{1}{2} c_n$
* $c_n$ が奇数のとき，$c_{n+1} = 3 c_n + 1$

例えば $k = 6$ を初項とするコラッツ列は $c_1 = 6 \rightarrow c_2 = 3 \rightarrow c_3 = 10 \rightarrow c_4 = 5 \rightarrow c_5 = 16 \rightarrow c_6 = 8 \rightarrow c_7 = 4 \rightarrow c_8 = 2 \rightarrow c_9 = 1 \rightarrow \cdots$ となる．

「どのような自然数 $k \ge 1$ を初項とする場合でも，コラッツ列はいつか $c_n = 1$ となる」という予想（[コラッツ予想](https://ja.wikipedia.org/wiki/%E3%82%B3%E3%83%A9%E3%83%83%E3%83%84%E3%81%AE%E5%95%8F%E9%A1%8C)）があるが，未解決である．

ある初項から始めたコラッツ列が，最初に $c_n = 1$ となる $n$ を，そのコラッツ列の「長さ」と呼ぶことにする．例えば上の $c_1 = 6$ の例では長さ 9 である．

(1) 初項 $k$ が1000以下のコラッツ列のうち，最長のものの長さを求めたい．初項の最大値 `max_k` を入力とし，初項が `k = 1, 2, ..., max_k` のコラッツ列のうち最長のものの長さを返す関数 `longest_collatz(max_k)` を実装しなさい．

ヒント（ダブルクリックで表示）
<!--
まず，コラッツ列のある項の値 c を与えたときに次の項の値を返す関数を実装し，
次に，それを用いて，初項が k のコラッツ列の長さを計算する関数を実装し，
最後に，それを使って longest_collatz(max_k) を実装するとよい．
-->

In [None]:
def longest_collatz(max_k):
    # *** 実装しなさい ***
    # ** これはダミーの実装です **
    # ** 課題をやる人は消してください **
    return 1

実装できたら，初項 $k$ が1000以下のコラッツ列のうち，最長のものの長さを求めてみなさい：

In [None]:
longest_collatz(1000)

(1) の答え（ダブルクリックで表示）
<!--
答え：179
-->

(2) 初項 $k$ が$10^7$（1千万）以下のコラッツ列のうち，最長のものの長さを求めたい．

特に工夫をしていなければ (1) で実装した `longest_collatz` では1分以上かかるだろう．`longest_collatz(max_k)` と同じ値を返すが，`max_k = 10 ** 7` に対しても20秒未満で答えが得られるように工夫した `fast_longest_collatz(max_k)` を実装しなさい．

---
#### 進行状況を見るには
たぶんプログラムの中に，初項 $k = 1, 2, 3, \dots$ についてそれぞれ長さを計算するための
```python
for k in range(1, max_k+1):
    ...
```
のようなループがあるだろう．そこを
```python
for k in tqdm(range(1, max_k+1)):
    ...
```
としなさい．（自分で進行状況を見るのと，何秒かかったのか記録するため）

---

In [None]:
from tqdm import tqdm # tqdm の使用のために必要

def fast_longest_collatz(max_k):
    # ** 実装しなさい **
    # ** これはダミーの実装です **
    # ** 課題をやる人は消してください **
    return 1


(2) のヒント（ダブルクリックで表示）
<!--
例えば初項が 6 のコラッツ列の長さは 9 だった．
ということは，初項が 12 のコラッツ列は c1 = 12, c2 = 6 まで計算した時点で 1 + 9 = 10 と分かる．
-->

実装できたら答えを求めてみなさい．20秒程度待っても答えがでなければ実装をもっと工夫しなさい：

In [None]:
fast_longest_collatz(10 ** 7)

(2) の答え（ダブルクリックで表示）
<!--
答え：686
-->

---
お疲れ様でした．以上で今回の課題は全て終わりです．

## 課題提出の前の注意
* かならずメニューの "Run" から "Run All Cells" を選択し，全てのセルが正しく実行されることを確認すること
* "Run All Cells" を実行したら，各セルの実行結果が表示されている状態で保存のボタンを押してノートブックを保存すること
* 上記のようにして，実行結果まで含めて保存してからノートブックを提出すること．

**入門編６：おわり**