# 第6回本課題（＋挑戦課題）

▲は挑戦課題を意味する。
本課題を解いた後に、任意で挑戦することを意図している。

▲ indicates advanced exercises.
They are designed to tackle optionally with after solving exercises.

第3回本課題では$n$-gramの計算を扱ったが、本課題ではイテレータに基づく$n$-gramの計算を扱う。

While the third exercise dealt with $n$-gram calculation, this exercise deals with iterator-based $n$-gram calculation and processing.

## 1. イテレータに基づく$n$-gramの生成 (Iterator-based generation of $n$-grams)
まず準備として、6-1の練習で述べた`take()`と同じ引数を取り、`take()`の結果のイテレータが走査しない残りの部分をイテレータで返す`drop()`を定義せよ。

As preliminaries, define a function `drop()` that takes the same parameters as `take()` described in 6-1 and returns an iterator that yields the remaining part of the traversal of a resultant iterator of `take()`.

In [None]:
## 解答用セル（A cell for answering) ##
##===================================##
## 次の関数を完成させよ。            ##
## Complete the following function.  ##
def drop(n, xs):
    ...

次の4つのセルを実行して、コメントにある通りに印字されることを確認せよ。
尚，最後のテストケースで `False` が印字されることは、`drop()` の返値がイテレータでないことを意味する。

Running the following four cells, confirm that each cell prints a string conforming to its comment.
Note that it means that the results of `drop()` are not iterators if the last test case prints `False`.

In [None]:
print(*drop(0, 'abcd')) # a b c d

In [None]:
print(*drop(1, 'abcd')) # b c d

In [None]:
print(*drop(2, 'abcd')) # c d

In [None]:
it =  drop(0, '')
print(iter(it) == it) # True

ではここで、第1引数に正の整数$n$、第2引数に文字列`s`を取り、`s`の$n$-gramを生成するイテレータを返す関数`ngrams()`を、***スライスを使わずに***、`map()`と`drop()`を用いて実装せよ。
このとき、6-1の練習で述べた`adjpairs()`を参考にしつつ、$k$-gramのイテレータから$(k+1)$-gramのイテレータを構成することを考えてみよ。

Then, define a function `ngrams()` that takes a positive integer $n$ as the first parameter and a string `s` as the second parameter, and returns an iterator yielding the $n$-grams of `s`,  ***without slicing*** and with `map()` and `drop()`.
Here, consider constructing a $(k+1)$-gram iterator from a $k$-gram iterator by referring to `adjpairs()` described in 6-1.

In [None]:
## 解答用セル（A cell for answering) ##
##===================================##
## 次の関数を完成させよ。            ##
## Complete the following function.  ##
def ngrams(n, s):
    ...

次の4つのセルを実行して、コメントにある通りに印字されることを確認せよ。
尚，最後のテストケースで `False` が印字されることは、`ngrams()` の返値がイテレータでないことを意味する。

Running the following four cells, confirm that each cell prints a string conforming to its comment.
Note that it means that the results of `ngrams()` are not iterators if the last test case prints `False`.

In [None]:
print(*ngrams(1, 'abcd')) # a b c d

In [None]:
print(*ngrams(2, 'abcd')) # ab bc cd

In [None]:
print(*ngrams(3, 'abcd')) # abc bcd

In [None]:
it =  ngrams(1, '')
print(iter(it) == it) # True

### ▲イテレータに基づく計算の合成（Composition of iterator-based computation）

さて、少し現実的な状況を考える。
そもそも$n$-gramの統計データは、文章の特徴量の1つである。
$n$-gramの出現頻度分布が近いことは、その文章が似ていることを示唆する。

しかし、例えば電子メールなどでは、一定の長さで強制的に改行が入れられることがある。
また、Markdownなどのマークアップ言語では、段落を明示するために空行を要求することもある。
これらは、文章の中身とは関係がないことなので、それが$n$-gramに影響することは、特徴量抽出の観点で望ましくない。

そこで、`ngrams()`を元にして、改行を無視した$n$-gramsを生成するイテレータを返す`linear_ngrams()`を定義せよ。
実装方法には、`ngrams()`と同様の制約が入るものとする。

Let's consider a rather realistic situation.
Statistics on $n$-grams of a document is one of its feature values.
If the frequency distribution of $n$-gram occurrences of one document is close to that of another, it indicates a certain similarity between them.

However, as in emails, long lines are often mechanically broken at some length.
Markup languages such as Markdown sometimes require blank lines to specify paragraphs.
These are generally irrelevant to the contents of documents.
$n$-grams affected by these line breaks are therefore (sometimes) inappropriate as a feature value.

Then, define, by referring to `ngrams()`, a function `linear_ngrams()` that returns an iterator yielding $n$-grams ignoring line breaks with the same proviso as that of `ngrams()` regarding implementation. 

In [None]:
## 解答用セル（A cell for answering) ##
##===================================##
## 次のクラスを完成させよ。          ##
## Complete the following class.     ##
def linear_ngrams(n, s):
    ...

次の3つのセルを実行して、コメントにある通りに印字されることを確認せよ。

Running the following three cells, confirm that each cell prints a string conforming to its comment.

In [None]:
s = """
ab
c

d

"""
print(*linear_ngrams(1, s)) # a b c d

In [None]:
print(*linear_ngrams(2, s)) # ab bc cd

In [None]:
print(*linear_ngrams(3, s)) # abc bcd

もし、入力文字列に対するスライスで$n$-gramを作ろうとすると、もっと煩雑な処理が必要になる。
改行を削除した文字列を一旦構築すればスライスを使えるが、その分中間データを多く利用することになる。

イテレータに基く計算は一般性があり、追加の処理（例えば改行除去）を加えやすく、プログラムの拡張性が高い。

In this case, if we try to construct $n$-grams with string slicing, we would need to write more complicated code.
If we preprocess a given string so as to remove all the line breaks, we will be able to write simple code based on string slicing for $n$-gram construction but need to use more space for the intermediate data.

Iterator-based code is more general and so extensible that it is composable with additional tasks such as line-break removal.

## 2. $n$-gramのヒストグラムと統計処理 ($n$-gram histograms and statistics)
`ngrams()`の結果を受け取って、$n$-gramのヒストグラムを返す関数`histogram()`を定義せよ。
ただし、6-2で定義した`Counter`クラスを使ってヒストグラムを表現することとする。

Define a function `histogram()` that takes a result of `ngrams()` and returns the histogram of the $n$-grams, where resultant histograms are represented by `Counter` class defined in 6-1.

In [None]:
## 解答用セル（A cell for answering) ##
##===================================##

# ヒストグラムを表現するCounterクラス
# Counter class for representing histograms
class Counter(dict):
    def __missing__(self, k):
        return 0

## 次の関数を完成させよ。            ##
## Complete the following function.  ##
def histogram(ngs):
    ...

定義できたら、次のセルを実行したときに、Trueのみが印字されることを確認せよ。

After defined, confirm that the following cell run prints only True.

In [None]:
text = 'bananabannerbandana'
print(isinstance(histogram(ngrams(1, '')), Counter))
print(histogram(ngrams(1, text)) == {'b': 3, 'a': 7, 'n': 6, 'e': 1, 'r': 1, 'd': 1})
print(histogram(ngrams(2, text)) == {'ba': 3, 'an': 5, 'na': 3, 'ab': 1, 'nn': 1, 'ne': 1, 'er': 1, 'rb': 1, 'nd': 1, 'da': 1})
print(histogram(ngrams(3, text)) == {
    'ban': 3, 'ana': 3, 'nan': 1, 'nab': 1, 'aba': 1,  'ann': 1, 'nne': 1, 'ner': 1, 'erb': 1, 'rba': 1, 'and': 1, 'nda': 1, 'dan': 1}) 

この`Counter`クラスは辞書でもあるので、`items()`メソッドによって項目（キーと値のペア）のコレクションを取得できる。
そして、ここでの項目とは、$n$-gramとその出現数のペアとなる。

ヒストグラム（`Counter`型）を第1引数、正の整数$k$を第2引数にとって、出現数上位$k$位までの項目を走査するイテレータを返す関数`topk_items()`を定義せよ。
ただし、6-1の練習で述べた`topk()`に倣って、同率順位を考慮した上で、for文などを使わずに高階関数を使って定義せよ。

Since this `Counter` class is a dictionary class, we can get a collection of items (key-value pairs) through the `items()` method, where an item is a pair of an $n$-gram and the number of its occurrences.

Define a function `topk_items()` that takes a histogram (of type `Counter`) as the first parameter and a positive integer $k$ as the second parameter and returns an iterator traversing top-$k$ items regarding the number of occurrences.
The `topk_items()` method must take account of the same-rank items and be defined without use of iteration like the `for` statement and with use of high-order functions by referring to the function `topk()` described in 6-1.

In [None]:
## 解答用セル（A cell for answering) ##
##===================================##
## 次の関数を完成させよ。            ##
## Complete the following function.  ##
def topk_items(hist, k):
    ...

次の3つのセルを実行して、コメントにある通りに印字されることを確認せよ。

Running the following three cells, confirm that each cell prints a string conforming to its comment.

In [None]:
print(*topk_items(histogram(ngrams(1, text)), 3)) # ('a', 7) ('n', 6) ('b', 3)

In [None]:
print(*topk_items(histogram(ngrams(2, text)), 3)) # ('an', 5) ('ba', 3) ('na', 3)

In [None]:
print(*topk_items(histogram(ngrams(3, text)), 3)) # ('ban', 3) ('ana', 3) ('nan', 1) ('nab', 1) ('aba', 1) ('ann', 1) ('nne', 1) ('ner', 1) ('erb', 1) ('rba', 1) ('and', 1) ('nda', 1) ('dan', 1)

### ▲Counterクラスの拡張
さて、上で定義した`topk_items()`は、第1引数に`Counter`クラスのヒストグラムを取る関数であり、その定義も`Counter`クラスに依存している。
つまり、`topk_items()`は、実質的に`Counter`クラスのメソッドの様な働きをする関数である。

そこで、`topk_items()`を、`Counter`クラスに、メソッド`topk()`として追加せよ。
ただし、既存の`Counter`や`topk_items()`の定義を利用すること。
具体的には、***既存定義のコードをコピーせずに***、メソッドを追加せよ。

Then, `topk_items()` defined above is a function that takes a histogram of the `Counter` class and whose definition depends on the `Counter` class.
This means that `topk_items()` substantially works as a method of the `Counter` class.

Now, add `topk_items()` to the `Counter` class as a method `topk()` by using the existing definitions of `Counter` and `topk_items()`.
Specifically, you must add the method ***without the code clone of the existing definitions***.

In [None]:
## 解答用セル（A cell for answering) ##
##===================================##


次の3つのセルを実行して、コメントにある通りに印字されることを確認せよ。

Running the following three cells, confirm that each cell prints a string conforming to its comment.

In [None]:
print(*histogram(ngrams(1, text)).topk(3)) # ('a', 7) ('n', 6) ('b', 3)

In [None]:
print(*histogram(ngrams(2, text)).topk(3)) # ('an', 5) ('ba', 3) ('na', 3)

In [None]:
print(*histogram(ngrams(3, text)).topk(3)) # ('ban', 3) ('ana', 3) ('nan', 1) ('nab', 1) ('aba', 1) ('ann', 1) ('nne', 1) ('ner', 1) ('erb', 1) ('rba', 1) ('and', 1) ('nda', 1) ('dan', 1)