# 2-4 データを工夫して記憶する"データ構造"

## 木・二分木

  <img src="images/2-4/87cbca9ac1fc160af751d0b2e87baa4e9c9fab9ebc2bf4814325548e030e01b9.png" width="500">

## プライオリティキューとヒープ
- プライオリティキュー: 以下の操作ができる構造
    - 数を追加する
    - 最小の数値を取り出す(値を取得する。その値を削除する)
- ヒープ: プライオリティキューを二分木を用いて効率的に実現したもの
  - ヒープに数字を新たに格納する手順
    - 子に格納された数は、親に格納された数より大きい
    - 木は上から下、左から右へ順に数字を詰めていく
    - 数字を追加するには、最後尾に新たな数値を追加、上下で数値の逆転がなくなるまで(この数字のほうが大きくなるまで)上に上げていく
      <img src="images/2-4/1553017ca88a522ae6d9af71c8938bbfb5e49ab2bb15076b4b8fc6d3e2d44851.png" width="400">
  - ヒープから最小値を削除する手順
    1. 根のノード(最小値)を取り出して削除
    2. 空いたところに最後尾のノードの数字を移動する
    3. 上下の逆転がなくなるまで下と入れ替えていく
        - このとき、2つの子のうち、小さい方と逆転する
        <img src="images/2-4/024c8bf729989ec1444caf5e00488a35b6befa303d91edf97a76d109dc9519a6.png" width="400">
- ヒープの操作の計算量は、上記の２つの操作ともに木の深さに比例する($O(log n)$)
- ヒープの実装例
  - ノードに番号をつけて、配列に格納する際はノード番号=要素番号とする。このとき各ノード(親)に対する子の番号は以下のルールで決める
    - $左の子の番号=自分の番号 \times 2 + 1$
    - $右の子の番号=自分の番号 \times 2 + 2$
      <img src="images/2-4/b47e50d7ddaf6c4776fb1caa11150e3ae9540f18d81503d821dc070de65af561.png" width="400">

In [1]:
heap = []
print(len(heap))

def push(x: int):
    # 自分の(追加したい)ノード番号
    if heap is False:
        i = 0
    else:
        i = len(heap) - 1
    while (i > 0):
        # 親のノード番号
        p = (i - 1) // 2

        # もう逆転していないなら抜ける
        if (heap[p] <= x):
            break
        else:
            # 親のノードの数字を自分のところに入れて、自分は上に
            heap[i] = heap[p]
            i = p
    heap[i] = x
    return

def pop(): 
    result = heap[0]

    # 根に持ってくる値(最後尾の値)を取得して削除
    last_val: int = heap.pop()  # x = heap[-1] のあと del heap[-1]でもよい
    ori_last_index = len(heap)  # xのもともとのノード番号(削除前の最後尾)

    # 根から下ろしていく
    i: int = 0  # xの現在のノード番号を定義(現在先頭なので0)
    while ((i * 2 + 1) < ori_last_index):  # 子ノードがある場合
        # 子同士を比較
        L_child = i * 2 + 1  # 左の子
        R_child = i * 2 + 2  # 右の子
        if R_child < ori_last_index and heap[R_child] < heap[L_child]:
            target_child_node = R_child
        else:
            target_child_node = L_child
        # もう逆転していないなら終わり
        if heap[target_child_node] >= last_val:
            break
        # 子の数字を持ち上げてxのノード番号を子にする
        heap[i], i = heap[target_child_node], target_child_node
    heap[i] = last_val
    return result


0


### プログラミング言語の標準ライブラリ

実際はプログラミング言語でヒープは用意されている。(最大値を返すか最小値を返すかの違いはある)

pythonでは、heapqを使用する事ができる
- heapq.heapify(a) #リストaを優先度付きキューに変換(ヒープ化)する
- heapq.heappush(a,x) #ヒープ化されたリストaに要素xをプッシュする
- heapq.heappop(a) #ヒープ化されたリストaから最小の要素をポップする
- 最大値を取得したい場合はリストの要素全てに-1をかけてからheappopで取り出した最小値に再度-1をかける

In [2]:
import heapq

# 宣言
pque = []

# 要素の追加
heapq.heappush(pque, 3)
heapq.heappush(pque, 5)
heapq.heappush(pque, 1)

# 空になるまでループ
while len(pque) != 0:
    # 最小値の取得および削除
    MIN = heapq.heappop(pque)    # MINに最小値を代入し削除する
    print(MIN)

1
3
5


### Expedition (POJ 2431)

トラックで距離Lの道を移動します。はじめトラックにはガソリンがP積まれています。このトラックは距離1走るとガソリンが1消費されます。

途中でガソリンが0になってしまうとトラックは停止してしまい、移動に失敗してしまいます。

途中にはN個ガソリンスタンドがあります。

各ガソリンスタンドは道のスタート地点から距離$A_i$の地点にあって、$B_i$だけガソリンを補給することができます。

トラックの燃料タンクの容量に制限はなく、いくらでもガソリンを補給することができます。

トラックは移動を完了できるでしょうか?またその際、最小で何回のガソリンの補給が必要でしょうか?

完了できる場合は最小の補給回数を、できない場合は-1を出力してください。


制約

$1 \leqq N \leqq 10000$

$1 \leqq L \leqq 1000000$

$1 \leqq P \leqq 1000000$

$1 \leqq A_i < L$

$1 \leqq B_i \leqq 100$

ガソリンスタンドの数Nの最大が大きいので効率的な解法を考える

実際にトラックで走る際はガソリンスタンドの場所に来たときにしかガソリンを補給できない。

しかし、

「ガソリンスタンド$i$の場所に到達したとき、以降いつでも一度だけ$B_i$補給する権利を手に入れる」

と考えても問題を特上では同様と考えられる。

後で補給したくなったときに実は前に通ったガソリンスタンドで補給していたと考えるということ。

<img src="images/2-4/2ee4ec43916b1867df86a4783eb4ca92ad981a0d5188adf1ef94964d01304ef0.png" width="400">

つまり燃料0まで走ったときに、通過したガソリンスタンドのうち一番補給量$B_i$の多い場所で補給したことにすればよい。

これを効率的に解くために先程のプライオリティキュー(ヒープ)を用いる。

In [2]:
# 入力
N = 4
L = 25
P = 10
A = [10, 14, 20, 21]
B = [10, 5, 2, 4]
MAX_N = 10000

import heapq as hp


def solve():
    # 簡単のためゴールをガソリンスタンドの配列に追加
    A.append(L)
    B.append(0)

    # ガソリンスタンドを管理する順位キュー(ヒープのリスト)
    que = []

    # ans: 補給回数, pos:現在地, tank: タンクのガソリンの量
    ans, pos, tank = 0, 0, P

    for A_i, B_i in zip(A, B):
        # 次のガソリンスタンドまでに進む距離
        d = A_i - pos

        # 次のガソリンスタンドに到着する間に燃料が切れたら、
        # 今まで通過したガソリンスタンドのうち補給量が大きい順に補給したことにする
        while tank - d < 0:
            # ストックのガソリンスタンドがなくなった場合はゴールに到達できなかったので-1
            if len(que) == 0:
                return -1
            tank += hp.heappop(que) * -1  # ストック済みのB_iの最大値を取り出す
            ans += 1  # 補給回数をカウント
        
        tank -= d  # 進む距離分燃料を消費
        pos = A_i  # 次のガソリンスタンドの距離が現在地になる
        hp.heappush(que, -1 * B_i)  # 次のガソリンスタンドで補給できる燃料をキューにストック

    print(ans)

solve()

2


### Fence Repair

p49の貪欲法出でてきた問題をプライオリティキューを利用して解く

問題文

```
農夫ジョンは、フェンスを修理するため、とても長い板からN個の板を切り出そうとしています。

切り出そうとしている板の長さは$L_1, L_2, ..., L_N$であり、元の板の長さはちょうどこれの合計になっています。

板を切断する際には、その板の長さの分だけのコストがかかります。

例えば、長さ21の板から5, 8, 8の3つの板を切り出したいとします。

長さ21の板を長さ13と8の板に切断すると、コストが21かかります。その13の板をさらに5と8の板に切断すると、コストが13かかります。

合計で34のコストがかかります。

最小で、どれだけのコストで全ての板を切り出すことができるでしょうか。

制約

$1 \leqq N \leqq 20000$
$1 \leqq L_i \leqq 20000$

```

板の集合から最も短い２つの板を取り出し、長さが２つの板の長さの和になるような板を板の集合に追加できれば良いので、順位キューを用いれば効率的に問題を解くことができる。

$O(lonN)$の操作を$O(N)$回実行するので、$O(N logN)$の計算量で全体を解くことができる。

In [3]:
# 入力

N = 3
L = [8, 5, 8]

import heapq as hp

def solve():
    # 順位キューを用意(昇順ソートしたリストを取得)
    que = L
    hp.heapify(que)

    ans = 0  # 解答
    l_1 = 0  # 長さが小さい板1
    l_2 = 0  # 長さが小さい板2
    while len(que) > 1:  # queの要素数が1になるまで(板が1枚になるまで)
        # 一番小さい板2枚の長さを取得
        l_1 = hp.heappop(que)
        l_2 = hp.heappop(que)
        # その2枚の板の長さを結合してqueに戻す
        hp.heappush(que, l_1 + l_2)
        # 切断コストを加算
        ans += l_1 + l_2

    print(ans)

solve()

34


## 二分探索木

二分探索木は次のような操作が効率的に行えるデータ構造

- 数値を追加する
- ある数値が含まれているかを調べる
- ある数値を削除する

実装によって他にもさまざまな操作が行える、応用力の高いデータ構造

全てのノードにおいて、左の子以下の数は自分の数より全て小さく、右の子以下の数は自分より大きくなるように管理する

このデータ構造は数の集合を効率的に管理することができる。例えば10を検索するには以下の図のようにする

<img src="images/2-4/fd8503e10bcc15550f54d25428286f76f65da982033136c5d68f4deb9c8b7a33.png" width="400">

新たな数字を追加する場合は、まずその数を探すのと同じ操作をするとその数字があるべき場所がわかるのでそこにノードを追加する。

例えば6を追加する。以下の図のように検索していけば5の右の子にあるべきとわかる。

逆に削除する時は複雑で、削除したい数字のノードを子ノードの数字で入れ替える必要がある。その探し方は以下となる

- 削除したいノードが左の子を持っていない場合、右の子を持ってくる
- 削除したいノードの左の子が右の子を持っていなければ、左の子を持ってくる
- どちらでもなければ、左の子以下で最も大きいノードを、削除したいノードの場所に持ってくる

<img src="images/2-4/2022-10-10-08-24-12.png" width="400">

どの操作も木の深さに否定した計算量となるので、要素数をnとして、$O(log n)$の計算量となる

In [None]:
# 以下は右ページから転載 https://kuruton.hatenablog.com/entry/2020/11/08/080000

# ノードを表す構造体
class node:
    def __init__(self):
        self.val = None
        self.lch = None
        self.rch = None

# 数xを追加
def insert(p, x):
    if p == None:
        q = node()
        q.val = x
        return q
    else:
        if x < p.val:
            p.lch = insert(p.lch, x)
        else:
            p.rch = insert(p.rch, x)
        return p

# 数xを検索
def find(p, x):
    if p == None:
        return False
    elif x == p.val:
        return True
    elif x < p.val:
        return find(p.lch, x)
    else:
        return find(p.rch, x)

# 数xを削除
def remove(p, x):
    if p == None:
        return None
    elif x < p.val:
        p.lch = remove(p.lch, x)
    elif x > p.val:
        p.rch = remove(p.rch, x)
    elif p.lch == None:
        q = p.rch
        del p
        return q
    elif p.lch.rch == None:
        q = p.lch
        q.rch = p.rch
        del p
        return q
    else:
        q = node()
        q = p.lch
        while q.rch.rch != None:
            q = q.rch
        r = q.rch
        q.rch = r.lch
        r.lch = p.lch
        r.rch = p.rch
        del p
        return r
    return p

In [None]:
# 実行例

root = None
root = insert(root, 1)    # 1を追加
print(find(root, 1))      # 1を検索
root = remove(root, 1)    # 1を削除
print(find(root, 1))      # 1を検索

### 平衡二分木

二分木のノードが右にしか追加されない場合(数字が単純増加する場合)など、偏ってしまうと、各操作は計算量$O(n)$となり、普通のリストと変わらなくなってしまう。

このようなことを避けるために平衡二分木というものがある。

このような偏りを避けるために、回転処理などをうまく使って常に平衡(左右の子の数の平衡)をとる

実装は普通の二分探索木よりも大変なため、使えるのであれば標準ライブラリのものを使いましょう

<img src="images/2-4/2022-10-10-08-46-06.png" width="300">
<img src="images/2-4/2022-10-10-08-46-41.png" width="500">


### pythonの二分探索の標準ライブラリ

pythonで標準ライブラリを使う場合は、bisectモジュールがある

ただし、要素の検索
- bisect.bisect_left()
- bisect.bisect_right()

は$O(log n)$でできるが、要素の挿入
- bisect.insort_left()
- bisect.insort_right()

は$O(n)$かかってしまうので注意

## Union-Find二分木

Union-Find木とは、グループ分けを管理するデータ構造

- 要素aと要素bが同じグループに属するかを調べる
- 要素aと要素bのグループを併合する

といったことを効率的に行える

<img src="images/2-4/2022-10-10-09-02-49.png" width="400">

### Union-Find木の仕組み

Union-Find木も木を使って表現するが、二分木とは異なる。

各要素は1つのノードで、グループごとに別の木構造となる。木の形やノード同士の親子の関係は本質ではなく。木になっているということが重要

- 操作
    1. 初期化: 全要素をノードに分解する。辺は作らない(ノードをつなげない)
    2. 併合: 片方の木の根から他の木の根に辺を張る
    3. 判定: ノードの属する木の根を調べる。根が同じなら同じグループ。違うなら違うグループ

<img src="images/2-4/2022-10-10-09-14-38.png" width="250">
<img src="images/2-4/2022-10-10-09-14-55.png" width="250">
<img src="images/2-4/2022-10-10-09-15-16.png" width="250">

### Union-Find木実装時の注意

二分探索木で述べたように、木を用いたデータ構造では、偏りが発生すると計算量が増えてしまう

偏りを避ける工夫は、
- 各木の深さ(rank)を記憶しておき、併合の際に2つの木のrankが異なる場合は、rankの小さい木のから大きい木に辺を張る
- 辺の縮約を行う

などがある

この縮約を行った時も、簡単のため木のrankは変更しない

<img src="images/2-4/2022-10-10-09-43-54.png" width="250">
<img src="images/2-4/2022-10-10-09-44-32.png" width="250">
<img src="images/2-4/2022-10-10-09-45-00.png" width="250">


この2つの工夫を行うと、1度の操作の計算量は$O(α(n))$であることがしられている。この$α(n)$はアッカーマン関数の逆関数*であり、$O(log(n))$より高速である。

※ 正確には、アッカーマン関数を$A$として、関数$f(n)=A(n, n)$の逆関数

[アッカーマン関数のWIkipedia](https://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%83%E3%82%AB%E3%83%BC%E3%83%9E%E3%83%B3%E9%96%A2%E6%95%B0)

In [1]:
# Union-Find木の実装。右のページから転載 https://kuruton.hatenablog.com/entry/2020/11/11/080000

MAX_N = 10 ** 8

par = [0] * MAX_N     # 親
rank = [0] * MAX_N    # 木の深さ

# n要素で初期化
def init(n):
    for i in range(n):
        par[i] = i
        rank[i] = 0

# 木の根を求める
def find(x, par):
    if par[x] == x:
        return x
    else:
        par[x] = find(par[x], par)
        return par[x]

# xとyの属する集合を併合
def unite(x, y, par, rank):
    x = find(x, par)
    y = find(y, par)
    if x == y:
        return
    if rank[x] < rank[y]:
        par[x] = y
    else:
        par[y] = x
        if rank[x] == rank[y]:
            rank[x] += 1

# xとyが同じ集合に属するか否か
def same(x, y, par, rank):
    return find(x, par) == find(y, par)

In [2]:
# 実行例

init(100)                       # 要素数が100のUnion-Find木を作る
print(same(0, 1, par, rank))    # 0と1が同じ集合に属するかを確認する
unite(0, 1, par, rank)          # 0と1の属する集合を併合する
print(same(0, 1, par, rank))    # 0と1が同じ集合に属するかを確認する

False
True


### 食物連鎖 (POJ 1182)

N匹の動物がいて、1, 2, ..., Nと番号が付けられています。動物はすべて3つの種類 A, B, Cのいずれかです。

AはBを食べ、BはCを食べ、CはAを食べます。次の2種類の情報が順番にK個与えられます。
- タイプ1: xとyは同じ種類です。
- タイプ2: xはyを食べます。

これらはすべて正しいとは限りません。以前に与えられた情報と矛盾する情報や、x, yが正しい番号(1, 2, ... , N)でないような正しくない情報が与えられる可能性があります。

K個の情報のうち、そのような情報の個数を出力してください。そのような情報は捨てると考えます。

制約

$1 \leqq N \leqq 50000$

$0 \leqq K \leqq 100000$

Union-Find木は「同じグループ」を管理するデータ構造だが、今回は同じ種類ということだけでなく、「食べる」という関係も管理しなければならない。

各動物1, ..., i, ..., Nについて、3つの要素i-A, i-B, i-Cを作り、3×N個の要素でのUnion-Find木を作る。

このUnion-Find木を次のようなものと考える
- i-?は「iが種類?(A or B or C)である場合」を表す
- 各グループはそれらが全て同時に起こることがわかっていることを表す
    - つまりグループ内の要素は

例えばi-Aとj-Bが同じグループである場合、iが種類Aならばjは必ず種類Bであり、jが種類Bならばiが必ず種類Aであることを表している。
言い換えると、同じグループである=辺でつながっている要素同士は矛盾せず、既に確定している事項であると考える

すると各情報タイプ1, 2について、以下を行えばいいことがわかる。

- タイプ1: xとyが同じ種類・・・「x-Aとy-A」を併合、「x-Bとy-B」を併合、「x-Cとy-C」を併合
- タイプ2: xはyを食べる・・・「x-Aとy-B」を併合、「x-Bとy-C」を併合、「x-Cとy-A」を併合

<img src="images/2-4/2022-10-10-10-21-03.png" width="400">
<img src="images/2-4/2022-10-10-11-10-30.png" width="500">

ただし、それぞれの前に矛盾が起きているかのチェックをする。チェックの仕方は、
- タイプ1: x-Aとy-B or x-Aとy-Cが同じグループでないことを確認
- タイプ2: x-Aとy-A or x-Aとy-Cが同じグループでないことを確認

ここでx-B, x-Cについても確認したくなるが、実際は3つのグループどれにおいても同じ木が作成される(木同士、グループ同士は等価)ため、確認は不要である。

In [4]:
# 入力（Tは情報のタイプ）
N, K = 100, 7
T = [1, 2, 2, 2, 1, 2, 1]
X = [101, 1, 2, 3, 1, 3, 5]
Y = [1, 2, 3, 3, 3, 1, 5]

# Union-Find木のソースコード
class UnionFindTree():
    # n要素で初期化
    def __init__(self, n):
        self.n = n
        self.par = list(range(n))
        self.rank = [0] * n

    # 木の根を求める
    def find(self, x):
        if self.par[x] == x:
            return x
        else:
            self.par[x] = self.find(self.par[x])
            return self.par[x]

    # xとyの属する集合を併合
    def unite(self, x, y):
        x = self.find(x)
        y = self.find(y)
        if x == y:
            return

        if self.rank[x] < self.rank[y]:
            self.par[x] = y
        else:
            self.par[y] = x
            if self.rank[x] == self.rank[y]:
                self.rank[x] += 1

    # xとyが同じ集合に属するか否か
    def same(self, x, y):
        return self.find(x) == self.find(y)

def solve():
    # Union-Find木を初期化
    # x, x + N, x + 2 * N を x-A, x-B, x-Cの要素とする
    UFT = UnionFindTree(N * 3)

    ans = 0
    for type, x, y in zip(T, X, Y):
        x = x - 1    # 0, ..., N - 1の範囲に修正
        y = y - 1
        
        # x,yが0 ~ N - 1 の範囲にあるかどうかをチェック
        if x < 0 or N <= x or y < 0 or N <= y:
            ans += 1  # 間違った情報の数にカウント
            continue
        
        if type == 1:
            # 「xとyは同じ種類」という情報が与えられた時
            # この時に矛盾する条件(x-Aとy-B or y-Cが同じグループかどうか)をチェック
            # A, B, Cは等価のため、x-B, x-Cについてのチェックは不要
            if UFT.same(x, y + N) or UFT.same(x, y + 2 * N):
                # 同じグループの場合は情報が間違っている
                ans += 1
            else:
                # 情報タイプ1が成り立つので(x-A, y-A), (x-B, y-B), (x-C, y-C)をそれぞれ併合する
                UFT.unite(x, y)
                UFT.unite(x + N, y + N)
                UFT.unite(x + N * 2, y + N * 2)
        else:
            # 「xはyを食べる」という情報が与えられた時
            # 情報タイプ2が矛盾する条件(x-Aとy-A or y-Cが同じグループ)が既にあるかチェック
            # A, B, Cは等価のため、x-B, x-Cについてのチェックは不要
            if UFT.same(x, y) or UFT.same(x, y + 2 * N):
                ans += 1
            else:
                # 情報タイプ2が成り立つので(x-A, y-B), (x-B, y-C), (x-C, y-A)をそれぞれ併合する
                UFT.unite(x, y + N)
                UFT.unite(x + N, y + 2 * N)
                UFT.unite(x + 2 * N, y)

    print(ans)

solve()

3
