### Completing a tree

#### 生物学的背景
- 系統樹は一種の無向グラフとして解釈することができる
- すべての種に対して木を書くのは複雑なので、簡略化のために、タクソン (分類群)というまとまりで系統樹を作ることがある

#### 問題
- 無向グラフが連結しているとき、任意の2つのノードはエッジでつながれる
- 木とは、循環がなく、連結しているグラフのことである
- 木では、あるノードを根として定義した時に、他のノードは、分岐構造を形成するように強制される
- 木構造では、次数が1 のものが葉と呼ばれ、次数が2以上のものは、internal node と呼ばれる

- Given : 循環のないn 個のノードを持つグラフが、隣接リストの形で与えられる (n <= 1000)
- Return : 与えられたグラフを木構造にするために最低限加えなければならないノードの数

## 木構造を作るなら、エッジの数 e = n -1 が成り立つ ?
- n = 1 の時はそもそもエッジがないので、e = 0 成り立つ
- n = k の時、e = k - 1 が成り立つと仮定する
- n = k + 1の時、循環が生じないように一つノードを足すため、エッジは一つしか増えない
  - したがって、 e = (k +1) -1 が成り立つ
- 任意のkに対して e = k - 1が成り立つ

### 入力
10
1 2
2 8
4 10
5 9
6 10
7 9

- スペース区切りのテキストファイル
- 1 列目はノード数を表す
- 2 列目からが隣接リスト

In [None]:
# 結局ノード数と、現状のエッジ数だけ欲しいので、ファイルの一行目以外は、行数を数えるだけで良い
def calc_min_edge_to_tree(file_path: str) -> int:
    with open(file_path, 'r') as file:
        node_count = int(file.readline()) # 一行目だけ読み込む
        edge_count = sum(1 for line in file) # 残りの行数を数える
    return node_count - 1 - edge_count



In [None]:
# awk で書くなら、もっと短くかける
# NR は現在の行番号を表す変数
!awk 'NR==1 {n=$1} NR>1 {e++} END {print n-1-e}' sample.txt

3


In [2]:
answer = calc_min_edge_to_tree('sample.txt')
print(answer)

3
