In [None]:
##================================================
## このセルを最初に実行せよ---Run this cell first.
##================================================
!wget -P . https://raw.githubusercontent.com/utokyo-ipp/utokyo-ipp.github.io/master/colab/4/sample.txt
!wget -P . https://raw.githubusercontent.com/utokyo-ipp/utokyo-ipp.github.io/master/colab/4/shift_jis.txt
!wget -P . https://raw.githubusercontent.com/utokyo-ipp/utokyo-ipp.github.io/master/colab/4/test.txt
!wget -P . https://raw.githubusercontent.com/utokyo-ipp/utokyo-ipp.github.io/master/colab/4/utf-8.txt
!wget -P text https://raw.githubusercontent.com/utokyo-ipp/utokyo-ipp.github.io/master/colab/4/text/novel.txt

# 4-3. コンピュータにおけるファイルやディレクトリの配置

木構造のデータ形式について説明します。
この内容はPython言語に限らず、WindowsやMac、Linuxなどの一般的なOSにおいて共通する概念です。
Colaboratoryでは、同様の構造が仮想環境上に作られます。

みなさん、Windowsではエクスプローラ、MacではFinderを使ってファイルを階層的に保存していますよね。

下の例では、Windowsで `ドキュメント`（`Documents`) という名前のフォルダの中に
`Python入門` というフォルダを作り、
その下にこの教材を置いた時の、エクスプローラの様子を表しています。

![エクスプローラ](https://raw.githubusercontent.com/utokyo-ipp/utokyo-ipp.github.io/master/colab/./4/fig/Explore.png)


これは Jupyter Notebook では以下のように見えます。

![Jupyter Notebook](https://raw.githubusercontent.com/utokyo-ipp/utokyo-ipp.github.io/master/colab/./4/fig/jupyterTree.png)

このようなデータ形式は以下のような図で表すこともできます。
まるで木を逆さにしたような形に見えますね。
ですからこのようなデータの形式を「木構造」と呼びます。

また、一番根っこにあたるデータを「ルート（根）」、先端にあたるデータを「リーフ（葉）」、その間にあるデータを「ノード（節）」と呼びます。

![Jupyter Notebook tree](https://raw.githubusercontent.com/utokyo-ipp/utokyo-ipp.github.io/master/colab/./4/fig/jupyterTreeIllust.png) 


データの保存においては、ファイルはリーフ（葉）に相当し、フォルダはノード（節）に相当します。
ルートはハードディスクやUSBメモリなど記録媒体自体に対応することが多いです。
ハードディスクに入っているファイルと、USBメモリに入っているファイルは、それぞれ違う木に属するデータということです。

特にファイルの場所を意味するとき、フォルダのことを**ディレクトリ**と呼びます。

## カレントワーキングディレクトリ

プログラムは、必ずどこかのディレクトリで動いています。
このプログラムが動作しているディレクトリのことを、**ワーキングディレクトリ**（もしくは**作業ディレクトリ**）と呼びます。
通例、特にWindowsやmacOSでは、何らかのファイルをクリックしてアプリケーションが起動したとき、その開いたファイルのある場所がワーキングディレクトリになります。

ワーキングディレクトリは、プログラムの実行中に変更できます。
Python上では [**`os.chdir`**](https://docs.python.org/ja/3/library/os.html#os.chdir) を使うことで変更できます。

プログラム実行中の現在のワーキングディレクトリのことを、**カレントワーキングディレクトリ**、もしくは単に**カレントディレクトリ**と呼びます。
カレントディレクトリは頻繁に利用するので、 `.` という特別な記号によって表現できます。
## パス

カレントディレクトリに置かれているファイルは、ファイル名を指定するだけで開くことができます。
だから、4-1で示したように、カレントディレクトリにある `sample.txt` は、ファイル名を指定するだけで開けます。

In [None]:
open('sample.txt', 'r', encoding='utf-8')

一方、それ以外の場所にあるファイルについては、そのファイルのディレクトリまで含めて指定しなければ、開くことができません。

In [None]:
open('novel.txt', 'r')

カレントディレクトリに存在しない `novel.txt` を開こうとしたので `FileNotFoundError` が生じました。
`novel.txt` は、`text` というディレクトリの中にあるので、それ明示するために、`/` で区切って、次のように指定します。

In [None]:
open('text/novel.txt', 'r', encoding='utf-8')

実は、カレントディレクトリにあるファイルが、ファイル名の指定だけで開けるのは、自動的に `./` が補われていたからでした。

`open` の第1引数に渡す文字列ような、ファイルやディレクトリの場所を指定する表記を、**パス**と呼びます。
パス（経路）と呼ぶのは、`/` 区切りで1歩ずつ次に進むディレクトリを指定することに由来しています。

パスを記述する際、ルートディレクトリは `/` で表されます。
ルートディレクトリから始まるパスを、**絶対パス**と呼びます。
一方、カレントディレクトリからのパスを、**相対パス**と呼びます。
パス表記において `/` 以外から始まる場合は、自動的に先頭に `./` が補われて、相対パスとして扱われます。

さて、`./text/` というパス表記は、カレントディレクトリにある一段下の `text` ディレクトリに進むことに対応します。
これに、一段上のディレクトリを表す `..` を組み合わせることで、より柔軟にパスを指定できます。

たとえば、`./text/../` は `./` と同じディレクトリを指します。

In [None]:
with open('sample.txt', 'r', encoding='utf-8') as f:
    print(f.read(), end='')

In [None]:
with open('./text/../sample.txt', 'r', encoding='utf-8') as f:
    print(f.read(), end='')

また、カレントディレクトリを `./text/` に変化させた後に、`sample.txt`を開くときには、`../sample.txt`と指定することができます。

In [None]:
import os
os.chdir('./text') # 1段下の text に行く
with open('../sample.txt', 'r', encoding='utf-8') as f:
    print(f.read())
os.chdir('..') # 元のディレクトリに戻る

## 木構造によるデータ表現

木構造はファイルやディレクトリの保存形式だけでなく、データの表現として幅広く利用されます。
たとえば家系図も木構造による表現です。「家系図」は英語で "family tree" ですよね。

![Family tree](https://raw.githubusercontent.com/utokyo-ipp/utokyo-ipp.github.io/master/colab/./4/fig/FamilyTree.png)

このような構造を持つデータでは、まるで家系図のように、
上位下位関係にあるデータ同士を「親子 (parent/child)」と呼んだり、
同位関係にあるものを「兄妹 (sibling)」と呼んだりします。
「祖先 (ancestor)」や「子孫 (desendant)」という表現も使われます。

データのこのような表現は、実際に親子関係にあるかは関係ありません。
たとえば下の図は四肢動物の系統樹です。

![tree](https://raw.githubusercontent.com/utokyo-ipp/utokyo-ipp.github.io/master/colab/./4/fig/PhylogeneticTree.png)

データ構造的には、「有羊膜類」と「哺乳類」は親子関係にあるというわけです。