<a href="https://colab.research.google.com/github/naomori/nsoft_pylib/blob/master/01_file_directory.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ファイルやディレクトリを操作するライブラリ

os, shutils を中心に扱います。
* 大量のフォルダーの作成
* ファイルの移動・リネーム

など。

# 複数階層のディレクトリをまとめて作成

#### os.makedirs 関数
ディレクトリを作成します。
os.mkdir があるけど、os.makedirs なら複数のディレクトリを作れます。



In [5]:
!ls

sample_data


In [0]:
import os

In [0]:
os.makedirs("test")

In [8]:
!ls

sample_data  test


In [10]:
os.makedirs("test")

FileExistsError: ignored

In [0]:
os.makedirs("test", exist_ok=True)

# ファイルのコピー

shutil.copy 関数を使います。  
コピー元の時刻を変えずにコピーしたい場合は、
shutil.copy2 関数を使います。


In [0]:
import shutil

In [14]:
!ls sample_data

anscombe.json		      mnist_test.csv
california_housing_test.csv   mnist_train_small.csv
california_housing_train.csv  README.md


In [15]:
!cat sample_data/README.md

This directory includes a few sample datasets to get you started.

*   `california_housing_data*.csv` is California housing data from the 1990 US
    Census; more information is available at:
    https://developers.google.com/machine-learning/crash-course/california-housing-data-description

*   `mnist_*.csv` is a small sample of the
    [MNIST database](https://en.wikipedia.org/wiki/MNIST_database), which is
    described at: http://yann.lecun.com/exdb/mnist/

*   `anscombe.json` contains a copy of
    [Anscombe's quartet](https://en.wikipedia.org/wiki/Anscombe%27s_quartet); it
    was originally described in

    Anscombe, F. J. (1973). 'Graphs in Statistical Analysis'. American
    Statistician. 27 (1): 17-21. JSTOR 2682899.

    and our copy was prepared by the
    [vega_datasets library](https://github.com/altair-viz/vega_datasets/blob/4f67bdaad10f45e3549984e17e1b3088c731503d/vega_datasets/_data/anscombe.json).


In [16]:
shutil.copy("sample_data/README.md", "test")

'test/README.md'

In [17]:
!ls test

README.md


In [18]:
shutil.copy("sample_data/README.md", "test/copy.md")

'test/copy.md'

In [19]:
!ls test

copy.md  README.md


# ディレクトリのコピー

ディレクトリのコピーには、shutil.copytree を使います。

In [20]:
shutil.copytree("test", "test_copy")

'test_copy'

In [21]:
!ls test_copy

copy.md  README.md


# ファイル/ディレクトリの移動

ファイルやディレクトリの移動には、shutil.move を使います。

In [22]:
!ls
shutil.move("test_copy", "test_move")
!ls

sample_data  test  test_copy
sample_data  test  test_move


# ファイル/ディレクトリのリネーム

ファイルやディレクトリのリネームには、shutil.rename を使います。

In [23]:
!ls
shutil.move("test_move", "test_rename")
!ls

sample_data  test  test_move
sample_data  test  test_rename


# ファイル/ディレクトリの削除

ファイルの削除は、os.remove 関数を使います。
ディレクトリの削除は、shutil.rmtree 関数を使います。

In [24]:
!ls test_rename
os.remove("test_rename/copy.md")
!ls test_rename

copy.md  README.md
README.md


In [25]:
!ls
shutil.rmtree("test_rename")
!ls

sample_data  test  test_rename
sample_data  test


# パスの組み立てに重宝する関数

パスの組み立てに便利なのは、os.path.join 関数です。
パスの区切り文字はOSで異なることもありますが、この関数はそれを吸収してくれます。

In [26]:
os.path.join("test", "README.md")

'test/README.md'

In [27]:
shutil.copytree("test", "test/test_copy")
!ls test

copy.md  README.md  test_copy


In [28]:
os.path.join("test", "test_copy", "copy.md")

'test/test_copy/copy.md'

# パスを分割した文字列を取得

パスの文字列を分割したり抽出したりする関数が os.path にあります。
* os.path.split 関数は、パスを最後の要素と、それより前の部分に分割します。
* os.path.splitext 関数は、最後の要素の拡張子と、それより前の部分に分割します。

In [32]:
file_path = os.path.join("test", "test_copy", "copy.md")
path,file = os.path.split(file_path)
print("path:%s \"/\" file:%s" % (path, file))

path:test/test_copy "/" file:copy.md


In [33]:
file_path = os.path.join("test", "test_copy", "copy.md")
path,ext = os.path.splitext(file_path)
print("path:%s \"/\" ext:%s" % (path, ext))

path:test/test_copy/copy "/" ext:.md


# パスを分割した片方のみを抽出

* os.path.basename 関数は、パスの文字列の最後の要素のみを取り出して返す
* os.path.dirname 関数は、パスの文字列の最後の要素より前の部分のみを抽出する

In [34]:
file_path = os.path.join("test", "test_copy", "copy.md")
file_name = os.path.basename(file_path)
print(file_name)

copy.md


In [36]:
file_path = os.path.join("test", "test_copy", "copy.md")
dir_name = os.path.dirname(file_path)
#print(dir_name)

test/test_copy


# ファイル / ディレクトリの存在を調べる

* os.path.isfile 関数は、ファイルの存在を調べる
  - 同名のディレクトリがあっても False を返す
* os.path.isdir 関数は、ディレクトリの存在を調べる
  - 同名のファイルがあっても False を返す
* os.path.exists 関数は、ファイル/ディレクトリの存在を調べる
  - ファイルでもディレクトリでもあれば True を返す
  

In [38]:
!ls test
os.path.isfile("test/README.md")

copy.md  README.md  test_copy


True

In [39]:
os.path.isdir("test")

True

In [42]:
os.path.isfile("test/hoge.md")

False

In [43]:
os.path.isfile("test")

False

In [41]:
os.path.isdir("hoge")

False

In [44]:
os.path.isdir("test/README.md")

False

In [45]:
os.path.exists("test")

True

In [48]:
os.path.exists("test/README.md")

True

In [49]:
os.path.exists("test/test")

False

# ディレクトリの中身を調べる

* os.listdir 関数により指定したディレクトリに含まれるファイルとフォルダの名前のリストを返す
  - 順番はアルファベット順になる

In [50]:
os.listdir("test")

['README.md', 'copy.md', 'test_copy']

* glob.glob 関数は、パターンマッチングによって必要な名前のリストを返す
  - パターンマッチングには正規表現が使えます

In [59]:
import glob
glob.glob('test/*.md')

['test/README.md', 'test/copy.md']

# ディレクトリの中身をすべて調べる

* os.walk 関数は、指定したディレクトリのサブディレクトリの中身も調べます
  - 結果は、(dirpath, dirnames, filenames)
  - dirpath: 走査したディレクトリ名
  - dirname: サブディレクトリ名のリスト
  - filenames: ファイル名のリスト
  
  topdown 引数により以下の挙動が変わります。
  * True: 最上位のディレクトリから走査し、サブディレクトリに移る
  * False: ボトムアップで走査

In [64]:
for tpl in os.walk("test"):
  print(tpl)

('test', ['test_copy'], ['README.md', 'copy.md'])
('test/test_copy', [], ['README.md', 'copy.md'])


In [65]:
for tpl in os.walk("test", topdown=False):
  print(tpl)

('test/test_copy', [], ['README.md', 'copy.md'])
('test', ['test_copy'], ['README.md', 'copy.md'])
