# pythonからのOS操作

## ファイルパスのリストを取得する(glob)
ワイルドカードを使ってファイル名（パス名）のリストを取得する  
練習用データ：http://medicalsegmentation.com/covid19/
* rp_im: CTデータのイメージ  
* rp_msk: CTデータの病変箇所のラベル付けしてセグメンテーションされたデータ
    

In [7]:
# from glob import globとすればglob.globとする必要はなくなる
#import glob
from glob import glob
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [9]:
# ファイルパスリストを取得
glob('../../*')

['../../Trouble_Shooting',
 '../../OpenCV',
 '../../Scraping',
 '../../pandas',
 '../../Matplotlib',
 '../../advanced',
 '../../basic',
 '../../sample_data',
 '../../Seaborn',
 '../../NumPy']

In [10]:
glob('../../pandas/sample_data/*')

['../../pandas/sample_data/tmdb_5000_credits.csv',
 '../../pandas/sample_data/tmdb_5000_movies.csv',
 '../../pandas/sample_data/Sales-sample.csv',
 '../../pandas/sample_data/stock.csv']

In [14]:
# アスタリスクを使って階層にすると、配下のディレクトリに格納されているすべてのファイル・フォルダが分かる
glob('../../sample_data/public_covid_data/*/*')

['../../sample_data/public_covid_data/rp_im/4.nii',
 '../../sample_data/public_covid_data/rp_im/1.nii',
 '../../sample_data/public_covid_data/rp_im/8.nii',
 '../../sample_data/public_covid_data/rp_im/9.nii',
 '../../sample_data/public_covid_data/rp_im/6.nii',
 '../../sample_data/public_covid_data/rp_im/5.nii',
 '../../sample_data/public_covid_data/rp_im/7.nii',
 '../../sample_data/public_covid_data/rp_im/3.nii',
 '../../sample_data/public_covid_data/rp_im/2.nii',
 '../../sample_data/public_covid_data/rp_msk/4.nii',
 '../../sample_data/public_covid_data/rp_msk/1.nii',
 '../../sample_data/public_covid_data/rp_msk/8.nii',
 '../../sample_data/public_covid_data/rp_msk/9.nii',
 '../../sample_data/public_covid_data/rp_msk/6.nii',
 '../../sample_data/public_covid_data/rp_msk/5.nii',
 '../../sample_data/public_covid_data/rp_msk/7.nii',
 '../../sample_data/public_covid_data/rp_msk/3.nii',
 '../../sample_data/public_covid_data/rp_msk/2.nii']

In [15]:
# ファイル名の先頭が5-9で始まるファイルを取得
glob('../../sample_data/public_covid_data/rp_im/[5-9]*')

['../../sample_data/public_covid_data/rp_im/8.nii',
 '../../sample_data/public_covid_data/rp_im/9.nii',
 '../../sample_data/public_covid_data/rp_im/6.nii',
 '../../sample_data/public_covid_data/rp_im/5.nii',
 '../../sample_data/public_covid_data/rp_im/7.nii']

## osとpathlib
パスの表現方法はOSによって違うことがあるので、文字列で扱うのは危険。  
osとpathlibを使うことで安全にパスを操作できる。

In [17]:
import os
# PathクラスのみインポートでOK
from pathlib import Path

In [33]:
# Pathクラスのインスタンスpを作成
p = Path('../../sample_data/public_covid_data/')

In [38]:
# iteratorを作成。サブディレクトリの情報を取得できる。
p_i = p.iterdir()

In [39]:
# nextの結果もPathオブジェクトである。
next(p_i)

PosixPath('../../sample_data/public_covid_data/rp_im')

In [40]:
# nextの結果もPathオブジェクトなので、iterdir()することによりさらに下のサブディレクトリのパスを取得できる
next(next(p_i).iterdir())

PosixPath('../../sample_data/public_covid_data/rp_msk/4.nii')

In [47]:
# iteratorに対してlist()を使うことで中身をリストで取得できる
sub_p = list(p.iterdir())[0]
sub_p

PosixPath('../../sample_data/public_covid_data/rp_im')

In [48]:
list(sub_p.iterdir())

[PosixPath('../../sample_data/public_covid_data/rp_im/4.nii'),
 PosixPath('../../sample_data/public_covid_data/rp_im/1.nii'),
 PosixPath('../../sample_data/public_covid_data/rp_im/8.nii'),
 PosixPath('../../sample_data/public_covid_data/rp_im/9.nii'),
 PosixPath('../../sample_data/public_covid_data/rp_im/6.nii'),
 PosixPath('../../sample_data/public_covid_data/rp_im/5.nii'),
 PosixPath('../../sample_data/public_covid_data/rp_im/7.nii'),
 PosixPath('../../sample_data/public_covid_data/rp_im/3.nii'),
 PosixPath('../../sample_data/public_covid_data/rp_im/2.nii')]

In [51]:
# pathオブジェクトに対してglobを実行すると、該当するpathオブジェクトのiteratorを返す
list(sub_p.glob('*[6-9]*'))

[PosixPath('../../sample_data/public_covid_data/rp_im/8.nii'),
 PosixPath('../../sample_data/public_covid_data/rp_im/9.nii'),
 PosixPath('../../sample_data/public_covid_data/rp_im/6.nii'),
 PosixPath('../../sample_data/public_covid_data/rp_im/7.nii')]

In [52]:
target_file = list(sub_p.glob('*[6-9]*'))[0]

In [55]:
# os.path.split:パスのファイル名（tail）とフォルダパス(head)をタプルで返す
os.path.split(target_file)

('../../sample_data/public_covid_data/rp_im', '8.nii')

In [56]:
folder_p, file_name = os.path.split(target_file)

In [57]:
folder_p

'../../sample_data/public_covid_data/rp_im'

In [58]:
file_name

'8.nii'

In [59]:
# 引数の文字列を結合してパスを作る
os.path.join(folder_p, file_name)

'../../sample_data/public_covid_data/rp_im/8.nii'

In [61]:
## フォルダの作成
p = Path('../../sample_data/public_covid_data')
new_folder_name = 'new_folder'
# joinの引数にはPathオブジェクトを入れることも可能
new_folder_path = os.path.join(p, new_folder_name)
new_folder_path

'../../sample_data/public_covid_data/new_folder'

In [63]:
## フォルダを作成する前に既にあるかどうかチェック。
os.path.exists(new_folder_path)

False

In [64]:
# os.makedirs():フォルダの作成
# existがFalseだったら（フォルダがなかったら）
if not os.path.exists(new_folder_path):
    os.makedirs(new_folder_path)

In [65]:
os.path.exists(new_folder_path)

True

In [66]:
# もし既にあるとエラーになる
os.makedirs(new_folder_path)

FileExistsError: [Errno 17] File exists: '../../sample_data/public_covid_data/new_folder'

### 以下、個人的な雑記

そもそもPathオブジェクトを作る段階からos.path.joinを使った方が良いのでは。

In [69]:
p2 = os.path.join('..', '..', 'sample_data', 'public_covid_data') 
p2

'../../sample_data/public_covid_data'

In [70]:
os.path.exists(p2)

True

結果、問題なさそうなので以後これで指定する。