# glob (グロブ)
- ワイルドカードをつかて file path名のリストを取得する
    - よくワイルドカードは「　*　」 (アスタリスク)で記述される


- http://medicalsegmentation.com/covid19/
    - 上記から　ファイルを取得してくる

In [3]:
# import glob / from を使用することで　glob の関数だけを　import できる
from glob import glob

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

In [4]:
# glob.glob('*')
glob('*')

['glob.ipynb', 'rp_im', 'rp_msk']

### glob
- *引数のパターンにマッチする file path の list を取得*
    - ＊　:　ワイルドカード(０文字以上の任意の文字列)

In [11]:
glob('../public-covid-data/*/*')

['../public-covid-data/rp_im/1.nii.gz',
 '../public-covid-data/rp_im/2.nii.gz',
 '../public-covid-data/rp_im/3.nii.gz',
 '../public-covid-data/rp_im/4.nii.gz',
 '../public-covid-data/rp_im/5.nii.gz',
 '../public-covid-data/rp_im/6.nii.gz',
 '../public-covid-data/rp_im/7.nii.gz',
 '../public-covid-data/rp_im/8.nii.gz',
 '../public-covid-data/rp_im/9.nii.gz',
 '../public-covid-data/rp_msk/1.nii.gz',
 '../public-covid-data/rp_msk/2.nii.gz',
 '../public-covid-data/rp_msk/3.nii.gz',
 '../public-covid-data/rp_msk/4.nii.gz',
 '../public-covid-data/rp_msk/5.nii.gz',
 '../public-covid-data/rp_msk/6.nii.gz',
 '../public-covid-data/rp_msk/7.nii.gz',
 '../public-covid-data/rp_msk/8.nii.gz',
 '../public-covid-data/rp_msk/9.nii.gz']

- CT data : nii (ニフティー)　file

In [14]:
glob('rp_im/[2-5]*')

['rp_im/2.nii.gz', 'rp_im/3.nii.gz', 'rp_im/4.nii.gz', 'rp_im/5.nii.gz']

# os と pathlib

- 製品として開発するときに　path を文字列として扱うのは危険が伴う
    - os が違う時にしっかりと動くのか… リスクがある
    - 個人の場合は問題ないが、製品として使用する場合にはそこまでの対応が必須
    

- <u>一般的には os と path が安全で推奨されている</u>

In [15]:
import os
# import pathlib
from pathlib import Path

In [51]:
p = Path('../public-covid-data/')

In [52]:
p

PosixPath('../public-covid-data')

In [56]:
sub_p = list(p.iterdir())[2]

In [58]:
list(sub_p.iterdir())

[PosixPath('../public-covid-data/rp_im/1.nii.gz'),
 PosixPath('../public-covid-data/rp_im/2.nii.gz'),
 PosixPath('../public-covid-data/rp_im/3.nii.gz'),
 PosixPath('../public-covid-data/rp_im/4.nii.gz'),
 PosixPath('../public-covid-data/rp_im/5.nii.gz'),
 PosixPath('../public-covid-data/rp_im/6.nii.gz'),
 PosixPath('../public-covid-data/rp_im/7.nii.gz'),
 PosixPath('../public-covid-data/rp_im/8.nii.gz'),
 PosixPath('../public-covid-data/rp_im/9.nii.gz')]

In [62]:
target_file = list(sub_p.glob('*[6-9]*'))[0]

In [63]:
target_file

PosixPath('../public-covid-data/rp_im/6.nii.gz')

- file名 (tail) と folder (head) に分けることができる

In [64]:
os.path.split(target_file)

('../public-covid-data/rp_im', '6.nii.gz')

- tuple型で返ってくる　:　head ( フォルダー path ) と　tail ( ファイル名 )に split する
    - *変数に入れることで unpacking して汎用的に使用できる*

In [65]:
folder_p, file_name = os.path.split(target_file)

In [66]:
folder_p

'../public-covid-data/rp_im'

In [67]:
file_name

'6.nii.gz'

#### os を使用する事で上記のように　path　を取得でき安全
- *文字列操作をせずに変数で扱うことができるので、 hard coding にもならないし安全に扱える*

In [68]:
os.path.join(folder_p, file_name)

'../public-covid-data/rp_im/6.nii.gz'

#### os.path.join( )　で　path どうしを連結する事もできる

## folder 作成
- data science, 機械学習でもよく使用する
    - data 処理後の中間ファイル, log file, model などを保存の時...
    - program の中で自動で　file　を作成して自動で保存する code を書いたりする事が非常に多い

In [70]:
# public-covid-data / new_folderを作成

p = Path('../public-covid-data/')
new_folder_name = 'new_folder'
new_folder_path = os.path.join(p, new_folder_name)
new_folder_path

'../public-covid-data/new_folder'

## os.path.exists( )
- すでにその　file or directory(folder)　が存在するかどうか？確かめる事ができる

In [72]:
os.path.exists(new_folder_path)

False

## os.makedirs( )
- folder 作成

In [73]:
if not os.path.exists(new_folder_path):
    os.makedirs(new_folder_path)

In [74]:
os.makedirs(new_folder_path)

FileExistsError: [Errno 17] File exists: '../public-covid-data/new_folder'

#### すでにある folder は作成できないので、上記のような　error が出ないように　if文を使用して対応する


- *data science では　path 操作は必須*
    - **path の扱い、関数の扱いなど、マスターしておく事**


- まずは glob をしっかりと覚える
    - 文字列にしてしまえば、あとは如何様にもできる


- 慣れてきたら、 os path を使用していく