# tqdm
## プログレスバーを表示する(tqdm)
ループ処理の際にプログレスバーを表示してくれる。  
データサイエンスでは長時間のループ処理を行うことが多いので、進捗状況を見たいシーンをは多い。  
ただし、tqdmを入れることでプログレスバーを表示する処理が走るので余分に処理時間が増える点は注意。

In [5]:
# 基本はtqdm関数のみでOK
from tqdm import tqdm

In [9]:
# tqdmにはiterableなオブジェクトを入れる
import time
total = 0
before = time.time()

# 1e7などの表現はfloatなのでintにキャストする必要あり。
# tqdmを使う場合は、()にイテラブルなオブジェクトを入れるだけでOK
for i in tqdm(range(int(1e7))):
    total += 1
    
print(total)
after = time.time()
print('it took {}'.format(after - before))


100%|██████████| 10000000/10000000 [00:03<00:00, 3009998.87it/s]

10000000
it took 3.332507848739624





tqdmをいれることで処理時間は増える。実際の業務ではfor文内の処理の方が重いので、  
tqdmの影響はそこまで気にならない。

In [60]:
# 練習用のdfを作成する。
# columnx: path_im, filename, path_msk
from glob import glob
import os
from pathlib import Path
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
p = Path(os.path.join('..','..','sample_data','public_covid_data'))
p

PosixPath('../../sample_data/public_covid_data')

In [61]:
next(p.iterdir())

PosixPath('../../sample_data/public_covid_data/rp_im')

### 美しくない書き方

In [95]:
# 大元のパスp配下のリストをp_subで受け取り、p_sub配下のファイル一覧をpath_imに格納する
dirs = [list(p_sub.iterdir()) for p_sub in list(p.iterdir())]
# 上の書き方だと、リストの中にリストが入るので中身をみてimとmskを振り分ける必要あり。
path_im = dirs[1]
path_msk = dirs[2] 
# os.path.splitの返り値のうち、tailの方のみインデックスで指定して格納
filename = [os.path.split(targetfile)[1] for targetfile in path_im]

In [96]:
df = pd.DataFrame({
    'path_im':path_im,
    'filename':filename,
    'path_msk':path_msk,
    })
df

Unnamed: 0,path_im,filename,path_msk
0,../../sample_data/public_covid_data/rp_im/4.nii,4.nii,../../sample_data/public_covid_data/rp_msk/4.nii
1,../../sample_data/public_covid_data/rp_im/1.nii,1.nii,../../sample_data/public_covid_data/rp_msk/1.nii
2,../../sample_data/public_covid_data/rp_im/8.nii,8.nii,../../sample_data/public_covid_data/rp_msk/8.nii
3,../../sample_data/public_covid_data/rp_im/9.nii,9.nii,../../sample_data/public_covid_data/rp_msk/9.nii
4,../../sample_data/public_covid_data/rp_im/6.nii,6.nii,../../sample_data/public_covid_data/rp_msk/6.nii
5,../../sample_data/public_covid_data/rp_im/5.nii,5.nii,../../sample_data/public_covid_data/rp_msk/5.nii
6,../../sample_data/public_covid_data/rp_im/7.nii,7.nii,../../sample_data/public_covid_data/rp_msk/7.nii
7,../../sample_data/public_covid_data/rp_im/3.nii,3.nii,../../sample_data/public_covid_data/rp_msk/3.nii
8,../../sample_data/public_covid_data/rp_im/2.nii,2.nii,../../sample_data/public_covid_data/rp_msk/2.nii


### 多少マシな書き方

In [120]:
# pの配下フォルダはp.iterdir()で書ける。list()でキャストする必要なし。
# strでキャストしている部分はfolder.as_posix()でもOK
for folder in p.iterdir():
    if('rp_im' in str(folder)):
        path_im = [file_path.as_posix() for file_path in list(folder.iterdir())]
    elif('rp_msk' in str(folder)):
        path_msk = [file_path.as_posix() for file_path in list(folder.iterdir())]
        
# file名のインデックスは1固定なので、ハードコーディングでOK？        
filename = [os.path.split(file_path)[1] for file_path in path_im]

In [118]:
df = pd.DataFrame({
    'path_im':path_im,
    'filename':filename,
    'path_msk':path_msk,
    })
df

Unnamed: 0,path_im,filename,path_msk
0,../../sample_data/public_covid_data/rp_im/4.nii,4.nii,../../sample_data/public_covid_data/rp_msk/4.nii
1,../../sample_data/public_covid_data/rp_im/1.nii,1.nii,../../sample_data/public_covid_data/rp_msk/1.nii
2,../../sample_data/public_covid_data/rp_im/8.nii,8.nii,../../sample_data/public_covid_data/rp_msk/8.nii
3,../../sample_data/public_covid_data/rp_im/9.nii,9.nii,../../sample_data/public_covid_data/rp_msk/9.nii
4,../../sample_data/public_covid_data/rp_im/6.nii,6.nii,../../sample_data/public_covid_data/rp_msk/6.nii
5,../../sample_data/public_covid_data/rp_im/5.nii,5.nii,../../sample_data/public_covid_data/rp_msk/5.nii
6,../../sample_data/public_covid_data/rp_im/7.nii,7.nii,../../sample_data/public_covid_data/rp_msk/7.nii
7,../../sample_data/public_covid_data/rp_im/3.nii,3.nii,../../sample_data/public_covid_data/rp_msk/3.nii
8,../../sample_data/public_covid_data/rp_im/2.nii,2.nii,../../sample_data/public_covid_data/rp_msk/2.nii


### 講座での書き方
初めからpath_im,mskの場合分けを考えるのではなく、DataFrameの機能で対応付けるのがポイント

In [129]:
p = Path(os.path.join('..','..','sample_data','public_covid_data'))

# まずパス、ファイル一覧をそれぞれ取得し、後で整理することでfor文の中身をシンプルにする
df_list = []
for folder in p.iterdir():
    path_list = [file_path.as_posix() for file_path in list(folder.iterdir())]
    file_list = [os.path.split(file_path)[1] for file_path in list(folder.iterdir())]
    # public_covid_data配下のそれぞれのフォルダでdfを作成する。
    df_list.append(pd.DataFrame({'path': path_list, 'filename': file_list}))

In [130]:
df_list[1]

Unnamed: 0,path,filename
0,../../sample_data/public_covid_data/rp_im/4.nii,4.nii
1,../../sample_data/public_covid_data/rp_im/1.nii,1.nii
2,../../sample_data/public_covid_data/rp_im/8.nii,8.nii
3,../../sample_data/public_covid_data/rp_im/9.nii,9.nii
4,../../sample_data/public_covid_data/rp_im/6.nii,6.nii
5,../../sample_data/public_covid_data/rp_im/5.nii,5.nii
6,../../sample_data/public_covid_data/rp_im/7.nii,7.nii
7,../../sample_data/public_covid_data/rp_im/3.nii,3.nii
8,../../sample_data/public_covid_data/rp_im/2.nii,2.nii


In [134]:
# filenameが重複しているので、これをキーに結合する。
df = df_list[1].merge(df_list[2], how='inner', on='filename', suffixes=['_im', '_msk'])
df

Unnamed: 0,path_im,filename,path_msk
0,../../sample_data/public_covid_data/rp_im/4.nii,4.nii,../../sample_data/public_covid_data/rp_msk/4.nii
1,../../sample_data/public_covid_data/rp_im/1.nii,1.nii,../../sample_data/public_covid_data/rp_msk/1.nii
2,../../sample_data/public_covid_data/rp_im/8.nii,8.nii,../../sample_data/public_covid_data/rp_msk/8.nii
3,../../sample_data/public_covid_data/rp_im/9.nii,9.nii,../../sample_data/public_covid_data/rp_msk/9.nii
4,../../sample_data/public_covid_data/rp_im/6.nii,6.nii,../../sample_data/public_covid_data/rp_msk/6.nii
5,../../sample_data/public_covid_data/rp_im/5.nii,5.nii,../../sample_data/public_covid_data/rp_msk/5.nii
6,../../sample_data/public_covid_data/rp_im/7.nii,7.nii,../../sample_data/public_covid_data/rp_msk/7.nii
7,../../sample_data/public_covid_data/rp_im/3.nii,3.nii,../../sample_data/public_covid_data/rp_msk/3.nii
8,../../sample_data/public_covid_data/rp_im/2.nii,2.nii,../../sample_data/public_covid_data/rp_msk/2.nii


In [138]:
# DataFrameにtqdmを使う場合はtotalでlenを指定しないと、プログレスバーが表示されない
for idx, row in tqdm(df.iterrows(), total=len(df)):
    print('image path for {} is here {}'.format(row['path_im'], row['filename']))

100%|██████████| 9/9 [00:00<00:00, 1169.27it/s]

image path for ../../sample_data/public_covid_data/rp_im/4.nii is here 4.nii
image path for ../../sample_data/public_covid_data/rp_im/1.nii is here 1.nii
image path for ../../sample_data/public_covid_data/rp_im/8.nii is here 8.nii
image path for ../../sample_data/public_covid_data/rp_im/9.nii is here 9.nii
image path for ../../sample_data/public_covid_data/rp_im/6.nii is here 6.nii
image path for ../../sample_data/public_covid_data/rp_im/5.nii is here 5.nii
image path for ../../sample_data/public_covid_data/rp_im/7.nii is here 7.nii
image path for ../../sample_data/public_covid_data/rp_im/3.nii is here 3.nii
image path for ../../sample_data/public_covid_data/rp_im/2.nii is here 2.nii





In [139]:
df

Unnamed: 0,path_im,filename,path_msk
0,../../sample_data/public_covid_data/rp_im/4.nii,4.nii,../../sample_data/public_covid_data/rp_msk/4.nii
1,../../sample_data/public_covid_data/rp_im/1.nii,1.nii,../../sample_data/public_covid_data/rp_msk/1.nii
2,../../sample_data/public_covid_data/rp_im/8.nii,8.nii,../../sample_data/public_covid_data/rp_msk/8.nii
3,../../sample_data/public_covid_data/rp_im/9.nii,9.nii,../../sample_data/public_covid_data/rp_msk/9.nii
4,../../sample_data/public_covid_data/rp_im/6.nii,6.nii,../../sample_data/public_covid_data/rp_msk/6.nii
5,../../sample_data/public_covid_data/rp_im/5.nii,5.nii,../../sample_data/public_covid_data/rp_msk/5.nii
6,../../sample_data/public_covid_data/rp_im/7.nii,7.nii,../../sample_data/public_covid_data/rp_msk/7.nii
7,../../sample_data/public_covid_data/rp_im/3.nii,3.nii,../../sample_data/public_covid_data/rp_msk/3.nii
8,../../sample_data/public_covid_data/rp_im/2.nii,2.nii,../../sample_data/public_covid_data/rp_msk/2.nii


In [140]:
# csvに保存
df.to_csv('covid19_im_msk_filepath.csv', index=False)