In [1]:
""" glob. """
import os
import glob
import copy
import six
import numpy as np
import torch
import torch.utils.data

## find_classes関数
- ルートディレクトリ内のサブディレクトリ（クラス）のリストと、そのインデックスを返す

In [2]:
def find_classes(root):
    """ find ${root}/${class}/* """
    classes = [d for d in os.listdir(root) if os.path.isdir(os.path.join(root, d))]
    classes.sort()
    class_to_idx = {classes[i]: i for i in range(len(classes))}
    return classes, class_to_idx

In [16]:
root = "../expriments/dataset/ModelNet40/"
classes, class_to_idx = find_classes(root=root)

In [17]:
classes, class_to_idx

(['airplane',
  'bathtub',
  'bed',
  'bench',
  'bookshelf',
  'bottle',
  'bowl',
  'car',
  'chair',
  'cone',
  'cup',
  'curtain',
  'desk',
  'door',
  'dresser',
  'flower_pot',
  'glass_box',
  'guitar',
  'keyboard',
  'lamp',
  'laptop',
  'mantel',
  'monitor',
  'night_stand',
  'person',
  'piano',
  'plant',
  'radio',
  'range_hood',
  'sink',
  'sofa',
  'stairs',
  'stool',
  'table',
  'tent',
  'toilet',
  'tv_stand',
  'vase',
  'wardrobe',
  'xbox'],
 {'airplane': 0,
  'bathtub': 1,
  'bed': 2,
  'bench': 3,
  'bookshelf': 4,
  'bottle': 5,
  'bowl': 6,
  'car': 7,
  'chair': 8,
  'cone': 9,
  'cup': 10,
  'curtain': 11,
  'desk': 12,
  'door': 13,
  'dresser': 14,
  'flower_pot': 15,
  'glass_box': 16,
  'guitar': 17,
  'keyboard': 18,
  'lamp': 19,
  'laptop': 20,
  'mantel': 21,
  'monitor': 22,
  'night_stand': 23,
  'person': 24,
  'piano': 25,
  'plant': 26,
  'radio': 27,
  'range_hood': 28,
  'sink': 29,
  'sofa': 30,
  'stairs': 31,
  'stool': 32,
  'table

- ラベル
- ラベルとインデックス
を確認した.

## classes_to_cinfo関数
- クラスのリストからクラスとそのインデックスを返す

In [3]:
def classes_to_cinfo(classes):
    class_to_idx = {classes[i]: i for i in range(len(classes))}
    return classes, class_to_idx

In [14]:
classes_to_cinfo(classes)

(['airplane',
  'bathtub',
  'bed',
  'bench',
  'bookshelf',
  'bottle',
  'bowl',
  'car',
  'chair',
  'cone',
  'cup',
  'curtain',
  'desk',
  'door',
  'dresser',
  'flower_pot',
  'glass_box',
  'guitar',
  'keyboard',
  'lamp',
  'laptop',
  'mantel',
  'monitor',
  'night_stand',
  'person',
  'piano',
  'plant',
  'radio',
  'range_hood',
  'sink',
  'sofa',
  'stairs',
  'stool',
  'table',
  'tent',
  'toilet',
  'tv_stand',
  'vase',
  'wardrobe',
  'xbox'],
 {'airplane': 0,
  'bathtub': 1,
  'bed': 2,
  'bench': 3,
  'bookshelf': 4,
  'bottle': 5,
  'bowl': 6,
  'car': 7,
  'chair': 8,
  'cone': 9,
  'cup': 10,
  'curtain': 11,
  'desk': 12,
  'door': 13,
  'dresser': 14,
  'flower_pot': 15,
  'glass_box': 16,
  'guitar': 17,
  'keyboard': 18,
  'lamp': 19,
  'laptop': 20,
  'mantel': 21,
  'monitor': 22,
  'night_stand': 23,
  'person': 24,
  'piano': 25,
  'plant': 26,
  'radio': 27,
  'range_hood': 28,
  'sink': 29,
  'sofa': 30,
  'stairs': 31,
  'stool': 32,
  'table

### find_classes関数との違い
- find_classes : ディレクトリを直接検索
- classes_to_cinfo : すでにクラスのリストが存在するとき

## glob_dataset関数
- 与えられたパターンに従って, 指定されたクラス内のファイルをグローバルに取得
- グローバルパス（'\${root}/\${class}/\${ptns[i]}'）を使用してファイルを取得し, それらのファイルと対応するクラスのインデックスのペアのリストを返す

In [4]:
def glob_dataset(root, class_to_idx, ptns):
    """ glob ${root}/${class}/${ptns[i]} """
    root = os.path.expanduser(root)
    samples = []
    #class_size = [0 for i in range(len(class_to_idx))]
    for target in sorted(os.listdir(root)):
        d = os.path.join(root, target)
        if not os.path.isdir(d):
            continue

        target_idx = class_to_idx.get(target)
        if target_idx is None:
            continue

        #count = 0
        for i, ptn in enumerate(ptns):
            gptn = os.path.join(d, ptn)
            names = glob.glob(gptn)
            for path in sorted(names):
                item = (path, target_idx)
                samples.append(item)
                #count += 1
        #class_size[target_idx] = count

    return samples

In [19]:
ptns = ['train/*.off', 'test/*.off']
samples = glob_dataset(root, class_to_idx, ptns)

In [20]:
len(samples)

12311

In [21]:
samples

[('../expriments/dataset/ModelNet40/airplane\\train\\airplane_0001.off', 0),
 ('../expriments/dataset/ModelNet40/airplane\\train\\airplane_0002.off', 0),
 ('../expriments/dataset/ModelNet40/airplane\\train\\airplane_0003.off', 0),
 ('../expriments/dataset/ModelNet40/airplane\\train\\airplane_0004.off', 0),
 ('../expriments/dataset/ModelNet40/airplane\\train\\airplane_0005.off', 0),
 ('../expriments/dataset/ModelNet40/airplane\\train\\airplane_0006.off', 0),
 ('../expriments/dataset/ModelNet40/airplane\\train\\airplane_0007.off', 0),
 ('../expriments/dataset/ModelNet40/airplane\\train\\airplane_0008.off', 0),
 ('../expriments/dataset/ModelNet40/airplane\\train\\airplane_0009.off', 0),
 ('../expriments/dataset/ModelNet40/airplane\\train\\airplane_0010.off', 0),
 ('../expriments/dataset/ModelNet40/airplane\\train\\airplane_0011.off', 0),
 ('../expriments/dataset/ModelNet40/airplane\\train\\airplane_0012.off', 0),
 ('../expriments/dataset/ModelNet40/airplane\\train\\airplane_0013.off', 0),

ディレクトリを走査し, ファイルを取得することができた. 

ファイル名とクラスのインデックスが確認できる.

# Globsetクラス
- `torch.utils.data.Dataset`クラスを拡張したデータセットクラス
- コンストラクタでルートディレクトリ, ファイルのパターン, ファイルの読み込み関数, オプションのデータ変換, クラス情報を受け取る
- クラスは, 指定されたパターンに基づいて取得されたサンプルのリストと, そのクラスのインデックスのペアを保持
- データセット内のサンプル数, サンプルの取得メソッド, およびほかの補助メソッドを実装
- `split`メソッドはデータセットを指定された割合で2つに分割する

`datasets.py`にて継承されて使われている.

## \_\_init__(self, rootdir, pattern, fileloader, transform=None, classinfo=None)
- `rootdir` : `dataset_path`という形で与えられる
- `pattern` : 上記の例のように[train/*.off]などで与えられる
- `fileloader` : ファイルの読み込み関数を示す
- `transform` : データの前処理
- `classinfo` : クラス情報

In [5]:
class Globset(torch.utils.data.Dataset):
    """ glob ${rootdir}/${classes}/${pattern}
    """
    def __init__(self, rootdir, pattern, fileloader, transform=None, classinfo=None):
        super().__init__()

        # patternが文字列ならリストに変換する
        if isinstance(pattern, six.string_types):
            pattern = [pattern]

        # cinfoが与えられたらそれを利用（train時にargsで与えているやつ）
        # 与えられてないなら走査する -> 実行速度に影響？
        if classinfo is not None:
            classes, class_to_idx = classinfo
        else:
            classes, class_to_idx = find_classes(rootdir)

        # 全データ取得（ファイル名とクラスのインデックスのみ）
        samples = glob_dataset(rootdir, class_to_idx, pattern)
        if not samples:
            raise RuntimeError("Empty: rootdir={}, pattern(s)={}".format(rootdir, pattern))

        # 使用する変数をメンバに代入
        self.rootdir = rootdir
        self.pattern = pattern
        self.fileloader = fileloader
        self.transform = transform

        self.classes = classes
        self.class_to_idx = class_to_idx
        self.samples = samples

    def __repr__(self):
        '''デバッグ用に便利'''
        fmt_str = 'Dataset {}\n'.format(self.__class__.__name__)
        fmt_str += '    Number of datapoints: {}\n'.format(self.__len__())
        fmt_str += '    Root Location: {}\n'.format(self.rootdir)
        fmt_str += '    File Patterns: {}\n'.format(self.pattern)
        fmt_str += '    File Loader: {}\n'.format(self.fileloader)
        tmp = '    Transforms (if any): '
        fmt_str += '{0}{1}\n'.format(tmp,
                                     self.transform.__repr__().replace('\n', '\n' + ' ' * len(tmp)))
        return fmt_str

    def __len__(self):
        '''データ数取得'''
        return len(self.samples)

    def __getitem__(self, index):
        '''データを読み込む'''
        path, target = self.samples[index]  # targetはラベル
        sample = self.fileloader(path)
        # 前処理があるなら適用
        if self.transform is not None:
            sample = self.transform(sample)

        return sample, target  # 読み込んだデータとラベルを返す

    def num_classes(self):
        '''クラス数取得'''
        return len(self.classes)

    def class_name(self, cidx):
        '''クラス名取得'''
        return self.classes[cidx]

    def indices_in_class(self, cidx):
        targets = np.array(list(map(lambda s: s[1], self.samples)))  # すべてのラベルをリストにする
        return np.where(targets == cidx).tolist()  # cidxに対応するラベルに等しいクラスのみを返す

    def select_classes(self, cidxs):
        '''指定されたクラスに属するサンプルのインデックスを返す'''
        indices = []
        for i in cidxs:
            idxs = self.indices_in_class(i)
            indices.extend(idxs)
        return indices

    def split(self, rate):
        """ dateset -> dataset1, dataset2. s.t.
            len(dataset1) = rate * len(dataset),
            len(dataset2) = (1-rate) * len(dataset)
        """
        orig_size = len(self)
        select = np.zeros(orig_size, dtype=int)
        csize = np.zeros(len(self.classes), dtype=int)
        dsize = np.zeros(len(self.classes), dtype=int)

        for i in range(orig_size):
            _, target = self.samples[i]
            csize[target] += 1
        dsize = (csize * rate).astype(int)
        for i in range(orig_size):
            _, target = self.samples[i]
            if dsize[target] > 0:
                select[i] = 1
                dsize[target] -= 1

        dataset1 = copy.deepcopy(self)
        dataset2 = copy.deepcopy(self)

        samples1 = list(map(lambda i: dataset1.samples[i], np.where(select == 1)[0]))
        samples2 = list(map(lambda i: dataset2.samples[i], np.where(select == 0)[0]))

        dataset1.samples = samples1
        dataset2.samples = samples2
        return dataset1, dataset2