Tensorflow의 batchdataset은 iterabale 객체입니다. 

간단한 iterable 객체를 만들어 봅시다

iterable은 여러개의 데이터를 next를 통해서 정해진 규칙으로 내보낼 수 있습니다. 

In [1]:
data = range(1,100,2)

In [3]:
# iter()를 통해 iterable로 만들어보겠습니다. 
data_iter = iter(data)

In [5]:
next(data_iter)

1

In [6]:
next(data_iter)

3

In [7]:
next(data_iter)

5

iterable class를 만들어 봅시다. 

__iter__() 함수를 넣어주면 됩니다

https://dojang.io/mod/page/view.php?id=2406

In [8]:
# 간단한 counter 예제입니다. 

class Counter:
    def __init__(self, stop):
        self.current = 0    # 현재 숫자 유지, 0부터 지정된 숫자 직전까지 반복
        self.stop = stop    # 반복을 끝낼 숫자
 
    def __iter__(self):
        return self         # 현재 인스턴스를 반환
 
    def __next__(self):
        if self.current < self.stop:    # 현재 숫자가 반복을 끝낼 숫자보다 작을 때
            r = self.current            # 반환할 숫자를 변수에 저장
            self.current += 1           # 현재 숫자를 1 증가시킴
            return r                    # 숫자를 반환
        else:                           # 현재 숫자가 반복을 끝낼 숫자보다 크거나 같을 때
            raise StopIteration         # 예외 발생으로 종료
 


In [9]:
Cnt10 = Counter(10)

In [10]:
for i in Cnt10:
  print(i)

0
1
2
3
4
5
6
7
8
9


In [14]:
cnt3= Counter(3)

In [15]:
next(cnt3)

0

tensorflow batchdataset을 간단히 모사해봅시다

In [20]:

class batch:
    def __init__(self, imgs, size = 4): # imgs는 리스트 형태로 입력
        self.current = 0    # 현재 숫자 유지, 0부터 지정된 숫자 직전까지 반복
        self.stop = len(imgs)    # 반복을 끝낼 숫자
        self.imgs = imgs
        self.size = size        # 배치 사이즈
 
    def __iter__(self):
        return self         # 현재 인스턴스를 반환
 
    def __next__(self):
        if self.current < self.stop:    # 현재 숫자가 반복을 끝낼 숫자보다 작을 때
            r = self.current            # 반환할 숫자를 변수에 저장
            self.current += self.size         # 현재 숫자를 1 증가시킴
            return self.imgs[r:self.current]                   # 숫자를 반환
        else:                           # 현재 숫자가 반복을 끝낼 숫자보다 크거나 같을 때
            raise StopIteration         # 예외 발생으로 종료
 


In [17]:
# 가상 이미지 생성
import numpy as np
imgs = np.random.randint(0,255,size = (30,18,18))

In [21]:
b1 = batch(imgs)

In [22]:
img=next(b1)

In [24]:
img.shape

(4, 18, 18)

In [25]:
for i in b1:
  print(i.shape)

(4, 18, 18)
(4, 18, 18)
(4, 18, 18)
(4, 18, 18)
(4, 18, 18)
(4, 18, 18)
(2, 18, 18)


Class를 list 처럼 [ ]를 통한 인덱싱이 가능하도록 해봅시다

In [26]:
class dataset:
  def __init__(self, imgs):  # 이미지 여러장 형태
    self.imgs = imgs

  def __getitem__(self, idx):
    return self.imgs[idx]

In [27]:
d = dataset(imgs)

In [28]:
test= d[:5]

In [29]:
test.shape

(5, 18, 18)

In [30]:
for i in d:  # 반복은 한장씩 된다. 
  print(i.shape)

(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)
(18, 18)


In [31]:
# 위의 두 기능을 합쳐보자
class batch2:
    def __init__(self, imgs, size = 4): # imgs는 리스트 형태로 입력
        self.current = 0    # 현재 숫자 유지, 0부터 지정된 숫자 직전까지 반복
        self.stop = len(imgs)    # 반복을 끝낼 숫자
        self.imgs = imgs
        self.size = size        # 배치 사이즈
 
    def __iter__(self):
        return self         # 현재 인스턴스를 반환
        
    def __getitem__(self, idx):
      return self.imgs[idx]
 
    def __next__(self):
        if self.current < self.stop:    # 현재 숫자가 반복을 끝낼 숫자보다 작을 때
            r = self.current            # 반환할 숫자를 변수에 저장
            self.current += self.size         # 현재 숫자를 1 증가시킴
            return self.imgs[r:self.current]                   # 숫자를 반환
        else:                           # 현재 숫자가 반복을 끝낼 숫자보다 크거나 같을 때
            raise StopIteration         # 예외 발생으로 종료
 

In [32]:
b2_data = batch2(imgs)

In [35]:
b2_data[:3].shape

(3, 18, 18)

In [37]:
for i in b2_data:
  print(i.shape)

(4, 18, 18)
(4, 18, 18)
(4, 18, 18)
(4, 18, 18)
(4, 18, 18)
(4, 18, 18)
(2, 18, 18)
