<a href="https://colab.research.google.com/github/olive-su/AI_codepresso/blob/master/Tensorflow_Keras_ImageDataGenerator%EC%97%90_%EB%8C%80%ED%95%9C_%EC%9D%B4%ED%95%B4_%EB%B0%8F_%EA%B5%AC%ED%98%84_%EC%8B%A4%EC%8A%B5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from tensorflow import keras
import os

### 1. Cats and Dogs 데이터셋 다운로드

In [2]:
url = 'https://storage.googleapis.com/mledu-datasets/cats_and_dogs_filtered.zip'

In [3]:
path_zip=keras.utils.get_file(fname='cats_and_dogs_filtered.zip',
                              origin=url,
                              extract=True,
                              cache_dir='/content')
'''
generator 연결시, 각 디렉토리를 읽어올 때 클래스로 분류하여
'train' > 'cat', 'dog' 처럼 가져오기 때문에 이러한 디렉토리 구조로 만들어야한다.
generator 는 상위 폴더와 연결됨
'''

Downloading data from https://storage.googleapis.com/mledu-datasets/cats_and_dogs_filtered.zip


### 2. ImageDataGenerator를 이용해 이미지 파일을 load 하기 위한 경로 지정

In [4]:
train_dir = '/content/datasets/cats_and_dogs_filtered/train'

### 3.ImageDataGenerator 객체 생성

In [5]:
from tensorflow.keras.preprocessing.image import ImageDataGenerator

In [6]:
datagen = ImageDataGenerator()
# 이미지 데이터 제너레이터 객체 생성(필요한 정보를 설정하여 iterator 를 생성해야함)

In [7]:
type(datagen)

tensorflow.python.keras.preprocessing.image.ImageDataGenerator

### 4. ImageDataGenerator.flow_from_directory() 함수 사용
* ImageDataGenerator에 데이터를 읽어오는 경로 연결
* 이미지 데이터를 읽어 텐서 객체로 변환하는 파이프라인 설정
* DirectoryIterator 객체로 변화됨

In [8]:
'''
고정된 사이즈를 받기위한 인자(target_size)
데이터 순서가 고정되어 받기 때문에 셔플 인자 넘겨줌 (고정되어 받게 되면 개 or 고양이 데이터만 받아서 학습 
→ 개 or 고양이만 잘 분류하는 모델이 됨)

generator로 라벨 생성 시, 라벨을 어떤 방식으로 만들지 요청(one-hot(categorical) or label(binary))

연결된 정보를 리턴하여 출력
'''
train_generator = datagen.flow_from_directory(directory=train_dir, 
                                              target_size=(150, 150), 
                                              batch_size=32, 
                                              shuffle=True,
                                              class_mode='binary')

Found 2000 images belonging to 2 classes.


In [9]:
type(train_generator)
# ImageDataGenerator에서 설정 정보를 연결하여 Iterator 객체로 변환

tensorflow.python.keras.preprocessing.image.DirectoryIterator

### 5. DirectoryIterator 객체의 속성 및 메서드

* .samples : 연결된 경로에서 읽어들일 이미지 파일의 개수

In [10]:
train_generator.samples

2000

* len() : batch 덩어리의 개수 확인 

In [11]:
len(train_generator)
# 63개의 배치 덩어리

63

In [12]:
2000/32 
# '2000장의 데이터' / '32의 배치 사이즈'

62.5

* next() : batch 데이터 호출

In [13]:
x, y = next(train_generator)

In [14]:
x.shape, y.shape # train data, label data 반환

((32, 150, 150, 3), (32,))

In [15]:
y

array([1., 1., 1., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 1., 0., 1., 0.,
       0., 1., 0., 0., 1., 0., 0., 1., 0., 0., 1., 1., 0., 1., 1.],
      dtype=float32)

* .__getitem__(idx) : 원하는 index 의 batch 데이터 호출

In [16]:
x, y = train_generator.__getitem__(0)

In [17]:
x.shape, y.shape

((32, 150, 150, 3), (32,))

In [18]:
x, y = train_generator.__getitem__(62) 

In [19]:
x.shape, y.shape 
# 마지막 배치는 16개의 데이터가 들어있음

((16, 150, 150, 3), (16,))

In [20]:
train_generator.reset() 
# Cursor 초기화

In [21]:
for idx, data in enumerate(train_generator):
  print(idx, data[0].shape) 
# 데이터 반환 후에도 계속 shuffle이 진행되면서 무한 루프를 돌게됨
# 최종 인덱스인 62를 넘어도 계속 진행된다. (이렇게 되면 epochs이 의미가 없어진다)
# 따라서 generator를 사용할 때 1step당 값을 지정을 해줘야한다.

0 (32, 150, 150, 3)
1 (32, 150, 150, 3)
2 (32, 150, 150, 3)
3 (32, 150, 150, 3)
4 (32, 150, 150, 3)
5 (32, 150, 150, 3)
6 (32, 150, 150, 3)
7 (32, 150, 150, 3)
8 (32, 150, 150, 3)
9 (32, 150, 150, 3)
10 (32, 150, 150, 3)
11 (32, 150, 150, 3)
12 (32, 150, 150, 3)
13 (32, 150, 150, 3)
14 (32, 150, 150, 3)
15 (32, 150, 150, 3)
16 (32, 150, 150, 3)
17 (32, 150, 150, 3)
18 (32, 150, 150, 3)
19 (32, 150, 150, 3)
20 (32, 150, 150, 3)
21 (32, 150, 150, 3)
22 (32, 150, 150, 3)
23 (32, 150, 150, 3)
24 (32, 150, 150, 3)
25 (32, 150, 150, 3)
26 (32, 150, 150, 3)
27 (32, 150, 150, 3)
28 (32, 150, 150, 3)
29 (32, 150, 150, 3)
30 (32, 150, 150, 3)
31 (32, 150, 150, 3)
32 (32, 150, 150, 3)
33 (32, 150, 150, 3)
34 (32, 150, 150, 3)
35 (32, 150, 150, 3)
36 (32, 150, 150, 3)
37 (32, 150, 150, 3)
38 (32, 150, 150, 3)
39 (32, 150, 150, 3)
40 (32, 150, 150, 3)
41 (32, 150, 150, 3)
42 (32, 150, 150, 3)
43 (32, 150, 150, 3)
44 (32, 150, 150, 3)
45 (32, 150, 150, 3)
46 (32, 150, 150, 3)
47 (32, 150, 150, 3)
48

KeyboardInterrupt: ignored