- 데이터가 복잡하고 양이 많다면 클라우드환경(ex 구글코랩, 구글드라이브)에 업로드 하는 시간이 매우 오래걸림
- 로컬에서 빠르게 이미지 파일들을 수치화 시켜주고 그 결과를 NPZ(numpy zip) 파일로 저장
- 클라우드 환경에서는 수치화된 NPZ파일만 사용을 하면 훨씬 효율적으로 작업할 수 있음

### 개, 고양이 데이터를 NPZ파일로 생성!

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from PIL import Image 
from sklearn.model_selection import train_test_split
# os : 파일, 폴더 처리에 관련된 라이브러리
import os

In [2]:
# cats_and_dogs_filltered 폴더 내의 각각의 데이터 셋들의 경로를 설정
train_cats_dir = 'data/cats_and_dogs_filtered/train/cats/'
train_dogs_dir = 'data/cats_and_dogs_filtered/train/dogs/'
test_cats_dir = 'data/cats_and_dogs_filtered/test/cats/'
test_dogs_dir = 'data/cats_and_dogs_filtered/test/dogs/'

In [3]:
# os.listdir : 해당 경로에 있는 파일명들을 리스트에 순서대로 저장
train_cats_fnames = os.listdir(train_cats_dir)
train_dogs_fnames = os.listdir(train_dogs_dir)
test_cats_fnames = os.listdir(test_cats_dir)
test_dogs_fnames = os.listdir(test_dogs_dir)

In [8]:
test_cats_fnames[1]

'cat.2001.jpg'

In [9]:
# os.path.join : 파일 경로와 데이터(이미지) 이름을 결합
test_path = os.path.join(test_cats_dir, test_cats_fnames[1])
test_path

'data/cats_and_dogs_filtered/test/cats/cat.2001.jpg'

In [10]:
# 사진을 로딩하는 함수
# 사진의 크기는 224 X 224로 고정시켜주기
def load_images(folder_path, file_names, img_size_shape=(224,224)) :
    images = []
    
    for i in file_names :
        # 폴더 경로 + 파일명 합치기
        path = os.path.join(folder_path, i)
        # 파일 오픈 및 크기조정(resize : 파일의 사이즈를 변형시켜줌)
        img = Image.open(path).resize(img_size_shape)
        # numpy 배열로 변경 후 리스트에 저장
        images.append(np.array(img))
    
    return np.array(images)

In [12]:
X_train_cats = load_images(train_cats_dir, train_cats_fnames)
X_train_dogs = load_images(train_dogs_dir, train_dogs_fnames)
X_test_cats = load_images(test_cats_dir, test_cats_fnames)
X_test_dogs = load_images(test_dogs_dir, test_dogs_fnames)

In [14]:
print(X_train_cats.shape)
print(X_train_dogs.shape)
print(X_test_cats.shape)
print(X_test_dogs.shape)

(1000, 224, 224, 3)
(1000, 224, 224, 3)
(500, 224, 224, 3)
(500, 224, 224, 3)


In [15]:
# 데이터 병합
# 고양이, 개 이미지 배열 데이터를 순서대로 합쳐줌
X_train = np.concatenate((X_train_cats, X_train_dogs))
X_test = np.concatenate((X_test_cats, X_test_dogs))

In [16]:
# 문제 데이터 생성 완료!
X_train.shape, X_test.shape

((2000, 224, 224, 3), (1000, 224, 224, 3))

In [21]:
# 정답 데이터 만들기(고양이:0, 개:1)
y_train = np.array([0]*1000 + [1]*1000)
y_test = np.array([0]*500 + [1]*500)

In [23]:
y_train.shape, y_test.shape

((2000,), (1000,))

In [None]:
# 학습, 평가 데이터 분리
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(data,
                                                    target,
                                                    test_size=0.2,
                                                    random_state=10
                                                    )

- npz 파일 생성

In [25]:
np.savez_compressed('data/cats_and_dogs.npz', # 폴더 경로와 저장될 파일명 설정
                    X_train = X_train,        # 학습용 문제 데이터
                    X_test = X_test,          # 평가용 문제 데이터
                    y_train = y_train,        # 학습용 정답 데이터
                    y_test = y_test          # 평가용 정답 데이터
                   )