- 데이터가 복잡하고 양이 많다면 클라우드환경(ex코랩, 구글 드라이브)에 업로드하는 시간이 오래 걸림
- 로컬 환경인 쥬피터 노트북으로 빠르게 전처리(수치화)하고 그 결과를 NPZ(numpy  zip)파일로 저장
- 저장된 NPZ파일을 원하는 환경으로 불러와서 사용하기!-

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from PIL import Image
# os : 파일 및 폴터 처리에 관련된 라이브러리
import os

In [2]:
# cats_and_dogs_filtered 폴더 내에 각각 데이터 셋들의 경로를 설정
train_cats_dir = './data/cats_and_dogs_filtered/train/cats/'
train_dogs_dir = './data/cats_and_dogs_filtered/train/dogs/'
test_cats_dir = './data/cats_and_dogs_filtered/test/cats/'
test_dogs_dir = './data/cats_and_dogs_filtered/test/dogs/'

In [3]:
# os.listdir : 해당 경로에 있는 파일명들을 리스트의 순서대로 저장해주는 명령
train_cats_fname = os.listdir(train_cats_dir)
train_dogs_fname = os.listdir(train_dogs_dir)
test_cats_fname = os.listdir(test_cats_dir)
test_dogs_fname = os.listdir(test_dogs_dir)

In [4]:
# os.path.join : 파일 경로와 파일(이미지) 이름을 결합
test_path = os.path.join(test_cats_dir, test_cats_fname[0])
test_path

'./data/cats_and_dogs_filtered/test/cats/cat.2000.jpg'

In [5]:
# 사진을 로딩하는 함수
# 사진 크기는 신경망에 넣기 위해서 일정하게 고정(224 X 224로 고정)
def load_images(folder_path, file_names, img_size_shape=(224,224)):
    images = []
    
    for i in file_names :
        # 폴더 경로 + 파일명 합치기
        path = os.path.join(folder_path, i)
        # 파일 오픈 및 크기 조정
        # resize : 파일 형태(사이즈)를 변형시켜주는 명령
        img = Image.open(path).resize(img_size_shape)
        # numpy 배열로 변경후 리스트에 저장
        images.append(np.array(img))
    
    return np.array(images)

In [6]:
X_train_cats = load_images(train_cats_dir, train_cats_fname)
X_train_dogs = load_images(train_dogs_dir, train_dogs_fname)
X_test_cats = load_images(test_cats_dir, test_cats_fname)
X_test_dogs = load_images(test_dogs_dir, test_dogs_fname)

In [18]:
print(X_train_cats.shape)
print(X_train_dogs.shape)
print(X_test_cats.shape)
print(X_test_dogs.shape)

(1000, 224, 224, 3)
(1000, 224, 224, 3)
(500, 224, 224, 3)
(500, 224, 224, 3)


In [19]:
# 데이터 병합
# 고양이, 개 이미지 배열 데이터를 순서대로 합쳐줌
X_train = np.concatenate((X_train_cats, X_train_dogs))
X_test = np.concatenate((X_test_cats, X_test_dogs))

In [20]:
X_train.shape, X_test.shape

((2000, 224, 224, 3), (1000, 224, 224, 3))

In [21]:
# 정답 데이터 만들기 (고양이 : 0, 개 :1)
y_train = np.array([0]*1000 + [1]*1000)
y_test = np.array([0]*500 + [1]*500)

In [22]:
y_train.shape, y_test.shape

((2000,), (1000,))

#### NPZ 파일로 변환

In [23]:
np.savez_compressed('./data/cat_dags.npz',  # 폴더 경로와 파일명 설정
                    X_train = X_train,
                    y_test = y_test,
                    y_train = y_train,
                    X_test = X_test
                   )