### 데이터 불러오기
딥러닝을 포함한 머신러닝의 근원은 데이터다.

따라서 데이터의 수집, 가공, 사용 방법에 따라 모델 성능이 크게 달라질 수 있으며 데이터의 형태는 매우 다양하기 때문에 데이터를 잘 불러오는 것은 가장 중요힌 단계 중 하나다.

In [1]:
%pip install torch
%pip install torchvision

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [3]:
import torch
import torchvision # 이미지 관련 된 파이토치 라이브러리
import torchvision.transforms as tr # 이미지 전처리 기능들을 제공하는 라이브러리
from torch.utils.data import DataLoader, Dataset # 데이터를 모델에 사용할 수 있도록 정리해 주는 라이브러리
import numpy as np # 넘파이 기본 라이브러리

1. 파이토치 제공 데이터 사용

In [None]:
# tr.Compose 내에 원하는 전처리를 차례대로 넣어주면 된다.
transf = tr.Compose([tr.Resize(16), tr.ToTensor()]) # 16 x 16으로 이미지 크기 변환 후 텐서 형태 타입으로 변환한다. tr.Resize((16, 16))

# 텐서 형태뿐만 아니라 여러가지 형태로 변환할 수 있다.
# Transforms on PIL Image
# Pad(패드를 씌워준다.), Grayscale(0~1 사이 값으로 만들어준다.), RandomCrop(이미지 일부를 랜덤하게 잘라준다.), Normalize(정규화 해준다.) ..
# Transforms on Torch. * Tensor - tensor image
# torchvision.transforms.ToPILImage(mode=None)...
# ...

In [6]:
train_set = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transf) # CIFAR10 데이터셋을 다운로드하고 전처리한다.
test_set = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transf) # CIFAR10 데이터셋을 다운로드하고 전처리한다.

In [None]:
# 일반적으로 데이터셋은 이미지와 라벨이 동시에 들어있는 튜플(tuple) 형태다. (이미지, 라벨)
# train_set[0]은 학습 데이터의 첫 번째 데이터로 이미지 한 장과 라벨 숫자 하나가 저장되어 있다.
# 즉, train_set[0][0]은 이미지, train_set[0][1]은 라벨이다.

print(train_set[0][0].size())

# 현재 이미지 사이즈는 3x16x16이다. 여기서 3은 채널 수를 말하고 16x16은 이미지의 너비와 높이를 의미한다.
# CIFAR10와 같은 일반적인 컬러 사진 데이터셋은 3채널(RGB(Y))로 이루어져 있다. 그리고 (높이)x(너비)x(채널 수)로 크기가 표현된다.
# 하지만 파이토치에서는 (채널 수)x(높이)x(너비)로 크기가 표현된다. 즉, (3)x(16)x(16)이다.
# 따라서 3x16x16은 3채널의 16x16 크기의 이미지라는 의미다.
# train_set[0][0].size()는 torch.Size([3, 16, 16]) 형태로 출력된다.

torch.Size([3, 16, 16])


In [12]:
# 딥러닝을 할 때 데이터를 모델에 넣기 위해서는 데이터셋을 정리해 주어야 한다.
# (그래서 gradient descent를 사용하지 않고 stochastic gradient descent를 사용한다.)
# 데이터셋을 정리해 주는 역할을 하는 것이 DataLoader이다.
# DataLoader는 데이터셋을 미니 배치 형태의 단위로 나누어 주고, 데이터를 섞어 주는 역할을 한다.
# 따라서 배치 사이즈 및 셔플 여부 등을 선택 할 수 있다.

train_loader = DataLoader(train_set, batch_size=50, shuffle=True) # 배치 사이즈 4로 설정
test_loader = DataLoader(test_set, batch_size=50, shuffle=False) # 배치 사이즈 4로 설정

In [None]:
len(train_loader)

# CIFAR10 데이터셋은 총 50,000개의 학습 데이터로 이루어져 있다.
# 배치 사이즈가 50장 이라면 50,000/50 = 1,000이므로 1,000개의 배치로 나누어 진다.
# 즉 train_loader는 잘 만들어졌다는 것을 단편적으로 알 수 있다.

1000

In [None]:
# iter(), next()를 이용해 일부 데이터를 확인 할 수 있다.
# iter() -> 이터러블(iterable) 객체를 반복자(iterator) 객체로 변환해 주는 함수. 
# 1. Iterable(이터러블)
# for 루프로 순회할 수 있는 객체 (ex. 리스트, 튜플, 딕셔너리, 문자열, DataLoader 등)를 반복자(iterator)로 변환해준다.
# 2. Iterator(이터레이터)
# __next__() 메서드를 이용해서 하나씩 값을 꺼낼 수 있는 객체 -> next() 함수를 사용할 수 있다.
# label -> 각 이미지가 어떤 부류인지 나타내는 정보
data_iter = iter(train_loader) # train_loader를 이터레이터 형태로 변환한다.
images, labels = next(data_iter) # 이터레이터에서 다음 값을 가져온다.

print(images.size()) # 이미지 사이즈

# 일반적으로 학습 데이터는 4차원 텐서 형태로 모델에서 사용된다.
# (배치 사이즈)x(채널 수)x(높이)x(너비) 형태로 되어 있다.

torch.Size([10, 3, 32, 32])


2. 같은 클래스 별로 폴더를 정리한 경우

In [None]:
# 데이터가 같은 클래스 별로 미리 폴더를 정리 된 경우, ImageFolder의 1줄 선언으로 개인 데이터를 사용할 수 있다.
# 별도의 라벨링이 필요 없으며, 폴더 별로 자동으로 라벨링이 된다.
# 예를 들어, class 폴더에 tiger, lion, bear 폴더 (./class/tiger 와 ./class/lion)를 미리 만든다.
# 다음으로 ImageFolder에 상위 폴더 ./class를 입력하면 이미지와 라벨이 정리 되어 데이터를 불러온다.

transf = tr.Compose([tr.Resize((128, 128)), tr.ToTensor()]) # 128x128로 크기 변환 후 텐서 형태 타입으로 변환한다.
train_set = torchvision.datasets.ImageFolder(root='./class', transform=transf) # 커스텀 데이터를 불러온다.
train_loader = DataLoader(train_set, batch_size=2, shuffle=True) # 데이터를 미니 배치 사이즈 4 크기로 만들어 준다.

In [None]:
data_iter = iter(train_loader) # train_loader를 반복자 형태로 변환한다.
images, labels = next(data_iter) # 반복자에서 다음 값을 가져온다.

print(images.size(), labels) # 이미지 사이즈
# torch.Size([2, 3, 128, 128]) tensor([0, 1]) -> 0, 1 을 보아하니 아마 tiger, lion 폴더에 있는 이미지가 랜덤하게 섞여서 들어온 것을 알 수 있다.

3. 정형화 되지 않은 커스텀 데이터 불러오기 (2. 를 사용할 수 없는 경우)
1) 라벨 별로 폴더 정리가 되어 있지 않은 경우
2) 다른 작업들과 공유 된 데이터인 경우 폴더를 함부로 정리 할 수 없다.
3) 이미지 데이터라도 이미지가 아닌 텍스트, 리스트, 배열 등으로 저장 되어 있는 경우도 있다.

In [19]:
# 32x32 컬러 이미지와 라벨이 각각 100장이 있다고 가정한다.

train_images = np.random.randint(256, size=(100, 32, 32, 3)) # (이미지 수)x(높이)x(너비)x(채널 수)
train_labels = np.random.randint(2, size=(100, 1)) # 라벨 수

# 이미지 전처리 작업이 필요한 경우 openCV와 같은 라이브러리를 이용하여 이 곳에서 작업 할 수 도 있다.
# 사람마다 다르지만 이 단계에서 전처리를 하는 것을 추천한다.
# 전처리 후에 데이터셋을 만들고, DataLoader를 이용하여 배치 사이즈를 설정한다.
# 그 이유는 torchvision.transforms 라이브러리 보다
# OpenCV, SciPy와 같은 라이브러리가 더 많은 전처리 기술을 제공하며 
# 이미지를 미리 처리해 놓고 전치리 된 이미지를 살펴보면서 작업 하는 것을 추천하기 때문이다.
# 또한, OpenCV는 GPU를 사용하지 않기 때문에 CPU에서 작업을 하게 된다.
# 따라서 사용 목적과 편의성에 맞게 본인이 전처리를 어디서 할 지 정하면 될 것이다.

# ...
# ...
# train_images, train_labels = preprocess(train_images, train_labels) # 전처리 함수
# ...
# ...

print(train_images.shape, train_labels.shape) # (100, 32, 32, 3) (100, 1)

(100, 32, 32, 3) (100, 1)


In [20]:
'''
from torch.utils.data import Dateset

class MyDataset(Dataset):
  def __init__(self):
  
  def __getitem__(self, index):
  
  def __len__(self):

이 양식을 통으로 가지고 다니자!!  
'''

class TensorData(Dataset):
  def __init__(self, x_data, y_data): # 어떤 데이터를 불러 올 건지 사용자가 정의 할 수 있다.
    self.x_data = torch.FloatTensor(x_data) # 이미지 데이터를 FloatTensor 형태로 변환한다.
    self.x_data = self.x_data.permute(0, 3, 1, 2) # (이미지 수)x(높이)x(너비)x(채널 수) -> (배치 크기)x(채널 수)x(높이)x(너비) 형태로 변환한다.
    self.y_data = torch.LongTensor(y_data) # 라벨 데이터를 LongTensor 형태로 변환한다.
    self.len = self.y_data.shape[0] # 클래스 내의 들어온 데이터 개수
  
  def __getitem__(self, index):
    return self.x_data[index], self.y_data[index] # 뽑아 낼 데이터를 적어준다.
  
  def __len__(self):
    return self.len # 클래스 내의 들어 온 데이터 개수
  
  # 파이토치에서는 (배치 크기)x(채널 수)x(높이)x(너비) 데이터가 사용 되므로 원래 데이터 (이미지 수)x(높이)x(너비)x(채널 수)를 변경해야만 한다.
  # permute 0(이미지 수), 1(높이), 2(너비), 3(채널 수)을 0(이미지 수), 3(채널 수), 1(높이), 2(너비)로 바꿔주는 것이기 때문이다.
  # .permute(0, 3, 1, 2)을 사용하는 것이다. -> (이미지 수)x(채널 수)x(높이)x(너비) 형태로 바꿔준다.

In [21]:
train_data = TensorData(train_images, train_labels) # 텐서 데이터 불러오기
train_loader = DataLoader(train_data, batch_size=10, shuffle=True) # 미니 배치 형태로 데이터 갖추기

In [22]:
data_iter = iter(train_loader)
images, labels = next(data_iter)

print(images.size(), labels.size())

torch.Size([10, 3, 32, 32]) torch.Size([10, 1])


4. 커스텀 데이터 + 커스텀 전처리

텐서 생성 부분에서 이미지 전처리 진행하기

In [None]:
# 32x32 컬러 이미지와 라벨이 각각 100장이 있다고 가정한다.
# 외부로부터 데이터를 불러오는 방식은 다양하다.
# glob 라이브러리를 이용하면 -> 경로에 대한 내용을 받아서 PIL, openCV 등의 형태의 이미지 파일을 불러올 수 있다.
train_images = np.random.randint(256, size=(100, 32, 32, 3)) # (이미지 수)x(높이)x(너비)x(채널 수)
train_labels = np.random.randint(2, size=(100, 1)) # 라벨 수

In [24]:
# 3. 에서 사용한 양식을 그대로 사용하되 전처리 작업을 할 수 있도록 transform을 추가한다.
# 목적 = 텐서를 만들면서 transform을 하고 싶은거다.
class MyDataset(Dataset):
  def __init__(self, x_data, y_data, transform=None):
    self.x_data = x_data # 넘파이 배열이 들어온다.
    self.y_data = y_data # 넘파이 배열이 들어온다.
    self.transform = transform
    self.len = len(y_data)

  def __getitem__(self, index):
    sample = self.x_data[index], self.y_data[index]

    if self.transform:
      sample = self.transform(sample) # self.transform이 None이 아니라면 전처리를 작업한다. transform을 하면서 넘파이 형태를 텐서로 만들어 준다.

    return sample # 3. 과 다르게 넘파이 배열로 출력 되는 것에 유의하도록 한다.
  
  def __len__(self):
    return self.len

In [27]:
# 전처리 기술 직접 만들어 보기
# 위의 기본 양식과 같이 사용하기 위해 call 함수를 사용한다.
# def __call__ 내의 원하는 전처리 작업을 프로그래밍 할 수 있다.

# 1. 텐서 변환
# __call__ : 객체가 함수처럼 호출될 수 있도록 만드는 역할
class ToTensor: 
  def __call__(self, sample):
    inputs, labels = sample # sample은 넘파이 배열 형태로 들어온다.
    inputs = torch.FloatTensor(inputs) # 넘파이 배열을 FloatTensor 형태로 변환한다.
    inputs = inputs.permute(2, 0, 1) # (채널 수)x(높이)x(너비) 형태로 변환한다.

    return inputs, torch.LongTensor(labels) # 텐서로 변환

# 2. 선형식
class LinearTensor:
  def __init__(self, slope=1, bias=0):
    self.slope = slope
    self.bias = bias
  
  def __call__(self, sample):
    inputs, labels = sample
    inputs = self.slope*inputs + self.bias # ax + b 계산하기 => 이와 같이 외부로 부터 받아야 하는 값이 필요할 때에는 __init__ 이 필요하다.

    return inputs, labels 
  
  # .....
  # 추가로 계속 원하는 전처리를 정의 할 수 있다.
  # .....

In [None]:
trans = tr.Compose([ToTensor(), LinearTensor(2, 5)]) # 텐서 변환 후 선형식 2x+5 연산
dataset1 = MyDataset(train_images, train_labels, transform=trans) 
train_loader1 = DataLoader(dataset1, batch_size=10, shuffle=True)

# ToTensor()와 tr.ToTensor()의 차이
# 앞서 사용한 tr.ToTensor()는 import torchvision.transform as tr를 이용한 파이토치 메소드를 이용한 것이고
# ToTensor()는 위에서 정의 된 메서드를 사용한 것이다.

In [31]:
data_iter1 = iter(train_loader1)
images1, labels1 = next(data_iter1)

print(images1.size()) # 배치 및 이미지 크기 확인

torch.Size([10, 3, 32, 32])


5. 커스텀 데이터 + torchvision.transforms 전처리

PyTorch로 이미지 데이터를 학습할 준비를 하는 과정으로,
넘파이 이미지 데이터를 Pytorch가 이해 할 수 있도록 전처리하고, DataLoader로 배치 단위로 불러오는 과정이다.

In [None]:
# torchvision.transforms에서 제공하는 전처리 기술을 사용한다.
# torchvision.transforms은 입력 이미지가 일반적으로 PILImage 타입이나 텐서일 경우에 동작한다.
# 현재 데이터는 넘파이 배열이다. 따라서 텐서 변환 후 tr.ToPILImage()을 이용하여 PILImage 타입으로 만들어 준다.
# __call__을 이용한 기본 구조는 동일하다.

# 이미지 전처리기
# __call__을 정의했기 때문에 함수처럼 작동한다.
class MyTransform:
  def __call__(self, sample):
    inputs, labels = sample
    inputs = torch.FloatTensor(inputs)
    inputs = inputs.permute(2, 0, 1)
    labels = torch.FloatTensor(labels)

    transf = tr.Compose([tr.ToPILImage(), tr.Resize(128), tr.ToTensor(), tr.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
    final_output = transf(inputs)

    return final_output, labels

In [44]:
dataset2 = MyDataset(train_images, train_labels, transform=MyTransform())
train_loader2 = DataLoader(dataset2, batch_size=15, shuffle=True)

In [45]:
data_iter2 = iter(train_loader2)
images2, label2 = next(data_iter2)

print(images2.size()) # 배치 및 이미지 크기 확인

torch.Size([15, 3, 128, 128])
