# ImageFolder 사용하기

> [label별 폴더 생성 + ImageFolder를 사용해서 data split하기](https://dacon.io/en/codeshare/4750)

ImageFolder를 이용해 dateset을 다뤄보자.

---

## 1.1 label별 폴더 생성

> [ImageNet Dataset](https://www.image-net.org/download.php): 가입 후 ILSVRC 2012를 다운로드한다.

> [ImageNet Dataset Downloader github](https://github.com/mf1024/ImageNet-Datasets-Downloader)

> [ImageNet training in PyTorch](https://github.com/pytorch/examples/tree/main/imagenet)

ImageNet train dataset에서 3 class만 예시로 사용한다. 참고로 실제 ImageNet dataset을 ImageFolder로 사용할 때는 다음과 같이 dataset를 위치시키면 된다.

```
imagenet
├── train
│   ├── n01440764
│   │   ├── n01440764_10026.JPEG
│   │   ├── ...
│   ├── ...
├── val
│   ├── ILSVRC2012_val_00000001.JPEG
│   ├── ...
├── test
│   ├── ILSVRC2012_test_00000001.JPEG
```

우선 label 정보가 담긴 `csv` 파일이 필요하다. 위 깃허브에서 다운로드받은 [csv 파일](https://github.com/mf1024/ImageNet-Datasets-Downloader/blob/master/classes_in_imagenet.csv)을 사용한다.

In [2]:
import pandas as pd

train_df = pd.read_csv("classes_in_imagenet.csv")
print(len(train_df["class_name"].unique()))    # 깃허브 csv의 class_name을 그대로 사용

3


In [9]:
label_list = train_df["class_name"].unique().tolist()
print(label_list)  # type = list

['goldfish', 'great white shark', 'hammerhead']


label로 'goldfish', 'great white shark', 'hammerhead' 세 종류가 있는 것을 확인했다. 이제 label에 맞게 폴더에 옮길 수 있도록 create_folder 함수를 만들어보자.

In [10]:
import os

def create_folder(dir_path):
    try:
        if not os.path.exists(dir_path):
            os.makedirs(dir_path)
    except OSError:
        print("Error: Creating directory. " + dir_path)
    
for i in range(len(label_list)):    # 현재 예제는 3번
    create_folder(f'./train/{label_list[i]}')

위 코드를 실행하면 현재 경로에 다음과 같은 디렉터리가 생긴다. `os.listdir` 명령으로도 확인할 수 있다.

```
train
├── goldfish
├── great white shark
└── hammerhead
```

In [12]:
train_folder_list = os.listdir('./train/')
print(train_folder_list)
len(train_folder_list)

['hammerhead', 'goldfish', 'great white shark']


3

---

## 1.2 이미지 옮기기

이제 앞서 label 이름의 디렉터리로 이미지들을 모두 옮기기 전에, 기존 dataset이 이미지를 몇 장 갖고 있는지부터 확인해야 한다.

- n01443537: 1300개

- n01484850: 792개

- n01494475: 1004개


In [17]:
terminal_command = 'find ./imagenet_sample/* -name "*.JPEG" | wc -l'
os.system(terminal_command)

    3096


0

이제 for loop를 돌면서 이미지를 옮기자. 이미지는 다음과 같이 접근할 수 있다.

In [28]:
import shutil

dataset_dir = os.listdir('./imagenet_sample/')
# dataset_dir = ['n01443537', 'n01484850', 'n01494475']
for i in range(len(dataset_dir)):
    image_path = f'./imagenet_sample/{dataset_dir[i]}'
    image_list = os.listdir(image_path)
    for j in range(len(image_list)):
        if image_list[j][-4:] == 'JPEG':
            print(image_list[j])

n01443537_18399.JPEG
n01443537_23860.JPEG
n01443537_18376.JPEG
n01443537_16942.JPEG
n01443537_20489.JPEG
n01443537_891.JPEG
n01443537_6272.JPEG
n01443537_22725.JPEG
n01443537_17191.JPEG
n01443537_9703.JPEG
n01443537_4998.JPEG
n01443537_16780.JPEG
n01443537_19475.JPEG
n01443537_8407.JPEG
n01443537_18771.JPEG
n01443537_3498.JPEG
n01443537_15790.JPEG
n01443537_22549.JPEG
n01443537_4218.JPEG
n01443537_10087.JPEG
n01443537_2266.JPEG
n01443537_15913.JPEG
n01443537_17884.JPEG
n01443537_4127.JPEG
n01443537_17187.JPEG
n01443537_21959.JPEG
n01443537_17538.JPEG
n01443537_23437.JPEG
n01443537_1722.JPEG
n01443537_4520.JPEG
n01443537_17979.JPEG
n01443537_15552.JPEG
n01443537_22621.JPEG
n01443537_2948.JPEG
n01443537_4035.JPEG
n01443537_13255.JPEG
n01443537_16057.JPEG
n01443537_23319.JPEG
n01443537_17216.JPEG
n01443537_17646.JPEG
n01443537_12501.JPEG
n01443537_3965.JPEG
n01443537_7475.JPEG
n01443537_13557.JPEG
n01443537_20722.JPEG
n01443537_21563.JPEG
n01443537_17328.JPEG
n01443537_4222.JPEG
n01443537

In [47]:
for i in range(len(dataset_dir)):
    image_path = f'./imagenet_sample/{dataset_dir[i]}'
    image_list = os.listdir(image_path)

    # destination 지정
    destination = train_df.loc[train_df["synid"] == dataset_dir[i], "class_name"].values[0]
    destination = f'./train/{destination}'
    # print(destination)
    
    # 이미지 옮기기
    for j in range(len(image_list)):
        if image_list[j][-4:] == 'JPEG':
            source = f'{image_path}/{image_list[j]}'
            shutil.move(source, destination)

./train/goldfish
./train/hammerhead
./train/great white shark
