## 폴더 구조

```
    BASE_DIR
    ├ data              // 초기에 제공되는 데이터들
    │ ├ private         // 교수님께서 제공한 private 테스트 이미지 (png 파일 15,000장)
    │ │ │ 00000.png
    │ │ │ ...
    │ │ └ 14999.png
    │ ├ public          // 교수님께서 제공한 public 테스트 이미지 (png 파일 10,000장)
    │ │ │ 00000.png
    │ │ │ ...
    │ │ └ 09999.png
    │ ├ fashion-mnist_test.csv      // kaggle에서 다운로드 받은 Fashion-MNIST 테스트 데이터
    │ ├ fashion-mnist_train.csv     // kaggle에서 다운로드 받은 Fashion-MNIST 학습 데이터
    │ ├ public_label.txt            // 교수님께서 제공한 public result
    │ ├ t10k-images-idx3-ubyte
    │ ├ t10k-labels-idx1-ubyte
    │ ├ train-images-idx3-ubyte
    │ └ train-labels-idx1-ubyte
    └ Fashion MNIST df2csv.ipynb
```

## 필요한 패키지 설치

In [None]:
!conda install pandas numpy matplotlib scikit-learn tqdm seaborn opencv-python scikit-image xgboost

In [5]:
import os

# 데이터셋 파일 경로 설정
BASE_DIR = os.getcwd()
DATA_DIR = BASE_DIR + "/data"
MODEL_DIR = MODEL_DIR = BASE_DIR + '/model'
RESULT_DIR = BASE_DIR + '/result'

In [6]:
import csv
import tqdm
import pandas as pd
import numpy as np
import numpy.typing as npt
import matplotlib.pyplot as plt
from typing import Literal
import cv2

def load_data(kind:Literal['train', 'test', 'public', 'private', 'aug'], aug_filename="") -> tuple[np.ndarray, pd.DataFrame]:
    """
        kind: 불러올 데이터의 종류.\n
        aug_filename: 증강시킨 데이터의 경우, 해당 데이터의 파일명을 '_with_label.csv' 빼고 작성합니다.\n
    """
    header, labels, imgs = list(), list(), list()
    header = [f'pixel{idx+1}' for idx in range(784)]
    
    # Fashion MNIST 파일 불러오기
    if kind in ['train', 'test']:
        DATA_PATH = DATA_DIR + f"/fashion-mnist_{kind}.csv"
        with open(DATA_PATH, 'r') as data:
            for idx, row in tqdm.tqdm(enumerate(csv.reader(data))):
                if idx==0:
                    header = row[1:]
                else:
                    label, img = row[0], row[1:]
                    labels.append(label)
                    imgs.append(img)
    
    # public 파일 불러오기
    elif kind=='public':
        FILE_PATH = f'{DATA_DIR}/public'
        FILE_LIST = sorted(os.listdir(f'{FILE_PATH}'))
        for filename in tqdm.tqdm(FILE_LIST):
            img = cv2.imread(f'{FILE_PATH}/{filename}', cv2.IMREAD_GRAYSCALE).flatten()
            imgs.append(img)
        with open(f'{DATA_DIR}/public_label.txt', 'r') as f:
            for line in f.readlines():
                labels.append(line.strip().split(' ')[1])
    
    # private 파일 불러오기
    elif kind=='private':
        FILE_PATH = f'{DATA_DIR}/private'
        FILE_LIST = sorted(os.listdir(f'{FILE_PATH}'))
        for filename in tqdm.tqdm(FILE_LIST):
            img = cv2.imread(f'{FILE_PATH}/{filename}', cv2.IMREAD_GRAYSCALE).flatten()
            imgs.append(img)
    

    labels = np.array(labels, dtype='int32')
    imgs = pd.DataFrame(imgs, columns=header, dtype='float32')
    return imgs, labels

In [7]:
#train_imgs, train_labels = load_data('train')
#test_imgs, test_labels = load_data('test')
public_imgs, public_labels = load_data('public')
private_imgs, private_labels = load_data('private')

100%|██████████| 10000/10000 [02:50<00:00, 58.57it/s] 
100%|██████████| 15000/15000 [02:36<00:00, 95.90it/s]  


In [10]:
public_labels = pd.DataFrame(public_labels, columns=['label'])
pd.concat([public_labels, public_imgs], axis=1).to_csv('./public.csv', index=False)
pd.DataFrame(private_imgs).to_csv('./private.csv', index=False)