# Utility Notebook - Make train.csv

이 노트북은 train.csv를 생성합니다. 
- 404Vector

In [1]:
import os
import glob
import pandas as pd
from sklearn import preprocessing
from sklearn.model_selection import train_test_split

In [2]:
CONFIG = {
    "data_path" : "./.local", # data가 있는 경로를 아래 data_path에 입력해줍니다.
    "include_data_path" : True, # csv에 위 data_path를 포함하여 이미지 경로를 생성할지 결정합니다.
    "result_csv_path" : "./.local/train.csv", # csv를 저장할 경로 및 이름을 입력합니다.
    "save_label_info" : True, # Encoding 된 라벨에 대한 정보를 저장합니다.
    "result_label_info_path" : "./.local/label_info.csv" # label info를 저장할 경로 및 이름을 입력합니다.
}

In [3]:
# 모든 이미지의 경로를 가져옵니다.
all_img_list = glob.glob(os.path.join(CONFIG['data_path'], 'train/*/*'))

# data frame 인스턴스를 생성합니다. column은 [이미지 경로, 라벨(숫자 값) 설명(한글 라벨)] 입니다.
df = pd.DataFrame(columns=['img_path', 'label', 'description']) 

# data frame에 image path를 입력합니다. 
df['img_path'] = all_img_list if CONFIG['include_data_path'] else [path[len(CONFIG['data_path']):] for path in all_img_list]

# data frame에 description을 입력합니다.
df['description'] = df['img_path'].apply(lambda x : str(x).split('/')[-2])

# data frame에 label을 입력합니다.
le = preprocessing.LabelEncoder()
df['label'] = le.fit_transform(df['description'])

# train.csv 파일을 생성합니다.
print(df.head())
df.to_csv(CONFIG['result_csv_path'], index=False)

                    img_path  label description
0   ./.local/train/녹오염/8.png      4         녹오염
1   ./.local/train/녹오염/9.png      4         녹오염
2  ./.local/train/녹오염/12.png      4         녹오염
3  ./.local/train/녹오염/13.png      4         녹오염
4  ./.local/train/녹오염/11.png      4         녹오염


In [4]:
# Label info를 생성 및 저장합니다.
if CONFIG['save_label_info']:
    label_info_df = pd.DataFrame(columns=['label', 'description'])
    label_info_pair = [[label, description] for label, description in enumerate(le.classes_.tolist())]
    label_info_df[['label', 'description']] = label_info_pair[:]
    print(label_info_df)
    label_info_df.to_csv(CONFIG['result_label_info_path'], index=False)


   label description
0      0        가구수정
1      1      걸레받이수정
2      2         곰팡이
3      3          꼬임
4      4         녹오염
5      5          들뜸
6      6         면불량
7      7        몰딩수정
8      8          반점
9      9        석고수정
10    10          오염
11    11         오타공
12    12          울음
13    13       이음부불량
14    14     창틀,문틀수정
15    15          터짐
16    16        틈새과다
17    17          피스
18    18          훼손
