# Rename image files to English names
#### 데이터셋 형식 변경 : .jpg 명 영어로 변경
(AiHub Korean Emotion Dataset Conversion Manual 참고)

# Import

In [None]:
import glob # 파일 경로를 패턴 매칭을 통해 검색하는 데 사용되는 모듈
import os # 운영 체제와 상호 작용하기 위한 함수들을 제공하는 모듈
import pandas as pd # 표 형식의 데이터 쉽게 다룰 수 있는 라이브러리
from unidecode import unidecode # 유니코드 문자를 ASCII로 변환하는 데 사용되는 라이브러리

# 파일 이름과 길이를 저장할 딕셔너리와 리스트 생성

In [28]:
def count_file_lengths(directory):
    file_lengths = {}  # 파일 이름 길이를 저장할 딕셔너리 생성
    for filename in os.listdir(directory):  # 주어진 디렉토리 내의 파일들을 순회
        file_path = os.path.join(directory, filename)  # 디렉토리 경로와 파일 이름을 합쳐서 파일 경로를 생성
        if os.path.isfile(file_path):  # 파일인 경우에만 처리 (디렉토리는 제외)
            length = len(filename)  # 파일 이름의 길이를 계산
            if length in file_lengths:  # 이미 해당 길이의 파일 이름이 딕셔너리에 존재하는 경우
                file_lengths[length] += 1  # 해당 길이의 파일 개수를 1 증가
            else:  # 해당 길이의 파일 이름이 처음 발견된 경우
                file_lengths[length] = 1  # 해당 길이의 파일 개수를 1로 초기화
    return file_lengths  # 파일 이름 길이별 파일 개수

In [29]:
def split_filename(directory):
    filename_data = []  # 파일 이름을 저장할 리스트를 생성
    for filename in os.listdir(directory):  # 주어진 디렉토리 내의 파일들을 순회
        file_path = os.path.join(directory, filename)  # 디렉토리 경로와 파일 이름을 합쳐서 파일 경로를 생성
        if os.path.isfile(file_path):  # 파일인 경우에만 처리 (디렉토리는 제외)
            splits = filename.split("_")  # 파일 이름을 '_'를 기준으로 분할하여 리스트로 생성
            filename_data.append(splits)  # 분할된 파일 이름을 filename_data 리스트에 추가
    df = pd.DataFrame(filename_data)  # filename_data 리스트를 사용하여 데이터프레임을 생성
    return df  # 생성된 데이터프레임을 반환합니다.

# 판다스(pandas) 표시의 최대 열 너비를 설정

In [30]:
pd.options.display.max_colwidth = 200

# 디렉토리 경로 지정 [경로 수정 필요]

In [31]:
directory_path = "C:/data/test/" # !!! 중요 : 관련경로수정하기 !!!
df = split_filename(directory_path) # 파일 이름을 분할하여 DataFrame 생성
print(df)

                                                                   0  1   2  \
0   0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  남  20   
1   0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  남  20   
2   0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  남  20   
3   0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  남  20   
4   0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  남  20   
..                                                               ... ..  ..   
65  0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  남  20   
66  0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  남  20   
67  0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  남  20   
68  0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  남  20   
69  0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  남  20   

     3              4                           5  

# DataFrame df에 새로운 열(original_name)을 추가하기

'original_name' 열은 0번째부터 5번째까지의 열 값을 문자열로 변환하고, 이들을 밑줄('_')로 연결하여 생성

In [32]:
df['original_name'] = df[0].map(str)+'_'+df[1].map(str)+'_'+df[2].map(str)+'_'+df[3].map(str)+'_'+df[4].map(str)+'_'+df[5].map(str)
df

Unnamed: 0,0,1,2,3,4,5,original_name
0,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,남,20,불안,공공시설&종교&의료시설,20201206192343-001-002.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_공공시설&종교&의료시설_20201206192343-001-002.jpg
1,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,남,20,불안,공공시설&종교&의료시설,20201206192343-001-003.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_공공시설&종교&의료시설_20201206192343-001-003.jpg
2,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,남,20,불안,공공시설&종교&의료시설,20201206192343-001-005.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_공공시설&종교&의료시설_20201206192343-001-005.jpg
3,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,남,20,불안,공공시설&종교&의료시설,20201206192343-001-008.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_공공시설&종교&의료시설_20201206192343-001-008.jpg
4,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,남,20,불안,공공시설&종교&의료시설,20201206192343-001-009.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_공공시설&종교&의료시설_20201206192343-001-009.jpg
...,...,...,...,...,...,...,...
65,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,남,20,불안,스포츠 관람 및 레저시설,20201206192411-004-007.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_스포츠 관람 및 레저시설_20201206192411-004-007.jpg
66,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,남,20,불안,스포츠 관람 및 레저시설,20201206192411-004-008.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_스포츠 관람 및 레저시설_20201206192411-004-008.jpg
67,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,남,20,불안,스포츠 관람 및 레저시설,20201206192411-004-010.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_스포츠 관람 및 레저시설_20201206192411-004-010.jpg
68,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,남,20,불안,스포츠 관람 및 레저시설,20201206192411-004-011.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_스포츠 관람 및 레저시설_20201206192411-004-011.jpg


# 각각의 열에 대해 피팅 후 레이블 클래스 출력

sklearn.preprocessing 모듈에서 LabelEncoder를 가져온 후, 각각의 열에 대해 LabelEncoder를 피팅(fit)함.      
               이후, le.classes_를 통해 각 열에 대한 레이블 클래스를 출력

In [33]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit(df[1])
print(le.classes_)
le.fit(df[3])
print(le.classes_)
le.fit(df[4])
print(le.classes_)

['남']
['불안']
['공공시설&종교&의료시설' '교통&이동수단(엘리베이터 포함)' '도심 환경' '문화재 및 유적지' '상업시설&점포&시장'
 '숙박 및 거주공간' '스포츠 관람 및 레저시설']


# 사전변수 정의 후 매핑 [emotion 변경 필요]

In [34]:
gender = {'여':'f', '남':'m'}
emotion = {'불안':'anxious'} # !!! 중요 : emotion 변경하기 !!!
background = {'공공시설&종교&의료시설':'public',
              '교통&이동수단(엘리베이터 포함)':'traffic',
              '도심 환경':'urban',
              '문화재 및 유적지':'cultural',
              '상업시설&점포&시장':'commerce',
              '숙박 및 거주공간':'indoor',
              '스포츠 관람 및 레저시설':'sports',
              '실외 자연환경':'outdoor',
              '오락&공연시설':'entertainment',
              '행사&사무공간':'office'} # 'background'통해 값을 특정 용어로 매핑

In [35]:
df[1] = df[1].map(gender)
df[3] = df[3].map(emotion)
df[4] = df[4].map(background) #  각 열에 대해 사전 변수를 사용하여 값을 매핑

print(df)

                                                                   0  1   2  \
0   0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  m  20   
1   0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  m  20   
2   0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  m  20   
3   0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  m  20   
4   0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  m  20   
..                                                               ... ..  ..   
65  0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  m  20   
66  0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  m  20   
67  0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  m  20   
68  0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  m  20   
69  0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188  m  20   

          3       4                           5  \


# 새로운 열(full_name) df에 추가

In [36]:
df['full_name'] = df[0].map(str)+'_'+df[1].map(str)+'_'+df[2].map(str)+'_'+df[3].map(str)+'_'+df[4].map(str)+'_'+df[5].map(str)
df

Unnamed: 0,0,1,2,3,4,5,original_name,full_name
0,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,m,20,anxious,public,20201206192343-001-002.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_공공시설&종교&의료시설_20201206192343-001-002.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_public_20201206192343-001-002.jpg
1,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,m,20,anxious,public,20201206192343-001-003.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_공공시설&종교&의료시설_20201206192343-001-003.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_public_20201206192343-001-003.jpg
2,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,m,20,anxious,public,20201206192343-001-005.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_공공시설&종교&의료시설_20201206192343-001-005.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_public_20201206192343-001-005.jpg
3,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,m,20,anxious,public,20201206192343-001-008.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_공공시설&종교&의료시설_20201206192343-001-008.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_public_20201206192343-001-008.jpg
4,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,m,20,anxious,public,20201206192343-001-009.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_공공시설&종교&의료시설_20201206192343-001-009.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_public_20201206192343-001-009.jpg
...,...,...,...,...,...,...,...,...
65,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,m,20,anxious,sports,20201206192411-004-007.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_스포츠 관람 및 레저시설_20201206192411-004-007.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_sports_20201206192411-004-007.jpg
66,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,m,20,anxious,sports,20201206192411-004-008.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_스포츠 관람 및 레저시설_20201206192411-004-008.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_sports_20201206192411-004-008.jpg
67,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,m,20,anxious,sports,20201206192411-004-010.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_스포츠 관람 및 레저시설_20201206192411-004-010.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_sports_20201206192411-004-010.jpg
68,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188,m,20,anxious,sports,20201206192411-004-011.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_스포츠 관람 및 레저시설_20201206192411-004-011.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_sports_20201206192411-004-011.jpg


#  'original_name'과 'full_name' 열만 선택해 새로운 DataFrame 만들어줌

In [37]:
df[["original_name","full_name"]]

Unnamed: 0,original_name,full_name
0,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_공공시설&종교&의료시설_20201206192343-001-002.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_public_20201206192343-001-002.jpg
1,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_공공시설&종교&의료시설_20201206192343-001-003.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_public_20201206192343-001-003.jpg
2,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_공공시설&종교&의료시설_20201206192343-001-005.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_public_20201206192343-001-005.jpg
3,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_공공시설&종교&의료시설_20201206192343-001-008.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_public_20201206192343-001-008.jpg
4,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_공공시설&종교&의료시설_20201206192343-001-009.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_public_20201206192343-001-009.jpg
...,...,...
65,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_스포츠 관람 및 레저시설_20201206192411-004-007.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_sports_20201206192411-004-007.jpg
66,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_스포츠 관람 및 레저시설_20201206192411-004-008.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_sports_20201206192411-004-008.jpg
67,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_스포츠 관람 및 레저시설_20201206192411-004-010.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_sports_20201206192411-004-010.jpg
68,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_남_20_불안_스포츠 관람 및 레저시설_20201206192411-004-011.jpg,0a3a21be68414f07a0e035671e8e3911c7376b4cfc6e100c8a1e240423676188_m_20_anxious_sports_20201206192411-004-011.jpg


In [38]:
def rename_files(directory, dataframe):
    # 주어진 디렉토리와 DataFrame을 반복하여 파일 이름을 변경하는 함수
    for index, row in dataframe.iterrows():
        # DataFrame을 행 단위로 반복하면서 인덱스와 해당 행(row) 가져옴
        old_name = os.path.join(directory, row['original_name'])
        # 기존 파일의 경로와 파일 이름을 연결하여 완전한 기존 파일 경로를 생성
        new_name = os.path.join(directory, row['full_name'])
        # 새 파일의 경로와 파일 이름을 연결하여 완전한 새 파일 경로를 생성
        if os.path.exists(old_name): # 기존 파일이 존재하는지 확인
            os.rename(old_name, new_name) # 기존 파일을 새 파일 이름으로 변경

In [39]:
rename_files(directory_path, df) #실제 파일명 수정