# 프로젝트 개요

## 폴더 관리 프로그램
- 압축 파일 정리 - zipfile, tarfile
- 파일명 정리 - openpyxl
- 폴더 만들기 - os.path, pathlib
- 파일 옮기기 - glob, fnmatch, shutil

### 디렉토리 다루기

os.path, pathlib
- os.path 와 pathlib 모두 파이썬에서 경로와 디렉터리를 처리할 때 자주 사용되는 내장 라이브러리
- os.path 는 경로를 ***문자열***로 다루고 pathlib 은 경로를 ***객체형***으로 다루는 차이가 있음
- pathlib 은 파이썬 3.4 버전 이후부터 지원
- 파일 찾기, 시스템 경로 등의 기능이 유용


![image.png](attachment:image.png)

In [2]:
import os
import pathlib

**현재 디렉토리 확인**

In [3]:
print(os.getcwd())

c:\Users\jyhuh\Desktop\Python\python-study\업무 자동화


In [4]:
print(pathlib.Path.cwd())

c:\Users\jyhuh\Desktop\Python\python-study\업무 자동화


**경로 존재 확인**

In [11]:
# 파이썬에서는 경로를 /를 구분자로 사용을 하기 떄문에 'r'을 써서 \을 문자열로 쓰겠다는 거를 명시
dir_file = r'C:\Users\jyhuh\Desktop\Python\python-study\파이썬으로 달력 만들기'

In [12]:
print(os.path.exists(dir_file))

True


In [13]:
print(pathlib.Path.exists(pathlib.Path(dir_file))) # 문자열을 객체로 만들어줘야 함

True


**디렉토리 만들기**

In [40]:
dir_os = r'C:\Users\jyhuh\Desktop\Python\python-study\업무 자동화\os\새폴더'
dir_pathlib = pathlib.Path(r'C:\Users\jyhuh\Desktop\Python\python-study\업무 자동화\pathlib\새폴더')

In [41]:
# os
if not os.path.exists(dir_os):
    os.makedirs(dir_os)

In [42]:
# pathlib
dir_pathlib.mkdir(parents=True, exist_ok=True) # parents=False로 하면 pathlib 폴더가 존재하지 않아서 에러

**파일명 확인**

In [43]:
dir_file = r'C:\Users\jyhuh\Desktop\Python\python-study\업무 자동화\sample'

In [44]:
# 전체 파일 리스트
print(os.listdir(dir_file))

['sample01.txt', 'sample02.txt', 'sample03.txt']


In [45]:
# os
print(os.path.basename(os.listdir(dir_file)[0]))

sample01.txt


In [46]:
# pathlib
print(pathlib.PurePath(os.listdir(dir_file)[0]).name)

sample01.txt


**상위 경로명 확인**

In [47]:
dir_file

'C:\\Users\\jyhuh\\Desktop\\Python\\python-study\\업무 자동화\\sample'

In [48]:
# os
print(os.path.dirname(dir_file))

C:\Users\jyhuh\Desktop\Python\python-study\업무 자동화


In [49]:
#pathlib
print(pathlib.PurePath(dir_file).parent)

C:\Users\jyhuh\Desktop\Python\python-study\업무 자동화


**경로 연결**

In [50]:
#os
print(os.path.join(dir_file, 'os'))

C:\Users\jyhuh\Desktop\Python\python-study\업무 자동화\sample\os


In [51]:
#os - 부모 경로에 추가
print(os.path.join(os.path.dirname(dir_file), 'os'))

C:\Users\jyhuh\Desktop\Python\python-study\업무 자동화\os


In [52]:
#pathlib
print(pathlib.PurePath(dir_file).joinpath('pathlib'))

C:\Users\jyhuh\Desktop\Python\python-study\업무 자동화\sample\pathlib


In [53]:
#pathlib - 부모 경로에 추가
#상위 경로를 계속 가야한다면 pathlib을 사용하는 것이 좋음
print(pathlib.PurePath(pathlib.PurePath(dir_file).parent).joinpath('pathlib'))
print(pathlib.PurePath(pathlib.PurePath(dir_file).parent.parent).joinpath('pathlib'))

C:\Users\jyhuh\Desktop\Python\python-study\업무 자동화\pathlib
C:\Users\jyhuh\Desktop\Python\python-study\pathlib


**확장자 분리**

In [54]:
file_path = os.path.basename(os.listdir(dir_file)[0])
print(file_path)

sample01.txt


In [55]:
#os
print(os.path.splitext(file_path))
print(os.path.splitext(file_path)[1])

('sample01', '.txt')
.txt


In [56]:
#pathlib
pathlib.PurePath(file_path).suffix

'.txt'

### 파일 읽기, 저장


> **fileinput**
> - fileinput 은 텍스트 파일을 읽고, 쓰고, 저장하는 기능을 **더욱 편리하게 사용**할 수 있게 해주는 라이브러리
> - **여러개의 파일**을 읽어서 수정할 수 있다.
> - "Inplace editing"기능을 사용하면 open, close보다 더 수정이 간편하고 직관적이다!

**여러개 파일 읽기**

In [57]:
import fileinput
import glob
import os

In [59]:
# 현재 경로 확인
os.getcwd()

'c:\\Users\\jyhuh\\Desktop\\Python\\python-study\\업무 자동화'

In [60]:
# 디렉토리 확인
os.listdir(os.getcwd())

['os', 'pathlib', 'sample', '파일 디렉토리.ipynb']

In [61]:
# 경로 설정
path = 'sample/'

In [62]:
# txt 파일 확인
glob.glob(os.path.join(path, "*.txt"))

['sample\\sample01.txt', 'sample\\sample02.txt', 'sample\\sample03.txt']

In [79]:
with fileinput.input(files=glob.glob(os.path.join(path, "*.txt")), encoding='utf-8') as f:
    for line in f:
        print(line)

첫번째 줄입니다.

2번쨰 줄입니다.

3번쨰 줄입니다.

4번쨰 줄입니다.

5번쨰 줄입니다.

6번쨰 줄입니다.

7번쨰 줄입니다.

8번쨰 줄입니다.

9번쨰 줄입니다.

10번쨰 줄입니다.
첫번째 줄입니다.

12번쨰 줄입니다.

13번쨰 줄입니다.

14번쨰 줄입니다.

15번쨰 줄입니다.

16번쨰 줄입니다.

17번쨰 줄입니다.

18번쨰 줄입니다.

19번쨰 줄입니다.

20번쨰 줄입니다.
첫번째 줄입니다.

22번쨰 줄입니다.

23번쨰 줄입니다.

24번쨰 줄입니다.

25번쨰 줄입니다.

26번쨰 줄입니다.

27번쨰 줄입니다.

28번쨰 줄입니다.

29번쨰 줄입니다.

30번쨰 줄입니다.





**Inplace Editing**

> - Fileinput(파일 이름, inplace = True, backup = '.bak')

첫번째 줄 수정

In [80]:
txt_file = glob.glob(os.path.join(path, '*.txt'))

In [81]:
with fileinput.input(txt_file, inplace=True, encoding='utf-8') as f:
    for line in f:
        if f.isfirstline():
            print('첫번째 줄입니다.', end='\n')
        else:
            print(line, end='')

**검색된 줄 수정**

In [82]:
with fileinput.input(txt_file, inplace=True, encoding='utf-8') as f:
    for line in f:
        if line == '첫번째 줄입니다.\n':
            print('1번째 줄입니다.', end='\n')
        else:
            print(line, end='')

키워드 포함 라인 수정

In [85]:
with fileinput.input(txt_file, inplace=True, encoding='utf-8') as f:
    for line in f:
        if '14번쨰' in line:
            print('열네번째 줄입니다.', end='\n')
        else:
            print(line, end='')

print('변경이 완료되었습니다')

변경이 완료되었습니다


**텍스트 치환**

In [86]:
with fileinput.input(txt_file, inplace=True, encoding='utf-8') as f:
    for line in f:
        if '열네번째' in line:
            print(line.replace('열네번째', '14번째'), end='')
        else:
            print(line, end='')
print('치환 완료')

치환 완료


> **pickle**
> - pickle 파이썬에서 사용하는 딕셔너리, 리스트, 클래스 등의 자료형을 **변환 없이 그대로 파일로 저장**하고 이를 불러올 때 사용하는 모듈

**객체형 파일 저장**

In [87]:
import pickle

In [88]:
#리스트형
data=['A','B','C']

In [89]:
#파일저장
with open('list.pkl', 'wb') as f: #'wb'-바이트형식으로 write
    pickle.dump(data, f)

In [95]:
#파일읽기
with open('list.pkl', 'rb') as f:
    data=pickle.load(f)

In [96]:
type(data)

list

In [97]:
data

['A', 'B', 'C']

In [98]:
#딕셔너리형
data={}
data[1]={'no':1, 'subject': '안녕 피클', 'content': '피클은 매우 간단합니다.'}

In [99]:
#파일저장
with open('dictionary.pkl', 'wb') as f:
    pickle.dump(data, f)

In [101]:
#파일읽기
with open('dictionary.pkl', 'rb') as f:
    data=pickle.load(f)

In [102]:
type(data)

dict

In [103]:
data

{1: {'no': 1, 'subject': '안녕 피클', 'content': '피클은 매우 간단합니다.'}}

### 파일 찾기, 복사, 이동

> **glob**
> - glob 는 패턴을 이용하여 파일을 검색할 때 사용하는 모듈

**파일 확장자로 찾기**

In [104]:
import glob
import os

In [105]:
# 현재 디렉토리 확인
os.getcwd()

'c:\\Users\\jyhuh\\Desktop\\Python\\python-study\\업무 자동화'

In [106]:
# txt 파일 찾기 - 현재 경로
for filename in glob.glob('*.txt'): # * - 와일드카드라고 부름
    print(filename)

In [107]:
# txt 파일 찾기 - 하위 경로
for filename in glob.glob('**/*.txt'):
    print(filename)

sample\sample01.txt
sample\sample02.txt
sample\sample03.txt


In [110]:
# txt 파일찾기 - 현재와 하위 경로 모두 포함
for filename in glob.glob('**/*.txt', recursive=True):
    print(filename)

sample01.txt
sample\sample01.txt
sample\sample02.txt
sample\sample03.txt


**파일명 글자수로 찾기 - 물음표 사용**

In [111]:
#글자수 4
for filename in glob.glob("????.*", recursive=True):
    print(filename)

list.pkl


In [113]:
#글자수 10
for filename in glob.glob("??????????.*", recursive=True):
    print(filename)

dictionary.pkl


**문자열 포함 파일명 찾기**

In [114]:
#알파벳 4글자짜리 파일명 찾기
for filename in glob.glob('**/[a-Z][a-Z][a-Z][a-Z].*', recursive=True):
    print(filename)

list.pkl


In [116]:
# '새파일'이라는 문자열이 들어간 파일 찾기
for filename in glob.glob('**/sample*.*', recursive=True):
    print(filename)

sample01.txt
sample\sample01.txt
sample\sample02.txt
sample\sample03.txt


In [117]:
# 중간에 '디렉토리'라는 문자열이 들어간 파일 찾기
for filename in glob.glob('**/*디렉토리*.*', recursive=True):
    print(filename)

파일 디렉토리.ipynb


> __fnmatch__
> - fnmatch 는 glob 와 동일하게 특정한 패턴을 따르는 파일명을 찾아주는 모듈
> - 파일명 매칭 여부를 True, False 형태로 반환하기 때문에 os.listdir() 함수와 함께 사용하는 것이 특징

In [118]:
import fnmatch
import os

__탐색조건__

- 파일명은 'sam'으로 시작
- 확장자는 텍스트 파일을 의미하는 txt
- 확장자를 제외한 파일명의 길이는 8
- 파일명의 마지막과 마지막 두번째 문자는 숫자

In [122]:
for filename in os.listdir('./sample'):
    if fnmatch.fnmatch(filename, 'sam???[0-9][0-9].txt'):
        print(filename)

sample01.txt
sample02.txt
sample03.txt


> __shutil__
> - shutil 은 파일을 복사하거나 이동할때 사용하는 내장 모듈
> - copy, copy2: 파일 복사
> - move: 파일이동, 확장자 변경

In [1]:
import shutil

In [15]:
# 파일 복사
shutil.copy('./sample/sample01.txt', './sample/sample01_복사본.txt')

'./sample/sample01_복사본.txt'

In [16]:
# 메타정보 복사
shutil.copy2('./sample/sample01_복사본.txt', './sample/sample01_복사본_메타.txt')

'./sample/sample01_복사본_메타.txt'

In [17]:
# 확장자 바꾸기
shutil.move('./sample/sample01_복사본.txt', './sample/sample01_복사본.py')

'./sample/sample01_복사본.py'

In [18]:
# 확장자 바꾸기
shutil.move('./sample/sample01_복사본.py', './sample/sample01_복사본.txt')

'./sample/sample01_복사본.txt'

In [19]:
# 파일 이동하기
shutil.move('./sample/sample01_복사본.txt', 'sample01_복사본.txt')
shutil.move('./sample/sample01_복사본_메타.txt', 'sample01_복사본_메타.txt')

'sample01_복사본_메타.txt'

### 파일 압축

> __데이터 압축이 필요한 이유?__
> - 데이터 전송 시 대용량 데이터는 **전송 속도가 느리며 전송 문제가 발생**할 가능성이 높음
> - 데이터 압축의 종류
>     - 무손실 압축 : 데이터 손실이 전혀 없는 압축
>     - 손실 압축 : 사람이 눈치채지 못할 수준의 정보만 버리고 압축하는 방법 - 이미지, 사운드 파일
> - 압축률: 원시 자료량 (원래 데이터 크기)/압축된 자료량 (압축된 데이터 크기)
> - 다양한 압축 알고리즘에 따라 압축 성능 및 시간이 좌우됨
> - 압축 : 인코딩 (Encoding)
> - 압축 해제 : 디코딩 (Decoding)  

> __런 - 길이 부호화 (Run-Length Encoding)__
> - 대표적인 무손실 압축 방법

![image.png](attachment:b8e22a91-64a4-4c7d-a77a-07235594f5c3.png)

> zlib
> - zlib 은 데이터를 압축하거나 해제할 때 사용하는 모듈
> - compress() 와 decompress() 함수로 문자열을 압축하거나 해제
> - 데이터 크기를 줄여서 전송이 필요할 경우 사용

__문자열 데이터 압축__

In [22]:
import zlib

In [28]:
# 대용량 문자열 데이터 [350,000 byte]
data = "Life is too short. You need Python." * 10000

In [29]:
data

'Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. 

In [30]:
print(len(data))

350000


__zlib 압축__

In [35]:
# 유니코드로 인코딩 후 압축 - 기본적으로 인코딩을 함
compress_data = zlib.compress(data.encode(encoding='utf-8'))
print(len(compress_data))

1077


In [36]:
compress_data

b'x\x9c\xed\xca\xb1\x11\x80 \x10\x00\xb0U~\x02&\xa1\xb0\xb5\x17\x0f\x1a\xfeN\xb1p{\xc7\xb0I\xea\xd4q\xb6\x18w\xac\xcc\xb8{^\xab\xc4\x9eO\xcc\xd6\x8e\xd8\xde\xd5s\x96\xaa(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x8a\xa2(\x

In [37]:
# 압축률
print(f'zlib : {round(len(data) / len(compress_data))}')

zlib : 325


__zlib 압축 해제__

In [38]:
org_data = zlib.decompress(compress_data).decode('utf-8')

In [39]:
org_data

'Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. You need Python.Life is too short. 

> __gzip__
> - gzip 은 파일을 압축하거나 해제할 때 사용하는 모듈
> - 내부적으로 zlib 알고리즘을 사용

In [40]:
import gzip

In [41]:
# 대용량 문자열 데이터 [350,000 byte]
data = 'Life is too short. You need python.' * 10000

In [42]:
# 원본 데이터 저장
with open('org_data.txt', 'w') as f:
    f.write(data)

__gzip 압축__

In [44]:
with gzip.open('compressed.txt.gz', 'wb') as f:
    f.write(data.encode('utf-8'))

__gzip 압축 해제__

In [47]:
with gzip.open('compressed.txt.gz', 'rb')as f:
    org_data = f.read().decode('utf-8') # 압축할 때 encode를 했기 때문에 decode만 하면 됨

In [48]:
org_data

'Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. You need python.Life is too short. 

> __zipfile__
> - zipfile 은 여러개 파일을 zip 확장자로 합쳐서 압축할 때 사용하는 모듈

In [49]:
import zipfile

In [50]:
# 파일 합치기
with zipfile.ZipFile('./sample/sample.zip', 'w') as myzip:
    myzip.write('./sample/sample01.txt')
    myzip.write('./sample/sample02.txt')
    myzip.write('./sample/sample03.txt')

In [51]:
# 압축 해제하기
with zipfile.ZipFile('./sample/sample.zip') as myzip:
    myzip.extractall()

> __tarfile__
> - tarfile 은 여러개 파일을 tar 확장자로 합쳐서 압축할 떄 사용하는 모듈

In [52]:
import tarfile

In [53]:
# 파일 합치기
with tarfile.open('./sample/sample.tar', 'w') as mytar:
    mytar.add('./sample/sample01.txt')
    mytar.add('./sample/sample02.txt')
    mytar.add('./sample/sample03.txt')

In [54]:
# 압축 파일 해제하기
with tarfile.open('./sample/sample.tar') as mytar:
    mytar.extractall()

### 폴더 관리 프로그램 만들기

> __진행순서__
> 1. 압축 파일 정리
> 2. 파일명 정리
> 3. 폴더 생성
> 4. 파일 분류 및 이동

__1. 압축 파일 정리__

In [57]:
import os 
os.getcwd()

'C:\\Users\\jyhuh\\Desktop\\Python\\python-study\\업무 자동화'

In [56]:
# 정리 대상 폴더 경로 지정
trg_path = './fuzzy_folder'

In [58]:
# 압축 파일 확인
import glob
import os

zipf_path = []
for filename in glob.glob(os.path.join(trg_path, '**/*.zip'), recursive=True):
    zipf_path.append(filename)
    print(zipf_path)

['./fuzzy_folder\\센터가동현황_물류.zip']


In [59]:
# 압축 파일 해제
import zipfile

for zipf in zipf_path:
    with zipfile.ZipFile(zipf) as myzip:
        zipinfo = myzip.infolist()
        for info in zipinfo:
            decode_name = info.filename.encode('cp437').decode('euc-kr') # 한글 깨짐 방지
            info.filename = os.path.join(trg_path, decode_name)
            myzip.extract(info)

__2. 파일명 정리__

In [62]:
import openpyxl as op # pip install openpyxl

__파일명 수정 시트 만들기__

In [64]:
#폴더별 파일명 받아 엑셀파일에 작성하는 함수
def getFileName(trg_path):
    #여러 폴더가 있는 폴더경로를 입력 받아 list화 
    folderlist = os.listdir(trg_path)

    #openpyxl workbook 생성
    wb = op.Workbook()

    #새로 생성한 workbook의 활성화 시트를 ws로 정의
    ws = wb.active

    i=2

    current_folder = trg_path #현재 폴더 위치
    filelist = os.listdir(current_folder) #현재 폴더 위치의 파일들을 리스트화

    # 현재 폴더 위치의 리스트화 된 파일을 다시 for문을 통해 접근
    for fname in filelist:
        ws.cell(row=i, column=1).value = current_folder + '/' #1행 1열에 현재 폴더 경로 입력
        ws.cell(row=i, column=2).value = fname #1행 2열에 파일명[변경전] 입력
        i = i+1

    ws.cell(row=1, column=1).value = "파일경로"
    ws.cell(row=1, column=2).value = '파일명(변경전)'
    ws.cell(row=1, column=3).value = '파일명(변경후)'

    #위에서 작성 된 엑셀파일을 filelist.xlsx라는 이름으로 저장
    wb.save(os.path.join(trg_path, 'filelist.xlsx'))

In [65]:
#함수 실행
getFileName(trg_path)

__파일명 변경하기__

In [66]:
def excelRead(filepath : str) -> tuple:
    #filelist.xlsx 경로를 받아 wrokbook 객체 생성
    wb = op.load_workbook(filepath)

    #활성화 된 시트 ws로 전환
    ws = wb.active

    #리스트 컴프리헨션 구문을 통해 각 열의 데이터를 리스트화하기
    folderpath = [r[0].value for r in ws] # 폴더 경로 리스트화
    file_before = [r[1].value for r in ws] # 변경전 파일명 리스트화
    file_after = [r[2].value for r in ws] # 변경후 파일명 리스트화

    len_num = len(folderpath) # for문을 위한 열 개수 구하기 (folderpath 개수)
    datalist = [] # 빈 리스트 생성
    for i in range(1, len_num):
        temp_tuple = (folderpath[i], file_before[i], file_after[i]) # 임시 튜플 생성 (각 행 데이터)
        datalist.append(temp_tuple) # 위 튜플을 datalist에 추가

    return datalist # datalist 리턴

In [67]:
# 함수 실행
rename_list = excelRead(os.path.join(trg_path, 'filelist.xlsx'))
print(rename_list)

[('./fuzzy_folder/', 'A_2022_01_13_부서현황_인사_001.pdf', 'A_2022_01_13_부서현황_인사_001.pdf'), ('./fuzzy_folder/', 'A_2022_01_13_부서현황_인사_002.pdf', 'A_2022_01_13_부서현황_인사_002.pdf'), ('./fuzzy_folder/', 'A_2022_01_13_부서현황_인사_003.pdf', 'A_2022_01_13_부서현황_인사_003.pdf'), ('./fuzzy_folder/', 'A_2022_04_10_생산일정_생산_001.pdf', 'A_2022_04_10_생산일정_생산_001.pdf'), ('./fuzzy_folder/', 'A_2022_04_10_생산일정_생산_002.pdf', 'A_2022_04_10_생산일정_생산_002.pdf'), ('./fuzzy_folder/', 'A_2022_04_10_생산일정_생산_003.pdf', 'A_2022_04_10_생산일정_생산_003.pdf'), ('./fuzzy_folder/', 'A_2022_04_10_생산일정_생산_004.pdf', 'A_2022_04_10_생산일정_생산_004.pdf'), ('./fuzzy_folder/', 'A_2022_06_30_생산일정_생산_001.pdf', 'A_2022_06_30_생산일정_생산_001.pdf'), ('./fuzzy_folder/', 'A_2022_06_30_생산일정_생산_002.pdf', 'A_2022_06_30_생산일정_생산_002.pdf'), ('./fuzzy_folder/', 'A_2022_07_20_부서현황_인사_001.pdf', 'A_2022_07_20_부서현황_인사_001.pdf'), ('./fuzzy_folder/', 'A_2022_07_20_부서현황_인사_002.pdf', 'A_2022_07_20_부서현황_인사_002.pdf'), ('./fuzzy_folder/', 'A_2022_07_20_부서현황_인사_003.pdf', 'A_2022_07_2

In [77]:
import shutil
def fileRename(datalist : list):
    for data in datalist:
        print(data[1]+"의 파일명을 "+data[2]+"로 변경합니다.")
        #data[0] : 폴더경로, data[1]: 변경전 파일명, data[2]: 변경후 파일명
        shutil.move(data[0]+data[1], data[0]+data[2])

In [81]:
#함수 실행
fileRename(rename_list)

A_2022_01_13_부서현황_인사_001.pdf의 파일명을 A_2022_01_13_부서현황_인사_001.pdf로 변경합니다.
A_2022_01_13_부서현황_인사_002.pdf의 파일명을 A_2022_01_13_부서현황_인사_002.pdf로 변경합니다.
A_2022_01_13_부서현황_인사_003.pdf의 파일명을 A_2022_01_13_부서현황_인사_003.pdf로 변경합니다.
A_2022_04_10_생산일정_생산_001.pdf의 파일명을 A_2022_04_10_생산일정_생산_001.pdf로 변경합니다.
A_2022_04_10_생산일정_생산_002.pdf의 파일명을 A_2022_04_10_생산일정_생산_002.pdf로 변경합니다.
A_2022_04_10_생산일정_생산_003.pdf의 파일명을 A_2022_04_10_생산일정_생산_003.pdf로 변경합니다.
A_2022_04_10_생산일정_생산_004.pdf의 파일명을 A_2022_04_10_생산일정_생산_004.pdf로 변경합니다.
A_2022_06_30_생산일정_생산_001.pdf의 파일명을 A_2022_06_30_생산일정_생산_001.pdf로 변경합니다.
A_2022_06_30_생산일정_생산_002.pdf의 파일명을 A_2022_06_30_생산일정_생산_002.pdf로 변경합니다.
A_2022_07_20_부서현황_인사_001.pdf의 파일명을 A_2022_07_20_부서현황_인사_001.pdf로 변경합니다.
A_2022_07_20_부서현황_인사_002.pdf의 파일명을 A_2022_07_20_부서현황_인사_002.pdf로 변경합니다.
A_2022_07_20_부서현황_인사_003.pdf의 파일명을 A_2022_07_20_부서현황_인사_003.pdf로 변경합니다.
A_2022_07_20_부서현황_인사_004 (1).pdf의 파일명을 A_2022_07_20_부서현황_인사_004.pdf로 변경합니다.
B_2022_02_20_상반기_재무_001.xlsx의 파일명을 B_2022_02_20_상반기_재무_001.x

__3. 폴더 생성__

In [82]:
import fnmatch

In [86]:
# 파일명을 읽어와서 파일명의 분류 부분을 중복없이 리스트화
def categoryList(trg_path : str) -> list:
    # 파일명 끝자리가 _XXX (숫자 세자리) 로 끄타는 파일 탐색
    file_list = []
    for filename in os.listdir(trg_path):
        if fnmatch.fnmatch(filename, '*_[0-9][0-9][0-9].*'):
            file_list.append(filename)

    category = [] #분류 데이터 저장을 위해 빈 리스트 생성

    for file in file_list:
        temp_list = file.split('_') #파일명중 "_"로 분리하여 리스트화
        category.append(temp_list[-2]) #리스트의 -2 인덱싱 데이터를 category에 추가

    temp_set = set(category) #중복을 제거하기 위해 set 사용
    result = list(temp_set) #중복 제거 후 다시 리스트화
    return result #결과 리턴

In [87]:
categoryList(trg_path)

['인사', '물류', '재무', '마케팅', '생산']

In [88]:
#함수 실행
categorylist = categoryList(trg_path) + ['기타']
print(categorylist)

['인사', '물류', '재무', '마케팅', '생산', '기타']


In [89]:
import pathlib

In [90]:
# 분류 리스트를 받아와서 정해진 위치에 폴더 생성
clean_path = './clean_folder'
def makeFolder(clean_path: str, categorylist: list):
    for category in categorylist:
        new_folder = pathlib.Path(os.path.join(clean_path, category))
        new_folder.mkdir(parents=True, exist_ok=True)

In [91]:
# 함수 실행
makeFolder(clean_path, categorylist)

__4. 파일 분류 및 이동__

In [92]:
import shutil

In [93]:
#파일을 폴더 분류에 맞게 이동
def moveFile(clean_path, trg_path, categorylist):
    folderlist = os.listdir(clean_path) # 이동 시킬 경로에 생성된 분류별 폴더 리스트화
    filelist = os.listdir(trg_path) # 이동 시킬 파일명들을 리스트화
    categorydict = {} # 빈 딕셔너리 생성

    # 파일명에 대한 폴더명을 딕셔너리로 저장
    for file in filelist:
        #파일명 규칙에 맞지 않으면 '기타' 폴더로 분류
        try:
            temp_list = file.split('_')
            assert temp_list[-2] in categorylist # 카테고리가 맞지 않으면 에러 발생

            categorydict[file] = temp_list[-2] # {"파일명" : "분류"} 형태의 딕셔너리 생성
        except:
            categorydict[file] = '기타'

    # 딕셔너리 정보 활용하여 파일 이동
    for key, value in categorydict.items():
        shutil.copy(trg_path+"/"+key, clean_path+"/"+value)

In [94]:
moveFile(clean_path, trg_path, categorylist)