# 폴더 조작

파일과 폴더, 즉 파일 시스템에 관한 조작은 운영체제의 도움이 필요합니다.

In [1]:
import os

폴더 생성하기

In [3]:
os.makedirs('project')

In [4]:
os.makedirs('project/docs')

In [6]:
if not os.path.exists('project'):
    os.makedirs('project')
else:
    print('이미 존재하는 폴더')

이미 존재하는 폴더


중간에 폴더가 없으면 해당 폴더들까지 모두 생성해 줍니다.

In [7]:
os.path.exists('project2')

False

In [8]:
os.makedirs('project2/docs')

#### 연습

project 폴더에 2001년부터 2017년까지 연간 폴더 생성

1. 각 연도 폴더에 1..12월까지 월별 폴더 생성
1. 각 연도 폴더에 README.txt 파일 생성. 각 파일에는 다음과 같은 헤더를 본문에 삽입
    
    NEXON 2017 (c) 모든 저작권 보유
    
1. 월별 폴더를 01, 02, ... , 12월과 같은 방식으로 하려면?

In [None]:
# 연도별 경로 생성
for 연도 in range(2001, 2018):
    경로 = 'project/' + str(연도)       
    # 월별 경로 생성
    for 월 in range(1, 13):        
        월별경로 = os.path.join(경로, str(월) + '월')        
        os.makedirs(월별경로)

In [18]:
# 연도별 README.txt 파일 생성
for 연도 in range(2001, 2018):
    경로 = os.path.join('project' , str(연도), 'README.txt')
    헤더 = 'NEXON {} (c) 모든 저작권 보유.'.format(연도)
    파일 = open(경로, 'w', encoding='utf8')
    파일.write(헤더)
    파일.close()

In [19]:
os.makedirs('참조')

월별 폴더를 01, 02, ... , 12월과 같은 방식으로 하려면?

In [24]:
'{0}, {1:.1f}'.format(1, 2)

'1, 2.0'

In [27]:
잔고 = 1234567890
'{0:,}'.format(잔고)

'1,234,567,890'

형식 지정자

1. "두 자리의 정수 2d로 표현해 줘"
1. "두 자리가 안 되면 나며지는 0으로 채워줘"

In [30]:
'{0:02d}'.format(1)

'01'

In [33]:
for 월 in range(1, 13):
    경로 = os.path.join('project', '2017', '{0:02d}월'.format(월))
    print(경로)

project\2017\01월
project\2017\02월
project\2017\03월
project\2017\04월
project\2017\05월
project\2017\06월
project\2017\07월
project\2017\08월
project\2017\09월
project\2017\10월
project\2017\11월
project\2017\12월


폴더 내 항목들의 목록

In [36]:
os.makedirs('참조/log')

In [37]:
항목_리스트 = os.listdir('참조')
항목_리스트

['.ipynb_checkpoints',
 'fake.xlsx',
 'log',
 'maybe.csv',
 'not.pdf',
 'really.txt']

pdf 파일과 엑셀 파일만 선택하기

In [39]:
선택항목 = []
for 항목 in 항목_리스트:
    경로 = os.path.join('참조', 항목)
    # 해당 항목이 파일인지 확인
    if os.path.isfile(경로):
        if '.pdf' in 경로 or '.xlsx' in 경로:
            선택항목.append(경로)
            
선택항목

['참조\\fake.xlsx', '참조\\not.pdf']

선택된 파일들을 *첨부* 폴더로 복사하기

In [41]:
if not os.path.exists('첨부'):
    os.makedirs('첨부')

shutil[쉘유틸]

In [40]:
import shutil

In [42]:
선택항목[0]

'참조\\fake.xlsx'

In [46]:
for 항목 in 선택항목:    
    shutil.copy(항목, '첨부')

# 오피스 파일 다루기

In [47]:
import pyautomate

## 워드 파일

In [48]:
from pyautomate import office

In [49]:
워드파일 = office.Word('파이썬입문2.docx')

In [50]:
워드파일.paragraphs[0].text

'파이썬 입문2'

In [51]:
워드파일.extract_text()

'파이썬 입문2\n\n워드 파일 읽기\n\n'

워드 파일은 메모장에서 열리지 않습니다. 즉, 텍스트 파일이 아닙니다.

그래서, open으로 내용을 가져올 수 없습니다.

따라서, 워드 파일의 형식을 이해하는 특수한 모듈이 필요합니다.

In [52]:
파일 = open('파이썬입문2.docx', 'r', encoding='utf8')
파일.read()

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd2 in position 16: invalid continuation byte

워드 파일 내 표를 추출할 수도 있습니다.

In [53]:
워드파일.extract_tables(0)

Unnamed: 0,0,1,2
0,A,B,C
1,1,2,3
2,4,5,6


표의 색인 번호를 지정하지 않으면, 문서 내에 삽입된 모든 표들을 리스트로 가져옵니다.

In [55]:
표_리스트 = 워드파일.extract_tables()

In [56]:
표_리스트[0]

Unnamed: 0,0,1,2
0,A,B,C
1,1,2,3
2,4,5,6


표를 엑셀 파일로 저장하기

In [57]:
워드파일.tables_to_excel('표.xlsx')

'표.xlsx'

#### 연습

data/turing.docx 파일에 대해 다음을 수행

1. 본문을 모두 추출
1. 두 번째 문단의 텍스트 추출
1. 문서 내 표 추출

In [58]:
튜링 = office.Word('data/turing.docx')

In [59]:
본문 = 튜링.extract_text()
print(본문)

앨런 튜링
앨런 매티슨 튜링(영어: Alan Mathison Turing, OBE, FRS, 1912년 6월 23일 ~ 1954년 6월 7일)은 영국의 수학자, 암호학자, 논리학자이자 컴퓨터 과학의 선구적 인물이다. 1945년에 그가 고안한 튜링 머신은 초보적 형태의 컴퓨터로, 복잡한 계산과 논리 문제를 처리할 수 있었다. 알고리즘과 계산 개념을 튜링 기계라는 추상 모델을 통해 형식화함으로써 컴퓨터 과학의 발전에 지대한 공헌을 했다. 튜링 테스트의 고안으로도 유명하다. 
튜링상 (Turing Award)
ACM에서 컴퓨터 과학에 중요한 업적을 남긴 사람들에게 매년 시상하는 튜링상은 그의 이름을 따 제정한 것이다. 이론 컴퓨터 과학과 인공지능 분야에 지대한 공헌을 했기 때문에 "컴퓨터 과학의 아버지"라고 불린다.
시대적 수난
튜링은 1952년에 당시에는 범죄로 취급되던 동성애 혐의로 영국 경찰에 체포돼 유죄 판결을 받았다. 감옥에 가는 대신 화학적 거세를 받아야 했던 그는, 2년 뒤 청산가리를 넣은 사과를 먹고 자살했다. 사후 59년만인 2013년 12월 24일에 엘리자베스 2세 여왕이 크리스 그레일링 법무부 장관의 건의를 받아들여 튜링의 동성애 죄를 사면하였다. 이어서 무죄 판결을 받고 복권되었다.

표 . 연표

생애
튜링은 1912년 아버지 줄리어스 매시슨 튜링과 에설 사라의 둘째 아들로 태어났다. 그의 어머니는 그를 인도(차트라프루)에서 임신했지만 영국에서 낳기 원해 런던(패딩턴)으로 가서 그를 출산했다. 어려서부터 총명하여 3주 만에 읽기를 배웠으며 계산과 퍼즐에 능했다고 한다.
1931년 케임브리지 대학교 킹스 칼리지에 입학해 수학 전공으로 학사학위를 취득하고, 1935년 확률론 계산에서 한계중심정리에 관한 학위논문으로 킹스 칼리지 특별연구원이 되었다. 1936년 미국의 프린스턴 대학교 대학원에 입학하여 박사학위를 받았다. 1937년 영국으로 돌아와 대학에서 연구 중 튜링 기계의 개념을 도입한 논문 〈계산 가능한 수와 결정할 문제에의 응용〉을 발표했다

In [60]:
튜링.paragraphs[1].text

'앨런 매티슨 튜링(영어: Alan Mathison Turing, OBE, FRS, 1912년 6월 23일 ~ 1954년 6월 7일)은 영국의 수학자, 암호학자, 논리학자이자 컴퓨터 과학의 선구적 인물이다. 1945년에 그가 고안한 튜링 머신은 초보적 형태의 컴퓨터로, 복잡한 계산과 논리 문제를 처리할 수 있었다. 알고리즘과 계산 개념을 튜링 기계라는 추상 모델을 통해 형식화함으로써 컴퓨터 과학의 발전에 지대한 공헌을 했다. 튜링 테스트의 고안으로도 유명하다. '

In [62]:
표목록 = 튜링.extract_tables()

In [63]:
표목록[0]

Unnamed: 0,0,1
0,연도,요약
1,1912,"6월 23일 앨런 매시슨 튜링(Alan Mathison Turing), 런던에서 출..."
2,1926,셔본 스쿨(Sherborne School) 입학
3,1931,수학 연구를 위해 케임브리지 대학교 킹스 칼리지에 입학
4,1934,수학 학사학위 취득
5,1935,확률론 계산에서 중심극한정리에 관한 학위논문으로 킹스 칼리지 특별 연구원 취득
6,1936,다비트 힐베르트가 제시한 결정가능성 문제(Entscheidungsproblem)의 ...
7,1936,"알론조 처치, 존 폰 노이만 등과 함께 프린스턴 대학교에서 연구 지속"
8,1937,《런던 수학협회 의사록》 중 〈계산 가능한 수와 결정할 문제에의 응용〉 출간
9,1937,프린스턴 대학교에서 프록터(Procter)장학금 수여


## 워드 파일 쓰기

새 파일은 경로를 지정하지 않습니다.

In [64]:
워드파일 = office.Word()

문단 추가

In [65]:
워드파일.add_paragraph('pyautomate')

<docx.text.paragraph.Paragraph at 0x9bdc4e0>

In [67]:
워드파일.paragraphs[0].text

'pyautomate'

저장을 해야 반영됩니다.

In [68]:
워드파일.save('오토 파이썬.docx')

In [69]:
워드파일 = office.Word('오토 파이썬.docx')

In [70]:
워드파일.add_paragraph('파이썬으로 게을러지는 방법을 골똘히 고민합니다.')

<docx.text.paragraph.Paragraph at 0x9be2780>

In [72]:
본문 = 워드파일.extract_text()
print(본문)

pyautomate
파이썬으로 게을러지는 방법을 골똘히 고민합니다.


In [73]:
워드파일.save('오토 파이썬.docx')