# 파일
디스크에 정보를 저장하는 단위인 파일을 다루는 법을 살펴보자.

***
## 텍스트 파일 쓰기 / 읽기
### 파일 쓰기
* 1. open() 내장 함수로 파일 객체를 얻는다.
* 2. 얻어진 파일 객체에서 데이터를 읽고 쓴다.(read, write)
* 3. close()함수로 객체의 사용을 종료한다(생략가능).

#### 파일을 만들어 보자.

In [38]:
s = """
Its power: Python developers typically report
they are able to develop applications in half
to a tenth the amount of time it takes them to do
the same work in such languages as C.
"""
f = open('t.txt', 'w')  # 쓰기 모드로 연다.
f                       # 객체를 확인한다.

<_io.TextIOWrapper name='t.txt' mode='w' encoding='cp949'>

In [4]:
f.write(s)              # 문자열(str)을 파일에 기록한다.

181

In [5]:
f.close()               # 파일을 닫는다.

#### open()내장 함수는 기본적으로 두 개의 인수를 받음.
* 1. 파일 이름(문자열)
* 2. 파일을 다루고자 하는 모드(쓰기 위해서는 w를 사용)

#### with문을 이용하면 with 문 안에 있는 동안 객체 f를 이용하여 파일에 관련된 작업을 하고, with문을 빠져나오면 자동으로 닫히게 된다.

In [6]:
with open('t1.txt', 'w') as f:
    f.write('위대한 국민대학교')

#### 파일을 열 떄 인수 encoding을 추가하면 저장할 문자 인코딩을 지정할 수 있음.
* 값을 지정하지 않으면 시스템의 기본적인 문자 인코딩이 지정됨.

In [15]:
# 파일 저장을 UTF-8형식으로 지정한 예제
with open('t2.txt', 'w', encoding = 'utf-8') as f:
    f.write('대단한 파이썬')

### 파일 읽기
#### open() 내장 함수에서 두번째 인수를 r로 지정하면 읽기 모드.
* 두번째 인수를 생략해도 읽기 모드로 동작.

In [10]:
f = open('t.txt')
f                   # 객체를 확인한다.

<_io.TextIOWrapper name='t.txt' mode='r' encoding='cp949'>

In [11]:
s = f.read()        # 파일 전체 내용을 읽는다.
print(s)


Its power: Python developers typically report
they are able to develop applications in half
to a tenth the amount of time it takes them to do
the same work in such languages as C.



In [12]:
f.close()
open('t1.txt').read() # 파일에 작성한 내용을 확인한다.

'위대한 국민대학교'

#### with문을 이용하여 파일 읽기

In [17]:
with open('t.txt') as f:
    print(f.read())


Its power: Python developers typically report
they are able to develop applications in half
to a tenth the amount of time it takes them to do
the same work in such languages as C.



#### 기본 인코딩으로 저장되어 있지 않은 파일은 열 때 인수 encoding을 지정해야 한다.

In [18]:
with open('t2.txt', encoding = 'utf-8') as f:
    print(f.read())

대단한 파이썬


In [19]:
with open('t2.txt') as f:
    print(f.read())

UnicodeDecodeError: 'cp949' codec can't decode byte 0xeb in position 0: illegal multibyte sequence

## 줄 단위로 파일 쓰기/읽기
### 파일 쓰기
#### 파일로 기록할 문자열을 줄 단위로 가지고 있으면 writelines() 메서드를 사용
* writelines() 메서드는 리스트 안에 들어 있는 문자열을 연속해서 출력
#### writelines() 메서드를 사용한 방법과 write()함수를 사용한 방법들.

In [21]:
lines = ['first line\n', 'second line\n', 'third line\n']
f = open('t3.txt', 'w')
f.writelines(lines)

In [23]:
lines = ['first line\n', 'second line\n', 'third line\n']
f = open('t4.txt', 'w')
f.write(''.join(lines))

34

In [25]:
lines = ['first line\n', 'second line\n', 'third line\n']
f = open('t5.txt', 'w')
f.write('\n'.join(lines))

36

### 파일 읽기
#### 테긋트 파일을 전체로 읽지 않고 줄 단위로 일어 처리할 수 있음.
* 파일 객체의 반복자 이용
* readline()  : 파일을 한 번에 한 줄씩 읽는다.
* readlines() : 파일 전체를 줄 단위로 끊어서 리스트에 저장한다.

#### 파일 객체의 반복자 이용한 방법

In [26]:
with open('t.txt') as f:
    for line in f:
        print(line, end = '')


Its power: Python developers typically report
they are able to develop applications in half
to a tenth the amount of time it takes them to do
the same work in such languages as C.


#### readline() 메서드를 사용한 방법

In [28]:
f = open('t.txt')
line = f.readline()
while line:         # line이 ''이면 파일의 끝을 의미한다.
    print(line, end = '')
    line = f.readline()


Its power: Python developers typically report
they are able to develop applications in half
to a tenth the amount of time it takes them to do
the same work in such languages as C.


#### 줄 전체를 일어서 리스트에 저장하려면 readlines()메서드 사용

In [29]:
f = open('t.txt')
for line in f.readlines():
    print(line, end = '')


Its power: Python developers typically report
they are able to develop applications in half
to a tenth the amount of time it takes them to do
the same work in such languages as C.


### 파일에서 원하는 만큼의 문자 읽기
* read() 메서드에 인수로 원하는 바이트를 지정

In [30]:
f = open('t.txt')
f.read(10)

'\nIts power'

In [31]:
f.read(10)

': Python d'

### 이진 파일 쓰기/ 읽기
#### 파일 쓰기
* 이진 파일을 작성하려면 열기 모드에 b를 추가한다.
* 인진 파일에 출력되는 자료형은 바이트이어야 함. 문자열은 허용되지 않는다.

In [32]:
f = open('t6.bin', 'wb')     # 이진 모드로 연다.
f.write('abcd')              # 문자열은 허용되지 않는다.

TypeError: 'str' does not support the buffer interface

In [35]:
'abcde'.encode()              # 문자열 -> 바이트로 형변환

b'abcde'

In [36]:
f.write('abcde'.encode())     # 바이트는 쓸 수 있다.

5

In [37]:
f.close()

#### 파일 읽기
* 이진 파일을 읽으려면 rb 모드로 연다.
* 이진 파일은 바이트로 읽는다.

In [39]:
f = open('t6.bin', 'rb')
b = f.read(5)     # 바이트로 읽는다.
b

b'abcda'

In [40]:
b.decode()        # 바이트 -> 문자열로 형변환

'abcda'

### 파일 처리 모드
    r     :     읽기 전용
    w     :     쓰기 전용
    a     :     파일 끝에 추가
    r+    :     읽고 쓰기
    w+    :     읽고 쓰기(기존 파일 삭제)
    a+    :     파일 끝에 추가(읽기도 가능)
    rb    :     이진파일 읽기 전용
    wb    :     이진파일 쓰기 전용
    ab    :     이진파일 끝에 추가
    rb+   :     이진파일 읽고 쓰기
    wb+   :     이진파일 읽고 쓰기(기존 파일 삭제)
    ab+   :     이진파일 끝에 추가(읽기도 가능)

In [41]:
f = open('removeme.txt', 'w')
f.write('first line\n')

11

In [42]:
f.write('second line\n')

12

In [44]:
f.close()
f = open('removeme.txt', 'a')     # 파일 추가 모드로 열기
f.write('third line\n')

11

In [45]:
f.close()
f = open('removeme.txt')          # 읽기
print(f.read())

first line
second line
third line



### 임의 접근 파일
#### 앞에서 설명한 파일 접근 방식을 순차적 접근이라고 한다.
#### 파일에서 임의의 위치에 있는 내용에 접근하는 모드도 필요함
***
####임의 접근에 사용되는 메서드
* seek(n)     파일의 n번째 바이트로 이동
* seek(n, os.SEEK_CUR)     현재 위치에서 n바이트 이동.(n이 양수이면 뒤쪽으로 음수이면 앞쪽으로 이동. 이진파일에서만 가능)
* seek(n, os.SEKK_END)     맨 마지막에서 n바이트 이동.(n은 보통 음수)
* tell()     현재의 파일 포인터 위치를 돌려준다.(이진파일에서만 가능)

In [46]:
f = open('t.txt', 'wb+')    # 이진 파일 읽고 쓰기(기존 파일 삭제)
s = b'0123456789abcdef'     # 이진 파일이므로 바이트 자료형으로 출력
f.write(s)

16

In [47]:
f.seek(5)    # 시작부터 5번째 위치로 이동

5

In [48]:
f.tell()     # 위치확인

5

In [49]:
f.read(1)    # 1바이트 읽기

b'5'

In [51]:
f.seek(2, 1)    # 현재 위치에서 2바이트 더 이동, 8번 위치

8

In [55]:
f.seek(-3, 2)    # 마지막에서 -3 바이트 이동, 13번 위치

13

In [56]:
f.read(1)    # 1바이트 읽기

b'd'