In [16]:
##### 3.3 파일과 운영체제 #####
# 파일 열기
# 내장 함수인 open 을 이용해 파일의 상대 경로나 절대 경로를 넘겨주어야 한다.

path = 'C:/Users/LG/Desktop/Python for Data Analysis/ex1.txt'

In [7]:
f = open(path)

In [9]:
# 기본적으로 파일은 읽기 전용 모드인 'r'로 열린다.
# 파일 핸들 f를 리스트로 생각할 수 있으며 파일의 매 줄을 순회할 수 있다.

for line in f:
    pass

In [10]:
# 파일에서 읽은 줄은 줄끝 문자가 그대로 남아 있으므로 파일에서 읽은 줄에서 이를 제거하는 코드를 볼 수 있다.

lines = [x.rstrip() for x in open(path)]

In [11]:
lines

['12', '34', '45', '56', '67', '78']

In [13]:
# 파일 객체를 생성하기 위해 open을 사용했다면, 작업이 끝났을 때 명시적으로 닫아주어야 한다.

f.close()

In [14]:
# with 문을 사용하면 파일 작업이 끝났을 때 필요한 작업을 쉽게 처리할 수 있다.
# with 블록이 끝나는 시점에 파일 핸들 f를 자동으로 닫아주는 코드이다.

with open(path) as f:
    lines = [x.rstrip() for x in f]

In [15]:
# 파일을 f = open(path, 'w')로 연다면 해당 파일이 새롭게 생성되고 파일의 내용을 새로운 내용으로 덮어쓴다.
# 'x'모드는 쓰기 목적으로 파일을 새로만들지만 이미 해당 파일이 존재하면 실패한다.

In [17]:
# 파일을 읽을 때는 read, seek, tell 메서드를 주로 사용한다.
# read 메서드는 해당 파일에서 특정 개수만큼 문자를 반환한다.

f = open(path)

In [18]:
f.read(10)

'12\n34\n45\n5'

In [19]:
f2 = open(path, 'rb') #이진 모드

In [20]:
f2.read(10)

b'12\r\n34\r\n45'

In [21]:
# read 메서드는 읽은 바이트만큼 파일 핸들 위치를 옮기는데, tell 메서드가 현재 위치를 알려준다.

f.tell()

13

In [22]:
f2.tell()

10

In [23]:
# 파일에서 10개의 문자를 읽었어도 위치가 11인 이유는
# 기본 인코딩에서 10개의 문자를 디코딩하기 위해 그만큼의 바이트가 필요했기 때문이다.
# 기본 인코딩은 sys모듈에서 확인할 수 있다.

import sys

In [25]:
sys.getdefaultencoding()

'utf-8'

In [26]:
# seek 메서드는 파일 핸들의 위치를 해당 파일에서 지정한 바이트 위치로 옮긴다.

f.seek(3)

3

In [27]:
f.read(1)

'\n'

In [30]:
# 파일을 닫는 것을 잊지말자
f.close()

In [31]:
f2.close()

In [36]:
# 파일에 텍스트를 기록하려면 write나 writelines 메서드를 이용하면 된다.
# 예를 들어 빈줄이 포함되지 않도록 prof_mod.py를 작성하려면 다음과 같이 하면 된다.

with open('tmp.txt', 'w') as handle:
    handle.writelines(x for x in open(path) if len(x) > 1)

In [37]:
with open('tmp.txt') as f:
    lines = f.readlines()

In [38]:
lines

['12\n', '34\n', '45\n', '56\n', '67\n', '78']

In [41]:
##### 3.3.1 바이트와 유니코드 #####
# 파이썬 파일은 텍스트 모드를 기본으로 한다.
# 이는 파일 모드에 b를 추가해서 열 수 있는 이진 모드와 다르다.

# UTF-8 인코딩을 사용하는 바스키 문자가 포함된 파일을 보자.

with open(path) as f:
    chars = f.read(10)

In [42]:
chars

'12\n34\n45\n5'

In [43]:
# UTF-8은 가변길이 유니코드 인코딩이므로 파일에서 일부 문자를 읽어오도록 한다면
# 파이썬은 파일에서 필요한 만큼의 바이트(10 - 40 바이트)를 읽은 다음 10문자로 디코딩한다.
# 만일 파일을 'rb' 모드로 열었다면 read는 딱 10바이트만 읽어올 것이다.

with open(path, 'rb') as f:
    data = f.read(10)

In [44]:
data

b'12\r\n34\r\n45'

In [45]:
# 텍스트 인코딩에 따라 읽어온 바이트를 str 객체로 직접 디코딩할 수도 있다. (온전한 유니코드 문자로 인코딩 된 경우)

data.decode('utf8')

'12\r\n34\r\n45'

In [46]:
data[:4].decode('utf8')

'12\r\n'

In [52]:
# open 메서드에 encoding 옵션을 지정한 텍스트 모드에서는 유니코드 인코딩을 다른 인코딩으로 쉽게 변경할 수 있는 방법을 제공한다.

sink_path = 'C:/Users/LG/Desktop/Python for Data Analysis/sink.txt'

In [53]:
with open(path) as source:
    with open(sink_path, 'xt', encoding='iso-8859-1') as sink:
        sink.write(source.read())

FileExistsError: [Errno 17] File exists: 'C:/Users/LG/Desktop/Python for Data Analysis/sink.txt'

In [54]:
with open(sink_path, encoding='iso-8859-1') as f:
    print(f.read(10))

apple
bana


In [55]:
# 이진 모드가 아닐 경우 열려진 파일에 대해 seek 메서드를 호출할 때 주의해야한다.
# 파일 위치를 유니코드 문자로 정의하는 바이트들 사이로 지정하면 뒤이은 읽기에서 에러가 발생한다.

f = open(path)

In [56]:
f.read(5)

'12\n34'

In [57]:
f.seek(4)

4

In [58]:
f.read(1)

'3'

In [59]:
f.close()