### 파일

- 대부분 pandas.read_csv사용하여 디스크로부터 파일 읽고 파이썬 자료구조에 저장
- 파일을 읽고 쓰기 위해 열때는 내장함수 open을 사용하여 파일 상대/절대 경로로 넘겨 줌

In [1]:
path = '../../pydata-book/examples/segismundo.txt'

In [2]:
f = open(path)

- 기본적으로 파일은 읽기 전용 모드인 'r'로 열림
- 파일 핸들 f를 리스트로 생각할때 파링의 매 줄을 순회할 수 있음

```python
for line in f :
    pass
```
- 파일에서 읽은 줄 은 줄끝문자(end-of-line, EOL)이 그대로 남아있어 제거함

In [8]:
lines = [x.rstrip() for x in open(path)]

lines

['Sueña el rico en su riqueza,',
 'que más cuidados le ofrece;',
 '',
 'sueña el pobre que padece',
 'su miseria y su pobreza;',
 '',
 'sueña el que a medrar empieza,',
 'sueña el que afana y pretende,',
 'sueña el que agravia y ofende,',
 '',
 'y en el mundo, en conclusión,',
 'todos sueñan lo que son,',
 'aunque ninguno lo entiende.',
 '']

file작업 완료 후 명시적으로 닫아줘서 해당 자원을 운영체제에 되돌려줌

In [9]:
f.close()

#### with문
- with문 사용으로 좀더 유용히 처리 가능
- with문 끝나는 시점에 파일 핸들 f를 자동으로 닫아줌

In [13]:
with open(path) as f:
    lines = [x.rstrip() for x in f]
lines

['Sueña el rico en su riqueza,',
 'que más cuidados le ofrece;',
 '',
 'sueña el pobre que padece',
 'su miseria y su pobreza;',
 '',
 'sueña el que a medrar empieza,',
 'sueña el que afana y pretende,',
 'sueña el que agravia y ofende,',
 '',
 'y en el mundo, en conclusión,',
 'todos sueñan lo que son,',
 'aunque ninguno lo entiende.',
 '']

 `f = open(path, 'w')` - 해당 파일을 **새롭게 생성**하고 파일의 내용을 새로운 내용으로 덮어 씀. 
 `f = open(path, 'x')` - 쓰기 목적으로 파일을 새로 생성, 이미 해당 파일 존재시 에러
 
 - 파이선 파일모드  
 
|모드|설명|
|:---|:---|
|r|읽기 전용 모드|
|w|쓰기 전용 모드, 새로운 파일을 생성(같은 이름의 파일 존재시 덮어 씀)|
|x|쓰기 전용 모드, 새로운 파일을 생성, 이미 존재한 파일일 경우 실패|
|a|기존 파일에 추가(파일이 존재하지 않을 경우 새로 생성)|
|r+|읽기/쓰기 모드|
|b|이진 파일 모드, 읽기/쓰기 모드를 추가해서 'rb' 또는 'wb'처럼 사용|
|t|텍스트 모드(자동으로 바이트를 유니코드로 디코딩). 모드를 지정하지 않으면 t가 기본 모드로 지정됨. 다른 모드에서 추가해서 'rt' 또는 'xt'처럼 사용|
 
 


- 파일 읽을 때 `read`, `seek`, `tell` 메서드 주로 사용
- `read`메서드 : 해당 파일에서 특정 개수만큼 문자를 반환, 문자는 인코딩(utf-8)으로 결정되거나 이진 모드인 경우 바이트로 결정

In [21]:
f = open(path)

f.read(100)

'Sueña el rico en su riqueza,\nque más cuidados le ofrece;\n\nsueña el pobre que padece\nsu miseria y su '

In [22]:
f2 = open(path, 'rb')

f2.read(1000)

b'Sue\xc3\xb1a el rico en su riqueza,\nque m\xc3\xa1s cuidados le ofrece;\n\nsue\xc3\xb1a el pobre que padece\nsu miseria y su pobreza;\n\nsue\xc3\xb1a el que a medrar empieza,\nsue\xc3\xb1a el que afana y pretende,\nsue\xc3\xb1a el que agravia y ofende,\n\ny en el mundo, en conclusi\xc3\xb3n,\ntodos sue\xc3\xb1an lo que son,\naunque ninguno lo entiende.\n\n'

- `tell` 메서드 : 현재 위치를 알려줌

In [23]:
f.tell()

103

In [24]:
f2.tell()

296

- getdefaultencoding 메서드 : 기본 인코딩 확인

In [25]:
import sys

sys.getdefaultencoding()

'utf-8'

- `seek` 메서드 : 파일 핸들의 위치를 해당 파일에서 지정한 바이트 위치로 옮김

In [26]:
f.seek(3)

3

In [27]:
f.read(1)

'ñ'

In [28]:
f.close()
f2.close()

- `write`, `writelines` 메서드 : 파일에 텍스트 기록

In [29]:
with open('tmp.txt', 'w') as handle :
    handle.writelines(x for x in open(path) if len(x) > 1)

In [30]:
with open('tmp.txt') as f :
    lines = f.readlines()
    
lines

['Sueña el rico en su riqueza,\n',
 'que más cuidados le ofrece;\n',
 'sueña el pobre que padece\n',
 'su miseria y su pobreza;\n',
 'sueña el que a medrar empieza,\n',
 'sueña el que afana y pretende,\n',
 'sueña el que agravia y ofende,\n',
 'y en el mundo, en conclusión,\n',
 'todos sueñan lo que son,\n',
 'aunque ninguno lo entiende.\n']

- 중요 file 메서드와 속성

|메서드|설명|
|:----|:---|
|read([size])|파일에서 데이터를 읽어서 문자열로 반환.size 인자를 사용해서 몇 바이트를 읽을 것인지 지정할 수 있음 |
|readlines([size])|파일의 매 줄을 모두 읽어 리스트로 반환함. size인자를 사용해서 얼마나 읽을 것인지 지정할 수 있음|
|write(str)|전달받은 문자열을 파일에 기록함|
|writelines(strings)|전달 받은 일련의 문자열을 파일에 기록함|
|close()|파일 핸들을 닫음|
|flush()|내부 I/O 버퍼를 디스크로 비움|
|seek(pos)|파일 내에서 지정한 위치(정수)로 이동|
|tell()|현재 파일의 위치를 정수 형태로 반환|
|closed|파일 핸들이 닫힌 경우 True 반환|

#### 바이트와 유니코드

- 읽기, 쓰기를 하기 위해서 파이썬 파일은 파이썬 문자열(즉, 유니코드)을 다루기 위한 텍스트 모드를 기본으로 함

In [31]:
with open(path) as f :
    chars = f.read(10)
    
chars

'Sueña el r'

- UTF-8은 가변길이 유니코드 인코딩으로 파일에서 일부 문자를 읽어오도록 한다면 파이썬은 파일에서 필요한 문자만큼의 바이트(10byte ~ 40 byte)를 읽은 다음, 10문자로 디코딩함
- 만일 파일을 'rb'모드로 열었다면, read는 딱 10byte만 읽어옴

In [32]:
with open(path, 'rb') as f :
    data = f.read(10)
    
data

b'Sue\xc3\xb1a el '

- 텍스트 인코딩에 따라 읽어온 바이트를 str 객체로 직접 디코딩할 수 있음.(단, 온전한 유니코드 문자로 인코딩 되어있을 경우에만)

In [33]:
data.decode('utf8')

'Sueña el '

In [34]:
#data[:4].decode('utf8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 3: unexpected end of data

- `open` 메서드에 `encoding` 옵션 지정한 텍스트 모드에서는 유니코드 인코딩을 다른 인코딩으로 쉽게 변경할 수 있음

In [35]:
sink_path = 'sink.txt'

with open(path) as source :
    with open(sink_path, 'xt', encoding='iso-8859-1') as sink :
        sink.write(source.read())

In [36]:
with open(sink_path, encoding='iso-8859-1') as f :
    print(f.read(10))

Sueña el r


이진모드가 아닐 경우, 
- 열려진 파일에 대해 `seek`메서드를 호출시 주의! 
- 파일 위치를 유니코드 문자를 정의하는 바이트들 사이로 지정하면 뒤 이은 읽기에서 에러 발생

In [37]:
f = open(path)
f.read(5)

'Sueña'

In [38]:
f.seek(4)

4

In [39]:
#f.read(1)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte

참고 자료
> Python for Data Analysis(2019), 한빛미디어