# **8장 흘러가는 데이터**

<br>

## **8.1 파일입출력**

파일을 읽고 쓰기 전에 **파일 열기**\
`fileobj = open(filename, mode)`
* `fileobj` : open() 에 의해 반환되는 파일 객체
* `filename` : 파일의 문자열 이름
* `mode` : 파일 타입과 파일로 무엇을 할지 명시하는 문자열

`mode` 의 첫 글자는 **작업**을 명시
* r : 파일 읽기
* w : 파일 쓰기 (파일 존재하지 않으면 파일 생성, 존재하면 덮어쓴다)
* x : 파일 쓰기 (파일이 존재하지 않을 경우만)
* a : 파일이 존재하면 파일의 끝에서부터 쓴다)

`mode` 의 두번째 글자는 파일 타입을 명시
* t(또는 아무것도 명시하지 않음) : 텍스트 타입
* b : 이진(binary) 타입

<br>

## **8.1.1 텍스트 파일 쓰기 : write()**

In [1]:
sample_content1 = '''12345
abcde'''

fout = open('sample_file_write.txt', 'wt')
file_byte_length = fout.write(sample_content1)
fout.close()
print(file_byte_length)

11


<br>

#### **print()** 함수로 텍스트 파일 생성하기
* sep : 구분자, 기본값은 ' '
* end : 문자열 끝, 기본값은 '\n'

In [7]:
sample_content1 = '''12345
abcde'''

sample_content2 = '''가나다라마바사
아자차카타파하'''

fout = open('sample_file_print.txt', 'wt')
print(sample_content1, sample_content2, file=fout)
fout.close()


fout = open('sample_file_print_kwargs.txt', 'wt')
print(sample_content1, sample_content2, file=fout, sep="@\n", end='!')
fout.close()

<br>

## **8.1.2 텍스트 파일 읽기**

#### **read()** 함수로 전체파일 읽기 - 큰 파일 읽을때 주의 필요


In [3]:
fin = open("sample_file_print.txt", 'rt')
contents = fin.read()
fin.close()
print(contents)

12345
abcde 가나다라마바사
아자차카타파하



<br>

#### **read(chunk)** - 한번에 읽을 문자수를 chunk 길이만큼 제한

In [6]:
fin = open("sample_file_print.txt", 'rt')

content = ''
chunk = 10
loop = 1
while True:
    fragment = fin.read(chunk)
    # 파이썬에서 빈문자열이 조건식에 쓰일 경우 False인 점을 이용
    if not fragment:
        break
    print('loop',loop, ':', fragment)
    content += fragment
    loop += 1

fin.close()
print('\n-----content\n', content)

loop 1 : 12345
abcd
loop 2 : e 가나다라마바사

loop 3 : 아자차카타파하


-----content
 12345
abcde 가나다라마바사
아자차카타파하



<br>

#### **readline()** - 한 라인씩 읽기

In [5]:
fin = open('sample_file_print_kwargs.txt', 'rt')

content = ''
line_num = 1
while True:
    line = fin.readline()
    if not line:
        break
    content += line
    print('line', line_num, ':', line)
    line_num += 1

fin.close()
print('\n----content\n', content)

line 1 : 12345

line 2 : abcde@

line 3 : 가나다라마바사

line 4 : 아자차카타파하!

----content
 12345
abcde@
가나다라마바사
아자차카타파하!


<br>

#### **readlines()** - 모든 라인을 읽어 리스트 반환

In [4]:
fin = open('sample_file_print_kwargs.txt', 'rt')

lines = fin.readlines()
print('lines:',lines)

content = ''
for line in lines:
    content += line

print('\n----content\n', content)
fin.close()

lines: ['12345\n', 'abcde@\n', '가나다라마바사\n', '아자차카타파하!']

----content
 12345
abcde@
가나다라마바사
아자차카타파하!


<br>

#### **이터레이터** 활용

In [8]:
fin = open('sample_file_print_kwargs.txt', 'rt')

print('fin:', type(fin))
content = ''
for line in fin:
    content += line

print('\n----content\n', content)
fin.close()

fin: <class '_io.TextIOWrapper'>

----content
 12345
abcde@
가나다라마바사
아자차카타파하!


<br>

## **8.1.3 이진파일 읽기/쓰기**

#### mode에 't' 대신 `'b'` 사용

In [None]:
# 이진 데이터 생성
bdata = bytes(range(0, 256))
print('bdata:',bdata, '\n')
print('len of bdata:',len(bdata))

In [None]:
# 이진 데이터 쓰기
fout = open('sample_bdata', 'wb')
len = fout.write(bdata)
print('writed len:', len, '\n')
fout.close()

# 이진 데이터 읽기
fin = open('sample_bdata', 'rb')
raw_bdata = fin.read()
print('raw_bdata:', raw_bdata, '\n')
fin.close()

<br>

## **8.1.5 자동으로 파일 닫기: with**

#### 파일을 열고 닫는 작업을 context manager 에게 위임

* #### `with` 표현식 `as` 변수

In [None]:
fout_plain = open('sample_bdata', 'rb')
print('bdata_1:',fout_plain.read(), '\n')

with open("sample_bdata", 'rb') as fout_manager:
    print('bdata_2:',fout_manager.read(), '\n')

print('fout_plain is closed:', fout_plain.closed, '\n')
print('fout_manager is closed:', fout_manager.closed)

fout_plain.close()

<br>

## **8.1.6 파일 위치 찾기**

#### `tell()`: 파일의 **현재 오프셋**을 바이트 단위로 반환

In [None]:
with open('sample_bdata', 'rb') as fout:
    print('curr_offset:', fout.tell())
    fout.seek(255)
    print('curr_offset:', fout.tell())
    print('bdata:', fout.read())

<br>

#### `seek(offset, origin)`: 파일을 특정 바이트 오프셋 위치로 **이동**
* #### *origin* 0: 시작위치에서 *offset* 바이트 이후로 이동 (기본값)
* #### *origin* 1: 현재위치 *offset* 바이트 이후로 이동
* #### *origin* 2: 마지막위치에서 *offset* 바이트 위치로 이동

In [None]:
with open('sample_bdata', 'rb') as fout:
    print('curr_offset:', fout.tell())
    fout.seek(-1, 2)
    print('curr_offset:', fout.tell())
    print('bdata:', fout.read())

<br>

## **8.2 구조화된 텍스트파일**

<br>

## **8.2.1 CSV**