# 흘러가는 데이터

활성화된 프로그램은 데이터를 RAM에 저장한다. 램은 아주 빠르지만 비싸고 일정한 전력 공급을 필요로 한다. 그래서 컴퓨터 시스템 개발자들은 디스크와 램 사이의 격차를 줄이기 위해 노력을 해왔다. 프로그래머는 디스크와 같은 비휘발성 장치를 사용하여 데이터를 저장하고 복구할 수 있는 지속성이 필요했다. 

이 장에서는 일반 파일, 구조화된 파일, 데이터베이스와 같이 특수 목적에 맞게 최적화된 데이터 스토리지의 각 특징에 대해 살펴본다. 

# 파일 입출력

데이터를 가장 간단하게 지속하려면 보통 파일(plain file)을 사용한다. 이것을 플랫 파일(flat file)이라고도 부른다. 

파일은 단지 파일이름(filename)으로 저장된 바이트 시퀀스다. 

파일로부터 데이터를 읽어서 메모리에 적재하고, 메모리에서 파일로 데이터를 쓴다. 

파일을 읽기전 파일을 열어야 한다. 

fileobj = open(filename, mode)

mode의 첫 번째 글자는 작업을 명시한다. 

- r : 파일 읽기. 
- w : 파일 쓰기. (파일이 존재하지 않으면 파일을 생성하고, 파일이 존재하면 덮어쓴다)
- x : 파일 쓰기. (파일이 존재하지 않을 경우에만 해당한다)
- a : 파일 추가하기. (파일이 존재하면 파일의 끝에서부터 쓴다)

mode 의 두번 째 글자는 파일 타입을 명시한다. 

- t (또는 아무것도 명시하지 않음) : 텍스트 타입
- b : 이진(binary) 타입

### 텍스트 파일 쓰기 : write()

In [1]:
poem = """There was a young lady named Bright, 
Whose speed was far faster than light;
She started one day
In a relative way,
And returned on the previous night.
"""

In [2]:
len(poem)

152

In [3]:
fout = open('relativity', 'wt')
fout.write(poem)

152

In [4]:
fout.close()

write() 함수는 파일에 쓴 바이트수를 반환한다. write()함수는 print()함수처럼 스페이스나 줄바꿈을 추가하지 않는다. 다음은 print()함수로 텍스트 파일을 만드는 예제다. 

In [5]:
fout = open('relativity', 'wt')
print(poem, file = fout)
fout.close()

write()를 사용할까 print()를 사용할까? 기본적으로 print()는 각 인자 뒤에 스페이스를 끝에 줄바꿈을 추가한다. 이전 예제에서는 relativity파일에 줄바꿈이 추가되었다. print()를 write()처럼 작동하려면 print()에 다음 두 인자를 전달한다. 

sep(구분자 separator, 기본값은 스페이스("")다)
end(문자열 끝 end string, 기본값은 줄바꿈('\n')이다.)

In [6]:
fout = open('relativity', 'wt')
print(poem, file = fout, sep = '', end='')
fout.close()

파일에 쓸 문자열이 크면 특정 단위로 나누어서 파일에 쓴다. 

In [11]:
fout = open('relativity', 'wt')
size = len(poem)
offset = 0
chunk = 100

while True:
    if offset > size:
        break
    fout.write(poem[offset:offset+chunk])
    offset += chunk
    print(offset)
    
fout.close()

100
200


만일 relativity파일이 중요하다면 모드 x를 사용하여 파일을 덮어쓰지 않도록 한다. 

In [13]:
fout = open('relativity', 'xt')

FileExistsError: [Errno 17] File exists: 'relativity'

In [14]:
# 이를 예외처리 할 수 있다. 
try:
    fout = open('relativity', 'xt')
    fout.write('stomp stomp stomp')
except FileExistsError:
    print('file already exists!')

file already exists!


### 텍스트 파일 읽기 :read(), readline(), readlines()

read()함수를 인자 없이 호출하여 한 번에 전체 파일을 읽을 수 있다. 

In [15]:
fin = open('relativity', 'rt')
poem = fin.read()
fin.close()

print(poem)

There was a young lady named Bright, 
Whose speed was far faster than light;
She started one day
In a relative way,
And returned on the previous night.



한 번에 읽을 수 있는 크기를 제한 할 수 있다. 최대 문자수를 인자로 입력하자.

In [16]:
poem = ''
fin = open('relativity', 'rt')
chunk = 100

while True:
    fragment = fin.read(chunk)
    if not fragment:
        break
    poem += fragment
    
fin.close()

print(poem)

There was a young lady named Bright, 
Whose speed was far faster than light;
She started one day
In a relative way,
And returned on the previous night.



readline()함수를 사용하여 파일을 라인 단위로 읽을 수 있다. 

In [17]:
poem = ''
fin = open('relativity', 'rt')

while True:
    line = fin.readline()
    
    if not line:
        break
    poem += line

fin.close()
print(poem)

There was a young lady named Bright, 
Whose speed was far faster than light;
She started one day
In a relative way,
And returned on the previous night.



텍스트 파일을 가장 읽기 쉬운 방법은 이터레이터를 사용하는 것이다.

In [21]:
poem = ''
fin = open('relativity', 'rt')

for line in fin:
    print(line)
    poem += line
    

print(type(fin))
fin.close()

There was a young lady named Bright, 

Whose speed was far faster than light;

She started one day

In a relative way,

And returned on the previous night.

<class '_io.TextIOWrapper'>


readlines()를 사용하여 한 번에 모든 라인을 읽을 수도 있다. 

In [23]:
fin = open('relativity', 'rt')

lines = fin.readlines()
print(lines)
fin.close()

['There was a young lady named Bright, \n', 'Whose speed was far faster than light;\n', 'She started one day\n', 'In a relative way,\n', 'And returned on the previous night.\n']


### 자동으로 파일 닫기 : with

파이썬에서는 파일을 여는 것과 같은 일을 수행하는 콘텍스트 매니저(context manager)가 있다. 파일을 열 때 with 표현식 as 변수 형식을 사용한다. 

In [24]:
with open('relativity', 'wt') as fout:
    fout.write(poem)

### 파일 위치 찾기 : seek()

파일을 읽고 쓸 때 파이썬은 파일에서 위치를 추적한다. tell()함수는 파일의 시작으로부터의 현재 오프셋을 바이트단위로 반환한다. 

In [25]:
fin = open('relativity', 'rb')
fin.tell()

0

In [28]:
# seek()함수를 사용하여 이동하여 보자. 
fin.seek(100)
temp = fin.read()
print(temp)
fin.close()

b'In a relative way,\r\nAnd returned on the previous night.\r\n'


# 구조화된 텍스트 파일.

구조화된 텍스트 파일 형식은 아주 많지만, 대표적으로 몇 가지 형식을 살펴보자. 

- 탭('\t'), 콤마(','), 수직 바('|')와 같은 문자를 구분자(separator) 혹은 분리자(delimiter)로 사용한다. 여기에서는 CSV를 다룬다. 
- 태그를 '<'와'>'로 둘러싼다. 여기서는 XML과 HTML을 다룬다. 
- 구두점을 사용한다. 여기서는 JSON을 다룬다. 
- 들여쓰기를 사용한다. 여기에는 YAML을 다룬다. 
- 프로그램 설정 파일고 ㅏ같은 여러 가지 형식을 사용한다. 

# CSV

구분된 파일(delimited file)은 스프레드시트와 데이터베이스의 교환 형식으로 자주 사용된다. 
- 어떤 것은 콤마 대신 수직 바('|')나 탭('\t')문자를 사용한다. 
- 어떤 것은 이스케이프 시퀀스를 사용한다. 
- 파일은 운영체제에 따라 줄바꿈 문자가 다르다. 유닉스는 '\n', 마이크로소프트는 '\r\n', 애플은 '\r'을 썼지만 현재는 '\n'을 사용한다. 

In [35]:
import csv

villains = [['Doctor', 'No'],['Rosa', 'Klebb'],['Mister', 'Big'], ['Auric', 'Goldfinger'], ['Ernst', 'Blofeld']]

with open('villains', 'wt') as fout:
    csvout = csv.writer(fout)
    csvout.writerows(villains)

In [36]:
with open('villains', 'rt') as fin:
    cin = csv.reader(fin)
    villains = [row for row in cin]
    
print(villains)

[['Doctor', 'No'], [], ['Rosa', 'Klebb'], [], ['Mister', 'Big'], [], ['Auric', 'Goldfinger'], [], ['Ernst', 'Blofeld'], []]


리스트의 리스트가 아닌 딕셔너리의 리스트로 데이터를 만들 수 있다. DictReader()함수를 사용하자.

In [38]:
import csv
with open('villains', 'rt') as fin:
    cin = csv.DictReader(fin, fieldnames=['first', 'last'])
    villains = [row for row in cin]

In [40]:
from pprint import pprint

pprint(villains)

[OrderedDict([('first', 'Doctor'), ('last', 'No')]),
 OrderedDict([('first', 'Rosa'), ('last', 'Klebb')]),
 OrderedDict([('first', 'Mister'), ('last', 'Big')]),
 OrderedDict([('first', 'Auric'), ('last', 'Goldfinger')]),
 OrderedDict([('first', 'Ernst'), ('last', 'Blofeld')])]


In [44]:
# DictWriter()함수를 사용하여 CSV파일을 다시 써보자. 
import csv
villains = [
    {'first': 'Doctor', 'last': 'No'},
 {'first': 'Rosa', 'last': 'Klebb'},
 {'first': 'Mister', 'last':'Big'},
 {'first': 'Auric', 'last': 'Goldfinger'},
 {'first': 'Ernst', 'last': 'Blofeld'}]

with open('villains', 'wt') as fout:
    cout = csv.DictWriter(fout, ['first','last'])
    cout.writeheader()
    cout.writerows(villains)

In [45]:
with open('villains', 'rt') as fin:
    cin = csv.DictReader(fin)
    villains = [row for row in cin]

In [46]:
print(villains)

[OrderedDict([('first', 'Doctor'), ('last', 'No')]), OrderedDict([('first', 'Rosa'), ('last', 'Klebb')]), OrderedDict([('first', 'Mister'), ('last', 'Big')]), OrderedDict([('first', 'Auric'), ('last', 'Goldfinger')]), OrderedDict([('first', 'Ernst'), ('last', 'Blofeld')])]


# XML

XML은 가장 잘 알려진 마크업 형식이다. XML은 데이터를 구분하기 위해 태그를 사용한다. 

XML은 데이터 피드(data feed)와 메시지 전송에 많이 쓰인다. 그리고 RSS(Rich Site Summary)와 아톰(Atom)같은 하위 형식이 있다. 일부는 금융 분야와 같은 특화된 XML형식을 가진다. 

XML의 두드러진 유연성은 접근법(approach)과 능력(capability)이 다른 여러 파이썬 라이브러리에 영향을 미쳤다. 

XML을 파싱(해석)하는 간단한 방법은 ElementTree 모듈을 사용하는 것이다. menu.xml을 파싱하여 태그와 속성을 출력하는 작은 프로그램을 만들어 보자. 