# 텍스트 파일 처리

문자열을 저장한 파일을 **텍스트 파일**(text file)이라고 한다.
따라서 텍스트 파일의 내용을 읽어 들인 것도 문자열이 된다.
그러므로 텍스트 파일에서 읽어 들인 것은 필요에 따라서 적절하게 정수나 실수 또는 다른 자료형으로 변환해야 한다.

## 텍스트를 파일에 저장하기

다음은 특정 기사의 일부분을 텍스트 파일로 저장하는 프로그램이다.
텍스트 파일에 데이터를 저장할 때는 다음과 같은 절차를 따른다.

1. `open()` 함수로 쓰기용 **파일 객체**(file object)를 생성한다.
2. 파일 객체의 `write()` 메소드로 데이터를 기록한다.
3. 파일 객체의 `close()` 메소드로 파일 객체의 사용을 종료한다.

In [0]:
news = """국내 증권업계에서 베트남은 매력적이긴 하나 수익을 내기 어려운 국가라는 인식이 강했다.
10년 전 전세계를 강타한 글로벌 금융위기로 베트남 증시가 휘청이면서 당시 국내에 설정된 베트남 펀드 수익률이 크게 꺾인 아픔도 있다.
하지만 최근 들어 한국 금융투자업계가 베트남 시장의 문을 다시 두드리기 시작했다.
베트남 정부의 적극적인 외국인 투자 유치 정책이 효과를 발휘하면서 베트남 증시는 2017년 한 해 동안 40% 이상 상승했다.
베트남 펀드 수익률도 다시 고공비행 중이다.
인구 1억명의 베트남은 전체 인구의 70%가 생산가능인구(15~64세)인 젊은 국가다.
30세 미만 인구 비중은 주요 신흥국 가운데 인도와 인도네시아 다음으로 높다.
전문가들은 “베트남의 무서운 경제 성장세가 2018년에도 지속될 것”이라고 내다봤다."""

In [1]:
import os
os.getcwd()

'/content'

In [0]:
file = open('news.txt', 'w')
file.write(news)
file.close()

In [4]:
os.listdir()

['.config', 'news.txt', 'sample_data']

변수 news에 저장된 문자열을 파일에 기록하였으므로 변수를 삭제할 수 있다.

In [5]:
del news
print(news)

NameError: ignored

## 텍스트 파일 읽기

1. `open()` 함수로 읽기용 파일 객체를 생성한다.
2. 파일 객체의 `read()`, `readline()`, `readlines()` 메소드 등으로 텍스트를 읽어온다.
3. 파일 객체의 `close()` 메소드로 파일 객체의 사용을 종료한다.

`read()` 메소드는 텍스트 파일의 모든 내용을 하나의 문자열로 읽어온다.
`readline()` 메소드는 현재 커서(cursor)가 위치한 곳에서 한 줄만 문자열로 읽어온다.
커서는 파일 내에서의 위치를 가리키는 객체로 파일 객체를 생성할 때 파일의 제일 앞에 위치한다.
이에 반해 `readlines()` 메소드는 모든 텍스트를 줄 단위로 끊어 읽은 문자열 리스트를 반환한다.

In [7]:
file = open('news.txt', 'r')
news = file.read()
print(news)
file.close()

국내 증권업계에서 베트남은 매력적이긴 하나 수익을 내기 어려운 국가라는 인식이 강했다.
10년 전 전세계를 강타한 글로벌 금융위기로 베트남 증시가 휘청이면서 당시 국내에 설정된 베트남 펀드 수익률이 크게 꺾인 아픔도 있다.
하지만 최근 들어 한국 금융투자업계가 베트남 시장의 문을 다시 두드리기 시작했다.
베트남 정부의 적극적인 외국인 투자 유치 정책이 효과를 발휘하면서 베트남 증시는 2017년 한 해 동안 40% 이상 상승했다.
베트남 펀드 수익률도 다시 고공비행 중이다.
인구 1억명의 베트남은 전체 인구의 70%가 생산가능인구(15~64세)인 젊은 국가다.
30세 미만 인구 비중은 주요 신흥국 가운데 인도와 인도네시아 다음으로 높다.
전문가들은 “베트남의 무서운 경제 성장세가 2018년에도 지속될 것”이라고 내다봤다.


In [9]:
file = open('news.txt', 'r')
news = file.readlines()
file.close()

for line in news:
    print(line)

국내 증권업계에서 베트남은 매력적이긴 하나 수익을 내기 어려운 국가라는 인식이 강했다.

10년 전 전세계를 강타한 글로벌 금융위기로 베트남 증시가 휘청이면서 당시 국내에 설정된 베트남 펀드 수익률이 크게 꺾인 아픔도 있다.

하지만 최근 들어 한국 금융투자업계가 베트남 시장의 문을 다시 두드리기 시작했다.

베트남 정부의 적극적인 외국인 투자 유치 정책이 효과를 발휘하면서 베트남 증시는 2017년 한 해 동안 40% 이상 상승했다.

베트남 펀드 수익률도 다시 고공비행 중이다.

인구 1억명의 베트남은 전체 인구의 70%가 생산가능인구(15~64세)인 젊은 국가다.

30세 미만 인구 비중은 주요 신흥국 가운데 인도와 인도네시아 다음으로 높다.

전문가들은 “베트남의 무서운 경제 성장세가 2018년에도 지속될 것”이라고 내다봤다.


In [10]:
file = open('news.txt', 'r')
news = []
aline = file.readline()
while aline:
    news.append(aline)
    aline = file.readline()
    
file.close()

for line in news:
    print(line)

국내 증권업계에서 베트남은 매력적이긴 하나 수익을 내기 어려운 국가라는 인식이 강했다.

10년 전 전세계를 강타한 글로벌 금융위기로 베트남 증시가 휘청이면서 당시 국내에 설정된 베트남 펀드 수익률이 크게 꺾인 아픔도 있다.

하지만 최근 들어 한국 금융투자업계가 베트남 시장의 문을 다시 두드리기 시작했다.

베트남 정부의 적극적인 외국인 투자 유치 정책이 효과를 발휘하면서 베트남 증시는 2017년 한 해 동안 40% 이상 상승했다.

베트남 펀드 수익률도 다시 고공비행 중이다.

인구 1억명의 베트남은 전체 인구의 70%가 생산가능인구(15~64세)인 젊은 국가다.

30세 미만 인구 비중은 주요 신흥국 가운데 인도와 인도네시아 다음으로 높다.

전문가들은 “베트남의 무서운 경제 성장세가 2018년에도 지속될 것”이라고 내다봤다.


기존 텍스트 파일의 마지막에 내용을 추가할 때는 `open()` 함수로 파일 객체를 생성할 때 **추가 모드**(append mode)로 생성한다.

In [0]:
addition = """
KB증권은 지난달 29일(현지시간) 베트남 하노이에서 자회사 ‘KBSV(KB Securities Vietnam)’의 공식 출범 행사를 개최했다.
KBSV의 전신(前身)은 베트남 증권사인 매리타임증권이다. KB증권은 2017년 10월 매리타임증권을 인수한 뒤 약 3달간 재출범 준비를 해왔다.
매리타임증권은 베트남에서 자산 기준 27위, 자기자본 기준 24위의 중소형 증권사였다.
KB증권은 KBSV를 베트남 선두권 증권사로 육성한다는 계획이다.
베트남에 진출했거나 진출 예정인 한국 기업을 위한 인수합병(M&A) 자문, 자금조달 주선, 신사업 추진 컨설팅 등도 지원할 예정이다.
"""

In [0]:
file = open('news.txt', 'a')
file.write(addition)
file.close()

In [14]:
file = open('news.txt', 'r')
news = file.read()
file.close()
print(news)

국내 증권업계에서 베트남은 매력적이긴 하나 수익을 내기 어려운 국가라는 인식이 강했다.
10년 전 전세계를 강타한 글로벌 금융위기로 베트남 증시가 휘청이면서 당시 국내에 설정된 베트남 펀드 수익률이 크게 꺾인 아픔도 있다.
하지만 최근 들어 한국 금융투자업계가 베트남 시장의 문을 다시 두드리기 시작했다.
베트남 정부의 적극적인 외국인 투자 유치 정책이 효과를 발휘하면서 베트남 증시는 2017년 한 해 동안 40% 이상 상승했다.
베트남 펀드 수익률도 다시 고공비행 중이다.
인구 1억명의 베트남은 전체 인구의 70%가 생산가능인구(15~64세)인 젊은 국가다.
30세 미만 인구 비중은 주요 신흥국 가운데 인도와 인도네시아 다음으로 높다.
전문가들은 “베트남의 무서운 경제 성장세가 2018년에도 지속될 것”이라고 내다봤다.
KB증권은 지난달 29일(현지시간) 베트남 하노이에서 자회사 ‘KBSV(KB Securities Vietnam)’의 공식 출범 행사를 개최했다.
KBSV의 전신(前身)은 베트남 증권사인 매리타임증권이다. KB증권은 2017년 10월 매리타임증권을 인수한 뒤 약 3달간 재출범 준비를 해왔다.
매리타임증권은 베트남에서 자산 기준 27위, 자기자본 기준 24위의 중소형 증권사였다.
KB증권은 KBSV를 베트남 선두권 증권사로 육성한다는 계획이다.
베트남에 진출했거나 진출 예정인 한국 기업을 위한 인수합병(M&A) 자문, 자금조달 주선, 신사업 추진 컨설팅 등도 지원할 예정이다.



읽어 들일 텍스트 파일의 url이 있을 경우에는  urllib.request 모듈의 urlopen() 함수를 이용한다.

In [37]:
from urllib.request import urlopen

url = "https://raw.githubusercontent.com/joongyang/python-for-raw-beginners/master/datasets/wine.csv"
response = urlopen(url)
data = response.read()      # a `bytes` object
text = data.decode('utf-16')
print(text)

country,wine,death
Australia,2.5,211
Austria,3.9,167
Belgium/Luxembourg,2.9,131
Canada,2.4,191
Denmark,2.9,220
Finland,0.8,297
France,9.1,71
Iceland,0.8,211
Ireland,0.7,300
Italy,7.9,107
Netherlands,1.8,167
New Zealand,1.9,266
Norway,0.8,227
Spain,6.5,86
Sweden,1.6,207
Switzerland,5.8,115
United Kingdom,1.3,285
United States,1.2,199
West Germany,2.7,172


In [0]:
fout = open("wine.csv", "w")
fout.write(text)
fout.close()

In [39]:
os.listdir()

['.config', 'wine.csv', 'news.txt', 'sample_data']

In [41]:
fin = open("wine.csv")
wine = fin.read()

print(wine)

country,wine,death
Australia,2.5,211
Austria,3.9,167
Belgium/Luxembourg,2.9,131
Canada,2.4,191
Denmark,2.9,220
Finland,0.8,297
France,9.1,71
Iceland,0.8,211
Ireland,0.7,300
Italy,7.9,107
Netherlands,1.8,167
New Zealand,1.9,266
Norway,0.8,227
Spain,6.5,86
Sweden,1.6,207
Switzerland,5.8,115
United Kingdom,1.3,285
United States,1.2,199
West Germany,2.7,172


In [50]:
from google.colab import drive

drive.mount('/content/gdrive')

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3Aietf%3Awg%3Aoauth%3A2.0%3Aoob&scope=email%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdocs.test%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdrive%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdrive.photos.readonly%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fpeopleapi.readonly&response_type=code

Enter your authorization code:
··········
Mounted at /content/gdrive


## 파일 객체의 상태 조회하기

`open()` 함수로 얻은 파일 객체의 상태는 `closed`, `mode`, `name` 속성으로 알아 볼 수 있다.

In [0]:
file = open('./datasets/news.txt', 'r')
print(file.closed)
print(file.mode)
print(file.name)
file.close()
print(file.closed)
print(file.mode)
print(file.name)

False
r
./datasets/news.txt
True
r
./datasets/news.txt


## `print()` 함수의 출력 위치를 파일로 지정하기

기본적으로 `print()` 함수는 모니터에 출력한다.
`print()` 함수의 `file` 매개변수에 파일 객체를 전달하면 파일에 출력할 수 있다.

In [43]:
names = ['Park', 'Kim', 'Lee', 'Choi', 'Kang']
print(names)

of = open('friends.txt', 'w')
print(names, file=of)
of.close()

['Park', 'Kim', 'Lee', 'Choi', 'Kang']


In [44]:
os.listdir()

['.config', 'wine.csv', 'news.txt', 'friends.txt', 'sample_data']

In [45]:
fi = open('friends.txt', 'r')
friends_str = fi.read()
fi.close()
print(friends_str)
print(type(friends_str))

['Park', 'Kim', 'Lee', 'Choi', 'Kang']

<class 'str'>


표현식이 저장된 문자열을 실행하여 그 결과를 얻고자 할 때는 다음과 같이 `eval()` 함수를 사용한다.

In [0]:
friends = eval(friends_str)
print(friends)
print(type(friends))

['Park', 'Kim', 'Lee', 'Choi', 'Kang']
<class 'list'>


## 스트림(stream)

텍스트를 입출력하기 위해 만든 파일 객체는 연속된 문자 흐름 즉 **텍스트 스트림**(text stream)이라고 한다.
일반적으로 스트림은 **file-like object**(파일과 유사한 객체, 순차적으로 읽고 쓸 수 있는 객체)라고도 한다.
텍스트 스트림을 파일이 아니라 메모리에 생성하면 파일보다 더 빠르게 읽고 쓸 수 있으며 내용 수정도 편하게 할 수 있다.

메모리에 텍스트 스트림을 생성할 때는 `io` 모듈의 `StringIO` 클래스를 사용한다.
`StringIO` 클래스의 `write()`, `read()` 메소드로 텍스트를 읽거나 쓰고, `seek()` 메소드로 읽고 쓸 위치로 이동할 수 있다.
`StringIO` 객체에 저장된 모든 텍스트를 문자열로 받으려면 `getvalue()` 메소드를 호출한다.
`StringIO` 객체의 사용이 종료하면 `close()` 메소드를 호출한다.

In [0]:
import io
stream = io.StringIO()
stream.write("This is writtem in a in-memory text stream.")
stream.write("\n")

print(friends, file=stream)

stream.seek(0) # 스트림의 처음으로 이동한다.
msg = stream.read(10)
print(msg)

print(stream.tell()) # 현재의 위치를 알아본다.
stream.seek(io.SEEK_CUR + 5) # 스트림의 현재 위치에서 5 문자 앞으로 이동한다.
print(stream.tell())

msg = stream.read(10)
print(msg)

msg = stream.getvalue()
stream.close()
print(msg)
print(type(msg))

This is wr
10
6
s writtem 
This is writtem in a in-memory text stream.
['Park', 'Kim', 'Lee', 'Choi', 'Kang']


<class 'str'>


## 연습문제

1. 텍스트 파일 이름을 받아서 줄 수를 반환하는 함수를 작성하시오.

2. 텍스트 파일 이름을 받아서 글자 수를 반환하는 함수를 작성하시오.

3. 텍스트 파일 이름을 받아서 단어 수를 반환하는 함수를 작성하시오.

4. 이진 파일(binary file)을 읽고 쓰는 방법과 바이트(bytes) 자료형에 대해 알아보시오.

5. `io` 모듈의 `BytesIO` 클래스를 이용하여 메모리에 이진 스트림(in-memory binary stream)을 만들고 사용하는 방법에 대해 설명하시오.

6. 현재 디렉토리 아래에 github 디렉토리를 만드시오.

7. (대사율자료)[https://raw.githubusercontent.com/joongyang/python-for-raw-beginners/master/datasets/metabolism.csv]를 읽어서 github 디렉토리에 metabolism.csv 파일로 저장하시오.

8. 현재 디렉토리 아래에 backup 디렉토리를 만들고 github에 있는 metabolism.csv의 복사본을 저장하시오.

9. github 디렉토리에 있는 metabolism.csv 파일의 첫 줄과 마지막 줄만 읽어서 출력해보시오.

10. 읽어 들인 첫 줄을 쉼표를 기준으로 분리하여 변수 이름을 만드시오.

11. 읽어 들인 마지막 줄을 쉼표를 기준으로 분리한 다음 적절한 자료형으로 변환하시오.
