### 두 가지 종류의 파일: 텍스트와 바이너리  

파이썬은 텍스트와 바이너리 파일 간에 큰 차이점이 있다.  

첫 번째 차이점은 저수준의 파일-접근 모드다. 텍스트 모드에서는 개행 문자가 자동으로 번역되어 개행-캐리지 리턴쌍을 대체한다(시스템에 따라 순서는 다름).올바른 모드를 사용하는 것이 중요하다.  

두 번째 차이점으로 파이썬은 텍스트 파일 모드에서 아스키 문자와 유니코드 인코딩을 지원하는 표준 파이썬 문자열을 사용하여 읽기/쓰기를 수행해야 한다. 하지만 바이너리 연산은 원시 바이트를 보장하는 byte 클래스를 사용해야 한다.  

마지막으로 텍스트 쓰기는 숫자 데이터르 문자열 포맷으로 변환하는 것을 포함한다.  

##### 텍스트 파일  

텍스트 파일은 데이터 대부분이 텍스트 문자열로 구성된 파일이다.  
모든 데이터는 심지어 숫자 데이터까지 텍스트 편집기로 읽거나 수정할 수 있다.  

파일에 숫자를 쓸 수 없는 것은 아니지만, 일반적으로 출력이 가능한 디지털 문자로 기록된다.  

텍스트 파일의 장점은 범용적으로 사용되어 포맷이 없는 바이너리 파일에 비해서 상대적으로 널리 사용된다는 것이며, 개행 문자에 의해 텍스트 줄이 구분되는 간단한 포맷을 지니고 있다는 점이며 여전히 글자는 성능상 이점을 가져다 준다.  

데이터 파일이 대량의 데이터를 갖고 있거나 숫자만 지니고 있다면, 바이너리 포맷이 (기본 설정인 텍스트 포맷에 비해) 성능상 몇 배 더 빠르게 실행될 수 있다.  
숫자를 텍스트로 변환하거나 텍스트를 숫자로 변환하는 시간과 비용이 들지 않기 떄문이다. 

##### 바이너리 파일  

바이너리 파일은 출력이 가능한 데이터를 지니고 있으나, 출력할 필요가 없ㅏ. 가ㅇ 큰 차이점은 숫자를 읽거나 쓸 때 나타난다.  

텍스트-파일 연산은 숫자(10진수)를 포함하여 모든 데이터를 사람이 읽을 수 있는 문자로 기록한다. 그러므로 숫자 1,000은 문자 '1'과 3개의 '0'으로 써진다.  

오늘날의 환경에서는 다른 나라의 언어를 표현할 수 있도록, 한 바이트가 아닌 두 바이트 이상으로 문자를 표현하는 유니코드를 사용하는 것이 일반적이다.  

바이너리 모드를 사용하면 이 경우에는 숫자 1,000을 숫자 값(4바이트 정수)에 직접 쓴다.  
사람의 언어는 바이너리로 표현해도 달라지지 않는다.  

바이너리 모드의 장점은 속도를 올리고, 크기를 줄인다는 것이다. 반면 바이너리 파일 연산자는 데이터를 표현한 특정 포맷을 이해해야 한다. 

### 바이너리 파일을 사용하는 경우: 요약  

파이썬은 고수준 객체를 다루는 반면, 바이너리 파일은 원시 데이터로 구성되어 있기 때문에 바이너리 파일을 다루는 파이썬 프로그래머에게 문제를 안겨 줄 수 있다.  

예를 들어 파이썬 언어는 잠재적으로 어마어마하게 큰 정수를 사용할 수 있으며, 이를 저장하기 위해 많은 바이트가 필요하다. 하지만 정수를 파일에 기록하려면 얼마만큼의 바이트를 사용할지 정확하게 결정해야만 한다. 이 이슈는 다양한 길이의 포맷을 사용할 수 있는 텍스트 문자열이나 부동소수점 값에서도 발생할 수 있다.  

파이썬은 이 문제를 해결하는 패키지를 제공한다. 별도로 추가 소프트웨어를 내려받을 필요 없이, 바이너리 파일을 읽고 쓸 수 있는 방법이 최소한 4개는 존재한다.  

* bytes 문자열에 직접 인코딩 하여 바이트를 읽고 쓴다.  
* struct 패키지로 숫자와 문자열 저장소를 표준화하여 일관성 있게 읽고 쓴다. 
* 고수준 파이썬 객체로 항목을 읽고 쓰기 위해 pickle 패키지를 사용한다.  
* 전체 데이터 파일을 파이썬 객체인 큰 데이터 딕셔너리 하나로 다루기 위해 shelve 패키지를 사용한다  

내장된 16진수 코드로 구성된 bytes 문자열을 사용하여 바이트를 직접 읽거나 쓸 수 있다. 기계-언어 프로그래밍이 동작하는 방식과 유사하다.  

다른 방식으로는 일반적인 파이썬 내장 타입(정수, 부동소수점, 문자열)을 'C' 타입으로 변환(데이터를 문자열 안에 넣고 씀)하기 위해 struct 패키지를 사용하는 것이다.  
이 기술은 원시 바이트를 쓰는 대신, 파이썬 변수를 미리 정한 크기의 데이터 필드 안에 넣는 어려운 작업을 가능하게 한다.  이 방법으로 쓴 데이터를 다시 읽으면 올바른 바이트 숫자를 읽을 수 있다. 따라서 이 방법은 기존 바이너리 파일을 사용할때 유용하다.  

다른 파이썬 프로그램에서 읽기 위한 용도로 신규 바이너리 파일을 만들 때, 파이썬 객체를 '피클'하는 pickle 패키지를 사용할 수 있다. 그러면 패키지 루틴에 의해서 파일 안에 저장된 객체를 정확하게 표현하게 된다.  

마지막으로 pickle 패키지 기반이지만, 더 고수준으로 만들어진 shelve 패키지를 사용할 수 있다. 셸빙 연산으로 데이터를 피클하면 하나의 큰 딕셔너리로 전체 파일을 다룰 수 있다. 이 패키지의 핵심에 따라 원하는 객체의 위치를 검색 할 수 있으며, 객체는 임의 접근으로 빠르게 찾을 수 있다. 

### 파일을 열 때 발생하는 예외 다루기  

언제든지 파일을 열먼 런타임 에러가 발생할 수 있다.  

한 가지 가장 일반적인 예외는 존재하지 않는 파일을 열려고 시도할때 발생한다.  
사용자가 오타를 입력할 수 있기 때문에 이 예외는 생각보다 쉽게 발생한다.  
이런 경우 FileNotFoundError 예외가 발생한다. 

In [None]:
try: 
    문장_블록_1
except 예외_클래스:
    문장_블록_2

'블록문_1'이 실행되는 동안 예외가 발생하면 이 예외가 except 블록에 명시한 특정 '예외_클래스'와 일치하지 않는 이상, 프로그램을 갑자기 중단시킬 수 있다. 만약 프로그램이 하나 이상의 예외 타입을 처리하고 싶다면 다음과 같이 여러 except 블록을 명시할 수도 있다. 

In [None]:
try:
    문장_블록_1
except 예외_클래스_A:
    문장_블록_A
[ except 예외_클래스_B:
    문장_블록_B ]...

위 예시에서 대괄호 기호는 반드시 작성할 필요가 없는 선택 항목이라는 것을 의미한다.  


In [None]:
try:
    문장_블록_1
except 예외_클래스_A:
    문장_블록_A
[ except 예외_클래스_B:
    문장_블록_B ]...
[ else: 
    문장_블록_2 ]
[ finally: 
    문장_블록_3]

또한, else와 finally 라는 추가 선택 조건이 2개 더 있다. 둘 중에 하나만 사용할 수도 있고, 둘다 사용할 수도 있다.  
선택 항목 else 조건은 첫 번째 블록문이 예외 없이 완벽하게 실행이 끝나면 실행된다.  
finally 조건은 다른 모든 블록이 실행되고 나서 무조건 실행된다 

이 예시는 파일을 읽기 위해 텍스트 모드에서 파일을 열 때, 앞서 설명한 기능들을 사용하는 방법을 보여준다. 

In [2]:
try:
    fname = input('Enter file to read:')
    f = open(fname, 'r')
    print(f.read())
except FileNotFoundError:
    print('File', fname, 'not found. Terminating.')

File asg not found. Terminating.


위 예시에서는 except를 사용하여 파일을 찾지 못해서 발생하는 예외를 처리하고 있다.  
해당 예외가 발생하면 프로그램을 친절하게 종료하거나 다른 작업을 수행한다.  
하지만 자동으로 정확한 파일 이름을 다시 입력하라고 하지는 않는다.  

예외 발생 시 제대로 된 파일 이름을 다시 입력하게 하려면  
(1) 사용자가 입력한 파일을 성공적으로 찾기  
(2) 사용자가 빈 문자열을 입력해서 직접 프로그램을 종료하라고 지시할 때까지 종료되지 않는 무한 루프를 설정하기  

더 유연하게 코드를 작성하기 위해 try/except 구문을 while 루프와 조합할 수 있다.  
루프는 break 조건이 있기 때문에 실제로 무한 루프가 수행되지는 않는다.  
밑 프로그램은 사용자가 유효한 파일 이름을 입력하거나, 프로그램 종료를 위해 빈 문자열을 입력할 때까지 사용자의 입력을 요청한다. 

In [3]:
while True:
    try:
        fname = input('Enter file name: ')
        if not fname:
            break
        f = open(fname)
        print(f.read())
        f.close()
        break
    except FileNotFoundError:
        print('File could not be found. Re-enter.')

File could not be found. Re-enter.
File could not be found. Re-enter.
File could not be found. Re-enter.


다음 예시는 이 코드에 else 조건을 추가한 버전이다.  
이 버전은 예외가 발생하지 않는 경우에만 close 함수를 호출한다. 코드의 실행 결과는 똑같지만, 이 버전이 키워드를 더 적절하게 사용했다.  

In [4]:
while True:
    fname = input('Enter file name: ')
    if not fname:
        break
    try:
        f = open(fname)
    except FileNotFoundError:
        print('File could not be found. Re-enter.')
    else: 
        print(f.read())
        f.close()
        break

File could not be found. Re-enter.
File could not be found. Re-enter.
File could not be found. Re-enter.


### 'with' 키워드 사용하기  

파일 작업을 수행하는 가장 확실한 방법은 파일을 열고, 파일 I/O를 수행한 후 파일을 닫는 것이다. 하지만 파일 I/O 읽기를 수행하는 도중에 예외가 발생하면 프로그램은 파일을 제대로 닫지 않고, 자원을 해제하지 않은 상태로 갑자기 종료될 것이다.  

이를 해결하기 위한 with 문은 파일을 열어 변수로 파일에 접근할 수 있게 한다.  
만약 블록문을 수행하는 도중에 예외가 발생하면 파일은 자동적으로 닫히며, 파일 핸들러가 열린 채로 남아 있지 않다.  

* with open(파일_이름, 모드_문자열) as 파일_객체 :  
문장  

이 문법에서 '파일_이름'과 '모드_문자열' 인수는 다음 절에서 살펴볼 open 문 안에서 사용하는 것과 동일한 의미를 갖는다.  
'파일_객체'는 사용자가 정하는 변수 이름으로, 이 변수는 open 문이 반환한 파일 객체를 대입한 것이다.  
그러고 나서 '문장'은 예외가 발생하기 전까지 실행된다.

In [6]:
with open('/Users/hwang-gyuhan/Desktop/Collage/3-2/기계학습 프로그래밍/4주차/SALL.csv', 'r') as f:
    lst = f.readlines()
    for thing in lst:
        print(thing, end=' ')

100
 124
 153
 185
 210
 220
 216
 222
 240
 265
 298
 330
 362
 381
 391
 390
 390
 392
 395
 397
 397
 393
 380
 356
 334
 322
 320
 322
 338
 332
 317
 263
 195
 142
 108
 97
 80
 80
 85
 39
 -139
 -816
 -1202
 -1374
 -1074
 -557
 -193
 51
 51
 272
 395
 407
 336
 209
 54
 -13
 -7
 48
 118
 233
 404
 578
 649
 627
 599
 577
 555
 483
 369
 224
 2
 -309
 -618
 -809
 -775
 -470
 -59
 343
 570
 600
 397
 58
 -456
 -718
 -773
 -507
 -77
 196
 394
 528
 578
 579
 564
 530
 475
 416
 356
 295
 238
 191
 160
 145
 137
 135
 136
 137
 151
 163
 174
 182
 183
 179
 160
 121
 60
 -15
 -55
 -58
 -1
 104
 189
 223
 157
 -2
 -462
 -1073
 -1358
 -1212
 -624
 -51
 298
 474
 533
 482
 395
 240
 36
 -92
 -100
 62
 242
 448
 670
 826
 885
 754
 554
 360
 196
 23
 -162
 -323
 -430
 -554
 -798
 -986
 -973
 -701
 -313
 -49
 63
 69
 20
 -42
 -39
 21
 122
 220
 302
 346
 389
 393
 383
 356
 308
 253
 180
 115
 30
 -72
 -177
 -262
 -293
 -303
 -287
 -251
 -239
 -244
 -315
 -464
 -739
 -1008
 -1036
 -767
 -

### 읽기/쓰기 연산의 요약  

* file = open(name, mode) :  
파일을 읽기/쓰기 위해 연다. 일반적인 모드는 텍스트 모드 'w'와 'r'과 바이너리 모드 'wb'와 'rb'를 포함한다. 텍스트 파일 모드가 기본 설정이다. 또한 'r'혹은 'w' 모드에 + 를 추가하면 읽기/쓰기가 모두 가능해진다  

* str = file.readline(size=-1) :  
텍스트-파일 읽기 연산. 텍스트의 다음 줄을 개행 문자가 나올 때까지 읽어서 문자열로 반환한다. 문장의 끝에 나타나는 개행 문자는 반환된 문자열의 일부며, 한 가지 상황을 제외하고는 최소한 1개 이상의 문자가 반환된다. 한 가지 예외 상황인 파일의 끝에 도달한 경우에는 빈 문자열을 반환한다.  
파일 마지막 줄을 읽는 특수한 경우에는 마지막 문자에 개행 문자가 나타나지 않는 이상, 개행 문자 없는 문자열을 반환할 것이다.  

* list = file.readlines() :  
텍스트-파일 읽기 연산. 파일 안의 모든 텍스트를 읽어서 텍스트 1줄이 각각의 항목으로 구성된 리스트를 반환한다. 마지막 줄이 아니라면 모든 텍스트 줄의 마지막 문자는 개행 문자라고 가정할 수 있다.  

* str = file.read(size=-1) :  
바이너리-파일 읽기. 하지만 텍스트 파일과 함께 사용할 수도있다. 파일의 내용을 읽고 문자열로 반환한다. size 인수는 읽을 바이트 개수를 제어한다. -1로 설정하면 모든 내용을 읽어서 반환한다.  
텍스트 모드에서 size 인수는 바이트가 아니라 문자의 개수를 의미한다.  
바이너리 모드에서 반환된 문자열은 반드시 바이트의 뭉치로 보아야 한다. 실제 텍스트 문자열은 아니다.  

* file.write(text) :  
텍스트 혹은 바이너리 쓰기 연산. 쓰기를 한 바이트(혹은 텍스트 모드에서는 문자) 개수인 문자열의 길이를 반환한다.  
바이너리 모드에서 문자열은 바이트 문자열이 아닌 데이터를 지니는 경우가 많을 것이다.  
이런 데이터는 쓰기 전에 반드시 bytes 문자열이나 bytearray 포맷으로 변환해야 한다. 텍스트 모드에서 이 메서드나 writelines는 개행 문자를 자동으로 입력하지 않는다.  

* file.writelines(str_list) :  
주로 텍스트 모드에서 사용하는 쓰기 연산. 나열된 문자열을 입력한다. 인수는 입력할 텍스트 문자열 리스트다.  
이 메서드는 입력할 데이터에 개행 문자를 입력하지 않으므로 리스트의 각 항목을 별도의 줄로 인식하고 싶다면 개행 문자를 직접 입력해야 한다.  

* file.writeable() :  
파일을 수정할 수 있으면 True를 반환한다.  

* file.seek(pos, orig) :  
파일 안의 파일 포인터를 지시한 위치로 이동한다. 임의 접근이 지원되면 이 메서드는 파일 포인터를 다음 위치(orig)에서 양수 혹은 음수 오프셋(pos) 만큼 이동시킨다. orig는 다음 셋중 하나다  
0 - 파일의 시작 지점  
1 - 현재 위치  
2 - 파일의 끝 지점  

* file.seekable() :  
파일 시스템이 임의 접근을 제공하면 True를 반환한다. 그렇지 않으면 seek혹은 tell을 사용할 때, UnsupportedOperation 예외가 발생한다.  

* file.tell() :  
현재 파일 위치를 반환한다. 파일 시작 지점의 바이트 개수를 반환한다.  

* file.close() :  
파일을 닫고 I/O 버퍼를 비워 지연되고 있던 모든 읽기/쓰기 연산을 파일에 반영한다. 이제 다른 프로그램이나 프로세스는 해당 파일에 자유롭게 접근할 수 있다.  

* pickle.dump(obj, file) :  
피클링과 함께 사용한다. 이 메서드는 바이너리 객체인 obj의 내용을 바이너리 포맷으로 만들고, 주어진 file에 그 내용을 기록한다  

* pickle.dumps(obj) :  
피클링과 함께 사용한다. 이 메서드는 obj의 바이너리 표현을 바이트 서식으로 반환한다.  
바이트 서식은 앞 메서드인 pickle.dump와 함께 사용된다. 이 메서드는 객체를 실제로 파일에 기록하지 않기 때문에 제한적이다.  

* pickle.load(file) :  
피클링과 함께 사용한다. 이 메서드는 앞에서 pickle.dump 메서드로 파일에 작성한 객체를 반환한다. 

### 텍스트 파일 작업 상세하게 알아보기  

텍스트 파일이 성공적ㅇ로 열리면 콘솔에서 텍스트를 읽고 쓰는 것처럼 파일을 읽고 쓸 수 있다.  
콘솔과 상호 작용하는 것은 3개의 특수 파일(sys.stdin, sys.stdout, sys.stderr)로 가능하며, 파일을 열 필요가 없다. 직접 언급할 필요는 없지만, input과 print 함수는 실제로 보이지 않는 이 파일들을 사용하여 동작한다.  

파일을 읽을 때 사용할 수 있는 3개의 메서드가 있다. 모든 메서드는 텍스트 파일에 사용할 수 있다.  

* 문자열 = 파일.read(size=-1)  
* 문자열 = 파일.readline(size=-1)  
* 문자열 = 파일.readlines()  

read 메서드는 파일의 전체 내용을 읽어서 하나의 문자열로 반환한다. 반환 문장은 원한다면 화면에 직접 출력할 수 있다. 개행 문자가 있으면 문자열 안에 내장된다.  
size는 읽을 문자의 최대 개수를 명시한다. 기본 설정 -1은 전체 파일을 읽게 한다  

readline 메서드는 첫 개행 문자 혹은 명시한 size에 도달할 때까지 내용을 읽는다. 문자열 자체를 읽으면 문자열의 일부를 반환한다.  

마지막으로 readlines 메서드는 파일 안의 모든 텍스트 줄을 읽어서 문자열 리스트로 반환한다. readline과 마찬가지로 문장의 끝에 나타나는 개행 문자도 포함된다(따라서 마지막 줄을 제외한 모든 문자열은 개행 문자를 포함한다.)  

텍스트 파일에 쓰기 위해 사용되는 메서드가 2개 있다.  

* 파일.write(문자열)  
* 파일.writelines(문자열 | 문자열_리스트)  

write와 wrtielines 메서드는 자동으로 개행 문자를 추가하지 않기 때문에 텍스트를 파일에 분리된 줄로 기록하고 싶다면 직접 개행 문자를 추가해야 한다.  

두 메서드의 차이점으로 write 메서드는 쓴 문자 혹은 바이트의 개수를 반환한다.  writelines 메서드는 두 가지 종류의 인수(문자열 혹은 문자열 리스트)를 가질 수 있다.  



In [9]:
with open('8_7_file.txt', 'w') as f:
    f.write('To be or not to be\n')
    f.write('That is the question.\n')
    f.write('Whether tis nobler in the mind\n')
    f.write('To suffer the slings and arrows\n')
    
with open('8_7_file.txt', 'r') as f:
    print(f.read())

To be or not to be
That is the question.
Whether tis nobler in the mind
To suffer the slings and arrows



위에서 만든 파일을 구분자가 개행 문자인 readline 이나 readlines로 읽으면 각 문자열의 끝에 추가로 개행 문자를 읽게 된다. 한 번에 1줄씩 읽어서 출력하는 예시를 보자

In [10]:
with open('8_7_file.txt', 'r') as f:
    s = ' '
    while s:
        s = f.readline()
        print(s)

To be or not to be

That is the question.

Whether tis nobler in the mind

To suffer the slings and arrows




readline 메서드는 파일의 다음 줄을 반환한다. 여기서 '줄'은 다음 개행 문자나 파일의 끝을 만날 때까지 읽은 텍스트를 의미한다. 이미 파일의 끝 조건에 도달한 경우에만 빈 문자열을 반환하지만 print 함수는 end 인수에 값을 설정하지 않는 이상, 자동으로 추가 개행 문자를 출력한다. 결과는 위와 같다. 

print 함수 인수 설정을 end=' '로 하면 추가 개행 문자를 출력하지 않는다. 다른 방법으로는 다음과 같이 읽을 대상 문자열의 개행 문자를 제거(rstrip)할 수도 있다. 

In [11]:
with open('8_7_file.txt', 'r') as f:
    s = ' '
    while s:
        s = f.readline()
        s = s.rstrip('\n')
        print(s)

To be or not to be
That is the question.
Whether tis nobler in the mind
To suffer the slings and arrows



위 예시는 간단한 작업을 복잡하게 만들기 시작한다. 더 간단한 해결책은 readlines 메서드로 전체 파일을 리스트에 집어넣고, 그 리스트를 읽는 방법이 있다. 이 방법은 문장 끝의 개행 문자도 제대로 읽는다 .

In [12]:
with open('8_7_file.txt', 'r') as f:
    str_list = f.readlines()
    
    for s in str_list: 
        print(s, end=' ')

To be or not to be
 That is the question.
 Whether tis nobler in the mind
 To suffer the slings and arrows
 

### 파일 포인터 'seek' 사용하기  

임의 접근을 할 수 있는 파일을 열었다면 seek과 tell 메서드를 사용하여 파일 안에 원하는 위치로 이동할 수 있다.  

* 파일.seek(pos, orig)  
* 파일.seekable()  
* 파일.tell()  

seekable 메서드는 파일 시스템이나 장치가 임의 접근 연산이 가능한지 확인한다. 파일 대부분은 임의 접근이 가능하다. 임의 접근을 할 수 없다면 seek이나 tell을 사용할 때 예외가 발생한다.  

임의 접근을 사용하지 않는 프로그램에서도 seek 메서드는 종종 유용할 때가 있다. 텍스트 모드이든 바이너리 모드이든 간에 파일을 읽기 시작하면 처음부터 순서대로 파일을 읽어나간다.  

그런데 파일을 다시 처음부터 읽고 싶다면 테스트를 수행할 때 파일-읽기 연산을 반복적으로 실행하는 것이 유용하다. 언제나 seek을 사용하면 처음부터 파일을 다시 읽을 수있다.  

* 파일_객체.seek(0, 0)  

이 소스 코드는 '파일_객체'가 성공적으로 열린 파일의 객체라고 가정한다.  
첫번째 인수는 오프셋,  
두번째 인수는 origin이며 파일의 시작을 의미하는 0으로 설정되었다.  
그러면 이 코드는 파일 포인터를 파일의 시작 지점으로 재설정한다.  

오프셋에 넣을 수 있는 값은 0,1,2로 각각 파일의 시작, 현재 위치, 끝을 의미한다.  

파일 포인터를 옮기는 것은 쓰기 연산에도 영향을 미친다. 이미 쓴 데이터를 덮어쓸 수도 있다. 파일의 끝으로 이동하면 모든 쓰기 연산은 데이터를 파일 끝에 추가한다.  

한편 임의 접근은 여러 고정-길이 레코드를 가진 바이너리 파일에서 가장 유용하게 쓰인다. 이런 경우 0으로 시작하는 색인과 레코드 크기의 배수로 레코드에 직접 접근할 수 있다.  

* file_obj.seek(rec_size * rec_num, 0)  

tell 메서드는 seek 메서드와 정반대다. tell 메서드는 파일 시작부터 찾는 대상까지의 바이트 갯수를 확인할 수 있는 오프셋 숫자를 반환한다. 값 0은 현재 위치가 파일의 시작이라는 것을 가르킨다.  

* file_pointer = file_obj.tell()

### RPN 프로젝트 안에서 텍스트 읽기  

