M2. 파일 처리 File Handling
===

## 1. 파일 읽기와 쓰기

> 파일 읽기

> `open()` 함수

<pre>
<code>
        [open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)]
</code>
</pre>

- file 과 연결된 파일 객체를 반환(만약 파일을 열 수 없으면 OSError가 발생)
- file 은 열려는 파일의 경로 이름(현재 작업 폴더의 절대경로 또는 상대경로)과 파일 이름을 합한 문자열
- mode 는 선택 사항으로 열려는 파일의 모드를 지정
- mode 의 종류
    - `'r'` : 읽기용으로 파일을 열기
        - 기본값이 텍스트 읽기 모드이기 때문에 설정하지 않으면 `'rt'` 모드로 파일 열기
    - `'w'` : 쓰기용으로 파일을 열기
        - 만약 파일이 이미 존재하면 기존의 데이터를 삭제하고 새로 작성하므로 매우 조심해서 사용
    - `'x'` : `'w'`와 같지만 파일이 이미 존재하면 오류가 발생
    - `'a'` : `'w'`와 같지만 파일이 이미 존재하면 파일의 마지막에 내용을 추가
    - `'t'` : 텍스트 모드로 파일을 열기
        - 기본값이기 때문에 텍스트 모드로 파일을 열 때는 `'t'`를 생략해도 됨
        - 텍스트 모드에서 encoding 을 지정하지 않으면 파이썬 개발 환경을 설치한 운영체제의 기본 인코딩이 적용
    - `'b'` : 이진(binary) 모드로 파일을 열기
        - 이진 모드로 파일을 열 때는 encoding 을 지정하지 않음
        - `'w+b'` 모드로 파일을 열 때 파일이 존재하면 기존의 데이터를 삭제하고 새로 작성
        - `'r+b'` 모드로 파일을 열 때는 기존의 데이터를 삭제하지 않고 열기
    - `'+'` : 업데이트(읽기와 쓰기)용으로 파일을 열기<br><br>
  
- encoding : 파이썬이 지원하는 텍스트 인코딩의 이름을 정할 수 있음
    - 텍스트 모드에서만 사용할 수 있음
    - encoding 을 지정하지 않으면 파이썬 개발 환경을 설치한 운영체제의 기본 인코딩을 적용
    - encoding 을 지정하면 파일을 열 때 지정한 인코딩으로 파일을 인코딩하거나 디코딩

> 파일 인코딩

디폴트 인코딩(default encoding)
- Windows : ANSI(e.g., cp1252, cp949 등과 같은 윈도우 코드 페이지)
    - 'latin-1'은 윈도우 코드 페이지와 대부분 호환 가능한 보편적인 인코딩 방식
    - 'cp949'는 한글을 지원하는 인코딩 방식
- macOS : Unicode
    - 'utf-8'은 영어 외의 언어를 지원
    - 'cp1252'('latin-1')는 라틴 알파벳(e.g., 영어)을 지원

국제 표준은 Unicode
- 최근에는 Unicode를 주된 인코딩 방식으로 사용하는 추세
- 한글 인코딩을 위해서는 'utf-8' 사용을 권장

> 파일 쓰기

- 쓰기 모드로 텍스트 파일 열기

- 텍스트 파일 쓰기 

- 내용 추가

- 리스트의 객체를 파일에 쓰기

In [None]:
list = ['a', 'b', 'c', 'd', 'e', 'f']


## 2. 파일 읽기

- 텍스트 파일을 읽기 모드로 열어서 파일의 내용을 읽을 때 사용하는 메소드
  - `read()`
  - `readline()`
  - `readlines()`

> `read()` 메소드

- `read()` 메소드는 텍스트 파일의 모든 내용을 하나의 문자열로 반환
- `read()` 메소드의 형식

    `파일객체.read(size=-1)`

- 텍스트 파일인 파일객체 에서 커서의 현재 위치부터 최대 `size` 크기의 문자를 읽은 후, 새줄바꿈(`\n`)을 포함해서 읽어 들인 문자 모두를 문자열 하나로 반환
- `size`의 값이 음수거나 지정하지 않으면 파일 끝(end-of-file, EOF)까지 읽어 들임
- 파일을 읽을 때마다 `size`만큼 커서가 이동
- 커서가 파일의 끝(EOF)에 있으면 빈 문자열(`''`)을 반환

> `readline()` 메소드


- `readline()` 메소드는 텍스트 파일에서 한 줄의 내용을 하나의 문자열로 반환
- `readline()` 메소드의 형식

    `파일객체.readline(size=-1)`

- 파일객체 (텍스트 파일)에서 커서의 현재 위치부터 새줄바꿈(`\n`)까지 또는 파일의 끝(EOF)까지 읽은 후, 새줄바꿈(`\n`) 부호를 포함한 텍스트 한 줄을 문자열로 반환
- 즉, 파일 한 줄의 내용을 문자열 하나로 반환하는 메소드
- `size`의 값이 주어졌을 때는 최대 `size` 크기의 문자만 읽음 
- 커서가 파일의 끝(EOF)에 있으면 빈 문자열(`''`)을 반환

> `readlines()` 메소드

- `readlines()` 메소드는 텍스트 파일의 내용을 한 줄 단위로 읽어서 리스트로 반환
- `readlines()` 메소드의 형식

    `파일객체.readlines(hint=-1)`

- 파일객체 (텍스트 파일)에서 커서의 현재 위치부터 각 줄을 모두 읽은 후, 새줄 바꿈(`\n`) 부호를 포함한 각 줄을 객체로 갖는 리스트를 반환
- 즉, 리스트의 개별 객체는 새줄바꿈 부호까지 포함한 텍스트 한 줄의 문자열
- `hint` 는 읽어 들인 줄의 개수를 제어할 때 사용(만약 지금까지 읽어 들인 모든 줄의 총 크기(문자)가 `hint` 를 초과하면 더 이상 줄을 읽지 않음)
- 커서가 파일의 끝(EOF)에 있으면 빈 리스트(`[ ]`)를 반환

## 3. 텍스트 파싱

> 문자열을 숫자형으로 변환

- 파일의 각 행을 리스트의 객체로 담기

- 문자열을 리스트로 변환하기

- 계산에 필요한 데이터를 숫자로 형변환하기

> CSV 파일 읽기

- `open()` 함수로 CSV 파일 열기

- pandas로 CSV 파일 읽기

> PDF 파일 읽기

> PPTX 파일 읽기