Day 5. 중급 파이썬 스터디 발표자료
---------------------------

- intermediate python study에서 open 함수 발표(약 20분)를 위해 작성되었습니다.
- 이 문서는 python open에 대한 기본적인 내용을 안내합니다.
- python version : 3.6
- 발표 날짜 : 2019/06/08

## 참고 자료

- [python 공식 문서 - open](https://docs.python.org/ko/3/library/functions.html#open)
- [중급 파이썬](https://ddanggle.gitbooks.io/interpy-kr/content/ch20-open-function.html)
- [파이썬 - 기본을 갈고 닦자](https://wikidocs.net/16077)
- [파이썬의 파일입출력 정리](https://soooprmx.com/archives/9143)
- [데이터사이언스스쿨 - 파이썬의 파일 입출력](https://datascienceschool.net/view-notebook/bf8582817a714aec944070cf4b3d94ec/)
- [데이터사이언스스쿨 - 파이썬으 문자열 인코딩](https://datascienceschool.net/view-notebook/250c1869eab54157827adf54c5e9f064/)
- [파이썬 파일 읽기, 쓰기](https://thrillfighter.tistory.com/310)
- [파이썬 한글 인코딩(UTF-8, Unicode, Euc-Kr) 탐구)](https://redscreen.tistory.com/163)
- [파이썬 파일 사용법 정리](https://withcoding.com/86)
- [예제로 배우는 python 프로그래밍](http://pythonstudy.xyz/python/article/206-%ED%8C%8C%EC%9D%BC-%EB%8D%B0%EC%9D%B4%ED%83%80-%EC%B2%98%EB%A6%AC)
- [파일 읽고 쓰기(1) - open 함수](https://pydole.tistory.com/19)

---------------------------------

## 1. open

python에서 파일을 열 때 사용하는 함수 입니다.

> open(파일경로와이름, 모드, 인코딩) -> 파일 디스크립터

- 기본 내장 함수
- file을 열고 [<span style="color:red">파일 객체</span>](https://docs.python.org/ko/3/glossary.html#term-file-object)를 돌려 줍니다.
  - open 함수의 반환값은 파일 객체,핸들(file descriptor(파일 디스크립터))이며 운영체제에서 파이썬으로 전달됩니다.
    - 파일 디스크립터는 파일의 내용을 엑세스 하기 위한 일종의 핸들 입니다. 
  - 파일 작업이 끝나면 파일 핸들을 반환해야 하는데 반환을 해야 한번에 열 수 있는 파일 핸들의 한도에 도달하지 않습니다.
  - close()가 호출 되어야 파일이 닫힙니다. 중간에 에러가 발생하면 닫히지 않습니다.
  - 파일을 닫지 않으면 버퍼링되어 있는 데이터는 기록되지 않고 소실될 수 있습니다.
  - 예외에 상관 없이 open을 사용하기 위해 with를 함께 사용합니다.


- 파일을 열 수 없으면, [OSError](https://docs.python.org/ko/3/library/exceptions.html#OSError)가 발생합니다.
  - OSErrors는 시스템 함수가 시스템 관련 에러를 돌려줄 때 발생
  - 파일을 찾을 수 없거나, 디스크가 가득 찼을 경우와 같이 입출력 실패를 포함

```python
# 기본적인 사용법
f = open('photo.jpg', 'r+')
jpgdata = f.read()
f.close()

# with를 함께 사용하는 방법
with open('photo.jpg', 'r+') as f:
    jpgdata = f.read()
```
#### with
- 파일을 사용하기 위해 열었다가 다시 닫는 일이 번거로울 수 있는데, 파일 디스크립터는 “컨텍스트 매니저”의 일종으로 정의되어 있다. 
- 컨텍스트 매니저는 파이썬의 with 구문에 사용될 수 있는 객체를 말한다.
- [with 구문과 컨텍스트 매니저](https://soooprmx.com/archives/4079)

### 파이썬 내 텍스트 파일 처리 절차

파이썬에서 일반적으로 데이터 파일을 읽고 쓰는 방법은 다음의 절차를 거친다고 보면 된다.
- 파이썬3에서는 파일을 열 때, 포맷이 텍스트 모드라면 3, 4의 과정을 내부적으로 자동으로 처리하고 있습니다.


1. 인코딩된 데이터와 문자열을 상호 변환하기 위해서는 어떤 인코딩을 사용할 것인지를 결정해야 한다. (보통 이것은 UTF8을 쓴다고 생각하면 된다.)
2. 모든 데이터 파일은 결국 이진데이터 파일이며, 이진 데이터는 파이썬 내에서 bytes 및 bytearray로 취급된다.
3. 문자열을 이진데이터 파일에 기록하기 위해서는 문자열을 bytes 타입으로 변환한 후에(이것이 인코딩이다.) 그대로 파일에 쓰면 된다. 하지만 이 과정은 파이썬 내부에서 이루어진다. 
4. 이진포맷으로 기록된 텍스트는 bytes로 읽어들여지며, 다시 인코딩을 사용해서 이를 문자열로 변환된다. 이것이 텍스트 파일을 읽는 절차이다.


________________________________

## 2. open 함수 구성

open함수는 아래와 같은 구성을 가집니다. 각 parameter가 어떤 역할을 하는지 항목 별로 알아보도록 하겠습니다.(closefd, opener는 문서를 참고해주세요.)

```python

open(
    file, 
    mode='r', 
    buffering=-1, 
    encoding=None, 
    errors=None, 
    newline=None, 
    closefd=True, 
    opener=None
)
```

주요 항목인 **file**, **mode**, **encoding** 살펴 볼 예정입니다.

------------------------------------------

### 2-1. file

file은 열어야 할 파일의 경로입니다.
- 공식 문서에서는 [path-like object(경로류 객체)](https://docs.python.org/ko/3/glossary.html#term-path-like-object)로 표현하고 있습니다.
- 기본적으로는 문자열로 된 파일의 이름을 주면 됩니다.

```python
open('file_name.txt')
```


### 2-2. mode

파일이 열리는 모드를 지정하는 선택적 문자열 입니다.
- 기본 모드는 'r' 입니다. (텍스트를 읽는 용, 'rt'의 동의어)
  - 간혹 r 또는 rt를 사용하는 경우가 있는데 텍스트 모드가 기본이기 때문에 차이가 없습니다. [참고](https://codeday.me/ko/qa/20190313/60996.html)
- mode를 작성할 때 r(읽기), w(쓰기), a(추가하기) 중 한 개, t(텍스트)와 b(바이너리) 둘중 하나와 반드시 결합해야하며, 나머지는 optional하게 사용가능합니다.
- 바이너리 모드 (mode 인자에 'b' 를 포함합니다)로 열린 파일은 내용을 디코딩 없이 bytes 객체로 돌려줍니다.


| 문자   |      의미      |
|----------|-------------|
| 'r' |읽기용으로 엽니다 (기본값)|
| 'w' |쓰기용으로 엽니다, 기존 파일의 내용을 지우고 파일이 없을 경우 새로 만듭니다.|
| 'x' |새 파일 쓰기 모드로 연다. 주어진 이름의 파일이 존재하면 에러가 발생합니다.|
| 'a' |쓰기용으로 엽니다, 파일이 존재하는 경우는 파일의 끝에 덧붙입니다|
| 'b' |바이너리 모드, 2진 모드 입니다.|
|'t'|텍스트 모드 (기본값)|
|'+'|갱신(읽기 및 쓰기 모두 가능한)용으로 파일을 엽니다.|

다음과 같이 조합 해서 사용 할 수도 있습니다.
- r+ : 읽기 또는 쓰기 모드, 파일이 없으면 error가 납니다.
- w+ : 읽기 또는 쓰기 모드, 파일이 없으면 새로 만듭니다.
- a+ : 읽기 또는 파일 추가 모드, 파일이 없으면 만듭니다.
- rb : 이진 파일을 읽기 모드로 연다. 읽어들인 데이터는 디코딩되지 않은 바이트배열이 된다.
- wb : 이진 파일을 쓰기 모드로 연다. 쓰는 데이터는 raw 데이터 그대로 쓰인다.

open() 함수를 통해 얻은 핸들로 사용할 수 있는 명령어
- read() : 파일을 끝까지 읽기, 숫자를 넣으면 숫자 * 1바이트씩 읽게 됩니다.
- readline() : 1줄 읽기
- readlines() : 모든 줄을 읽어서 리스트로 반환
- write() : 문자열 쓰기, 쓰기 모드로 열어야 합니다.
- writelines() : 리스트에 있는 모든 문자열 쓰기

#### open - w 

In [1]:
# open - w
# w로 작성하게 되면 기존 파일에 내용이 있더라도 지워집니다.!

with open('test.txt', mode='w', encoding='utf-8') as f:
    f.write('파이썬으로 파일을 작성하고 있습니다.')
    f.write('newline 문자로 개행해봅니다.\n')
    f.write('개행이 잘되었나요?')
    
# 파이썬으로 파일을 작성하고 있습니다.newline 문자로 개행해봅니다.
# 개행이 잘되었나요?

#### open - r

- read()안에 숫자를 넣으면 지정된 숫자만큼 끊어 읽을 수 있습니다. 
- 읽은 후 내부 포인터는 마지막으로 읽은 끝으로 이동합니다.
- 10문자씩 끊어 읽어보겠습니다. 다 읽으면 빈 문자가 반환 됩니다.

In [7]:
# open - r

with open('test.txt', mode='r', encoding='utf-8') as r:
    print(f'처음 10개를 읽었습니다 : {r.read(10)}')
    print(f'다음 10개를 읽었습니다 : {r.read(10)}')
    print(f'다음 50개를 읽었습니다 : {r.read(50)}')
    print(f'마지막 50개를 읽었습니다 : {r.read(50)}')

In [36]:
# 다시 포인터를 맨 앞으로 가져가려면 seek(포인터위치) 메소드를 사용합니다.

with open('test.txt', mode='r', encoding='utf-8') as r:
    print(f'처음 10개를 읽었습니다 : {r.read(10)}')
    print(f'다음 10개를 읽었습니다 : {r.read(10)}')
    
    r.seek(0) # 포인터 위치를 조정, 파일의 n번째 바이트로 이동
    print(f'현재 위치는 : {r.tell()} 입니다.') # tell을 이용하면 현재의 파일 포인터 위치를 알려줍니다.
    
    print(f'포인터 조정 후 다음 50개를 읽었습니다 : {r.read(50)}') # 처음부터 다시 출력
    print(f'마지막 50개를 읽었습니다 : {r.read(50)}')

In [42]:
# 텍스트 파일을 처리 해야 한다면...?

with open('test.txt', mode='r', encoding='utf-8') as r:
    lines = r.read().split()
    for line in lines:
        print(line)

#### 잠시...

위 방법을 사용 하면 텍스트 파일의 크기가 매우 큰 경우 모든 콘텐츠를 메모리로 다 읽어들이는 부분이 문제가 될 수 있습니다. 
> 그래서 **readline()** 또는 **readlines()**를 사용합니다.

In [5]:
# readline()을 사용하여 line별로 읽기

with open('test.txt', mode='r', encoding='utf-8') as r:
    print(r.readline())
    print(r.readline())

In [4]:
# readlines()로 파일의 라인별 구성을 리스트 형태로 리턴

with open('test.txt', mode='r', encoding='utf-8') as r:
    print(r.readlines())

### 이렇게도 사용 할 수 있습니다.

기본적으로 텍스트 읽기 모드로 열린 파일은 매번 각 라인을 읽어서 리턴하는 방법이 설정되어 있습니다.
- 반복문이나 제네레이터와 같이 유사합니다.
- 이 말은 아래와 같이 for문을 바로 써서 파일을 읽을 수도 있습니다.

In [47]:
with open('test.txt', mode='r', encoding='utf-8') as r:
     for line in r:
            print(line)

#### open - a

In [61]:
with open('test.txt', mode='a', encoding='utf-8') as a:
    a.writelines(['writelines로 추가합니다.', 
                  '내부 원소는 개행이 안되는군요.', 
                  '개행을 하려면 개행문자를 입력해야합니다.\n', 
                  '마지막에는 안붙여도 개행문자가..']
                )
    
# 파이썬으로 파일을 작성하고 있습니다.newline 문자로 개행해봅니다.
# 개행이 잘되었나요?writelines로 추가합니다.내부 원소는 개행이 안되는군요.개행을 하려면 개행문자를 입력해야합니다.
# 마지막에는 안붙여도 개행문자가..

#### open - x

In [39]:
# 기존에 파일이 존재 할 때 open-x를 사용한다면?

with open('text_txt', mode='x') as a:
    f.write('hello world')
    
# 에러가 나게 됩니다.

#### 텍스트 파일 복사하기

In [48]:
def copy_and_print(filename):
    with open(filename, encoding="utf-8") as f1:
        targetfile = 'copied_' + filename
        with open(targetfile, 'w', encoding='utf-8') as f2:
            for line in f1:
                print(line)
                f2.write(line + '\n')

copy_and_print('test.txt')          

파이썬으로 파일을 작성하고 있습니다.newline 문자로 개행해봅니다.

개행이 잘되었나요?


______________________________

#### open - r+, w+, a+

In [17]:
# 우선 작업을 위해 샘플 파일 하나를 만들겠습니다.

with open('test_2.txt', 'w') as f:
    f.write('hello world')

In [18]:
# w+를 사용하면 기존 파일에 있는 데이터를 완전히 지우고 새로 씁니다.

with open('test_2.txt', 'w+') as f:
    f.write('python is fun.')

# python is fun.

In [19]:
# r+에서 쓰기를 사용하면 기존 파일은 두고 그 위에 덮어 쓰기를 합니다.

with open('test_2.txt', 'r+') as f:
    f.write('aaaaaa_')

# aaaaaa_is fun.

In [20]:
# a+를 사용하면 기존에 있는 문자열 뒤에 추가 됩니다.

with open('test_2.txt', 'a+') as f:
    f.write('_bbbbbb')

# aaaaaa_is fun._bbbbbb

### open - rb, wb

- 바이너리 파일로 부터 데이터를 읽고 쓸 때는 기본적으로 bytes 클래스를 사용하게 됩니다.
  - 예제에서는 리스트를 파일에 쓰기 전에 byte 타입으로 변경하였습니다.
- 그 외에 pickle 모듈을 사용하면 파이썬에서 사용되는 객체를 바이너리 파일로 저장할 수 있습니다.

In [21]:
# 바이너리 쓰기

data = [1, 2, 3, 4, 5]
with open("test.bin", "wb") as f:
    f.write(bytes(data))

In [32]:
# 바이너리 읽기

with open("test.bin", "rb") as f:
    content = f.read()   # 모두 읽음
    print(type(content)) # bytes class
    for b in content:
        print(b)

In [30]:
# pickle과 함께 사용할 수도 있습니다.

import pickle

with open('test.dat', 'wb') as f:
    pickle.dump('hello world', f)

In [33]:
# dump된 파일을 다시 읽습니다.

with open('test.dat', 'rb') as f:
    d = pickle.load(f)
    print(type(d))
    print(d)

In [26]:
# 이미지도 읽을 수 있는지 확인해보기 위해 샘플로 이미지를 준비하였습니다.

from PIL import Image
import requests

url = 'https://t1.daumcdn.net/cfile/tistory/2207573D58CFDE2704'
im = Image.open(requests.get(url, stream=True).raw)
im.save('image.jpeg')
im

In [28]:
# 이미지를 rb로 읽기, 결국 이미지도 0과 1로 이루어진 것이므로 읽을 수 있습니다.

with open('image.jpeg', 'rb') as f:
    print(f.read(100))

_____________________

### encoding

encoding
- 파일을 디코딩하거나 인코딩하는 데 사용되는 인코딩의 이름입니다. 
- 텍스트 모드에서만 사용해야 합니다.
- 대부분 utf-8 이지만 모든 시스템이 utf-8이라는 보장이 없으므로 명시적으로 하는 것이 좋다.
- [파이썬에서 지원되는 인코딩 목록](https://docs.python.org/3.6/library/codecs.html)


문자와 인코딩
- 파이썬 뿐 아니라 모든 컴퓨터에서 문자는 2진 숫자의 열 즉, 바이트 열(byte sequence)로 바뀌어 저장된다. 이를 인코딩(encoding)이라고 하며 어떤 글자를 어떤 숫자로 바꿀지에 대한 규칙을 인코딩 방식이라고 한다.
- 가장 기본이 되는 인코딩 방식은 아스키(ASCII) 방식이다.

유니코드
- 인코딩 방식이 글자마다 혹은 회사마다 다르기 때문에 발생하는 문제를 해결하고자 <span style="color:red">유니코드</span>라는 것이 만들어졌다. 
- 유니코드에서는 다음과 같은 표준을 정했다.
  - 유니코드 코드 포인트 (unicode code point)
>유니코드 코드 포인트(code point) 최대 4바이트의 숫자로 전 세계 모든 글자를 대응시킨 것이다. 
  - 유니코드 인코딩 (UTF-8, UTF-16, UTF-32, ...)
> 유니코드 인코딩은 실제로 유니코드 문자를 바이트 열로 바꾸어 파일 등에 저장할 때 사용되는 방식으로 영문 알파벳에 대해 ASCII 인코딩 방식과 호환하며 크기, 정렬 등의 문제를 고려하여 설계되었다.
- 파이썬 내부에서 문자를 메모리에 저장할 때 기본적으로는 유니코드 코드 포인트를 사용한다.
- **UTF-8은 현재 가장 많이 사용되는 유니코드 인코딩 방식의 하나이다.**
______________________

In [46]:
# 유니코드를 바이트 열로 변환할 때는 인코드(encode) 메서드 사용


u = '가나다'
print(type(u))
print(u)

print('--------------')

b1 = u.encode("cp949")
print(type(b1))
print(b1)

print('--------------')

b2 = u.encode("utf-8")
print(type(b2))
print(b2)

<class 'str'>
가나다
--------------
<class 'bytes'>
b'\xb0\xa1\xb3\xaa\xb4\xd9'
--------------
<class 'bytes'>
b'\xea\xb0\x80\xeb\x82\x98\xeb\x8b\xa4'


In [68]:
# 바이트 열을 유니코드로 변환할 때는 디코드 decode 메서드 사용

print(b1.decode("cp949"))

print(b2.decode("utf-8"))

가나다
가나다


In [69]:
# 반대로 사용 한다면...?

print(b1.decode("utf-8"))

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb0 in position 0: invalid start byte

In [70]:
print(b2.decode("cp949"))

UnicodeDecodeError: 'cp949' codec can't decode byte 0x80 in position 2: illegal multibyte sequence

-----------------------------

### buffering

buffering
- [What is buffering in python?](https://www.quora.com/What-is-buffering-in-python)
  - Buffering is a temporary storage area
  - The purpose of most buffers is to act as a holding area, enabling the CPU/system to manipulate data before transferring it to a device/user.
- 버퍼링끄기는 0(바이너리모드에서만 동작함)
- 라인모드는 1 (텍스트 모드에서만 가능), 고정 크기로 보내려면 임의의 바이트수를 1보다 큰 양의 수로 입력
  - 개행문자 '\n'을 만날 때 까지 라인 버퍼링을 수행
- 임의값도 지정 가능하며 1보다 큰 값을 입력하면 됩니다.

기본 정책은 아래와 같습니다.
- 이진 파일은 고정 크기 청크로 버퍼링됩니다. 버퍼의 크기는 기본 장치의 "블록 크기"를 결정하고 다시 떨어지는 경험적 방법을 사용하여 선택됩니다 io.DEFAULT_BUFFER_SIZE. 많은 시스템에서 버퍼는 일반적으로 4096 또는 8192 바이트 길이입니다.
- "대화식"텍스트 파일 ( isatty() 반환 되는 파일 True)은 회선 버퍼링을 사용합니다. 다른 텍스트 파일은 바이너리 파일에 대해 위에서 설명한 정책을 사용합니다.

-----------------------


### errors

errors 는 인코딩 및 디코딩 에러를 처리하는 방법을 지정하는 선택적 문자열입니다. 
- 바이너리 모드에서는 사용할 수 없습니다. 다양한 표준 에러 처리기가 제공됩니다
  - 'strict' 는 인코딩 에러가 있는 경우 ValueError 예외를 발생시킵니다. 기본값 None 은 같은 효과를 냅니다.
  - 'ignore' 는 에러를 무시합니다. 인코딩 에러를 무시하면 데이터가 손실될 수 있음에 주의하세요.
  - 'replace' 는 잘못된 데이터가 있는 자리에 대체 마커('?' 와 같은)를 삽입합니다.
  - 그 밖에 다른 사안은 [Error Handlers](https://docs.python.org/ko/3/library/codecs.html#error-handlers)를 참고해주세요.
  
---------------------------------

### newline

universal newlines (유니버설 줄 넘김)의 작동 방식을 제어
- 파일을 읽고 쓸 때 줄바꿈 처리
  - None, ", '\n', '\r', '\r\n' 중 하나 입력
  - [\n과 \r\n의 차이점](https://stackoverflow.com/questions/3821784/whats-the-difference-between-n-and-r-n)
  - \n은 Unix, \r\n은 Windows

파일을 읽을 때
- None으로 설정되어 있으면, '\n', '\r', '\r\n'을 개행문자로 간주하고, \n으로 변경
- "로 설정되어 있으면, 개행 문자 변환을 수행하지 않음
- '\n', '\r', '\r\n' 중 하나를 입력하면 입력한 문자만 개행 문자로 간주


파일을 쓸 때
- None으로 설정되어 있으면, 어떠한 개행문자도 시스템 기본 개행문자로 변환
- "이나 '\n'이 설정되어 있으면, 어떠한 변환도 수행하지 않는다.
- '\r', '\r\n' 설정 되어 있으면, 지정한 개행문자로 변환

기타 사항
- 텍스트 모드만 적용
- 스트림에서 입력을 읽을 때, newline 이 None 이면, 유니버설 줄 넘김 모드가 활성화
- 윈도우즈의 경우 csv 모듈에서 데이타를 쓸 때 각 라인 뒤에 빈 라인이 추가되는 문제가 있는데, 이를 없애기 위해 (파이썬 3 에서) 파일을 open 할 때 newline='' 와 같은 옵션을 지정

#### example 1

In [1]:
# 파일을 쓸 때 newline=None으로 설정 되어 있으면 어떠한 개행문자도 시스템 개행문자로 변환

with open('test_file.txt', mode='w', encoding='utf-8') as f:
    f.write('sample_1\r')
    f.write('sample_2\n')
    f.write('sample_3')
#     f.write('sample_4\r\n') # Windows


# sample_1
# sample_2
# sample_3

In [2]:
# newline=None으로 파일을 읽으면

with open('test_file.txt', mode='r') as f: 
    print(f.readlines())

# ['sample_1\n', 'sample_2\n']

['sample_1\n', 'sample_2\n', 'sample_3']


In [3]:
# newline=''으로 설정하면 모든 개행문자를 '\n' 변환하지 않음

with open('test_file.txt', mode='r', newline='') as f:
    print(f.readlines())

# ['sample_1\r', 'sample_2\n', 'sample_3']

['sample_1\r', 'sample_2\n', 'sample_3']


In [4]:
# newline='\r'을 지정하면 '\r'만 개행문자로 인식합니다.

with open('test_file.txt', mode='r', newline='\r') as f:
    print(f.readlines())

# ['sample_1\r', 'sample_2\nsample_3']

['sample_1\r', 'sample_2\nsample_3']


In [5]:
# newline='\n'을 지정하면 '\n'만 개행문자로 인식합니다.
with open('test_file.txt', mode='r', newline='\n') as f:
    print(f.readlines())

# ['sample_1\rsample_2\n', 'sample_3']

['sample_1\rsample_2\n', 'sample_3']


#### example 2

In [6]:
# 파일을 쓸 때 newline=''으로 설정

with open('test_file_2.txt', mode='w', encoding='utf-8', newline='') as f:
    f.write('sample_1\r')
    f.write('sample_2\r')
    f.write('sample_3\n')
    f.write('sampel_4')


# sample_1
# sample_2
# sample_3
# sample_4

In [7]:
# newline=None으로 파일을 읽으면

with open('test_file_2.txt', mode='r') as f:
    print(f.readlines())

# ['sample_1\n', 'sample_2\n', 'sample_3\n', 'sampel_4']

['sample_1\n', 'sample_2\n', 'sample_3\n', 'sampel_4']


In [8]:
# newline=''으로 설정하면 모든 개행문자를 '\n' 변환하지 않음

with open('test_file_2.txt', mode='r', newline='') as f:
    print(f.readlines())

# ['sample_1\r', 'sample_2\r', 'sample_3\n', 'sampel_4']

['sample_1\r', 'sample_2\r', 'sample_3\n', 'sampel_4']


In [9]:
# newline='\r'을 지정하면 '\r'만 개행문자로 인식합니다.

with open('test_file_2.txt', mode='r', newline='\r') as f:
    print(f.readlines())

# ['sample_1\r', 'sample_2\r', 'sample_3\nsampel_4']

['sample_1\r', 'sample_2\r', 'sample_3\nsampel_4']


In [10]:
# newline='\n'을 지정하면 '\n'만 개행문자로 인식합니다.

with open('test_file_2.txt', mode='r', newline='\n') as f:
    print(f.readlines())

# ['sample_1\rsample_2\rsample_3\n', 'sampel_4']

['sample_1\rsample_2\rsample_3\n', 'sampel_4']


#### example 3

In [11]:
# 파일을 쓸 때 newline='\r'으로 설정

with open('test_file_3.txt', mode='w', encoding='utf-8', newline='\r') as f:
    f.write('sample_1\r')
    f.write('sample_2\r')
    f.write('sample_3\n')
    f.write('sampel_4')


# sample_1
# sample_2
# sample_3
# sample_4
# 텍스트 파일을 보면 test_file_2 파일과 차이가 없어 보입니다.

In [12]:
# newline=None, 모든 개행 문자가 \n이 되었습니다.

with open('test_file_3.txt', mode='r') as f:
    print(f.readlines())

# ['sample_1\n', 'sample_2\n', 'sample_3\n', 'sampel_4']

['sample_1\n', 'sample_2\n', 'sample_3\n', 'sampel_4']


In [13]:
# newline=''으로 설정하면 모든 개행문자를 '\n' 변환하지 않음

with open('test_file_3.txt', mode='r', newline='') as f:
    print(f.readlines())

# ['sample_1\r', 'sample_2\r', 'sample_3\r', 'sampel_4']
# 파일을 쓸 때 지정한 개행문자 \r이 설정된 것을 볼 수 있습니다.

['sample_1\r', 'sample_2\r', 'sample_3\r', 'sampel_4']


In [14]:
# newline='\r'로 지정하고 readlines()를 사용하면 예상한대로 출력 됩니다.

with open('test_file_3.txt', mode='r', newline='\r') as f:
    print(f.readlines())

# ['sample_1\r', 'sample_2\r', 'sample_3\r', 'sampel_4']

['sample_1\r', 'sample_2\r', 'sample_3\r', 'sampel_4']


In [15]:
# newline='\n'로 지정하고 readlines()를 사용하면 \r은 개행 문자가 아니기 때문에 모든 문자열이 붙여서 출력 됩니다.

with open('test_file_3.txt', mode='r', newline='\n') as f:
    print(f.readlines())

# ['sample_1\rsample_2\rsample_3\rsampel_4']

['sample_1\rsample_2\rsample_3\rsampel_4']


In [105]:
# csv file wrtie exmaple

import csv    
f = open('output.csv', 'w', encoding='utf-8', newline='')
wr = csv.writer(f)
wr.writerow([1, "김정수", False])
wr.writerow([2, "박상미", True])
f.close()