- 프로그램에서 외부로부터 data을 받아서 사용하거나 data를 외부에 저장할 경우 IO가 필요하다.
- ex) Network, DB, 웹 어플리케이션 등

# 1. Path (경로)

- **경로(Path)**
    - 프로그램에서 사용할 **자원의 위치**를 path/경로 라고 한다.
    - **파일 시스템**에서는 파일이나 디렉토리가 있는 위치의 경로를 말한다.
    

- **절대경로**
    - 자원의 전체 경로를 표현하는 방식
    - 시작 경로부터 자원(파일, 디렉토리)이 있는 위치까지 표현한다.
        - 시작 경로: Root Path
            - windows: `c:`, `d:`
            - Unix, Linux: `/`

- **상대경로**
    - 현재 작업 경로(위치)에서 부터 자원이 있는 위치까지 표현한다.
        - 시작 경로: 현재 작업경로
    - 구문
        - `.` : 현재 디렉토리
        - `..`: 상위 디렉토리
        - `/` : 경로 구분자,  상위경로/하위경로

- 운영체제(O/S)별 경로구분자
    - 윈도우즈: `\` (역슬래쉬)
    - 리눅스/유닉스: `/` (슬래쉬)

In [None]:
# path를 다루는 module
# os module, pathlib module

- os module

In [3]:
import os

# 현재 working directory를 알고자 할 때. - 현재 main module이 있는 경로.
cwd = os.getcwd()     # wd: working directory
print(cwd)

C:\PlayData\Classes\03_week


In [4]:
# 현재 working directory를 변경하고자 할 때.
os.chdir(r"c:\temp")     # ch: change
# 경로는 r-string을 사용하는 것이 편하다. \를 escape 문자로 인식해 error가 발생할 수 있기 때문이다.
print(os.getcwd())

c:\temp


In [7]:
# directory를 생성할 때.
os.mkdir("test")     # mk: make     dir: directory
# test directory를 생성한다. 이때 주의할 점은 현재 directory에 생성된다.
# 해당 dirctory가 없으면 생성하고, 있으면 exception이 발생한다.
# 직접 파일 탐색기를 이용해 찾아보면 생성된 것을 확인할 수 있다.

FileExistsError: [WinError 183] 파일이 이미 있으므로 만들 수 없습니다: 'test'

In [47]:
# 주의할 점은 mkdir은 바로 하위에만 directory를 만들 수 있다.
# 예를 들어 test/test1/test2/test3
# 에서 test3를 만들고자 할 때 test2에서 mkdir을 이용해야 test3를 만들 수 있다.
# 이 작업을 편리하게 하기 위해 super directory까지 만드는 명령어가 있다.

In [48]:
os.makedirs("test1/test2/test3")

In [None]:
# Temp 폴더 내에 test1 폴더가 만들어지고 그 안에 test2, 그 안에 test2, 그 안에 test3가 만들어졌다.

In [71]:
os.makedirs("test1/test2/test3", exist_ok = True)
# exist_ok = True: directory가 있으면 만들지 않고 없으면 만든다.
# exist_ok = False: directory가 없으면 만들고 있으면 exception을 발생시킨다.

In [8]:
# 같은 이름의 directory가 있는지 확인하는 방법
os.path.isdir("test")

True

In [None]:
# True가 출력되었다. test가 존재하고 directory인지 여부를 알려준다.

In [9]:
os.path.isfile("test")

False

In [None]:
# False가 출력되었다. test가 존재하고 file인지 여부를 알려준다. test는 directory이기 때문에 False가 출력된다.

In [10]:
# 존재하는지 아닌지를 알고 싶을 때
os.path.exists("test")     # 존재하면 True 존재하지 않으면 False를 출력한다. directory인지 file인지 알고 싶으면 위 방법 사용

True

In [13]:
# directory 삭제 하는 방법
os.rmdir("test")     # rm: remove
# 이때 directory가 비어있지 않으면 exception가 발생한다.
# directory 안에 파일이나 하위 directory가 있으면 exception 발생

OSError: [WinError 145] 디렉터리가 비어 있지 않습니다: 'test'

In [14]:
# 그래서 directory 안의 file을 먼저 삭제해야 한다.
# file 삭제 방법
os.remove("test/test_file.txt")

In [15]:
os.rmdir("test")

In [None]:
# os module은 자동화를 할 때 사용한다. 직접 일일이 폴더와 파일을 찾아가면서 만들고 하는 것은 비효율적이다.
# 사용 예시를 알아보기 위해 여러 개의 파일을 한 번에 삭제하는 코드를 작성해보자.
# 그 예시는 아래와 같다. 그 전에 test directory 안에 여러 file과 sub directory를 만든다.
# file 이름: test_file     sub directory 이름: sub_dir

In [18]:
from pprint import pprint     # 출력 결과를 가독성 있게 보기 위해 pprint 함수 import

path = "test"
# test directory 아래 있는 file들을 삭제할 때 다음의 순서를 따른다.

# 1. test directory 아래에 있는 file / directory의 이름들을 조회한다.
sub_list = os.listdir(path)     # path directory 하위에 있는 directory / file 이름을 list로 반환.
pprint(sub_list)

['sub_dir',
 'sub_dir - 복사본',
 'sub_dir - 복사본 (2)',
 'sub_dir - 복사본 (3)',
 'sub_dir - 복사본 (4)',
 'sub_dir - 복사본 (5)',
 'test_file - 복사본 (2).txt',
 'test_file - 복사본 (3).txt',
 'test_file - 복사본 (4).txt',
 'test_file - 복사본 (5).txt',
 'test_file - 복사본.txt',
 'test_file.txt']


In [19]:
# 2. 경로를 결합한다. 현재 directory(test) + 하위 directory(sub_list)
print(path + '/' + sub_list[0])

test/sub_dir


In [20]:
# 위 과정을 편리하게 해주는 것은 아래와 같다. 예시를 보기 위해 아래와 같이 작성하자.
print(os.path.join("a", "b", "c"))
# 출력 결과를 보면 알 수 있듯이 파일 경로처럼 역슬래시를 알아서 삽입해 결과를 반환한다.
# 이때 경로를 만드는 것이 아니라 단순히 path 형식으로 문자열을 합쳐서 문자열로 그 결과를 반환해 주는 것이다.
# 즉 이 경로를 사용하고 싶으면 실제로 있는 것인지 확인해야 할 필요가 있다.

a\b\c


In [45]:
print(os.path.join(path, sub_list[0]))

test\sub_dir


In [22]:
# 3. file을 삭제한다.
for file_name in sub_list:
    p = os.path.join(path, file_name)
    if os.path.isfile(p):
        os.remove(p)

In [None]:
# 실행 결과 모든 하위 파일이 삭제되었다.

In [23]:
sub_list = os.listdir(path)
pprint(sub_list)

['sub_dir',
 'sub_dir - 복사본',
 'sub_dir - 복사본 (2)',
 'sub_dir - 복사본 (3)',
 'sub_dir - 복사본 (4)',
 'sub_dir - 복사본 (5)']


In [None]:
# 다른 사용 예시를 살펴보기 위해 test directory에 a1, a2, a3 파일을 만든다.
# 그리고 a1, a2 를 sub_dir에 복사한다.
# 또 image 파일을 .jpg로 가져온다.


- glob module
    - directory 안에 있는 file/direrctory들을 wild card 문자를 이용해서 다양하게 조회할 수 있다. wild card를 이용하기 위해 glob를 사용한다.
    - wild card
        - \* : 0 글자 이상의 모든 문자열
            - ex) *.jpg     ->     확장자가 .jpg인 모든 이름의 file.
            - ex) a*.png    ->     이름이 a로 시작하고 확장자가 png인 모든 file.
        - ? : gks rmfwk.
            - ex) ab?de.jpg : 이름이 ab와 de 사이에 아무 한 글자가 들어오는 jpg file.
        - \*\* : 모든 sub directory. sub directory의 sub directory를 모두 포함한다.

In [25]:
from glob import glob

In [39]:
glob("test/*.*")

['test\\a1 - 복사본.py',
 'test\\a1.py',
 'test\\a2.py',
 'test\\a3.py',
 'test\\test_image.jpg']

In [40]:
glob("test/*.py")

['test\\a1 - 복사본.py', 'test\\a1.py', 'test\\a2.py', 'test\\a3.py']

In [41]:
glob("test/a?.py")

['test\\a1.py', 'test\\a2.py', 'test\\a3.py']

In [42]:
# 위에서 볼 수 있듯 a1 - 복사본.py는 빠져있다. 이것이 *과 ?의 가장 큰 차이점이다.

In [43]:
glob("test/*")

['test\\a1 - 복사본.py',
 'test\\a1.py',
 'test\\a2.py',
 'test\\a3.py',
 'test\\sub_dir_1',
 'test\\sub_dir_2',
 'test\\sub_dir_3',
 'test\\test_image.jpg']

In [44]:
glob("test/**/*.py")     # test/모든 sub directory/*.py

['test\\sub_dir_1\\a1.py',
 'test\\sub_dir_1\\a2.py',
 'test\\sub_dir_2\\a1.py',
 'test\\sub_dir_2\\a2.py',
 'test\\sub_dir_3\\a1.py',
 'test\\sub_dir_3\\a2.py']

In [46]:
glob("test/**/*.py", recursive = True)     # test directory, 그 하위, 그 하위, ... -> 모든 하위 directory를 찾아준다.

['test\\a1 - 복사본.py',
 'test\\a1.py',
 'test\\a2.py',
 'test\\a3.py',
 'test\\sub_dir_1\\a1.py',
 'test\\sub_dir_1\\a2.py',
 'test\\sub_dir_2\\a1.py',
 'test\\sub_dir_2\\a2.py',
 'test\\sub_dir_3\\a1.py',
 'test\\sub_dir_3\\a2.py']

In [None]:
# glob을 이용하면 path를 쉽게 알 수 있다.

- pathlib module

In [86]:
from pathlib import Path
# Path class: attribute로 file / directory path를 가지며 그 path 관련 처리를 하는 다양한 method를 제공한다.

In [81]:
path = Path("test")     # test directory를 다루는 path instance가 생성된다.
print(path)
print(type(path))

test
<class 'pathlib.WindowsPath'>


In [59]:
# 경로 합치기
path1 = path / "dir1" / "dir2" / "my_file.txt"
print(path1)
path1.is_file(), path1.is_dir(), path1.exists()

test\dir1\dir2\my_file.txt


(False, False, False)

In [None]:
# 이때 경로를 만드는 것이 아니라 단순히 path 형식으로 문자열을 합쳐서 문자열로 그 결과를 반환해 주는 것이다.
# 즉 이 경로를 사용하고 싶으면 실제로 있는 것인지 확인해야 할 필요가 있다.

In [60]:
path1.parts     # 각 path 요소들을 나눠서 tuple로 반환한다. method가 아닌 attribute이다.

('test', 'dir1', 'dir2', 'my_file.txt')

In [62]:
path1.name     # 마지막 pathh(file / directory)의 이름을 조회한다. method가 아닌 attribute이다.

'my_file.txt'

In [64]:
path1.suffix     # 마지막 path가 file일 때 확장자를 반환한다. 확장자가 없을 None 값을 반환한다. method가 아닌 attribute이다.

'.txt'

In [65]:
path1.stem     # 확장자를 뺀 file 또는 directory 이름을 반환한다. method가 아닌 attribute이다.

'my_file'

In [67]:
lst = path.glob("**/*.py")     # pathlib module의 Path class는 glob을 이미 가지고 있다.
list(lst)

[WindowsPath('test/a1 - 복사본.py'),
 WindowsPath('test/a1.py'),
 WindowsPath('test/a2.py'),
 WindowsPath('test/a3.py'),
 WindowsPath('test/sub_dir_1/a1.py'),
 WindowsPath('test/sub_dir_1/a2.py'),
 WindowsPath('test/sub_dir_2/a1.py'),
 WindowsPath('test/sub_dir_2/a2.py'),
 WindowsPath('test/sub_dir_3/a1.py'),
 WindowsPath('test/sub_dir_3/a2.py')]

In [68]:
os.getcwd()

'c:\\temp'

In [70]:
dir_path = Path("test_new")
dir_path.mkdir()     # Path instance의 path에 directory를 생성한다.

In [72]:
new_path = dir_path.rename(r"new_test")
# file / directory의 이름을 변경하고 새 path를 반환한다.
print(new_path)

new_test


In [73]:
new_path

WindowsPath('new_test')

In [74]:
# directory 삭제
new_path.rmdir()

In [90]:
# file 삭제
path = "test"
file_path = path / "a1.py"

TypeError: unsupported operand type(s) for /: 'str' and 'str'

In [89]:
file_path.unlink()
print(file_path.is_file(), file_path)

NameError: name 'file_path' is not defined

In [88]:
path = Path("test")
for f in path.glob("*.py"):     # 확장자가 .py인 file 모두 삭제
    f.unlink()

# 2. 입출력 (IO)

## 2.1. 입출력이란
- 프로그램이 사용하려는 외부 자원을 연결하여 data를 입력 받거나 출력하는 작업을 IO라고 한다.
- 외부 자원
    - 파일, 원격지 컴퓨터, DB 등.
- **Stream**
    - 입출력 시 **데이터의 흐름을 stream** 이라고 한다.
- InputStream 
    - Program이 외부로 부터 데이터를 읽어 들이는 흐름.
- OutputStream 
    - Program이 외부로 데이터를 써주는 흐름.


![io](images/ch09_01.png)

## 2.2. IO 코딩 순서
![순서](images/ch09_02.png)

### 2.2.1. 파일 열기(연결)
- open() 함수 사용
    - 연결된 파일과 입출력 메소드를 제공하는 객체(Stream)를 리턴
- 구문
    - `open(file, mode='r', encoding=None)`
    - 함수 주요 매개변수
        - file : 연결할 파일 경로
        - mode : 열기 모드
        - 모드는 목적, 데이터종류를 조합한다.
        - encoding 
            - 텍스트 파일일 경우 인코딩 방식
            - None 또는 생략하면  os 기본 encoding방식을 따른다.
                - Windows: cp949/euckr
                - Linux, Unix: utf-8
|mode 타입|mode 문자|설명|  |
|:-|-|-|-|
|목적|r|읽기 모드 | 목적의 기본 모드|
||w|새로 쓰기 모드 | 연결하려는 파일이 없을 때 파일을 새로 생성하고 글 작성|
||a|이어 쓰기 모드 | 연결하려는 파일이 있을 때 파일 내에서 이어서 글 작성<br>연결하려는 파일이 없으면 Exception 발생|
||x|새로 쓰기 모드 | 연결하려는 파일이 없을 때 파일을 생성한 후 글 작성<br>연결하려는 파일이 있으면 Exception 발생|
|데이터 종류|b|binary 모드 | byte 단위로 data 입출력 시 사용 |
||t|text 모드 | 데이터 종류의 기본 모드<br>text 단위로 data 입출력 시 사용 |
    

### 2.2.2. 출력 메소드

- write(출력할 Data)
    - 연결된 파일에 `출력할 Data` 출력한다.
- writelines(문자열을 가진 컬렉션)
    - 리스트, 튜플, 집합이 원소로 가진 문자열들을 한번에 출력한다.
    - text 출력일 경우에만 사용가능.
    - 원소에 문자열 이외의 타입의 값이 있을 경우 TypeError 발생

In [1]:
import os
os.getcwd()

'C:\\PlayData\\Classes\\03_week'

In [18]:
from pathlib import Path

# file 저장할 drectory가 없으면 directory를 만든다.

dir_path = Path("file_data")
dir_path.mkdir(exist_ok = True)
write_path1 = dir_path / "test1.txt"
print(write_path1)

file_data\test1.txt


In [46]:
# file_data 폴더 아래 text / binary file을 쓰려고 한다.

# 1. 연결
# 첫 번째 parameter. 연결할 file의 path: 문자열, Path instance - 절대경로 / 상대경로 무관
# 두 번째 parameter. wt - w: 쓰기 모드, t: text 단위로 data 입출력
fw = open(write_path1, mode = "wt", encoding = "utf-8")

# 2. 출력
fw.write("ABCDE\n")
fw.write("가나다라마\n")
fw.write("12345")

# 3. 연결 닫기
fw.close()

In [20]:
# encoding을 따로 작성하지 않으면 생성된 txt file의 오른쪽 아래를 보면 ANSI가 표시되어 있다. 이는 cp949를 뜻한다.

In [21]:
# file과의 연결 닫기를 실행하지 않을 경우 외부에서 file을 삭제하려 해도 되지 않는다. jupyter notebook에 열려 있기 때문이다.
# 프로그램에서 입출력을 모두 실시하더라도 연결 닫기를 하지 않으면 error가 발생할 수 있다.

In [22]:
txt = """안녕하세요.
반갑습니다.
"""

write_path2 = dir_path / "test2.txt"
fw = open(write_path2, mode = "wt", encoding = "utf-8")
fw.write(txt)
fw.close()

In [33]:
txt_list = ["첫 번째 줄\n", "두 번째 줄\n", "세 번째 줄\n"]
write_path3 = dir_path / "test3.txt"
fw = open(write_path3, mode = "wt", encoding = "utf-8")
fw.writelines(txt_list)
fw.close()

In [None]:
# mode = "wt"로 설정할 경우 실행을 아무리 많이 해도 한 번씩밖에 입력되지 않는다.
# 하지만 아래와 같이 at로 설정할 경우 실행한 횟수만큼 입력된다.

In [28]:
txt_list = ["첫 번째 줄\n", "두 번째 줄\n", "세 번째 줄\n"]
write_path3 = dir_path / "test3.txt"
fw = open(write_path3, mode = "at", encoding = "utf-8")
fw.writelines(txt_list)
fw.close()

In [35]:
# xt로 설정할 경우 새로운 file을 생성한 후 글을 입력한다.

In [36]:
txt_list = ["첫 번째 줄\n", "두 번째 줄\n", "세 번째 줄\n"]
write_path4 = dir_path / "test4.txt"
fw = open(write_path4, mode = "xt", encoding = "utf-8")
fw.writelines(txt_list)
fw.close()

In [37]:
fw.write("ABC")

ValueError: I/O operation on closed file.

In [39]:
fw.closed     # 연결 여부를 bool type으로 알려준다. 닫힘: True, 열림: False

True

### 2.2.3. 입력 메소드
- read() : 문자열(text mode), bytes(binary mode) 
    - 연결된 파일의 내용을 한번에 모두 읽어 들인다.
- readline() : 문자열(text mode), bytes(binary mode)
    - 한 줄만 읽는다.
    - text 입력일 경우만 사용가능
    - 읽은 라인이 없으면 `빈 문자열`을 리턴한다.
- readlines() : 리스트
    - 한번에 다 읽은 뒤 각각의 라인을 리스트에 원소로 담아 반환한다.
- Input Stream (TextIOWrapper, BufferedReader)는 Iterable 타입
    - for문을 이용한 라인단위 순차 조회할 수 있다.

In [42]:
# 1. 연결 - 읽기 모드로 연결
read_path = dir_path / "test1.txt"     # "file_data/test.txt" 문자열을 대입해도 된다.
fr = open(read_path, mode = "rt")     # mode: r - read, t - text file, encoding: default는 OS encoding 방식을 따른다.

# 2. 읽기 - read(): 한 번에 전체를 모두 읽는다.
r_txt = fr.read()
print(r_txt)

# 3. 연결 닫기
fr.close()

UnicodeDecodeError: 'cp949' codec can't decode byte 0x80 in position 7: illegal multibyte sequence

In [43]:
# 위와 같이 error가 발생한다. 저장할 때 encoding = "utf-8"로 했는데 encodiing = "cp949"로 읽었기 때문이다.
# 사실 이 오류는 내용에 한글이 없을 때는 가능하다. 그래도 수정해야 한다.

In [47]:
# 1. 연결 - 읽기 모드로 연결
read_path = dir_path / "test1.txt"     # "file_data/test.txt" 문자열을 대입해도 된다.
fr = open(read_path, mode = "rt", encoding = "utf-8")     # mode: r - read, t - text file, encoding: default는 OS encoding 방식을 따른다.

# 2. 읽기 - read(): 한 번에 전체를 모두 읽는다.
r_txt = fr.read()
print(r_txt)

# 3. 연결 닫기
fr.close()

ABCDE
가나다라마
12345


In [54]:
fr = open(read_path, mode = "rt", encoding = "utf-8")
print(fr.readline())     # 첫 번째 줄을 읽는다. 읽을 때 \n까지 읽는다. (위에서 작성한대로)
print(fr.readline())     # 두 번째 줄을 읽는다.
print(fr.readline())     # 세 번째 줄을 읽는다.
print(fr.readline())     # 네 번째 줄을 읽는다. 하지만 네 번째 줄은 없다. 그래서 빈 문자열을 출력한다.
fr.close()

ABCDE

가나다라마

12345



In [55]:
# readline() 함수는 반복문과 같이 잘 쓰인다.

fr = open(read_path, mode = "rt", encoding = "utf-8")
line_num = 0
while True:
    txt = fr.readline()
    if not txt:
        break
    line_num += 1
    print(str(line_num) + ". " + txt, end = "")
fr.close()

1. ABCDE
2. 가나다라마
3. 12345

In [56]:
# readlines() 함수 사용

fr = open(read_path, mode = "rt", encoding = "utf-8")
txt_list = fr.readlines()
print(txt_list)
fr.close()

['ABCDE\n', '가나다라마\n', '12345']


In [57]:
# line 번호를 붙일 경우

fr = open(read_path, mode = "rt", encoding = "utf-8")
txt_list = fr.readlines()
for idx, txt in enumerate(txt_list, start = 1):
    print(f"{idx}. {txt}", end = "")
fr.close()

1. ABCDE
2. 가나다라마
3. 12345

In [58]:
# readline() 함수보다 readlines() 함수가 위와 같은 경우에서 좀 더 편리하다.

In [59]:
fr = open(read_path, mode = "rt", encoding = "utf-8")
# read mode의 InputStream instance는 iterable type이다.
# 그래서 for in 문에서 사용 가능하다.
# 그리고 한 번 반복할 때마다 한 줄씩 반환한다.
for txt in fr:
    print(txt)
fr.close()

ABCDE

가나다라마

12345


In [63]:
fr = open(read_path, mode = "rt", encoding = "utf-8")
for idx, txt in enumerate(fr):
    print(f"{idx+1}. {txt}", end = "")
fr.close()

1. ABCDE
2. 가나다라마
3. 12345

In [None]:
# 즉 한 줄씩 처리할 때는 instance 자체를 반복문으로 돌리면 편하다.

## 2.3. with block

파일과 입출력 작업이 다 끝나면 반드시 연결을 닫아야 한다. 매번 연결을 닫는 작업을 하는 것이 번거롭고 실수로 안 닫을 경우 문제가 생길 수 있다. **with block은 block을 벗어나면 자동으로 연결을 닫아 준다.** 그래서 연결을 닫는 코드를 생략할 수 있다.

- 구문
```python
with open() as 변수: # `변수`는 open()이 반환하는 Stream객체를 참조한다.
    입출력 작업      # 변수를 이용해 입출력 작업을 처리한다.
# with block을 빠져 나오면 close()가 자동으로 실행된다.
```

In [72]:
write_path = "file_data/my_text.txt"
with open(write_path, mode = "wt", encoding = "utf-8") as fw:
    fw.write("A\n")
    fw.write("B\n")
    fw.write("가")

In [73]:
fw.closed

True

In [None]:
# fw.close()를 하지 않았지만 fw.closed를 통해 fw 연결이 닫혀 있다는 것을 알 수 있다.

In [74]:
with open(write_path, mode = "rt", encoding = "utf-8") as fr:
    print(fr.read())

A
B
가


In [75]:
fr.closed

True

In [None]:
# with block가 훨씬 편리하다는 것을 알 수 있다.

In [None]:
# 지금까지는 읽고 쓰는 것을 text 단위로 행했다.
# 이제 byte로 해보자. 이를 위해 image를 file_data 폴더에 저장한다.
# image file을 text file로 읽으면 깨져있다. 쉽게 생각해서 이렇게 깨지는 것이 bynary type이다.

In [76]:
# binary data를 I/O 하는 방법
# copy

def copy_file(src: str, target: str):
    """
    src path의 file을 target path로 복사한다.
    """
    # InputStream - src 연결, OutputStream - target 연결
    # src와 연결하는 이유는 읽을려고, target와 연결하는 이유는 쓸려고
    
    # 1. 연결
    fr = open(src, mode = "rb")
    fw = open(target, mode = "wb")     # t는 bite를 따로 읽어서 글자로 묶는 것. b는 bite를 한 번에 읽어서 묶는 것.
    
    # 2. IO
    r_data = fr.read()     # 읽기 실행
    fw.write(r_data)     # 출력 실행
    print(type(fr), type(fw))
    print(type(r_data))
    
    # 3. close
    fr.close()
    fw.close()

In [77]:
import os
src = os.path.join("file_data", "image.jpg")
target = os.path.join("file_data", "image2.jpg")
copy_file(src, target)

<class '_io.BufferedReader'> <class '_io.BufferedWriter'>
<class 'bytes'>


In [None]:
# 실행 결과 같은 image 파일이 생긴 것을 알 수 있다. 복사된 파일의 이름은 image2이다.
# binary type으로 읽으면 data의 type이 BufferedReader, BufferedWriter인 것을 확인할 수 있다.
# 그리고 읽은 data의 type은 bytes이다. 이는 binary type을 뜻한다.

In [None]:
# bytes type에 대해 더 알아보자.

In [78]:
i = 10
print(i)     # 이는 정수 i를 문자열로 변환해서 출력하는 것이다. 즉 숫자 10을 출력한 것이 아니라
            # 문자 1과 문자 0을 출력한 것이다.

10


In [81]:
with open("a.txt", "wt") as fw:
    fw.write(str(i))     # t mode 이므로 정수가 아닌 문자열을 넣어야 한다.

In [None]:
# 이처럼 type에 주의해야 한다.

In [None]:
# 만약 문자열이 아니라 숫자 그 자체를 읽고 싶다면 bytes type으로 바꿔야 한다.

In [84]:
i = 10
# int i의 값 10을 출력 -> binary mode로 출력 -> bytes type을 변환해서 출력
i_bytes = i.to_bytes(1, byteorder = "little", signed = True)
# 1: 크기 - 1 byte 크기로 변환하겠다는 의미
# byteorder: little 또는 big을 설정할 수 있다. 저장할 때와 읽을 때 값을 같게해야 한다.
# signed: True 또는 False를 설정할 수 있다. True는 첫 번째 bit를 부호 설정에 쓰겠다는 것이다. False는 그러지 않겠다는 뜻.
        # 저장할 때와 읽을 때 값을 같게해야 한다.

with open("file_data/int.dat", "wb") as fw:
    fw.write(i_bytes)

In [86]:
with open("file_data/int.dat", "rb") as fr:
    r_data = fr.read()
    print(type(r_data))
    i = int.from_bytes(r_data, byteorder = "little", signed = True)
    print(i)

<class 'bytes'>
10


In [None]:
# bytes로 읽은 것을 int로 변환해야 한다.

In [None]:
# 위 과정을 쉽게 해주는 것이 pickle이다.

In [None]:
# 모든 data는 결국 bytes type으로 저장된다. 그래서 bytes type을 다루는 것은 중요하다.

# 3. pickle 모듈을 이용한 객체 직렬화

## 3.1. 객체 직렬화(Object Serialization)
- 객체의 속성값들을 bytes로 변환해 출력하는 것을 객체 직렬화(Object Serialization) 이라고 한다.
- bytes로 출력된 데이터를 읽어 객체화 하는 것을 객체 역직렬화(Object Deserialization) 이라고 한다.

### 3.1.1. pickle
- 객체 파일 입출력을 위한 파이썬 모듈
- open() 시 **binary mode**로 설정한다.
- 저장시 파일 확장자는 보통 `pkl` 이나 `pickle` 로 한다.
- ex)
```python
fw = open("data.pkl", "wb") # 객체를 pickle에 저장하기 위한 output stream 생성
fr = open("data.pkl", "rb") # 파일에 저장된 객체를 읽어오기 위한 input stream 생성
```
- **메소드**
    - dump(저장할 객체, fw) : 출력
    - load(fr): 입력 - 읽은 객체를 반환한다.

In [55]:
import pickle

In [57]:
num1 = 10

with open("int_data.pkl", mode = "wb") as fw:     # pickle을 적용할 때는 무조건 binary mode로 설정해야 한다.
# 출력: dump(값, OuputStream)
    pickle.dump(num1, fw)

In [59]:
with open("int_data.pkl", mode = "rb") as fr:
# 입력: load(InputStream)
    num2 = pickle.load(fr)

print(type(num2))
print(num2)

<class 'int'>
10


In [60]:
data = {
    "이름": "홍길동",
    "나이": 20,
    "취미": ["운동", "독서"],
    "기혼": False,
    "키": 180.5
}

In [61]:
with open("data.pkl", "wb") as fw:
    pickle.dump(data, fw)

In [62]:
with open("data.pkl", "rb") as fr:
    new_data = pickle.load(fr)

In [63]:
print(type(new_data))
print(new_data)
print(type(new_data["이름"]))
print(type(new_data["나이"]))
print(type(new_data["취미"]))
print(type(new_data["기혼"]))
print(type(new_data["키"]))

<class 'dict'>
{'이름': '홍길동', '나이': 20, '취미': ['운동', '독서'], '기혼': False, '키': 180.5}
<class 'str'>
<class 'int'>
<class 'list'>
<class 'bool'>
<class 'float'>


# TODO

- 간단한 터미널 기반 메모장
    1. 사용자로부터 파일명을 입력받는다.
    2. 사용자로부터 파일에 저장할 문장을 입력받아서 파일에 저장한다.
        - 한줄씩 입력받는다.
        - 사용자가 !q 를 입력하면 저장후 종료한다.
    3. 사용자가 저장한 파일을 읽어서 출력한다.


In [1]:
file_name = input("파일명 입력: ")

write_path = f"C:/Temp/{file_name}"
with open(write_path, mode = "wt", encoding = "utf-8") as fw:
    while True:
        sentence = input("글 입력: ")        
        if sentence == "!q":
            break
        fw.write(sentence + "\n")

with open(write_path, mode = "rt", encoding = "utf-8") as fr:
    print(fr.read())

파일명 입력: ㅇㅇㅇ
글 입력: !q



In [4]:
print("저장할 파일명을 입력하세요.")
file_name = input("파일명 입력: ")
print(f"{file_name}에 저장합니다.")
print("=" * 30)

with open(file_name, mode = "wt", encoding = "utf-8") as fw:
    print("저장할 내용을 입력하세요.")
    print("=" * 30)
    while True:
        line_txt = input("> ")
        if line_txt == "!q":
            break
        fw.write(line_txt + "\n")

print("입력을 종료합니다.")
print("=" * 30)

print("저장한 내용을 출력합니다.")
print("=" * 30)

with open(file_name, mode = "rt", encoding = "utf-8") as fr:
    print(fr.read())

저장할 파일명을 입력하세요.
파일명 입력: test
test에 저장합니다.
저장할 내용을 입력하세요.
> 안녕하세요.
> 반갑습니다.
> !q
입력을 종료합니다.
저장한 내용을 출력합니다.
안녕하세요.
반갑습니다.



In [None]:
# 위 코드를 함수화 해본다.

In [5]:
def memo():
    print("저장할 파일명을 입력하세요.")
    file_name = input("파일명 입력: ")
    print(f"{file_name}에 저장합니다.")
    print("=" * 30)

    with open(file_name, mode = "wt", encoding = "utf-8") as fw:
        print("저장할 내용을 입력하세요.")
        print("=" * 30)
        while True:
            line_txt = input("> ")
            if line_txt == "!q":
                break
            fw.write(line_txt + "\n")

    print("입력을 종료합니다.")
    print("=" * 30)

In [6]:
memo()

저장할 파일명을 입력하세요.
파일명 입력: test
test에 저장합니다.
저장할 내용을 입력하세요.
> 안녕하세요.
> 반갑습니다.
> !q
입력을 종료합니다.


In [7]:
%%writefile my_memo.py
# jupyter notebook 명령어 (magic command)
# %%writefile file_name.확장자: cell의 내용을 내가 지정한 파일로 출력한다.

def memo():
    print("저장할 파일명을 입력하세요.")
    file_name = input("파일명 입력: ")
    print(f"{file_name}에 저장합니다.")
    print("=" * 30)

    with open(file_name, mode = "wt", encoding = "utf-8") as fw:
        print("저장할 내용을 입력하세요.")
        print("=" * 30)
        while True:
            line_txt = input("> ")
            if line_txt == "!q":
                break
            fw.write(line_txt + "\n")

    print("입력을 종료합니다.")
    print("=" * 30)

Writing my_memo.py


In [None]:
# %load my_memo.py
# jupyter notebook 명령어 (magic command)
# %%writefile file_name: 실행하면 cell의 내용을 파일에 출력한다.

def memo():
    print("저장할 파일명을 입력하세요.")
    file_name = input("파일명 입력: ")
    print(f"{file_name}에 저장합니다.")
    print("=" * 30)

    with open(file_name, mode = "wt", encoding = "utf-8") as fw:
        print("저장할 내용을 입력하세요.")
        print("=" * 30)
        while True:
            line_txt = input("> ")
            if line_txt == "!q":
                break
            fw.write(line_txt + "\n")

    print("입력을 종료합니다.")
    print("=" * 30)


- member.csv 파일을 읽어서 각 열의 값을 배열에 담는다.    
이름,나이,주소  형태의 csv를 읽어    
```python
names = []
ages =[]
address =[]    
```
배열에 넣는다. 
    - 단 첫줄은 head이므로 읽지 않는다.
    - 참고 함수: 문자열 split(), for문 관련 enumerate()



> **CSV (Comma Separated Value)** 파일
> - 데이터들을 정형화(표)된 형태로 텍스트파일에 저장하는 방식
> - 하나의 데이터는 한줄에 표시. (데이터 구분자는 엔터)
> - 하나의 데이터를 구성하는 값들(속성)들은 , 로 구분 (공백은 넣지 않도록 해야한다. 주의하기.)
>     - tab으로 구분하는 경우 TSV 
>     - 각 속성값들은 " " 로 감싸기도 한다.
> - 텍스트기반
> - 파일 확장자는 `.csv`, `.tsv` 로 준다.

- TSV (Tab separated Value)

In [28]:
name = []
age = []
address = []

with open("member.csv", mode = "rt", encoding = "utf-8") as fr:
    for txt in fr:
        member = txt.split(",")
        name.append(member[0])
        age.append(member[1])
        address.append(member[2].strip("\n"))

print(name[1:])
print(age[1:])
print(address[1:])


['홍길동', '이순신', '유관순', '안중근', '윤봉길']
['20', '30', '25', '23', '27']
['서울', '인천', '대구', '부산', '광주']


In [32]:
name = []
age = []
address = []

fr = open("member.csv", mode = "rt", encoding = "utf-8")
for idx, txt in enumerate(fr):
    if idx != 0:
        member = txt.split(",")
        name.append(member[0])
        age.append(member[1])
        address.append(member[2].strip("\n"))
fr.close()

print(name)
print(age)
print(address)

['홍길동', '이순신', '유관순', '안중근', '윤봉길']
['20', '30', '25', '23', '27']
['서울', '인천', '대구', '부산', '광주']


In [46]:
name = []
age = []
address = []

with open("member.csv", mode = "rt", encoding = "utf-8") as fr:
    for idx, txt in enumerate(fr):
        if idx != 0:
            member = txt.split(",")
            name.append(member[0])
            age.append(member[1])
            address.append(member[2].strip())

print(name)
print(age)
print(address)

['홍길동', '이순신', '유관순', '안중근', '윤봉길']
['20', '30', '25', '23', '27']
['서울', '인천', '대구', '부산', '광주']


In [48]:
# 값들을 넣을 list 생성
names = []
ages = []
addresses = []

# member.csv 와 입력 연결
with open("member.csv", mode = "rt", encoding = "utf-8") as fr:
    for idx, line_txt in enumerate(fr):
        # 첫 줄은 읽지 않는다.
        if idx == 0:
            continue
        name, age, address = line_txt.strip().split(",")
        names.append(name)
        ages.append(age)
        addresses.append(address)

In [51]:
# 열 단위 조회

print(names)
print(ages)
print(addresses)

['홍길동', '이순신', '유관순', '안중근', '윤봉길']
['20', '30', '25', '23', '27']
['서울', '인천', '대구', '부산', '광주']


In [52]:
# 행 단위 조회

for info in zip(names, ages, addresses):
    print(info)

('홍길동', '20', '서울')
('이순신', '30', '인천')
('유관순', '25', '대구')
('안중근', '23', '부산')
('윤봉길', '27', '광주')


In [53]:
# csv file을 다루는 module인 pandas에 대해 간단히 알아보자.

import pandas as pd

member = pd.read_csv("member.csv")
member

Unnamed: 0,이름,나이,주소
0,홍길동,20,서울
1,이순신,30,인천
2,유관순,25,대구
3,안중근,23,부산
4,윤봉길,27,광주
