# 데이터 입출력 (Importing and Exporting Data)

<!-- requirement: data/sample.txt -->
<!-- requirement: data/csv_sample.txt -->
<!-- requirement: data/bad_csv.csv -->

지금까지 우리는 파이썬 내에서 생성한 데이터만을 다루었었습니다. 가상의 무작위 데이터를 생성하는 것은 아이디어를 테스트하는 데 도움이 됩니다. 하지만 우리에게 더 중요한 것인 이 세상에 존재하는 실제 데이터입니다. 대부분의 경우 이러한 실제 데이터들은 컴퓨터의 로커 혹은 온라인에서 파일의 형태로 저장이 되어있습니다. 이번 시간에는 이처럼 파이썬 어플리케이션의 외부에 존재하는 파일들을 파이썬으로 읽고 쓰는 방법에 대해서 다룰 예정입니다.

## 파일 열기 (`open`)

표준 파이썬에서는 `open`과 `close`라는 명령문을 사용하여 디스크에 존재하는 파일들과 상호작용을 하도록 설계되어있습니다. 이를 연습해보기 위해 이 주피터 노트북 파일이 저장되어 있는 디렉토리에 `data` 폴더를 만들어놓았고, 또 이 폴더 안에 `sample.txt`라는 파일을 저장해놓았습니다. 그럼 한 번 이 파일을 열어서 읽어오도록 해보겠습니다.

In [1]:
f = open('./data/sample.txt', 'r')
data = f.read()
f.close()

print(data)
print(f)

Hello!
Congratulations!
You've read in data from a file.
<_io.TextIOWrapper name='./data/sample.txt' mode='r' encoding='cp949'>


위의 셀에서 우리는 파일을 열고(`open`) 이를 `f`라는 변수에 할당했습니다. 또한 이 `f`를 읽어 `data`라는 변수에 다시 할당한 뒤, `f`를 닫았습니다(`close`). 그런데 과연 여기서 `f`라는 것은 대체 무엇일까요? 여기서 `f`는 파일 핸들(**file handle**)이라고 부릅니다. 이 파일 핸들이라는 것은 파이썬을 사용해 우리가 열 파일에 파이썬을 연결시키는 객체입니다. 우리는 이 연결을 사용하여 데이터를 읽고 연결이 끝나면 이 연결을 닫습니다. 파일 핸들의 사용이 끝나면 이를 항상 닫는 것은 좋은 습관이므로, 일반적으로는 파이썬의 `with` 키워드를 사용해서 자동적으로 사용이 끝난 후 이를 닫도록 만드는 것이 좋습니다. 아래는 `with`구문을 사용한 예시입니다.

In [2]:
# f is automatically closed
# at the end of the body of the with statement
with open('./data/sample.txt', 'r') as f:
    print(f.read())

print(f)

Hello!
Congratulations!
You've read in data from a file.
<_io.TextIOWrapper name='./data/sample.txt' mode='r' encoding='cp949'>


`readline` 혹은 `readlines`라는 메서드를 사용해 파일의 개별 행 혹은 행들을 읽어올 수도 있습니다.

In [3]:
with open('./data/sample.txt', 'r') as f:
    print(f.readline())

Hello!



In [4]:
with open('./data/sample.txt', 'r') as f:
    print(f.readlines())

['Hello!\n', 'Congratulations!\n', "You've read in data from a file."]


파일에 데이터를 쓰는 것 또한 읽기와 유사한 방식으로 작동합니다. 주요 차이점은 파일을 열 때 `r` 대신 `w` 플래그를 사용한다는 것입니다. `w` 플래그를 사용하게 되면 파이썬에서 작업한 결과물들이 기존 파일에 덮어씌워지게 되므로 주의해야합니다.

In [5]:
with open('./data/my_data.txt', 'w') as f:
    f.write('This is a new file.')
    f.write('I am practicing writing data to disk.')

with open('./data/my_data.txt', 'r') as f:
    my_data = f.read()

print(my_data)

This is a new file.I am practicing writing data to disk.


위의 셀을 계속해서 실행하더라도 동일한 결과가 출력됩니다. `w` 플래그로 파일을 열면 파일의 내용을 덮어쓰기 때문입니다. 만약 내용을 덮어쓰지않고, 기존의 내용에 추가를 하는 방식으로 구현을 하기 위해서는 `a` 플래그로 파일을 열어야 합니다. 여기서 `a`는 `append`를 의미합니다.

In [6]:
with open('./data/my_data.txt', 'a') as f:
    f.write('\nAdding a new line to the file.')

with open('./data/my_data.txt', 'r') as f:
    my_data = f.read()

print(my_data)

This is a new file.I am practicing writing data to disk.
Adding a new line to the file.


실수로 데이터를 덮어쓰거나 변경할 수 있으므로, 디스크에 쓸 때는 항상 주의해야 합니다. 또한 액세스하려는 파일이 존재하는지 미리 알지 못하거나 혹은 `r`, `w` 및 `a` 플래그를 무심코 섞어 사용하게 되면, 오류가 발생하기 매우 쉽기 때문에 이러한 오류 발생에도 주의를 기울여야 합니다.

In [12]:
# if a file doesn't exist
# we can't open it for reading
# (but we can open it for writing)

with open('./data/fail.txt', 'r') as f:
    f.read()

FileNotFoundError: [Errno 2] No such file or directory: './data/fail.txt'

In [13]:
# we can't read a file open for writing

with open('./data/fail.txt', 'w') as f:
    f.read()

UnsupportedOperation: not readable

In [14]:
# and we can't write to a file open for reading

with open('./data/sample.txt', 'r') as f:
    f.write('This will fail')

UnsupportedOperation: not writable

혹시 이러한 오류 중 일부를 방지할 수 있는 방법이 있을까요? 혹은 디스크에 어떤 파일이 있는지 알 수 있는 방법이 있을까요?

## `os` 모듈

파이썬에는 `os`라는 컴퓨터의 파일 시스템을 탐색하기 위한 모듈이 있습니다. `os` 모듈에는 유용한 도구가 많이 있지만 파일을 찾는 데 가장 유용한 두 가지 기능이 있습니다.

In [1]:
import os

# list the contents of the current directory
# ('.' refers to the current directory)
os.listdir('.')

['.ipynb_checkpoints',
 '2_ProgramFlow.ipynb',
 '3_DataStructures.ipynb',
 '4_Algorithms.ipynb',
 '5_ObjectOrientedProgramming.ipynb',
 '6_Pythonic.ipynb',
 '7_InputOutput.ipynb',
 '8_BasicDataScienceModules.ipynb',
 'Collections Modules.ipynb',
 'data',
 'hash_illustration-Copy1.png',
 'high_score_flowchart-Copy1.png',
 'high_score_flowchart.png',
 'list_illustration-Copy1.png',
 'nested_logic_flowchart-Copy1.png',
 'PY_1_Intro.ipynb',
 'set_operations-Copy1.png',
 'TurtleSystem.ipynb',
 '__pycache__']

`listdir` 명령은 우리가 다룰 두 가지 기능 중 더 간단합니다. 이것은 단순히 우리가 지정한 디렉토리 경로의 내용을 나열해줍니다. 만약 `'.'`를 인수로 전달하면 `listdir`은 현재 디렉토리를 찾습니다. 여기에는 강의에서 사용되는 모든 주피터 노트북과 `data` 폴더의 하위 디렉토리가 나열됩니다. `'./data'`를 보면 `data` 하위 디렉토리에 무엇이 있는지 알 수 있습니다.

In [16]:
os.listdir('./data')

['bad_csv.csv',
 'csv_sample.txt',
 'customers.csv',
 'fail.txt',
 'my_data.txt',
 'orders.csv',
 'PEP_2016_PEPANNRES.csv',
 'products.csv',
 'sample.txt',
 'yelp.json.gz']

`listdir`는 찾고 있는 특정 디렉토리에 속하는 파일들만을 볼 수 있습니다. 이는 다시 말해 `listdir`를 사용하여 하위 디렉토리의 내부까지는 자동으로 검색할 수 없다는 의미입니다. 그렇다면 특정 디렉토리 아래에 있는 하위 디렉토리의 내부까지를 살펴보려면 어떻게 해야 할까요? 이를 위해서는 `walk`라는 것을 사용하면 됩니다. 이 `walk`는 말그대로 우리가 선택한 디렉토리의 하위디렉토리 내부까지를 샅샅이 검색합니다. 여기서 `walk`를 다루지는 않겠지만, 이것은 특히 많은 데이터 파일들로 작업을 하는 경우 매우 유용한 도구 중 하나입니다.

## CSV 파일

데이터를 저장하는 가장 간단하고 일반적인 형식 중 하나는 CSV(쉼표로 구분된 값, **comma-separated values**)입니다.

In [17]:
with open('./data/csv_sample.txt', 'r') as f:
    csv = f.read()

print(csv)

index,name,age
0,Dylan,28
1,Terrence,54
2,Mya,31



이 형식은 종종 데이터 테이블을 나타내는 데 사용됩니다. 일반적으로 CSV에는 행(개행 문자 `'\n'`으로 구분)과 열(쉼표로 구분)이 있습니다. 그렇지 않다면 다른 텍스트 파일과 크게 다를 것이 없습니다. CSV의 특수 형식을 사용하여 테이블을 나타내는 리스트들의 리스트를 만들 수 있습니다.

In [18]:
list_table = []
with open('./data/csv_sample.txt', 'r') as f:
    for line in f.readlines():
        list_table.append(line.strip().split(','))

list_table

[['index', 'name', 'age'],
 ['0', 'Dylan', '28'],
 ['1', 'Terrence', '54'],
 ['2', 'Mya', '31']]

하지만 더 쉬운 방법은 판다스의 `DataFrame`을 사용하는 것입니다. 이를 사용하면 훨씬 더 쉽게 표 형식의 데이터를 다룰 수 있습니ㅏㄷ. 판다스는 데이터를 `DataFrame`으로 직접 읽어들이는 `read_csv` 메서드를 제공합니다.

In [37]:
import pandas as pd

df = pd.read_csv('./data/csv_sample.txt', index_col=0)
df

Unnamed: 0_level_0,name,age
index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,Dylan,28
1,Terrence,54
2,Mya,31


`read_csv` 메소드는 다양한 데이터 세트의 형식을 처리하는 데 매우 유연합니다. 가령 일부 데이터 세트에는 열 머리글이 포함되지만 다른 데이터 세트에는 포함되지 않을 수 있습니다. 그리고 일부 데이터 세트에는 색인이 포함되지만 다른 데이터 세트에는 포함되지 않을 수 있습니다. 혹은 일부 데이터 세트에는 쉼표 대신 탭, 세미콜론 또는 기타 문자로 구분된 값이 있을 수 있습니다. `read_csv` 메서드에는 이 모든 것들을 처리할 수 있는 옵션들이 존재합니다. `read_csv`에 대한 [판다스 공식문서](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)를 참고하면 도움이 됩니다. 판다스라는 라이브러리에 대해서는 다음 강의 때 보다 더 자세히 논의를 할 예정입니다.

In [32]:
# we can also use pandas to write CSV
# using the DataFrame's to_csv method

pd.DataFrame({'a': [0, 3, 10], 'b': [True, True, False]}).to_csv('./data/pd_write.csv')

pd.read_csv('./data/pd_write.csv', index_col=0)

Unnamed: 0,a,b
0,0,True
1,3,True
2,10,False


하지만 때로는 CSV가 완벽하지 않을 수 있습니다. 예를 들어, 행마다 쉼표 수가 다를 수 있습니다. 이렇게 되면 파일의 내용을 테이블로 해석하기가 어려워집니다. 아래의 예시를 한 번 보겠습니다.

In [24]:
# what happens if we try to read this
# into a DataFrame using read_csv?

pd.read_csv('./data/bad_csv.csv', index_col = 0)

Unnamed: 0_level_0,name,age
index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,Dylan,27.0
1,54,
2,Mya,31.0


판다스의 `read_csv` 메서드는 형식이 잘못된 CSV에서 테이블을 구성하기 위해 최선을 다하지만 간혹 실수가 발생할 수 있습니다. 예를 들어, 위의 예시와 같이 54는 파일의 해당 줄에 2개의 열만 있기 때문에 나이가 아닌 이름으로 해석되었습니다. 이처럼 데이터 세트에는 잘못된 형식, 누락된 데이터 또는 오타와 같은 실수 등이 포함되는 경우가 많습니다.

## JSON

JSON은 JavaScript Object Notation의 약자입니다. 여기서 자바스크립트란 웹 애플리케이션을 만들기 위한 공통 언어이며, JSON 파일은 자바스크립트 애플리케이션 간에 정보를 수집하고 전송하는 데 사용됩니다. 그렇기 때문에 그 결과 인터넷의 많은 데이터들이 JSON 파일의 형태로 존재합니다. 예를 들어, Twitter와 Google 지도는 JSON을 사용합니다.

본질적으로 JSON 파일은 중첩된 딕셔너리와 리스트로 구축된 데이터 구조입니다. 이를 이해하기 위해 아래에서 직접 예제를 만든 다음 인터넷에서 다운로드한 예제를 살펴보겠습니다.

In [10]:
book1 = {'title': 'The Prophet',
         'author': 'Khalil Gibran',
         'genre': 'poetry',
         'tags': ['religion', 'spirituality', 'philosophy', 'Lebanon', 'Arabic', 'Middle East'],
         'book_id': '811.19',
         'copies': [{'edition_year': 1996,
                     'checkouts': 486,
                     'borrowed': False},
                    {'edition_year': 1996,
                     'checkouts': 443,
                     'borrowed': False}]
         }
         
book2 = {'title': 'The Little Prince',
         'author': 'Antoine de Saint-Exupery',
         'genre': 'children',
         'tags': ['fantasy', 'France', 'philosophy', 'illustrated', 'fable'],
         'id': '843.912',
         'copies': [{'edition_year': 1983,
                     'checkouts': 634,
                     'borrowed': True,
                     'due_date': '2017/02/02'},
                    {'edition_year': 2015,
                     'checkouts': 41,
                     'borrowed': False}]
         }

library = [book1, book2]
library

[{'title': 'The Prophet',
  'author': 'Khalil Gibran',
  'genre': 'poetry',
  'tags': ['religion',
   'spirituality',
   'philosophy',
   'Lebanon',
   'Arabic',
   'Middle East'],
  'book_id': '811.19',
  'copies': [{'edition_year': 1996, 'checkouts': 486, 'borrowed': False},
   {'edition_year': 1996, 'checkouts': 443, 'borrowed': False}]},
 {'title': 'The Little Prince',
  'author': 'Antoine de Saint-Exupery',
  'genre': 'children',
  'tags': ['fantasy', 'France', 'philosophy', 'illustrated', 'fable'],
  'id': '843.912',
  'copies': [{'edition_year': 1983,
    'checkouts': 634,
    'borrowed': True,
    'due_date': '2017/02/02'},
   {'edition_year': 2015, 'checkouts': 41, 'borrowed': False}]}]

We have two books in our `library`. Both books have some common properties: a title, an author, an id, and tags. Each book can have several tags, so we store that data as a list. Additionally, there can be multiple copies of each book, and each copy also has some unique information like the year it was printed and how many times it's been checked out. Notice that if a book is checked out, it also has a due date. It's convenient to store the information about the multiple copies as a list of dictionaries within the dictionary about the book, because every copy shares the same title, author, etc.

우리가 생성한 `library`에 책이 두 권 있습니다. 이 두 책에는 제목, 저자, ID 및 태그와 같은 몇 가지 공통 속성이 존재하며, 각 책에는 여러 태그가 있을 수 있으므로 해당 데이터가 리스트의 형태로 저장되어 있습니다. 또한 각 책의 사본이 여러 개 있을 수 있으며 각 사본에는 인쇄된 연도 및 대출 횟수와 같은 고유한 정보도 있습니다. 심지어 책을 대출한 경우 기한도 있습니다. 이런 경우에는 모든 사본이 동일한 제목, 저자 등을 공유하기 때문에 여러 사본에 대한 정보를 딕셔너리들로 구성된 리스트 형태로 만들고 이를 또 다른 딕셔너리 안에 저장하는 것이 편리합니다.

이러한 구조가 바로 전형적인 JSON 파일의 형태입니다. 이는 데이터의 중복성을 줄여준다는 장점이 있습니다. 여러 권의 책이 있더라도 저자와 제목을 한 번만 저장하기 때문입니다. 또한 체크아웃하지 않은 사본의 마감일은 저장하지 않고 있습니다.

이 데이터를 테이블에 넣으면 많은 정보를 복제해야 합니다. 또한 라이브러리에 있는 복사본이 하나만 체크아웃되었기 때문에 누락된 데이터가 많은 열도 있을 것입니다.

|index|title|author|id|genre|tags|edition_year|checkouts|borrowed|due_date|
|:---:|:---:|:----:|::|:---:|:--:|:----------:|:-------:|:------:|:------:|
|0|The Prophet|Khalil Gibran|811.19|poetry|religion, spirituality, philosophy, Lebanon, Arabic, Middle East|1996|486|False|Null|
|1|The Prophet|Khalil Gibran|811.19|poetry|religion, spirituality, philosophy, Lebanon, Arabic, Middle East|1996|443|False|Null|
|2|The Little Prince|Antoine de Saint-Exupery|843.912|children|fantasy, France, philosophy, illustrated, fable|1983|634|True|2017/02/02|
|3|The Little Prince|Antoine de Saint-Exupery|843.912|children|fantasy, France, philosophy, illustrated, fable|2015|41|False|Null|

사실 메모리적으로 봤을 때 이는 매우 낭비입니다. JSON 파일은 인터넷을 통해 빠르게 공유되어야 하기 때문에 파일을 저장하고 전송하는 데 필요한 리소스의 양을 줄이려면 파일이 작아야 합니다.

우리는 아래와 같이 `json` 모듈을 사용하여 `library`를 디스크에 쓸 수 있습니다.

In [11]:
import json

with open('./data/library.json', 'w') as f:
    json.dump(library, f, indent=2)

In [13]:
with open('./data/library.json', 'r') as f:
    reloaded_library = json.load(f)

reloaded_library

[{'title': 'The Prophet',
  'author': 'Khalil Gibran',
  'genre': 'poetry',
  'tags': ['religion',
   'spirituality',
   'philosophy',
   'Lebanon',
   'Arabic',
   'Middle East'],
  'book_id': '811.19',
  'copies': [{'edition_year': 1996, 'checkouts': 486, 'borrowed': False},
   {'edition_year': 1996, 'checkouts': 443, 'borrowed': False}]},
 {'title': 'The Little Prince',
  'author': 'Antoine de Saint-Exupery',
  'genre': 'children',
  'tags': ['fantasy', 'France', 'philosophy', 'illustrated', 'fable'],
  'id': '843.912',
  'copies': [{'edition_year': 1983,
    'checkouts': 634,
    'borrowed': True,
    'due_date': '2017/02/02'},
   {'edition_year': 2015, 'checkouts': 41, 'borrowed': False}]}]

In [14]:
# note that if we loaded it in without JSON
# the file would be interpreted as plain text

with open('./data/library.json', 'r') as f:
    library_string = f.read()

# this isn't what we want
library_string

'[\n  {\n    "title": "The Prophet",\n    "author": "Khalil Gibran",\n    "genre": "poetry",\n    "tags": [\n      "religion",\n      "spirituality",\n      "philosophy",\n      "Lebanon",\n      "Arabic",\n      "Middle East"\n    ],\n    "book_id": "811.19",\n    "copies": [\n      {\n        "edition_year": 1996,\n        "checkouts": 486,\n        "borrowed": false\n      },\n      {\n        "edition_year": 1996,\n        "checkouts": 443,\n        "borrowed": false\n      }\n    ]\n  },\n  {\n    "title": "The Little Prince",\n    "author": "Antoine de Saint-Exupery",\n    "genre": "children",\n    "tags": [\n      "fantasy",\n      "France",\n      "philosophy",\n      "illustrated",\n      "fable"\n    ],\n    "id": "843.912",\n    "copies": [\n      {\n        "edition_year": 1983,\n        "checkouts": 634,\n        "borrowed": true,\n        "due_date": "2017/02/02"\n      },\n      {\n        "edition_year": 2015,\n        "checkouts": 41,\n        "borrowed": false\n      

In [16]:
# Pandas can also read_json
# notice how it constructs the table
# does it represent the data well?
import pandas as pd
pd.read_json('./data/library.json')

Unnamed: 0,title,author,genre,tags,book_id,copies,id
0,The Prophet,Khalil Gibran,poetry,"[religion, spirituality, philosophy, Lebanon, ...",811.19,"[{'edition_year': 1996, 'checkouts': 486, 'bor...",
1,The Little Prince,Antoine de Saint-Exupery,children,"[fantasy, France, philosophy, illustrated, fable]",,"[{'edition_year': 1983, 'checkouts': 634, 'bor...",843.912


In [41]:
# and to_json
import pandas as pd
df.to_json('./data/example_df.json')

우리는 다양한 방법으로 JSON 파일을 다운로드할 수 있습니다. 수동으로 다운로드할 수도 있지만 `wget`을 사용할 수도 있고, 종종 JSON을 사용하여 응답하는 웹사이트의 API에 연결하기도 합니다. 판다스의 `read_json` 메서드는 URL에 직접 연결하여 파일을 컴퓨터에 저장하지 않고도 JSON을 읽을 수 있습니다.

In [39]:
import pandas as pd
pd.read_json('https://api.github.com/repos/pydata/pandas/issues?per_page=5')

Unnamed: 0,url,repository_url,labels_url,comments_url,events_url,html_url,id,node_id,number,title,...,created_at,updated_at,closed_at,author_association,active_lock_reason,pull_request,body,reactions,timeline_url,performed_via_github_app
0,https://api.github.com/repos/pandas-dev/pandas...,https://api.github.com/repos/pandas-dev/pandas,https://api.github.com/repos/pandas-dev/pandas...,https://api.github.com/repos/pandas-dev/pandas...,https://api.github.com/repos/pandas-dev/pandas...,https://github.com/pandas-dev/pandas/pull/43900,1017603845,PR_kwDOAA0YD84sw3i7,43900,ENH: Add support for more placeholders in `gue...,...,2021-10-06 06:41:39+00:00,2021-10-06 06:45:06+00:00,NaT,NONE,,{'url': 'https://api.github.com/repos/pandas-d...,Add support for day of week and meridiem place...,{'url': 'https://api.github.com/repos/pandas-d...,https://api.github.com/repos/pandas-dev/pandas...,
1,https://api.github.com/repos/pandas-dev/pandas...,https://api.github.com/repos/pandas-dev/pandas,https://api.github.com/repos/pandas-dev/pandas...,https://api.github.com/repos/pandas-dev/pandas...,https://api.github.com/repos/pandas-dev/pandas...,https://github.com/pandas-dev/pandas/pull/43899,1017269667,PR_kwDOAA0YD84svsf6,43899,ENH: implement ExtensionArray.__array_ufunc__,...,2021-10-06 02:25:43+00:00,2021-10-06 02:26:24+00:00,NaT,MEMBER,,{'url': 'https://api.github.com/repos/pandas-d...,This implements `ExtensionArray.__array_ufunc_...,{'url': 'https://api.github.com/repos/pandas-d...,https://api.github.com/repos/pandas-dev/pandas...,
2,https://api.github.com/repos/pandas-dev/pandas...,https://api.github.com/repos/pandas-dev/pandas,https://api.github.com/repos/pandas-dev/pandas...,https://api.github.com/repos/pandas-dev/pandas...,https://api.github.com/repos/pandas-dev/pandas...,https://github.com/pandas-dev/pandas/pull/43898,1017144853,PR_kwDOAA0YD84svQdn,43898,TST: slow collection in test_algos.py,...,2021-10-06 00:45:09+00:00,2021-10-06 01:39:55+00:00,NaT,MEMBER,,{'url': 'https://api.github.com/repos/pandas-d...,- [x] closes #43888\r\n,{'url': 'https://api.github.com/repos/pandas-d...,https://api.github.com/repos/pandas-dev/pandas...,
3,https://api.github.com/repos/pandas-dev/pandas...,https://api.github.com/repos/pandas-dev/pandas,https://api.github.com/repos/pandas-dev/pandas...,https://api.github.com/repos/pandas-dev/pandas...,https://api.github.com/repos/pandas-dev/pandas...,https://github.com/pandas-dev/pandas/issues/43896,1017038969,I_kwDOAA0YD848nsh5,43896,BUG: bug in DataFrame.groupby(Grouper) trigger...,...,2021-10-05 23:22:11+00:00,2021-10-05 23:22:11+00:00,NaT,NONE,,,### \n\n- [X] I have checked that this issue h...,{'url': 'https://api.github.com/repos/pandas-d...,https://api.github.com/repos/pandas-dev/pandas...,
4,https://api.github.com/repos/pandas-dev/pandas...,https://api.github.com/repos/pandas-dev/pandas,https://api.github.com/repos/pandas-dev/pandas...,https://api.github.com/repos/pandas-dev/pandas...,https://api.github.com/repos/pandas-dev/pandas...,https://github.com/pandas-dev/pandas/pull/43894,1016904508,PR_kwDOAA0YD84suakV,43894,"ENH: Add custom descriptors (such as dtype, nu...",...,2021-10-05 21:44:02+00:00,2021-10-05 21:44:07+00:00,NaT,CONTRIBUTOR,,{'url': 'https://api.github.com/repos/pandas-d...,- [ ] closes: #43875 \r\n\r\n- [ ] **NEEDS PR*...,{'url': 'https://api.github.com/repos/pandas-d...,https://api.github.com/repos/pandas-dev/pandas...,


## 객체 직렬화 (`pickle`)

종종 작업을 파이썬에 저장하고 나중에 다시 불러오고 싶을 때가 있습니다. 그런데 만약 그 작업이 머신러닝 모델이거나 파이썬의 다른 복잡한 객체인 경우에는 어떻게 이 객체를 저장할 수 있을까요? 이를 위해 파이썬에는 피클(`pickle`)이라는 모듈이 있습니다. 우리는 `pickle`을 사용하여 파이썬 객체에 대한 모든 정보를 포함하는 바이너리 파일을 작성할 수 있습니다. 또한 나중에 우리는 그 피클 파일을 로드하고 파이썬에서 객체를 재구성할 수 있습니다.

In [20]:
pickle_example = ['hello', {'a': 23, 'b': True}, (1, 2, 3), [['dogs', 'cats'], None]]

In [21]:
# we can't save this as text
with open('./data/pickle_example.txt', 'w') as f:
    f.write(pickle_example)

TypeError: write() argument must be str, not list

In [22]:
import pickle

# we can save it as a pickle
with open('./data/pickle_example.pkl', 'wb') as f:
    pickle.dump(pickle_example, f)

with open('./data/pickle_example.pkl', 'rb') as f:
    reloaded_example = pickle.load(f)

reloaded_example

['hello', {'a': 23, 'b': True}, (1, 2, 3), [['dogs', 'cats'], None]]

In [23]:
# the reloaded example is the same as the original

reloaded_example == pickle_example

True

피클은 데이터 과학자에게 중요한 도구입니다. 데이터 처리 및 머신 러닝 모델 학습은 시간이 오래 걸릴 수 있습니다. 따라서 체크포인트를 저장하는 데 있어 피클은 꽤 유용합니다. 판다스 패키지에도 피클의 형태로 입출력을 할 수 있도록 하는 `to_pickle`과 `read_pickle`이라는 메서드가 존재합니다.

## 넘파이 파일 형식

넘파이에도 데이터를 저장하고 로드하는 방법이 존재합니다. 넘파이 배열에 데이터를 저장해야 하는 특정 머신러닝 라이브러리로 작업할 때 이러한 케이스를 종종 볼 수 있습니다. 넘파이 배열은 이미지 데이터로 작업할 때도 자주 사용됩니다. 아래의 예시는 넘파이 배열을 저장하고 불러오는 방법에 대해 직관적으로 보여주고 있습니다.

In [24]:
import numpy as np
sample_array = np.random.random((4, 4))
print(sample_array)

[[0.58232082 0.37480231 0.01235614 0.04747005]
 [0.93863715 0.55522418 0.74559883 0.67439668]
 [0.93627524 0.69166619 0.03075041 0.49512299]
 [0.52281786 0.26624551 0.80763452 0.36135669]]


In [25]:
# to save as plain text
np.savetxt('./data/sample_array.txt', sample_array)

In [27]:
print(np.loadtxt('./data/sample_array.txt'))

[[0.58232082 0.37480231 0.01235614 0.04747005]
 [0.93863715 0.55522418 0.74559883 0.67439668]
 [0.93627524 0.69166619 0.03075041 0.49512299]
 [0.52281786 0.26624551 0.80763452 0.36135669]]


In [28]:
# to save as compressed binary
np.save('./data/sample_array.npy', sample_array)

In [29]:
print(np.load('./data/sample_array.npy'))

[[0.58232082 0.37480231 0.01235614 0.04747005]
 [0.93863715 0.55522418 0.74559883 0.67439668]
 [0.93627524 0.69166619 0.03075041 0.49512299]
 [0.52281786 0.26624551 0.80763452 0.36135669]]


*Copyright 2021.* 퀀트대디. *This content is licensed solely for personal use. Redistribution or publication of this material is strictly prohibited.*