os.path 에는 파일이나 디렉토리가 실제로 존재하는지 확인하는 exists 함수가 있습니다. 만약 디렉토리가 존재하지 않는다면 os.makedirs 를 이용하여 디렉토리를 만들 수 있습니다.

In [1]:
import os

if not os.path.exists('data'):
    os.makedirs('data')

## File open

파일 내 텍스트를 읽기 위해서는 우선 파일과의 통로를 열어야 합니다. `with` 는 파일을 연상태를 의미하며 `as f` 는 열려있는 통로의 이름을 `f` 로 정의한다는 의미입니다. `import seaborn as sns` 에서의 `as` 와 같은 기능을 합니다. `readlines()` 는 텍스트의 한 줄을 하나의 str 로 읽어들입니다.

Python에서 파일을 읽거나 쓸 때 (File I/O)는 open을 이용하면 됩니다. 이 때 반드시 인코딩을 utf-8로 지정하는 것을 추천합니다. 

인코딩이란 쉽게 말해서 'a'라는 글자를 어떤 숫자로 저장할 것이냐라는 언어표 입니다. 컴퓨터는 정보를 2진수로 이뤄진 숫자로 저장합니다. 'a'라는 글자는 어떤 인코딩에서는 0일 수도, 다른 어떤 인코딩에서는 100 일 수도 있습니다. 그리고 각 인코딩이 표현할 수 있는 언어의 폭도 다릅니다. 처음 컴퓨터가 만들어질 때 나왔던 인코딩은 한글, 중국어 등의 세계 각 국의 언어는 고려하지 않았습니다. 영어/숫자/특수기호 등으로만 이뤄진 인코딩을 이용하였지만, 컴퓨터를 사용하는 지역이 넓어짐에 따라 각 언어를 반영하도록 인코딩은 계속 발전하였습니다. 

현재에는 utf-8이 표준 인코딩으로 이용되고 있으며, 여기에는 한국어를 포함한 많은 언어들이 등록되어 있습니다. 

그런데 컴퓨터 입장에서 001010 처럼 써진 숫자들만 보고 이 숫자가 어떤 글자를 의미하는지 추측하려면 때로는 틀릴 수가 있습니다. 반대로 사용자가 001010을 어떤 인코딩으로 읽으라고 지정할 수 있습니다. 또한 파일에 데이터를 쓸 때에도 'a'라는 글자를 어떤 인코딩 방식을 통해서 이진수로 표현할지를 지정할 수 있습니다. 

파이썬은 해당 OS의 기본 인코딩을 사용합니다. 윈도우의 기본 인코딩은 cp949이며, ubuntu, MacOS에서 이 포멧이 잘 열리지 않을 수 있기 때문에, 표준 인코딩인 utf-8을 명시하여 인코딩 혼동이 없도록 함을 추천합니다.

In [2]:
with open('README.md', encoding='utf-8') as f:
    doc = f.readlines()

print(type(doc))      # "<class 'list'>"
print(len(doc))       # "7"
print(doc[0].strip()) # "# 데이터 처리를 위한 기본 코드"

<class 'list'>
7
# 데이터 처리를 위한 기본 코드


List 내 각 str 의 마지막 글자는 줄바꿈 기호인 '\n' 입니다.

In [3]:
print(doc)

['# 데이터 처리를 위한 기본 코드\n', '\n', '- 파이썬 (Image handling, IPython notebook shortcut & cell)\n', '- Numpy\n', '- Bokeh (comparing with matplotlib, seaborn)\n', '- Pandas\n', '- 데이터셋과 기본 분석 패키지 가져오기 (파이썬 패키지 만들기)\n']


List 를 깔끔하게 출력하기 위하여 pprint 를 이용할 수도 있습니다.

In [4]:
from pprint import pprint

pprint(doc)

['# 데이터 처리를 위한 기본 코드\n',
 '\n',
 '- 파이썬 (Image handling, IPython notebook shortcut & cell)\n',
 '- Numpy\n',
 '- Bokeh (comparing with matplotlib, seaborn)\n',
 '- Pandas\n',
 '- 데이터셋과 기본 분석 패키지 가져오기 (파이썬 패키지 만들기)\n']


혹은 `str.join` 을 이용하면 doc 을 하나의 str 로 만들 수 있습니다.

In [5]:
print(''.join(doc))

# 데이터 처리를 위한 기본 코드

- 파이썬 (Image handling, IPython notebook shortcut & cell)
- Numpy
- Bokeh (comparing with matplotlib, seaborn)
- Pandas
- 데이터셋과 기본 분석 패키지 가져오기 (파이썬 패키지 만들기)



List of str 의 파일을 `data/README_copy.md` 에 저장해 봅니다.

In [6]:
with open('data/README_copy.md', 'w', encoding='utf-8') as f:
    for line in doc:
        f.write(f'{line}')

## JSON

JSON 형식의 데이터를 텍스트 파일로 저장할 수 있습니다.

In [7]:
import json

d2 = {
    'key': 'value',
    'key2': ['list', 'form'],
    'key3': {'dict': 'form'}
}

print(d2)

{'key': 'value', 'key2': ['list', 'form'], 'key3': {'dict': 'form'}}


JSON 형식으로 데이터를 저장할 때에는 파일을 연 뒤, `json.dump(data, filepath)` 를 입력합니다.

In [8]:
with open('data/json_flat.json', 'w', encoding='utf-8') as f:
    json.dump(d2, f)

IPython notebook 에서는 몇 가지 linux 명령어를 지원합니다. 파일의 내용을 출력하는 `cat` 을 이용하여 파일의 내용을 확인합니다. 데이터가 한 줄로 기록되어 있습니다. 

In [9]:
%cat data/json_flat.json

{"key": "value", "key2": ["list", "form"], "key3": {"dict": "form"}}

JSON 파일을 데이터로 읽을 때에는 `json.load` 를 이용합니다.

In [10]:
with open('data/json_flat.json', encoding='utf-8') as f:
    loaded_d2 = json.load(f)

print(loaded_d2)

{'key': 'value', 'key2': ['list', 'form'], 'key3': {'dict': 'form'}}


데이터 내에 한글로 이뤄진 텍스트를 추가한 뒤, 다시 JSON 으로 저장합니다.

In [11]:
d2['key3'] = '한글 글자'
with open('data/json_flat_ascii.json', 'w', encoding='utf-8') as f:
    json.dump(d2, f)

한글 부분이 제대로 기록되지 않습니다.

In [12]:
%cat data/json_flat_ascii.json

{"key": "value", "key2": ["list", "form"], "key3": "\ud55c\uae00 \uae00\uc790"}

이번에는 한글 (영어, 숫자 등 기본 글자를 제외한 모든 글자) 이 한글로 기록되도록 `ensure_ascii=False` 로 설정하고, 각 항목별로 가독성을 높이기 위하여 `indent=2` 로 설정합니다. 계층구조에 따라 2칸 들여쓰기를 한다는 의미입니다.

In [13]:
with open('data/json_indent.json', 'w', encoding='utf-8') as f:
    json.dump(d2, f, indent=2, ensure_ascii=False)

In [14]:
%cat data/json_indent.json

{
  "key": "value",
  "key2": [
    "list",
    "form"
  ],
  "key3": "한글 글자"
}

JSON 데이터를 str 로 변환하기 위해서는 `json.dumps` 를 이용합니다.

In [15]:
json.dumps(d2, ensure_ascii=False)

'{"key": "value", "key2": ["list", "form"], "key3": "한글 글자"}'

반대로 str 형식의 데이터를 JSON 으로 파싱하기 위해서는 `json.loads` 를 이용합니다.

In [16]:
json.loads(
    json.dumps(d2, ensure_ascii=False)
)

{'key': 'value', 'key2': ['list', 'form'], 'key3': '한글 글자'}

## Pickle

pickle을 저장/읽는 방식은 open() 에서 'wb', 'rb'를 하는 것입니다. wb는 write binary 의 의미이고, rb는 read binary 의 의미입니다. Binary 파일이기 때문에 텍스트로 읽을 수는 없습니다.

In [17]:
import pickle

with open('json_data.pkl', 'wb') as f: # write as byte
    pickle.dump(d2, f)

with open('json_data.pkl', 'rb') as f: # read as byte
    loaded_d2 = pickle.load(f)

print(loaded_d2)

{'key': 'value', 'key2': ['list', 'form'], 'key3': '한글 글자'}
