<a href="https://colab.research.google.com/github/jsstar522/text_mining/blob/master/01_Basic/pythonBasic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# JSON 파일 이해하기

##JSON 파일의 구조

**JSON은 Javascript Object Notation의 약자로 자바스크립트 문법으로 쓰여진 문서입니다. 자바스크립트에서 변수를 정의하는 방법으로 데이터를 저장하기 때문에 key와 value값이 존재해 사람이 읽기에도 굉장히 편합니다.** 자바스크립트 문법으로 쓰여있지만 다른 언어와의 호환성도 높습니다.

In [0]:
## key : value의 형태로 사용
day = {
    ## 배열을 사용할 수 있다.
    'dayOfWeek' : ['Mon','Thu','Wed'],
    
    ## 객체로 사용할 수 있다.(객체는 {}로 표현한다)
    'dayOfMonth' : {
        'Jan': 1,
        'Feb': 2
    },
    
    ## 정수를 대입할 수 있다.
    'dayOfYeer' : 3
    
}

In [0]:
day['dayOfYeer']

3

'day'라는 dictionary (**key와 value로 구성되어 있는 자료구조를 dictionary라고 합니다.**)에는 'dayOfMonth'라는 또다른 dictionary가 존재합니다. 한층더 깊은 곳에 dict이 존재하기 때문에 다음과 같이 'dayOfMonth'의 value값들을 불러올 수 있습니다.

In [0]:
day['dayOfMonth']['Jan']

1

맨 위에서 pprint라는 모듈을 import했을 때, 더 깔끔한 출력을 위해서 사용한다고 언급했습니다. pprint는 이러한 dict 자료구조에 많이 사용됩니다.

In [0]:
## 그냥 출력
print(day)

print('-----------------------------------------------------------------------------------------')

## pprint 이용
pprint(day)

{'dayOfWeek': ['Mon', 'Thu', 'Wed'], 'dayOfMonth': {'Jan': 1, 'Feb': 2}, 'dayOfYeer': 3}
-----------------------------------------------------------------------------------------
{'dayOfMonth': {'Feb': 2, 'Jan': 1},
 'dayOfWeek': ['Mon', 'Thu', 'Wed'],
 'dayOfYeer': 3}


## JSON파일 저장

JSON 파일을 저장해보겠습니다. (저장시 폴더를 함께 만들 수 있습니다.)

In [0]:
fname = 'temp/day.json'

## /을 기준으로 자른 뒤, 앞뒤 선택
folder = fname.split('/')[0]

print(fname, folder)

temp/day.json temp


In [0]:
import os

## 폴더존재 유무
print(os.path.exists(folder))


False


In [0]:
## 폴더가 없을 경우 만들 수 있다.
if not os.path.exists(folder):
    os.makedirs(folder)
    
print(os.path.exists(folder))

True


In [0]:
ls

[0m[01;34msample_data[0m/  [01;34mtemp[0m/


이제 temp/ 폴더를 열어서 json.dump 메서드로 day.json 파일을 쓰겠습니다. **open( )는 파일을 읽거나 쓸 때 사용하는 함수입니다. 파일은 경로가 열려 있는 상태에서만 저장해야 합니다. 이 사실을 간과하면 많은 양의 JSON파일을 저장할 때 오류가 생길 수 있습니다.** 그리고 반드시 한글호환을 위해서는 utf-8로 인코딩 해야합니다. 그렇지 않으면 주석과 같은 한글이 깨질 수 있습니다.

```
Open(파일경로이름, 열기모드)
(열기모드 = r : 읽기모드, w : 쓰기모드, a : 추가모드)
```



In [0]:
import json

with open('temp/day.json','w',encoding='utf-8') as f:
    json.dump(day, f)

In [0]:
ls temp/

day.json


이제 JSON파일이 만들어졌습니다. 만들어진 파일에 값을 추가하거나 수정하고 싶다면 다음과 같이 입력하면 됩니다.

In [0]:
pprint(day)

{'dayOfMonth': {'Feb': 2, 'Jan': 1},
 'dayOfWeek': ['Mon', 'Thu', 'Wed'],
 'dayOfYeer': 3}


In [0]:
day['dayOfYeer'] = 2019
pprint(day)

{'dayOfMonth': {'Feb': 2, 'Jan': 1},
 'dayOfWeek': ['Mon', 'Thu', 'Wed'],
 'dayOfYeer': 2019}


# Comprehension

## String 쪼개기

** split()을 사용하면 띄어쓰기를 기준으로 단어들을 쪼갤 수 있습니다.**

In [16]:
docs = [
    '안녕하세요. 파이썬입니다.'.split(),
    '안녕히 계세요.'.split(),
]

print(docs)

[['안녕하세요.', '파이썬입니다.'], ['안녕히', '계세요.']]


## Flatten

위와 같은 rank=2의 string을 한줄로 길게 저장해보겠습니다.

```
word for doc in "list_name" for word in doc
```

의 형태로 하나의 list로 만들 수 있습니다. word와 doc은 다른 변수로 대체해도 되지만 이렇게 쓰는게 보기 편합니다. list 안에 있는 단락, 그 안에 단락을 가져와서 다시 배열로 선언하는 방식입니다. (for문 안에 for문이 있는 구조입니다.)

In [19]:
flatten_doc = [word for doc in docs for word in doc]

print(flatten_doc)

['안녕하세요.', '파이썬입니다.', '안녕히', '계세요.']


또한 dictionary 자료구조로 저장 가능합니다.

In [20]:
flatten_doc_dict = {word for doc in docs for word in doc}

## dictionary로도 저장된다.
print(flatten_doc_dict)

{'계세요.', '안녕하세요.', '파이썬입니다.', '안녕히'}
