<img src="https://github.com/idebtor/DSpy/blob/6b3676c3de29f85d2e7f30679676d1fd96d88b17/images/WelcomeToDataStructures.jpg?raw=true" width=1000>

---------

# JSON: JavaScript Object Notation

1. Text-based data representation format for data interchange
    - Human readable (good for debugging / manual editing)
1. Commonly Used for APIs and Configs
    - Makes the information more portable
1. Lightweight and easy to read and write
    - Easy to transmit using web
1. Integrates easily with most languages 
    - Portable to different platforms

It is very widely used for many applications and its configuration. It is very hard to find an application which does not use JSON in some extent.  

# JSON Types
JSON 다음과 같은 객체 타입들이 있습니다. 

1. Strings – `"Hello World", "James" `
1. Numbers – `10, 1.5,  -30, 1.2e10 `
1. Booleans – `true, false`
1. null – `null`
1. Arrays – `[1, 2, 3], ["Hello", "World"]`
1. Objects – `{"key": "value"}, {"name": "Joe", "age": 22}`

JSON 타입은 다음과 같은 Python타입과 일대일 호환은 아니지만, 상당히 유사하게 호환할 수 있습니다. 


|JSON | Python  |
|: ------|:-----|
| object | dict   | 
| array  | list, tuple |
| string | str |
| number | int, float, int- & float-derived Enums |
| true   | True | 
| false  | False | 
| null   | None |

# JSON 파일과 파이썬 JSON객체를 다루기 
- JSON 파일을 손으로 작성하고, 파이썬 코드로 읽어오기
- JSON 파일을 파이썬 코드로 작성하기

이러한 작업들 위하여 사용하는 json 모듈이며, 가장 중요한 4개의 함수는 다음과 같습니다. 

- `json` 모듈은 파이썬에 포함되어 있어서 추가적인 설치가 필요 없습니다.


## JSON파일을 파이썬 객체화하기(디코딩, 역직렬화)

- `json.load()`: 파일에 있는 JSON 포맷 데이터를 Python 객체로 읽어오기 (역직렬화 혹은 디코딩이라고 부르기도 합니다)
- `json.loads()`: 메모리에 있는 JSON 형식의 문자열로 되어 있는 입력자료를 받아 파이썬 객체로 전환합니다.  

<img src="https://github.com/idebtor/DSpy/blob/b67467b971cf48c14faf7c8ebed7a94871dbb2ad/images/chap1/Chapter%201-25json_load.jpg?raw=true" width="100%">
<center>그림1. load() and loads() 비교</center>

## 파이썬 객체로 JSON파일 만들기(인코딩, 직렬화)

- `json.dump()`: Python객체를 파일에 저장할 때(직렬화, 인코딩) 사용합니다. 
- `json.dumps()`: Python객체를 문자열로 출력할 때 사용합니다. 

<img src="https://github.com/idebtor/DSpy/blob/b67467b971cf48c14faf7c8ebed7a94871dbb2ad/images/chap1/Chapter%201-27json_dump.jpg?raw=true" width="100%">

<center>그림2. dump() and dumps() 비교</center>

# JSON Example - JSON String Type

아래는 여러 줄로 구성된 파이썬 str type의 문자열이 있습니다. 이는 또한 json에도 적합한 문자열입니다. 문자열의 내부를 살펴보면, 마치 파이썬의 `dict type` 즉 `key:value` 쌍으로 자료가 구성되어 있습니다. 
- "people"이라는 `key`가 있고, 그 `value`로 `list`가 있는데, 
- 그 `list`안에는 또 두 개의 `dict type` 자료(객체)가 있습니다. 
- 그 두 개의 자료 안에 각각 4개의 `key:value`쌍으로 구성된 자료(객체)가 있습니다. 
- 각 객체는 `name, phone, email, coder`라는 `key`와 `value`를 저장하고 있습니다.

In [None]:
import json

people_string = """
{
    "people": [
        {
            "name": "Joe Blow",
            "phone": "010-555-1234",
            "email": ["jb@gmail.com", "jb@workmail.com"],
            "coder": false
        },
        {
            "name": "Jane Lee",
            "phone": "010-555-4321",
            "email": null,
            "coder": true
        }
    ]
}
"""

## JSON 형식의 문자열을 파이썬 객체로 변환하기 
위의 문자열은 json 객체로 작성된 것인데, 이것을 우리가 파이썬 코드로 이 자료들을 다룰 수 있도록 파이썬 객체로 쉽게 변환할 수 있습니다. 다음과 같은 `json.loads()`를 사용하여 만든 파이썬 객체를 출력해봅니다. 

- json.load() - JSON 형식의 파일을 읽고, 파이썬 객체로 전환합니다. 
- json.loads() - JSON 형식의 문자열로 되어 있는 입력자료를 받아 파이썬 객체로 전환합니다.  

__Sample Run:__
```json
<class 'dict'>
{'people': [{'name': 'Joe Blow', 'phone': '010-555-1234', 'email': ['jb@gmail.com', 'jb@workmail.com'], 'coder': False}, {'name': 'Jane Lee', 'phone': '010-555-4321', 'email': None, 'coder': True}]}
```

In [None]:
data = None
print(None)
print(data)

출력한 결과를 읽기가 힘들겠지만, 기본적으로 dict type으로 변환된 것을 관찰할 수 있습니다. 
JSON 객체는 이렇게 Python 객체는 변환되지만, 항상 일치하는 것은 아닙니다. [여기를 참조하십시오.](https://docs.python.org/3/library/json.html)


|Python  |JSON |
|: ------|:-----|
| dict   | object |
| list, tuple | array |
| str    | string |
| int, float, int- & float-derived Enums | number |
| True   | true | 
| False  | false | 
| None   | null |

## list의 각 요소들을 출력하기 

위에서 만든 data 객체는 `dict type`이고, `key`는 `people`이고, 그 `value`는 `list type`으로 두 사람을 요소(element)를 가지고 있습니다. list의 각 요소를 for loop로 체크해보도록 합시다. 

__Sample Run:__
```json
{'name': 'Joe Blow', 'phone': '010-555-1234', 'email': ['jb@gmail.com', 'jb@workmail.com'], 'coder': False}
{'name': 'Jane Lee', 'phone': '010-555-4321', 'email': None, 'coder': True}
```

## list의 사람들의 `name`의 값만 출력하기
위에서 두 사람 즉 리스트의 two elements를 출력했는데, 이번에는 그 두 사람의 `name`의 값들만 출력해봅시다. 

__Sample Run:__:
```
Joe Blow
Jane Lee
```

## 파이썬 객체에서 `phone` 자료 삭제하기

지금까지 JSON 객체를 파이썬 객체로 만들어 그 파이썬 객체를 다루어 보았는데, 이제는 반대로 파이썬 객체를 JSON String 객체로 만들어 보고, 파일에 저장해 보겠습니다. 
다만, 새로 만드는 객체에 변화를 주기위해, 전화번호를 제외한 JSON 객체를 만들어 본다고 가정합시다. 그래서, 먼저 파이썬 코드로 `phone`을 삭제합니다. 

__Sample Run:__:
```json
{'people': [{'name': 'Joe Blow', 'email': ['jb@gmail.com', 'jb@workmail.com'], 'coder': False}, {'name': 'Jane Lee', 'email': None, 'coder': True}]}
```

In [None]:

print(data)

## `indent = 2` 인자 사용하기 
- 가독성(readability)를 높이기 위해, `dumps()` 함수에 `indent`를 추가할 수 있습니다. 그러면, 상당히 쉽게 읽을 수 있는(human-readable) 형식이 됩니다. 
- 필요에 따라 key값으로 정렬하게 할 수 있습니다.

__Sample Run:__:
```json
{
  "people": [
    {
      "coder": false,
      "email": [
        "jb@gmail.com",
        "jb@workmail.com"
      ],
      "name": "Joe Blow"
    },
    {
      "coder": true,
      "email": null,
      "name": "Jane Lee"
    }
  ]
}
```


In [None]:
new_string = None
print(new_string)

`sort_keys = True` 로 말미암아, `coder, email, name` 순으로 정렬이 되었습니다. 
다만, `json.dumps()`의 결과로 얻어지는 것은 `str` 타입인 것에 유의해야 합니다. 다른 말로, 이것을 JSON 파일로 저장하는 것은 가능하지만, __바람직하지 않습니다.__

왜 그럴까요? 
- 직접 다음과 같이 파일을 작성하고, text editor로 그 내용을 살펴보면 알 수 있습니다. 
- `new_string` 자체를 `print()`가 아니라 단순히 `evaluate`해보아도 쉽게 알 수 있습니다. 

In [None]:
with open('people.json', 'w') as f:
    json.dump(new_string, f)

In [None]:
new_string

## JSON 파일 작성하기 (Encoding, Serialization)
- 그러면, `people.json`파일이 다음과 같은 내용을 갖도록 파일을 만들 수 있을까요?

__Expected JSON File:__

```json
{
  "people": [
    {
      "coder": false,
      "email": [
        "jb@gmail.com",
        "jb@workmail.com"
      ],
      "name": "Joe Blow"
    },
    {
      "coder": true,
      "email": null,
      "name": "Jane Lee"
    }
  ]
}
```

__1st Trial:__ without indent

In [None]:
with open('people.json', 'w') as f:
    None

__Solution:__ with indent

In [None]:
with open('people.json', 'w') as f:
    None

# JSON Example - Web Data Extraction

## 웹에서 JSON 파일 자료를 받아 파이썬 객체로 변환하기
다음의 `states.json` 파일은 다음과 같이 미국의 각 주(State)와 약자(Abbrev)와 코드(Code)로 구성되어 있으며, [여기서](https://worldpopulationreview.com/states/state-abbreviations) 내려받을 수 있습니다.

```json
[
  {
    "State": "Alabama",
    "Abbrev": "Ala.",
    "Code": "AL"
  },
  {
    "State": "Alaska",
    "Abbrev": "Alaska",
    "Code": "AK"
  },
  ...
]
```
`states.json` 파일이 현재 폴더에 존재한다고 가정하면, 다음과 같이 파일을 파이썬 객체로 읽어올 수 있습니다. 그리고, 첫 5개 주에 대한 자료를 출력합니다. 

In [None]:
import json

with open('states.json') as f:
    None


## list 객체 즉 각 State 입력을 하나씩 출력하기
위의 예제에서 한 같은 방법으로 파이썬 객체로 다루면, 이번 자료는 전체가 하나의 list type 객체가 되었습니다. list 객체에는 각 주가 하나의 dict type 객체로 존재하고 있습니다. 먼저 몇 개의 주가 있는지 출력하고, 각 주에 해당하는 각 객체를 출력해보록 합니다. 

__Sample Run:__
```json
51
{'State': 'Alabama', 'Abbrev': 'Ala.', 'Code': 'AL'}
{'State': 'Alaska', 'Abbrev': 'Alaska', 'Code': 'AK'}
{'State': 'Arizona', 'Abbrev': 'Ariz.', 'Code': 'AZ'}
...
```

In [None]:
print(len(states))
None

## 원하는 자료만 발췌하기
일단, JSON 객체를 파이썬 객체로 만들게 되면, 쉽게 자료들을 다룰 수 있습니다. 예를 들면, 이런 자료에서 `Abbrev`를 제외하고 주 이름과 코드만 출력하기를 원하면 다음과 같이 코딩할 수 있습니다. 

__Sample Run:__
```
Alabama AL
Alaska AK
Arizona AZ
Arkansas AR
California CA
...
```

In [None]:
for state in states:
    None

## 불필요한 자료 삭제하고, 남은 자료를 파일로 저장하기

이제 파이썬 객체에서 
1. `Abbrev`를 삭제하고 
2. 자료를 출력하고, 
3. 이 자료를 파일 `states_new.json`으로 저장해 봅시다. 저장할 때는 항상 가독성을 높이기 위해 `indent=2`인자를 넣어주는 것을 권장합니다. 

__Sample Run:__
```
{'State': 'Alabama', 'Code': 'AL'}
{'State': 'Alaska', 'Code': 'AK'}
{'State': 'Arizona', 'Code': 'AZ'}
{'State': 'Arkansas', 'Code': 'AR'}
{'State': 'California', 'Code': 'CA'}
...
```
__Expected JSON file Output:__
```json
[
  {
    "State": "Alabama",
    "Code": "AL"
  },
  {
    "State": "Alaska",
    "Code": "AK"
  },
  ...
]
```

--------
슬기로운 자는 재앙을 보면 숨어 피하여도 어리석은 자들은 나가다가 해를 받느니라. 
잠언22:3, 27:12