- 데이터셋의 형식: csv(값을 쉼표로 구분), tsv(값을 탭으로 구분), xlsx(액셀 통합 문서) 등
  - 일부 데이터 형식은 데이터를 표 형식으로 저장하지 않음 -> 키-값 형식으로 관련된 데이터 컬렉션을 중첩하여 저장
  - 판다스는 키-값 데이터 <-> 테이블 형식의 데이터 로 저장하는 기능을 제공

# JSON 파일 읽고 쓰기
- JavaScript Object Notation: 텍스트 데이터를 저장하고 전송하기 위한 키-값 저장 형식
- JSON은 JavaScript에서 구문적으로 영감을 받았지만, **언어 독립적**: 대부부느이 언어는 JSON을 생성하고 파싱 가능
- JSON 응답: 키-값 쌍으로 구성, 키가 값의 고유 식별자 역할, 콜론 기호로 연결, 키는 문자열이어야함
- JSON은 웹사이트 서버와 같은 최신 API에 널리 사용되는 응답 형식
- 린터(linter): 키-값 쌍을 별도의 줄에 배치하여 JSON 응답을 가독성 있는 형식으로 나타내는 소프트웨어 프로그램
```
{
    "name": "Harry Potter",
    "age": 17,
    "wizard": true,
    "friends": ["Ron Weasley", "Hermione Granger"],
    "address": {
        "street": "4 Privet Drive",
        "town": "Little Whinging"
    }
}
```
## JSON 파일을 DataFrame으로 불러오기

In [5]:
#read_json 메서드
import pandas as pd
nobel = pd.read_json("nobel.json")
nobel.head()

Unnamed: 0,prizes
0,"{'year': '2019', 'category': 'chemistry', 'lau..."
1,"{'year': '2019', 'category': 'economics', 'lau..."
2,"{'year': '2019', 'category': 'literature', 'la..."
3,"{'year': '2019', 'category': 'peace', 'laureat..."
4,"{'year': '2019', 'category': 'physics', 'overa..."


In [6]:
#판다스는 JSON을 가져올때 최상위 prize 키를 열의 이름으로 설정 후
#JSON에서 파싱한 각 키-값 쌍에 대한 파이썬 딕셔너리를 생성
nobel.loc[2, "prizes"]

{'year': '2019',
 'category': 'literature',
 'laureates': [{'id': '980',
   'firstname': 'Peter',
   'surname': 'Handke',
   'motivation': '"for an influential work that with linguistic ingenuity has explored the periphery and the specificity of human experience"',
   'share': '1'}]}

In [7]:
type(nobel.loc[2, "prizes"])

dict

- JSON의 최상위 키-값 쌍을 추출하여 DataFrame 열로 분리,
- 값이 리스트인 경우, 각 딕셔너리를 순회하며 중첩 정보를 추출
- **평탄화(flattering)/정규화(normalizing)**: 중첩된 데이터 레코드를 단일 1차원 리스트로 변형하는 과정
  - 판다스에 있는 json_normalize 함수는 평탄화(정규화) 작업을 처리

In [9]:
chemistry_2019 = nobel.loc[0, "prizes"]
chemistry_2019

{'year': '2019',
 'category': 'chemistry',
 'laureates': [{'id': '976',
   'firstname': 'John',
   'surname': 'Goodenough',
   'motivation': '"for the development of lithium-ion batteries"',
   'share': '3'},
  {'id': '977',
   'firstname': 'M. Stanley',
   'surname': 'Whittingham',
   'motivation': '"for the development of lithium-ion batteries"',
   'share': '3'},
  {'id': '978',
   'firstname': 'Akira',
   'surname': 'Yoshino',
   'motivation': '"for the development of lithium-ion batteries"',
   'share': '3'}]}

In [10]:
#json_normalize 함수의 data 매개변수에 딕셔너리를 전달
pd.json_normalize(data = chemistry_2019)

Unnamed: 0,year,category,laureates
0,2019,chemistry,"[{'id': '976', 'firstname': 'John', 'surname':..."


In [None]:
#json_normalize 함수의 