# 파이썬에서 JSON 데이터 다루기

In [1]:
d = {"name": "혼자 공부하는 데이터 분석"} # JSON 형식은 키와 값에 큰따옴표를 사용합니다.
print(d['name'])

혼자 공부하는 데이터 분석


In [3]:
import json

d_str = json.dumps(d, ensure_ascii=False) # json.dumps() 함수는 파이썬 객체를 JSON 형식에 맞는 텍스트로 바꿀 때 사용
print(d_str)

print(type(d_str)) # type() 함수는 데이터 타입을 확인할 수 있습니다.

{"name": "혼자 공부하는 데이터 분석"}
<class 'str'>


In [5]:
### JSON 문자열을 파이썬 객체로 변환하기: json.loads() 함수

# json.loads() 함수를 사용하면 문자열을 파이썬 객체로 변환할 수 있다.

d2 = json.loads(d_str)
print(d2['name'])

print(type(d2))

d3 = json.loads('{"name": "혼자 공부하는 데이터 분석", "author": "박해선", "year": 2022}')

print(d3['name'])
print(d3['author'])
print(d3['year'])

혼자 공부하는 데이터 분석
<class 'dict'>
혼자 공부하는 데이터 분석
박해선
2022


In [6]:
d3 = json.loads('{"name": "혼자 공부하는 데이터 분석", "author": ["박해선","홍길동"], "year": 2022}')

print(d3['author'][1])

홍길동


In [10]:
d4_str = """ 
[
    {"name": "혼자 공부하는 데이터 분석", "author": "박해선", "year": 2022},
    {"name": "혼자 공부하는 머신러닝+딥러닝", "author": "박해선", "year": 2020}
]
"""
d4 = json.loads(d4_str)
print(d4[0]['name'])

혼자 공부하는 데이터 분석


In [11]:
import pandas as pd
pd.read_json(d4_str)

Unnamed: 0,name,author,year
0,혼자 공부하는 데이터 분석,박해선,2022
1,혼자 공부하는 머신러닝+딥러닝,박해선,2020


In [12]:
pd.DataFrame(d4) # DataFrame 클래스에 파이썬 리스트를 넣어줍니다.

Unnamed: 0,name,author,year
0,혼자 공부하는 데이터 분석,박해선,2022
1,혼자 공부하는 머신러닝+딥러닝,박해선,2020


# 파이썬에서 XML 데이터 다루기

### XML은 eXtensible Markup Language의 약자입니다. HTML은 웹 페이지를 표현하는 데는 뛰어나지만
### 구조적이지 못하기 때문에 프로그램 간의 약속대로 전송하는 API에서는 적절하지 않습니다.
### 대신 XML은 컴퓨터와 사람이 모두 읽고 쓰기 편한 문서 포맷을 위해 고안되었습니다.

In [14]:
x_str = """
<book>
    <name>혼자 공부하는 데이터 분석</name>
    <author>박해선</author>
    <year>2022</year>
</book>
"""

'\n<book>\n    <name>혼자 공부하는 데이터 분석</name>\n    <author>박해선</author>\n    <year>2022</year>\n</book>\n'

### 파이썬에서 기본으로 제공되는 xml 패키지는 XML 문서를 읽고 쓸 수 있는 간편한 API를 제공
### 여기서는 xml.etree.ElementTree 모듈의 fromstring() 함수를 사용해 x_str 문자열을 XML로 변환

In [16]:
import xml.etree.ElementTree as et
book = et.fromstring(x_str)
print(type(book))

<class 'xml.etree.ElementTree.Element'>


### book 객체는 x_str에서 가장 먼저 등장하는 부모 엘리멘트인 book에 해당합니다.
### book 객체의 tag 속성을 출력하면 엘리멘트 이름을 쉽게 확인할 수 있습니다.

In [17]:
print(book.tag)

book


In [18]:
book_childs = list(book) # 리스트로 변환할 때는 list() 함수를 사용합니다.
print(book_childs)

[<Element 'name' at 0x000001E13634B400>, <Element 'author' at 0x000001E1363546D0>, <Element 'year' at 0x000001E136354680>]


### book_childs 리스트 각 항목을 name, author, year 변수에 할당하고 text 속성으로 엘리멘트에 있는 텍스트 출력
### XML은 자식 엘리멘트 순서가 항상 일정하다는 것을 보장하지 않습니다.
### book_childs에서 순서대로 자식 엘리멘트를 찾는 것은 위험하다.

In [19]:
name, author, year = book_childs
print(name.text)
print(author.text)
print(year.text)

혼자 공부하는 데이터 분석
박해선
2022


### book 객체의 **findtext() 메서드**를 사용하면 해당하는 자식 엘리먼트를 탐색하여 자동으로 텍스트를 반환

In [20]:
name = book.findtext('name')
author = book.findtext('author')
year = book.findtext('year')
print(name)
print(author)
print(year)

혼자 공부하는 데이터 분석
박해선
2022


In [21]:
x2_str = """
<books>
    <book>
        <name>혼자 공부하는 데이터 분석</name>
        <author>박해선</author>
        <year>2022</year>
    </book>
    <book>
        <name>혼자 공부하는 머신러닝+딥러닝</name>
        <author>박해선</author>
        <year>2020</year>
    </book>
</books>
"""

books = et.fromstring(x2_str)
print(books.tag)

books


## 여러 개의 자식 엘리멘트 확인하기: findall() 메서드와 for 문

### 동일한 이름을 가진 여러 개의 자식 엘리멘트를 찾을 때는 findall() 메서드와 for 문을 함께 사용
### 다음 코드는 findall() 메서드가 반환하는 자식 엘리멘트 book에서 name,author,year를 찾아 출력

In [22]:
for book in books.findall('book'):
    name = book.findtext('name')
    author = book.findtext('author')
    year = book.findtext('year')
    print(name)
    print(author)
    print(year)
    print()

혼자 공부하는 데이터 분석
박해선
2022

혼자 공부하는 머신러닝+딥러닝
박해선
2020



### read_xml() 함수를 사용하면 XML을 데이터프레임으로 변환해 줍니다.

In [23]:
pd.read_xml(x2_str)

Unnamed: 0,name,author,year
0,혼자 공부하는 데이터 분석,박해선,2022
1,혼자 공부하는 머신러닝+딥러닝,박해선,2020


# API로 20대가 가장 좋아하는 도서 찾기