# 02-1 API 사용하기

<table class="tfo-notebook-buttons" align="left">
  <td>
    <a target="_blank" href="https://nbviewer.jupyter.org/github/rickiepark/hg-da/blob/main/02-1.ipynb"><img src="https://jupyter.org/assets/share.png" width="61" />주피터 노트북 뷰어로 보기</a>
  </td>
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/rickiepark/hg-da/blob/main/02-1.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />구글 코랩(Colab)에서 실행하기</a>
  </td>
</table>

## 파이썬에서 JSON 데이터 다루기

- JSON: JavaScript Object Notation
    - 원래는 자바스크립트 언어를 위해 만들어졌지만 현재는 범용적인 포맷으로 사용함.
    - 마치 파이썬의 딕셔너리와 리스트를 중첩해 놓은 것과 비슷함.
        - 딕셔너리와 호환이 잘 됨.
        - JSON에서 키와 값에 문자열을 쓰려면 **항상 큰따옴표**로 감싸 주어야 함.

In [1]:
d = {"name": "혼자 공부하는 데이터 분석"}

print(d['name'])

혼자 공부하는 데이터 분석


- 웹 기반 API로 데이터를 전달할 때는 파이썬 딕셔너리가 아니라 텍스트로 전달해야 함.

In [2]:
import json

- 기본적으로 json.dumps() 함수는 아스키 문자 외의 다른 문자를 16진수로 출력하기 때문에 한글이 제대로 보이지 않음.
- 그래서 `ensure_ascii=False`로 지정하여 원래 저장된 문자를 그대로 출력하도록 했음.

In [3]:
d_str = json.dumps(d, ensure_ascii=False)
print(d_str)

{"name": "혼자 공부하는 데이터 분석"}


In [4]:
print(type(d_str))

<class 'str'>


In [5]:
d2 = json.loads(d_str)

print(d2['name'])

혼자 공부하는 데이터 분석


In [None]:
print(type(d2))

<class 'dict'>


IMG_5230.heic

In [None]:
d3 = json.loads('{"name": "혼자 공부하는 데이터 분석", "author": "박해선", "year": 2022}')

print(d3['name'])
print(d3['author'])
print(d3['year'])

혼자 공부하는 데이터 분석
박해선
2022


In [None]:
d3 = json.loads('{"name": "혼자 공부하는 데이터 분석", "author": ["박해선","홍길동"], \
                  "year": 2022}')

print(d3['author'][1])

홍길동


In [7]:
d4_str = """
[
  {"name": "혼자 공부하는 데이터 분석", "author": "박해선", "year": 2022},
  {"name": "혼자 공부하는 머신러닝+딥러닝", "author": "박해선", "year": 2020}
]
"""
d4 = json.loads(d4_str)

print(d4[0]['name'])

혼자 공부하는 데이터 분석


In [11]:
import pandas as pd

pd.read_json(d4_str)

  pd.read_json(d4_str)


Unnamed: 0,name,author,year
0,혼자 공부하는 데이터 분석,박해선,2022
1,혼자 공부하는 머신러닝+딥러닝,박해선,2020


In [10]:
from io import StringIO
import pandas as pd

pd.read_json(StringIO(d4_str))

Unnamed: 0,name,author,year
0,혼자 공부하는 데이터 분석,박해선,2022
1,혼자 공부하는 머신러닝+딥러닝,박해선,2020


In [9]:
pd.DataFrame(d4)

Unnamed: 0,name,author,year
0,혼자 공부하는 데이터 분석,박해선,2022
1,혼자 공부하는 머신러닝+딥러닝,박해선,2020


## 파이썬에서 XML 다루기

- XML: eXtensible Markup Language
    - HTML보다 좀 더 구조적임.
    - 컴퓨터와 사람 모두 읽고 쓰기 편한 문서 포맷을 위해 고안됨.
- 엘리먼트: 시작 태그와 종료 태그로 감싼 것.
    - 엘리먼트들이 계층 구조를 이루면서 정보를 표현함.

In [12]:
x_str = """
<book>
    <name>혼자 공부하는 데이터 분석</name>
    <author>박해선</author>
    <year>2022</year>
</book>
"""

In [13]:
import xml.etree.ElementTree as et

book = et.fromstring(x_str)

In [14]:
print(type(book))

<class 'xml.etree.ElementTree.Element'>


In [15]:
print(book.tag)

book


In [16]:
book_childs = list(book)

print(book_childs)

[<Element 'name' at 0x7877e861a0c0>, <Element 'author' at 0x7877e861a110>, <Element 'year' at 0x7877e861a160>]


In [17]:
name, author, year = book_childs
# XML은 자식 엘리멘트 순서가 항상 일정하다는 것을 보장하지 않으므로 위와 같이 할당하는 것은 위험함.

print(name.text)
print(author.text)
print(year.text)

혼자 공부하는 데이터 분석
박해선
2022


In [19]:
name = book.findtext('name')
author = book.findtext('author')
year = book.findtext('year')

print(name)
print(author)
print(year)

혼자 공부하는 데이터 분석
박해선
2022


In [20]:
x2_str = """
<books>
    <book>
        <name>혼자 공부하는 데이터 분석</name>
        <author>박해선</author>
        <year>2022</year>
    </book>
    <book>
        <name>혼자 공부하는 머신러닝+딥러닝</name>
        <author>박해선</author>
        <year>2020</year>
    </book>
</books>
"""

In [21]:
books = et.fromstring(x2_str)

print(books.tag)

books


In [22]:
for book in books.findall('book'):
    name = book.findtext('name')
    author = book.findtext('author')
    year = book.findtext('year')

    print(name)
    print(author)
    print(year)
    print()

혼자 공부하는 데이터 분석
박해선
2022

혼자 공부하는 머신러닝+딥러닝
박해선
2020



In [23]:
pd.read_xml(StringIO(x2_str))

Unnamed: 0,name,author,year
0,혼자 공부하는 데이터 분석,박해선,2022
1,혼자 공부하는 머신러닝+딥러닝,박해선,2020


- 정리
    - JSON
        - API에서 전달한 텍스트를 json.loads() 함수를 사용해 파이썬 객체로 바꾸어 내용을 추출함.
    - XML
        - xml.etree.ElementTree 모듈에 있는 fromstring() 함수를 사용하여 부모 엘리먼트를 얻고, findtext() 또는 findall() 메서드로 자식 엘리먼트에 담긴 텍스트를 추출할 수 있음.

## 파이썬으로 API 호출하기

- 도서관 정보나루 공개 API를 사용하려면 **호출 URL**이 필요함.
    - 호출 URL 예. http://data4library.kr/api/loanItemSrch?
        - 파라미터
            - format: 지정하지 않으면 XML 문서로 반환됨.
            - startDt: 검색 시작 일자.
            - endDt: 검색 종료 일자.
            - age: 연령대
            - authKey: 인증키. 정보나루 사이트에서 인증키를 신청하여 받아야 함.
    - 호출 URL
        - http://data4library.kr/api/loanItemSrch?format=json&startDt=2021-04-01&endDt=2021-04-30&age=20&authKey=인증키
- HTTP GET 방식
    - 호출 URL**?**파라미터
    - 파라미터**&**파라미터
    - 파라미터**=**값
- API 인증키 발급하기
    - 5de7efc9c93787fe9f90fa49d1aafc738bfc78d72819b3ca019157cc050d206c
- 완성된 호출 URL을 웹 브라우저 주소에 넣어 접속하면 API가 반환한 JSON 형식의 문자열을 볼 수 있음.
- 그런데 매번 브라우저에서 이 주소를 입력해서 JSON 데이터를 다운로드하는 것은 너무 수동적임.
- 웹 브라우저를 사용하지 않고 도서관 정보나루 공개 API에서 JSON 데이터를 자동으로 추출하는 프로그램을 만드는 게 좋을 것 같음.

In [24]:
import requests

In [25]:
# 인증키를 발급받아 문자열 맨 끝에 추가해 주세요.
url = "http://data4library.kr/api/loanItemSrch?format=json&startDt=2021-04-01&endDt=2021-04-30&age=20&authKey=c01ec15e4574f74ee45cba2601bad15b82971e606e3b0740977ee4b363ce2fe2"

- 이 URL은 HTTP GET 방식으로 파라미터 값을 전달하기 때문에 URL을 requests.get() 함수에 전달하면 됨.

In [26]:
r = requests.get(url)

- r은 API 호출의 결과를 담고 있는 requests 패키지의 Response 클래스 객체임.
- 이 객체는 유용한 여러 메서드를 제공함.
    - json() 메서드는 편리하게도 웹 서버로부터 받은 JSON 문자열을 파이썬 객체로 변환하여 반환함.

In [28]:
data = r.json()

print(data)

{'response': {'request': {'startDt': '2021-04-01', 'endDt': '2021-04-30', 'age': '20', 'pageNo': 1, 'pageSize': 200}, 'resultNum': 200, 'numFound': 5000, 'docs': [{'doc': {'no': 1, 'ranking': '1', 'bookname': '우리가 빛의 속도로 갈 수 없다면 :김초엽 소설 ', 'authors': '지은이: 김초엽', 'publisher': '허블', 'publication_year': '2019', 'isbn13': '9791190090018', 'addition_symbol': '03810', 'vol': '', 'class_no': '813.7', 'class_nm': '문학 > 한국문학 > 소설', 'bookImageURL': 'https://image.aladin.co.kr/product/19359/16/cover/s972635417_1.jpg', 'bookDtlUrl': 'https://data4library.kr/bookV?seq=5430429', 'loan_count': '491'}}, {'doc': {'no': 2, 'ranking': '2', 'bookname': '달러구트 꿈 백화점 :주문하신 꿈은 매진입니다 ', 'authors': '지은이: 이미예', 'publisher': '팩토리나인', 'publication_year': '2020', 'isbn13': '9791165341909', 'addition_symbol': '03810', 'vol': '', 'class_no': '813.7', 'class_nm': '문학 > 한국문학 > 소설', 'bookImageURL': 'https://image.aladin.co.kr/product/24512/70/cover/k392630952_1.jpg', 'bookDtlUrl': 'https://data4library.kr/bookV?seq=5707

In [29]:
data

{'response': {'request': {'startDt': '2021-04-01',
   'endDt': '2021-04-30',
   'age': '20',
   'pageNo': 1,
   'pageSize': 200},
  'resultNum': 200,
  'numFound': 5000,
  'docs': [{'doc': {'no': 1,
     'ranking': '1',
     'bookname': '우리가 빛의 속도로 갈 수 없다면 :김초엽 소설 ',
     'authors': '지은이: 김초엽',
     'publisher': '허블',
     'publication_year': '2019',
     'isbn13': '9791190090018',
     'addition_symbol': '03810',
     'vol': '',
     'class_no': '813.7',
     'class_nm': '문학 > 한국문학 > 소설',
     'bookImageURL': 'https://image.aladin.co.kr/product/19359/16/cover/s972635417_1.jpg',
     'bookDtlUrl': 'https://data4library.kr/bookV?seq=5430429',
     'loan_count': '491'}},
   {'doc': {'no': 2,
     'ranking': '2',
     'bookname': '달러구트 꿈 백화점 :주문하신 꿈은 매진입니다 ',
     'authors': '지은이: 이미예',
     'publisher': '팩토리나인',
     'publication_year': '2020',
     'isbn13': '9791165341909',
     'addition_symbol': '03810',
     'vol': '',
     'class_no': '813.7',
     'class_nm': '문학 > 한국문학 > 소설',
   

In [None]:
data['response']['docs']

[{'doc': {'no': 1,
   'ranking': '1',
   'bookname': '우리가 빛의 속도로 갈 수 없다면 :김초엽 소설 ',
   'authors': '지은이: 김초엽',
   'publisher': '허블',
   'publication_year': '2019',
   'isbn13': '9791190090018',
   'addition_symbol': '03810',
   'vol': '',
   'class_no': '813.7',
   'class_nm': '문학 > 한국문학 > 소설',
   'loan_count': '491',
   'bookImageURL': 'https://image.aladin.co.kr/product/19359/16/cover/s972635417_1.jpg',
   'bookDtlUrl': 'https://data4library.kr/bookV?seq=5430429'}},
 {'doc': {'no': 2,
   'ranking': '2',
   'bookname': '달러구트 꿈 백화점 :이미예 장편소설',
   'authors': '지은이: 이미예',
   'publisher': '팩토리나인',
   'publication_year': '2020',
   'isbn13': '9791165341909',
   'addition_symbol': '03810',
   'vol': '',
   'class_no': '813.7',
   'class_nm': '문학 > 한국문학 > 소설',
   'loan_count': '408',
   'bookImageURL': 'https://image.aladin.co.kr/product/24512/70/cover/k392630952_1.jpg',
   'bookDtlUrl': 'https://data4library.kr/bookV?seq=5707051'}},
 {'doc': {'no': 3,
   'ranking': '3',
   'bookname': '지구에서 한

- JSON 데이터를 판다스 데이터프레임으로 손쉽게 변환하기 위해 data 딕셔너리의 구조를 다음과 같이 바꿈.

In [30]:
books = []
for d in data['response']['docs']:
    books.append(d['doc'])

In [31]:
books = [d['doc'] for d in data['response']['docs']]

In [32]:
books

[{'no': 1,
  'ranking': '1',
  'bookname': '우리가 빛의 속도로 갈 수 없다면 :김초엽 소설 ',
  'authors': '지은이: 김초엽',
  'publisher': '허블',
  'publication_year': '2019',
  'isbn13': '9791190090018',
  'addition_symbol': '03810',
  'vol': '',
  'class_no': '813.7',
  'class_nm': '문학 > 한국문학 > 소설',
  'bookImageURL': 'https://image.aladin.co.kr/product/19359/16/cover/s972635417_1.jpg',
  'bookDtlUrl': 'https://data4library.kr/bookV?seq=5430429',
  'loan_count': '491'},
 {'no': 2,
  'ranking': '2',
  'bookname': '달러구트 꿈 백화점 :주문하신 꿈은 매진입니다 ',
  'authors': '지은이: 이미예',
  'publisher': '팩토리나인',
  'publication_year': '2020',
  'isbn13': '9791165341909',
  'addition_symbol': '03810',
  'vol': '',
  'class_no': '813.7',
  'class_nm': '문학 > 한국문학 > 소설',
  'bookImageURL': 'https://image.aladin.co.kr/product/24512/70/cover/k392630952_1.jpg',
  'bookDtlUrl': 'https://data4library.kr/bookV?seq=5707051',
  'loan_count': '404'},
 {'no': 3,
  'ranking': '3',
  'bookname': '지구에서 한아뿐 :정세랑 장편소설 ',
  'authors': '지은이: 정세랑',
  'publ

In [33]:
books_df = pd.DataFrame(books)

books_df

Unnamed: 0,no,ranking,bookname,authors,publisher,publication_year,isbn13,addition_symbol,vol,class_no,class_nm,bookImageURL,bookDtlUrl,loan_count
0,1,1,우리가 빛의 속도로 갈 수 없다면 :김초엽 소설,지은이: 김초엽,허블,2019,9791190090018,03810,,813.7,문학 > 한국문학 > 소설,https://image.aladin.co.kr/product/19359/16/co...,https://data4library.kr/bookV?seq=5430429,491
1,2,2,달러구트 꿈 백화점 :주문하신 꿈은 매진입니다,지은이: 이미예,팩토리나인,2020,9791165341909,03810,,813.7,문학 > 한국문학 > 소설,https://image.aladin.co.kr/product/24512/70/co...,https://data4library.kr/bookV?seq=5707051,404
2,3,3,지구에서 한아뿐 :정세랑 장편소설,지은이: 정세랑,난다,2019,9791188862290,03810,,813.7,문학 > 한국문학 > 소설,https://image.aladin.co.kr/product/19804/82/co...,https://data4library.kr/bookV?seq=5446546,398
3,4,4,"시선으로부터, :정세랑 장편소설",지은이: 정세랑,문학동네,2020,9788954672214,03810,,813.7,문학 > 한국문학 > 소설,https://image.aladin.co.kr/product/24131/37/co...,https://data4library.kr/bookV?seq=5674475,393
4,5,5,아몬드 :손원평 장편소설,지은이: 손원평,창비,2017,9788936434267,03810,,813.7,문학 > 한국문학 > 소설,http://image.aladin.co.kr/product/16839/4/cove...,https://data4library.kr/bookV?seq=3423096,391
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,196,194,심판,베르나르 베르베르 지음 ;전미연 옮김,열린책들,2020,9788932920405,03860,,862,문학 > 프랑스문학 > 희곡,https://image.aladin.co.kr/product/24919/70/co...,https://data4library.kr/bookV?seq=5738734,79
196,197,194,두 번째 엔딩,"지은이: 김려령,백온유",창비,2021,9788936434458,03810,,813.7,문학 > 한국문학 > 소설,https://image.aladin.co.kr/product/26367/8/cov...,https://data4library.kr/bookV?seq=5860496,79
197,198,194,이수정 이다혜의 범죄 영화 프로파일,"이수정,조영주 지음",민음사,2020,9788937491306,03330,,364.45,사회과학 > 법학 > 형법,https://image.aladin.co.kr/product/23730/85/co...,https://data4library.kr/bookV?seq=5649430,79
198,199,194,"지리의 힘 :지리는 어떻게 개인의 운명을, 세계사를, 세계 경제를 좌우하는가",지은이: 팀 마샬 ;옮긴이: 김미선,사이,2016,9788993178692,03300,,340.98,사회과학 > 정치학 > 정치학,http://image.aladin.co.kr/product/8864/8/cover...,https://data4library.kr/bookV?seq=3265201,79


In [34]:
books_df.to_json('20s_best_book.json')