# 3. Open API(Rest API)를 활용한 크롤링

## 3.3 네이버 검색 Open API를 이용한 크롤링 실습

- 네이버 Developers 사이트에서 Application 에서 Client ID와 Client Secret 획득
- 크롬 확장 프로그램 postman 실행
- 주소창에 Rest API 주소 입력
- 헤더에 다음 정보 입력
  - `X-Naver-Client-Id` : 위에서 획득한 Client ID
  - `X-Naver-Client-Secret` : 위에서 획득한 Client Secret
- Send 버튼 클릭 시 요청에 대한 응답 내용이 Body 부분에 Json 형태로 출력됨

<br>

## 3.4 `urllib` 라이브러리를 활용한 크롤링

In [None]:
import urllib.request
import json

client_key = 'qzceB4vKYciM5gSicPeY'
client_secret = 'K68V2HYjnt'

In [17]:
# 한글 등 non-ASCII text를 URL에 넣을 수 있도록 "%" followed by hexadecimal digits로 변경
# URL은 ASCII 인코딩셋만 지원하기 때문
encText = urllib.parse.quote_plus("스마트폰")
print(encText)

%EC%8A%A4%EB%A7%88%ED%8A%B8%ED%8F%B0


In [None]:
naver_url = 'https://openapi.naver.com/v1/search/news.json?query=' + encText

In [None]:
# urllib.request.Request()는 HTTP Header 변경 시에 사용함
# 네이버에서도 다음 HTTP Header 키를 변경해야 하기 때문에 사용
# HTTP Header 변경이 필요없다면, 바로 urllib.request.urlopen() 함수만 사용해도 된다.
request = urllib.request.Request(naver_url)
request.add_header("X-Naver-Client-Id",client_key)
request.add_header("X-Naver-Client-Secret",client_secret)

# urllib.request.urlopen 메서드로 크롤링할 웹페이지를 가져옴
response = urllib.request.urlopen(request)

In [20]:
# getcode() 메서드로 HTTP 응답 상태 코드를 가져올 수 있음
rescode = response.getcode()
print(rescode)

200


In [21]:
# HTTP 요청 응답이 정상적일 경우, 해당 HTML 데이터를 수신했기 때문에 필요한 데이터 추출이 가능함
# HTTP 요청에 대한 정상 응답일 경우, HTTP 응답 상태 코드 값이 200이 된다.
if (rescode == 200):
    # response.read() 메서드로 수신된 HTML 데이터를 가져올 수 있음
    response_body = response.read()

    # 네이버 Open API를 통해서 수신된 데이터가 JSON 포맷이다.
    # 그러므로 JSON 포맷 데이터를 파싱해서 딕셔너리 데이터로 만들어주는 json 라이브러리를 사용
    # json.loads() 메서드로 사용해서 data에 수신된 데이터를 딕셔너리 데이터로 분석해서 자동으로 만들어 줌
    data = json.loads(response_body)

    print(data['items'][0]['title'])
    print(data['items'][0]['description'])
else:
    print("Error Code: " + rescode)

환경부 장관, 어린이날 맞아 초등생 위한 환경도서 추천
5월 4일부터 게시해 많은 어린이들이 읽을 수 있도록 할 계획이라고 전했다. 또한, 책 속의 정보무늬를 <b>스마트폰</b>의 카메라로 비추면, 음성책으로도 들을 수 있어 학교 및 가정에서 도서를 더욱 다양하게 활용할 수 있도록 했다.


<br>

## 3.5 `requests` 라이브러리를 활요한 크롤링

- 간결하게 작성할 수 있다. (사용 권장)
- `requests` 라이브러리를 사용해서 Open API(Rest API)를 통해 데이터를 바로 가져올 수 있다.

In [None]:
import requests

client_key = 'qzceB4vKYciM5gSicPeY'
client_secret = 'K68V2HYjnt'

In [None]:
# 별도 quote_plus() 메서드 등 처리할 필요 없음
# requests 객체가 알아서 해준다.
naver_url = 'https://openapi.naver.com/v1/search/news.json?query=스마트폰'

In [None]:
header_params = {
    "X-Naver-Client-Id": client_key,
    "X-Naver-Client-Secret": client_secret
}

# headers=header_params 는 header 변경 시에만 필요
# 그렇지 않으면 requests.get(url)만 해도 됨
response = requests.get(naver_url, headers=header_params)

In [28]:
# 별도 json.loads() 라이브러리 메서드를 사용하지 않아도 requests 라이브러리에 있는 json() 메서드로 처리 가능
print(response.json())

{'lastBuildDate': 'Mon, 04 May 2020 15:21:36 +0900', 'total': 2399937, 'start': 1, 'display': 10, 'items': [{'title': '서울디지털대, 9년 연속 ‘Korea Top Awards’ 사이버대학 부문 대상 수상', 'originallink': 'http://www.edaily.co.kr/news/newspath.asp?newsid=02984806625765640', 'link': 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=102&oid=018&aid=0004632907', 'description': '서울디지털대는 2001년에 개교한 고등교육법에 의한 사이버대학으로, 전 교과목 100% <b>스마트폰</b> 수업 및 온라인 시험 등 쉽고 편한 <b>스마트폰</b> 기반의 학습시스템을 갖추고 있다. 국내 최대 졸업생 규모(3만6000여 명)의... ', 'pubDate': 'Mon, 04 May 2020 15:20:00 +0900'}, {'title': '어린이날 특집, 뮤지컬 를 안방에서!', 'originallink': 'http://thetravelnews.co.kr/05/310042/', 'link': 'http://thetravelnews.co.kr/05/310042/', 'description': 'TBS TV는\xa0IPTV(KT 214번, SK 167번, LG 245번),\xa0케이블\xa0TV(TBS\xa0홈페이지 혹은 각 지역 케이블방송 문의)\xa0유튜브 채널\xa0‘TBS\xa0시민의방송’과\xa0TBS\xa0앱(<b>스마트폰</b>)을 통해 시청할 수 있다.', 'pubDate': 'Mon, 04 May 2020 15:19:00 +0900'}, {'title': '환경부 장관, 어린이날 맞아 초등생 위한 환경도서 추천', 'originallink': 'http://www.tourtimes.

In [29]:
print(response.text)

{
"lastBuildDate": "Mon, 04 May 2020 15:21:36 +0900",
"total": 2399937,
"start": 1,
"display": 10,
"items": [
{
"title": "서울디지털대, 9년 연속 ‘Korea Top Awards’ 사이버대학 부문 대상 수상",
"originallink": "http://www.edaily.co.kr/news/newspath.asp?newsid=02984806625765640",
"link": "https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=102&oid=018&aid=0004632907",
"description": "서울디지털대는 2001년에 개교한 고등교육법에 의한 사이버대학으로, 전 교과목 100% <b>스마트폰</b> 수업 및 온라인 시험 등 쉽고 편한 <b>스마트폰</b> 기반의 학습시스템을 갖추고 있다. 국내 최대 졸업생 규모(3만6000여 명)의... ",
"pubDate": "Mon, 04 May 2020 15:20:00 +0900"

},
{
"title": "어린이날 특집, 뮤지컬 를 안방에서!",
"originallink": "http://thetravelnews.co.kr/05/310042/",
"link": "http://thetravelnews.co.kr/05/310042/",
"description": "TBS TV는 IPTV(KT 214번, SK 167번, LG 245번), 케이블 TV(TBS 홈페이지 혹은 각 지역 케이블방송 문의) 유튜브 채널 ‘TBS 시민의방송’과 TBS 앱(<b>스마트폰</b>)을 통해 시청할 수 있다.",
"pubDate": "Mon, 04 May 2020 15:19:00 +0900"

},
{
"title": "환경부 장관, 어린이날 맞아 초등생 위한 환경도서 추천",
"originallink": "http://www.tourtimes.net/188737",
"link

In [30]:
# HTTP 응답 코드는 status_code에 저장됨
if (response.status_code == 200):
    data = response.json()
    print(data['items'][0]['title'])
    print(data['items'][0]['description'])
else:
    print("Error Code: " + response.status_code)

서울디지털대, 9년 연속 ‘Korea Top Awards’ 사이버대학 부문 대상 수상
서울디지털대는 2001년에 개교한 고등교육법에 의한 사이버대학으로, 전 교과목 100% <b>스마트폰</b> 수업 및 온라인 시험 등 쉽고 편한 <b>스마트폰</b> 기반의 학습시스템을 갖추고 있다. 국내 최대 졸업생 규모(3만6000여 명)의... 


<br>

## 3.6 연습 문제

네이버 검색 Open API를 사용해서 부동산 키워드로 검색 결과 중 상위 10개의 타이틀을 출력

In [None]:
import requests

client_key = 'qzceB4vKYciM5gSicPeY'
client_secret = 'K68V2HYjnt'

naver_url = 'https://openapi.naver.com/v1/search/news.json?query=부동산'

In [36]:
header_params = {
    "X-Naver-Client-Id": client_key,
    "X-Naver-Client-Secret": client_secret
}

response = requests.get(naver_url, headers=header_params)
print(response.status_code)

200


In [42]:
for i in range(0, 10):
    print(response.json()['items'][i]['title'])

[우리동네 지역전문가] 교통망 확대 예정된 ‘영통구 원천동’… 쾌적한 주거...
호가 오른 대치 은마…바닥 치고 상승 전환 하나
경기도, 기획<b>부동산</b> 투기행위 관련 대대적인 단속 나서
서울디지털대, 9년 연속 ‘Korea Top Awards’ 사이버대학 부문 대상 수상
파이 커졌나? 5개 늘어난 공시대상 기업집단, IMM인베스트먼트는 첫 PEF 기업...
더불어시민당에서 제명된 양정숙이 재심을 신청한다
[CEO칼럼]공유경제가 디지털로 확대되고 있다
與, <b>부동산</b> 의혹 양정숙 당선자 고발 6일로 연기
보령시, 개별주택가격 결정·공시… 평균 2.01% 상승
경기도시공사, 광교원천 등 '경기행복주택 3대 단지' 입주자 추가 모집
