# Open API(Rest API)를 활용한 크롤링

## Open API(Rest API)란?
- **API:** Application Programming Interface의 약자로, 특정 프로그램을 만들기 위해 제공되는 모듈(함수 등)을 의미
- **Open API:** 공개 API라고도 불리우며, 누구나 사용할 수 있도록 공개된 API (주로 Rest API 기술을 많이 사용함)
- **Rest API:** Representational State Transfer API의 약자로, HTTP프로토콜을 통해 서버 제공 기능을 사용할 수 있는 함수를 의미
- 일반적으로 XML, JSON의 형태로 응답을 전달(원하는 데이터 추출이 수월)
- [참고 - RestAPI란](http://hyunalee.tistory.com/1)

## JSON 이란?
- JavaScript Object Notation 줄임말
- 웹환경에서 서버와 클라이언트 사이에 데이터를 주고 받을때 많이 사용
    - Rest API가 주요한 예제
- JSON 포멧 예 <br>
    { "id":"01", "language": "Java", "edition": "third", "author": "Herbert Schildt" }
    <br>
    <br>
- 참고 (https://books.google.co.kr/books?id=euSiAwAAQBAJ&pg=PT1755&lpg=PT1755&dq=json+%EC%9E%A5%EC%A0%90&source=bl&ots=VjTIoOjbTK&sig=3t7MXA7g2CvEi8SyD0-GQVywzw0&hl=ko&sa=X&ved=0ahUKEwiwo8OvxJfWAhXDsJQKHYaBDpI4ChDoAQhVMAg#v=onepage&q=json%20%EC%9E%A5%EC%A0%90&f=false)
    - 출처: http://dpug.tistory.com/67#.WbycWshJaUk [퍼그의 전초기지]

In [1]:
import json

# 네이버 뉴스에서 'android'라는 키워드로 검색한 상품 리스트 결과
data = """
{
    "lastBuildDate": "Wed, 16 Dec 2020 09:30:22 +0900",
    "total": 23023,
    "start": 1,
    "display": 10,
    "items": [
        {
            "title": "아프리카티비, 16일부터 '내년 상반기 신입 공채' 진행",
            "originallink": "http://www.newsis.com/view/?id=NISX20201214_0001269470&cID=13001&pID=13000",
            "link": "https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=003&aid=0010244436",
            "description": "모집 분야는 ▲모바일 앱 개발(<b>Android</b>/iOS) ▲웹 서비스 개발 ▲시스템 엔지니어 ▲주간 서비스 운영 및... 30분 '개발(<b>Android</b>/iOS/웹), 시스템' 부문으로 진행된다. 또한 현직 공채 입사자의 '꿀팁 영상' VOD도 제작해... ",
            "pubDate": "Tue, 15 Dec 2020 23:24:00 +0900"
        },
        {
            "title": "구미사랑상품권 연말연시 10% 특별할인판매 실시",
            "originallink": "http://www.breaknews.com/773829",
            "link": "http://www.breaknews.com/773829",
            "description": "and livestock&gt; Gumi Love Gift Certificate) and the Gumi Love Gift Certificate application (<b>Android</b>, iOS downloadable). It is planned to be issued in January of 2021.원본 기사 보기:브레이크뉴스 대구경북",
            "pubDate": "Tue, 15 Dec 2020 17:18:00 +0900"
        },
        {
            "title": "휴먼: 폴 플랫, 모바일 버전 두 가지 새로운 레벨 추가",
            "originallink": "http://www.gameshot.net/common/con_view.php?code=GA5fd83037e7d3c",
            "link": "http://www.gameshot.net/common/con_view.php?code=GA5fd83037e7d3c",
            "description": "모바일 업데이트는 현재 북미, 유럽, 오세아니아 및 아시아 일부 지역에서 iOS와 <b>Android</b>로 이용 가능하다.... ‘휴먼: 폴 플랫’은 북미, 유럽, 아시아-태평양의 iOS와 <b>Android</b>에서 이용할 수 있으며, 일본에서는 505... ",
            "pubDate": "Tue, 15 Dec 2020 12:51:00 +0900"
        },
        {
            "title": "익살스러운 퍼즐 플랫폼 게임 ‘휴먼: 폴 플랫’, 모바일 버전 두 가지 새로운...",
            "originallink": "https://www.gamechosun.co.kr/webzine/article/view.php?no=170844",
            "link": "https://www.gamechosun.co.kr/webzine/article/view.php?no=170844",
            "description": "모바일 업데이트는 현재 북미, 유럽, 오세아니아 및 아시아 일부 지역에서 iOS와 <b>Android</b>로 이용 가능하다. • 서멀 Manuel “Święty Krab” Nowak에 의해 만들어진 ‘서멀’에서 플레이어는 높은 눈 덮인... ",
            "pubDate": "Tue, 15 Dec 2020 12:07:00 +0900"
        },
        {
            "title": "휴먼: 폴 플랫, 모바일 버전 신규 레벨 2종 추가",
            "originallink": "http://www.inven.co.kr/webzine/news/?news=248754",
            "link": "https://sports.news.naver.com/news.nhn?oid=442&aid=0000127189",
            "description": "모바일 업데이트는 현재 북미, 유럽, 오세아니아 및 아시아 일부 지역에서 iOS와 <b>Android</b>로 이용... ‘휴먼: 폴 플랫’은 북미, 유럽, 아시아-태평양의 iOS와 <b>Android</b>에서 이용할 수 있으며, 일본에서는 505 게임즈의... ",
            "pubDate": "Tue, 15 Dec 2020 10:49:00 +0900"
        },
        {
            "title": "Google’s apps crash in a worldwide outage.",
            "originallink": "https://www.nytimes.com/2020/12/11/business/google-down-worldwide.html?partner=naver",
            "link": "https://www.nytimes.com/2020/12/11/business/google-down-worldwide.html?partner=naver",
            "description": "Several of Google’s products have more than a billion global users, including <b>Android</b>, Chrome, Gmail, Google Drive, Google Maps, Google Play, Search and YouTube. Later, the company attributed... ",
            "pubDate": "Mon, 14 Dec 2020 21:37:00 +0900"
        },
        {
            "title": "아프리카TV, BJ와 시청자 소통 돕는 2021년 상반기 신입사원 공채 시작",
            "originallink": "http://www.jobnjoy.com/portal/job/hotnews_view.jsp?nidx=442600&depth1=1&depth2=1&depth3=1",
            "link": "http://www.jobnjoy.com/portal/job/hotnews_view.jsp?nidx=442600&depth1=1&depth2=1&depth3=1",
            "description": "모집 분야는 △모바일 앱 개발(<b>Android</b>·iOS) △웹 서비스 개발 △시스템 엔지니어 △주간 서비스 운영 및... ‘개발(<b>Android</b>/iOS/웹), 시스템’ 부문별 진행될 예정이다. 채용과 관련한 실시간 질의응답으로 진행된다.... ",
            "pubDate": "Mon, 14 Dec 2020 17:55:00 +0900"
        },
        {
            "title": "아프리카TV, `2021년 상반기 신입사원 공개채용` 진행",
            "originallink": "http://www.dt.co.kr/contents.html?article_no=2020121402109931054007&ref=naver",
            "link": "https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=105&oid=029&aid=0002642928",
            "description": "모집 분야는 ▲모바일 앱 개발(<b>Android</b>·iOS) ▲웹 서비스 개발 ▲시스템 엔지니어 ▲주간 서비스 운영 및... 모니터링'과 '개발(<b>Android</b>·iOS·웹), 시스템' 부문으로 각각 진행된다. 채용과 관련해 실시간으로 묻고 답하는... ",
            "pubDate": "Mon, 14 Dec 2020 17:31:00 +0900"
        },
        {
            "title": "아프리카티비, 2021년 상반기 신입사원 공개채용",
            "originallink": "https://www.sedaily.com/NewsView/1ZBOIVKZ25",
            "link": "https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=105&oid=011&aid=0003841789",
            "description": "모집 분야는 △모바일 앱 개발(<b>Android</b>·iOS) △웹 서비스 개발 △시스템 엔지니어 △주간 서비스 운영 및 BJ 인게이지먼트 △게임 방송 생태계 기획 및 운영 △인사 △총무 및 구매 △유저상담(야간) △콘텐츠... ",
            "pubDate": "Mon, 14 Dec 2020 17:01:00 +0900"
        },
        {
            "title": "아프리카TV, 16일부터 ‘2021년 상반기 신입사원 공개채용’ 진행",
            "originallink": "http://www.segye.com/content/html/2020/12/14/20201214513250.html?OutUrl=naver",
            "link": "https://sports.news.naver.com/news.nhn?oid=022&aid=0003532886",
            "description": "모집 분야는 △모바일 앱 개발(<b>Android</b>/iOS) △웹 서비스 개발 △시스템 엔지니어 △주간 서비스 운영 및... ‘개발(<b>Android</b>/iOS/웹), 시스템’ 부문으로 각각 진행되며, 채용과 관련해 실시간으로 묻고 답하는 시간이... ",
            "pubDate": "Mon, 14 Dec 2020 16:39:00 +0900"
        }
    ]
}
"""

json_data = json.loads(data)
print(json_data['items'][0])
print(json_data['items'][0]['title'])
print(json_data['items'][0]['link'])
print(json_data['items'][0]['description'])
print(json_data['items'][0]['pubDate'])

{'title': "아프리카티비, 16일부터 '내년 상반기 신입 공채' 진행", 'originallink': 'http://www.newsis.com/view/?id=NISX20201214_0001269470&cID=13001&pID=13000', 'link': 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=003&aid=0010244436', 'description': "모집 분야는 ▲모바일 앱 개발(<b>Android</b>/iOS) ▲웹 서비스 개발 ▲시스템 엔지니어 ▲주간 서비스 운영 및... 30분 '개발(<b>Android</b>/iOS/웹), 시스템' 부문으로 진행된다. 또한 현직 공채 입사자의 '꿀팁 영상' VOD도 제작해... ", 'pubDate': 'Tue, 15 Dec 2020 23:24:00 +0900'}
아프리카티비, 16일부터 '내년 상반기 신입 공채' 진행
https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=003&aid=0010244436
모집 분야는 ▲모바일 앱 개발(<b>Android</b>/iOS) ▲웹 서비스 개발 ▲시스템 엔지니어 ▲주간 서비스 운영 및... 30분 '개발(<b>Android</b>/iOS/웹), 시스템' 부문으로 진행된다. 또한 현직 공채 입사자의 '꿀팁 영상' VOD도 제작해... 
Tue, 15 Dec 2020 23:24:00 +0900


## 네이버 검색 Open API를 이용한 크롤링 초간단 실습
- https://developers.naver.com/main/
- [블로그 검색 가이드 문서](https://developers.naver.com/docs/search/blog/)
    - 네이버 Open API 이용신청 [참고](http://hnark.tistory.com/135)

- postman 설치 (https://www.getpostman.com/downloads/) 
  - (상세 가이드: http://www.a-mean-blog.com/ko/blog/Node-JS-API/_/API-%ED%85%8C%EC%8A%A4%ED%8A%B8-%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8-Postman-%EC%84%A4%EC%B9%98%EB%B0%8F-%EA%B0%84%EB%8B%A8-%EC%82%AC%EC%9A%A9%EB%B2%95)

- 사용법
   1. Sign Up in Postman
   2. Insert https://openapi.naver.com/v1/search/news.json?query=스마트 into GET
   3. Add X-Naver-Client-Id(key), <font color="blue">CsODwdUTyG9vOI1uIeIf</font>(value) into Headers
   4. Add X-Naver-Client-Secret(key), <font color="blue">YmIx0GW8JG</font>(value) into Headers
   5. Send
   <img src="postman.png" />
- [참고: 네이버 Open API HTTP 응답 상태 에러 코드 목록1](https://developers.naver.com/docs/common/openapiguide/#/errorcode.md)
- [참고: 일반적인 HTTP 응답 상태 코드](http://ooz.co.kr/260) 

## 네이버 Open API 사용하기
- postman을 사용하지 않고 python 코딩을 통해 접근해보겠다.

In [2]:
import requests
import pprint

client_id = '0eOeLBsYC_jmAu5ydx_1'
client_secret = 'uYiamO0Wt2'

naver_open_api = 'https://openapi.naver.com/v1/search/news.json?query=android'
header_params = {'X-Naver-Client-Id': client_id, 'X-Naver-Client-Secret': client_secret}

res = requests.get(naver_open_api, headers = header_params)

if res.status_code == 200:
    data = res.json()
    # data = res.text # 이렇게 쓸 수도 있음
    # print(data)
    pprint.pprint(data) # print()와 다르게, 출력 결과를 보기 좋게 보여줌
else:
    print('Error Code:', res.status_code)

{'display': 10,
 'items': [{'description': "딥러닝을 기반으로 한 글로벌 머신비전의 선두 기업인 코그넥스는 자사의 'MX-1502' 및 "
                           "'MX-1000' 시리즈와 같이 iOS 및 <b>Android</b> 스마트폰에 모두 사용 "
                           '가능한 모바일 판독 솔루션을 공급하며 최고 수준의 1D, 2D, 직접 부품 표시... ',
            'link': 'http://www.klnews.co.kr/news/articleView.html?idxno=122521',
            'originallink': 'http://www.klnews.co.kr/news/articleView.html?idxno=122521',
            'pubDate': 'Wed, 16 Dec 2020 09:43:00 +0900',
            'title': '특별기고 / 스마트폰 기반 모바일 판독 솔루션, 비즈니스의 혁신을 이루다!'},
           {'description': '모집 분야는 ▲모바일 앱 개발(<b>Android</b>/iOS) ▲웹 서비스 개발 '
                           '▲시스템 엔지니어 ▲주간 서비스 운영 및... 30분 '
                           "'개발(<b>Android</b>/iOS/웹), 시스템' 부문으로 진행된다. 또한 현직 "
                           "공채 입사자의 '꿀팁 영상' VOD도 제작해... ",
            'link': 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=003&aid=0010244436',
            'originallink': 'http://www.newsis.com/view/?id=NI

In [3]:
import requests
import pprint

client_id = '0eOeLBsYC_jmAu5ydx_1'
client_secret = 'uYiamO0Wt2'

naver_open_api = 'https://openapi.naver.com/v1/search/news.json?query=갤럭시노트10'
header_params = {'X-Naver-Client-Id': client_id, 'X-Naver-Client-Secret': client_secret}

res = requests.get(naver_open_api, headers = header_params)

if res.status_code == 200:
    data = res.json()
    for idx, item in enumerate(data['items']):
        print(str(idx + 1) + '.', item['title'], item['link'])
else:
    print('Error Code:', res.status_code)

1. 삼성전자, CES 혁신상 44개 휩쓸어 http://www.sentv.co.kr/news/view/584874
2. 삼성·LG전자, ‘CES 2021’ 혁신상 휩쓸어..삼성 44개 LG 24개 http://www.breaknews.com/774005
3. 삼성전자, TV <b>10</b>년 연속 최고혁신상 등 CES 2021 44개 수상 https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=105&oid=468&aid=0000724844
4. 삼성전자, CES 2021 혁신상 ‘44개’ 대거 수상 http://www.electimes.com/article.php?aid=1608081972209720091
5. CES 접수한 한국 기업…혁신상 삼성 44개·LG 24개 석권 https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=215&aid=0000923030
6. 내년 <b>갤럭시</b> S21 조기출시…노태문 삼성전자 사장 “S펜 적용 확대” http://inthenews.co.kr/article-82707/
7. 삼성전자, CES 2021 수상 휩쓸어...총 44개 혁신상 수상 http://www.kdfnews.com/news/articleView.html?idxno=63423
8. 삼성전자, CES 2021 혁신상 휩쓸어...총 44개 혁신상 수상 http://digitalchosun.dizzo.com/site/data/html_dir/2020/12/16/2020121680056.html
9. 삼성전자, 'CES 2021 혁신상' 44개 수상 http://www.pressm.kr/news/articleView.html?idxno=35301
10. 삼성전자, CES2021 '혁신상' 싹쓸이…TV 부문 <b>10</b>년 연속 최고 혁신상 영예 http://www.metroseoul.co.kr/article/20201216500086


In [4]:
import requests
import openpyxl

client_id = '0eOeLBsYC_jmAu5ydx_1'
client_secret = 'uYiamO0Wt2'

excel_file = openpyxl.Workbook()
excel_sheet = excel_file.active
excel_sheet.column_dimensions['B'].width = 100
excel_sheet.column_dimensions['C'].width = 100
excel_sheet.append(['랭킹', '제목', '링크'])

start, num = 1, 0
for index in range(10):
    start_num = start + (index * 100)
    naver_open_api = 'https://openapi.naver.com/v1/search/shop.json?query=남성의류&display=100&start=' + str(start_num)

    header_params = {'X-Naver-Client-Id': client_id, 'X-Naver-Client-Secret': client_secret}

    res = requests.get(naver_open_api, headers = header_params)

    if res.status_code == 200:
        data = res.json()
        for item in data['items']:
            num += 1
            excel_sheet.append([num, item['title'], item['link']])
    else:
        print('Error Code:', res.status_code)
        
excel_file.save('naver_shopping_with_남성의류.xlsx')
excel_file.close()

# 다양한 Open API 사용하기

## 정부3.0 공공 데이터 포털 API 사용하기

- 공공 데이터 포털 가입하기
  - https://www.data.go.kr
  - 회원가입 -> 로그인 -> https://www.data.go.kr/dataset/3050988/openapi.do -> 활용신청
  - 결국 인증키를 발급받아야 함 (**여기서 주의할 점은 인증키를 발급받고 약 30분~1시간 뒤부터 사용가능함!!**)
  
   <img src="governapi.png" />  
  - 사용법 확인
      - https://www.data.go.kr/dataset/3050988/openapi.do -> 활용신청 메뉴 옆에 상세정보 메뉴의 참고문서 확인 (사용 방법 상세 확인)
      - https://www.data.go.kr/dataset/3050988/openapi.do -> 활용신청 메뉴 옆에 상세정보 메뉴의 활용사례 확인
- JSON 이외에 XML 포멧으로 데이터를 다루는 경우도 많음
    - XML 관련 내용은 '다양한 데이터 읽기 - XML 파일' 참조

In [5]:
import requests

service_url = 'http://openapi.airkorea.or.kr/openapi/services/rest/ArpltnInforInqireSvc/getCtprvnRltmMesureDnsty?ServiceKey='
service_key = '4ucLUQ%2BwEluVSddPoXAsrhS%2BraFBtDthvHl1ta39zqPBgJTKUCg5ZTjg%2Fu1K7a1bnTjsQNMT%2ByUZC2HqJdj%2F7A%3D%3D'
params = '&numOfRows=10&pageNo=1&sidoName=인천&ver=1.3'
open_api = service_url + service_key + params

res = requests.get(open_api)
print(res.text)

<?xml version="1.0" encoding="UTF-8"?>




<response>
	<header>
		<resultCode>00</resultCode>
		<resultMsg>NORMAL SERVICE.</resultMsg>
	</header>
	<body>
		<items>
			
				<item>
					<stationName>신흥</stationName>
					
                        <mangName>도시대기</mangName>
                    
					<dataTime>2020-12-16 10:00</dataTime>
					<so2Value>0.004</so2Value>
					<coValue>0.5</coValue>
					<o3Value>0.025</o3Value>
					<no2Value>0.011</no2Value>
					<pm10Value>27</pm10Value>
					
                        <pm10Value24>29</pm10Value24>
                    
					
				        <pm25Value>19</pm25Value>
				    
				    
                        <pm25Value24>19</pm25Value24>
                    
					<khaiValue>59</khaiValue>
					<khaiGrade>2</khaiGrade>
					<so2Grade>1</so2Grade>
					<coGrade>1</coGrade>
					<o3Grade>1</o3Grade>
					<no2Grade>1</no2Grade>
					<pm10Grade>1</pm10Grade>
					
				        <pm25Grade>2</pm25Grade>
				    
	

## 다양한 데이터 읽기 - XML
- XML(Extensible Markup Language)
    - 특정 목적에 따라 데이터를 태그로 감싸서 마크업하는 범용적인 포멧
    - 마크업 언어는 태그 등을 이용하여 데이터의 구조를 기술하는 언어의 한 가지
    - 가장 친숙한 마크업 언어가 HTML
    - XML은 HTML과 마찬가지로 데이터를 계층 구조로 표현
    - XML 기본 구조
  <pre>
  <태그 속성="속성값">내용</태그>
  </pre>

    - 태그와 속성은 특정 목적에 따라 임의로 이름을 정해서 사용

<product id="M001" price="300000">32인치 LCD 모니터</product>

    - 다른 요소와 그룹으로 묶을 수도 있음

<products type="전자제품?>
    <product id="M001" price="300000">32인치 LCD 모니터</product>
    <product id="M002" price="210000">24인치 LCD 모니터</product>
</products>

In [6]:
import requests
from bs4 import BeautifulSoup

service_url = 'http://openapi.airkorea.or.kr/openapi/services/rest/ArpltnInforInqireSvc/getCtprvnRltmMesureDnsty?ServiceKey='
service_key = '4ucLUQ%2BwEluVSddPoXAsrhS%2BraFBtDthvHl1ta39zqPBgJTKUCg5ZTjg%2Fu1K7a1bnTjsQNMT%2ByUZC2HqJdj%2F7A%3D%3D'
params = '&numOfRows=10&pageNo=1&sidoName=인천&ver=1.3'
open_api = service_url + service_key + params

res = requests.get(open_api)
soup = BeautifulSoup(res.content, 'html.parser')

data = soup.find_all('item')
for item in data:
    station_name = item.find('stationname').text
    pm10_value = item.find('pm10value').text
    pm10_grade = item.find('pm10grade').text
    print('측정소명:', station_name, ',', '미세먼지(PM10)농도:', pm10_value, ',', '미세먼지(PM10) 24시간 등급:', pm10_grade)

측정소명: 신흥 , 미세먼지(PM10)농도: 27 , 미세먼지(PM10) 24시간 등급: 1
측정소명: 서해 , 미세먼지(PM10)농도: 29 , 미세먼지(PM10) 24시간 등급: 1
측정소명: 영종 , 미세먼지(PM10)농도: 19 , 미세먼지(PM10) 24시간 등급: 1
측정소명: 송림 , 미세먼지(PM10)농도: 32 , 미세먼지(PM10) 24시간 등급: 2
측정소명: 구월동 , 미세먼지(PM10)농도: 24 , 미세먼지(PM10) 24시간 등급: 1
측정소명: 숭의 , 미세먼지(PM10)농도: 26 , 미세먼지(PM10) 24시간 등급: 1
측정소명: 석바위 , 미세먼지(PM10)농도: 21 , 미세먼지(PM10) 24시간 등급: 1
측정소명: 부평역 , 미세먼지(PM10)농도: 28 , 미세먼지(PM10) 24시간 등급: 1
측정소명: 남동 , 미세먼지(PM10)농도: 26 , 미세먼지(PM10) 24시간 등급: 1
측정소명: 주안 , 미세먼지(PM10)농도: 28 , 미세먼지(PM10) 24시간 등급: 1
