## Open API(Rest API)를 활용한 크롤링

### Open API(Rest API)란?
 - **API:** Application Programming Interface의 약자로, 특정 프로그램을 만들기 위해 제공되는 모듈(함수 등)을 의미
 - **Open API:** 공개 API라고도 불리우며, 누구나 사용할 수 있도록 공개된 API (주로 Rest API 기술을 많이 사용함)
 - **Rest API:** Representational State Transfer API의 약자로, HTTP프로토콜을 통해 서버 제공 기능을 사용할 수 있는 함수를 의미
   - 일반적으로 XML, JSON의 형태로 응답을 전달(원하는 데이터 추출이 수월)
   - [참고 - RestAPI란](http://hyunalee.tistory.com/1)

### JSON 이란?
 - JavaScript Object Notation 줄임말
 - 웹환경에서 서버와 클라이언트 사이에 데이터를 주고 받을때 많이 사용
   - Rest API가 주요한 예제
 - JSON 포멧 예 <br>
 { "id":"01", "language": "Java", "edition": "third", "author": "Herbert Schildt" }
 <br>
 <br>
 
 - 참고 (https://books.google.co.kr/books?id=euSiAwAAQBAJ&pg=PT1755&lpg=PT1755&dq=json+%EC%9E%A5%EC%A0%90&source=bl&ots=VjTIoOjbTK&sig=3t7MXA7g2CvEi8SyD0-GQVywzw0&hl=ko&sa=X&ved=0ahUKEwiwo8OvxJfWAhXDsJQKHYaBDpI4ChDoAQhVMAg#v=onepage&q=json%20%EC%9E%A5%EC%A0%90&f=false)

 출처: http://dpug.tistory.com/67#.WbycWshJaUk [퍼그의 전초기지]

In [10]:
import json

data = """
    {
    "lastBuildDate": "Fri, 16 Jun 2023 12:48:34 +0900",
    "total": 7703,
    "start": 1,
    "display": 10,
    "items": [
        {
            "title": "현대모비스 &apos;SW에 眞心&apos; 23 알고리즘 경진대회로 숨은 인재 찾아",
            "originallink": "http://www.kdfnews.com/news/articleView.html?idxno=112067",
            "link": "http://www.kdfnews.com/news/articleView.html?idxno=112067",
            "description": "총 4종류의 프로그래밍 언어(C, C++, JAVA, <b>Python</b>) 사용이 가능하고, 제한된 시간 내에 문제를 풀고 소스코드를 제출하는 방식이다. 현대모비스의 사업 특성을 고려한 임베디드(내장형 시스템) 개발에 초점을 맞춰 메모리... ",
            "pubDate": "Fri, 16 Jun 2023 12:24:00 +0900"
        },
        {
            "title": "“1등상은 스포티지”…현대모비스, ‘2023 알고리즘 경진대회’ 개최",
            "originallink": "https://www.mk.co.kr/article/10761609",
            "link": "https://n.news.naver.com/mnews/article/009/0005144938?sid=103",
            "description": "총 4종류의 프로그래밍 언어(C, C++, JAVA, <b>Python</b>) 사용이 가능하며, 제한 시간 내에 문제를 풀고 소스코드를 제출하는 방식이다. 현대모비스의 사업 특성을 고려한 임베디드(내장형 시스템) 개발에 초점을 맞춰 메모리... ",
            "pubDate": "Fri, 16 Jun 2023 12:24:00 +0900"
        },
        {
            "title": "현대모비스, 알고리즘 경진대회 개최…숨은 SW인재 찾는다",
            "originallink": "https://www.dnews.co.kr/uhtml/view.jsp?idxno=202306161211154130365",
            "link": "https://www.dnews.co.kr/uhtml/view.jsp?idxno=202306161211154130365",
            "description": "총 4종류의 프로그래밍 언어(C, C++, JAVA, <b>Python</b>) 사용이 가능하며, 제한된 시간 내에 문제를 풀고 소스코드를 제출하는 방식이다. 현대모비스의 사업 특성을 고려한 임베디드(내장형 시스템) 개발에 초점을 맞춰... ",
            "pubDate": "Fri, 16 Jun 2023 12:22:00 +0900"
        },
        {
            "title": "현대모비스, 2023 알고리즘 경진대회 진행",
            "originallink": "http://autotimes.hankyung.com/apps/news.sub_view?popup=0&nid=03&c1=03&c2=03&c3=00&nkey=202306161200191",
            "link": "http://autotimes.hankyung.com/apps/news.sub_view?popup=0&nid=03&c1=03&c2=03&c3=00&nkey=202306161200191",
            "description": "총 4종류의 프로그래밍 언어(C, C++, JAVA, <b>Python</b>) 사용이 가능하며 제한된 시간 내에 문제를 풀고 소스코드를 제출하는 방식이다. 현대모비스의 사업 특성을 고려한 임베디드(내장형 시스템) 개발에 초점을 맞춰 메모리... ",
            "pubDate": "Fri, 16 Jun 2023 12:02:00 +0900"
        },
        {
            "title": "현대모비스, 알고리즘 경진대회 개최…상위권 서류면접 면제",
            "originallink": "https://www.viva100.com/main/view.php?key=20230616010004611",
            "link": "https://www.viva100.com/main/view.php?key=20230616010004611",
            "description": "총 4종류의 프로그래밍 언어(C, C++, JAVA, <b>Python</b>) 사용이 가능하며, 제한시간 안에 문제를 풀고 소스코드를 제출하는 방식이다. 부문별 1등에게는 기아의 최신형 스포티지 하이브리드 차량을 상품으로 주는 등 입상자에게... ",
            "pubDate": "Fri, 16 Jun 2023 11:44:00 +0900"
        },
        {
            "title": "현대모비스 &apos;알고리즘 경진대회&apos; 개최…&quot;SW 우수인재 발굴&quot;",
            "originallink": "http://www.newsworks.co.kr/news/articleView.html?idxno=718131",
            "link": "http://www.newsworks.co.kr/news/articleView.html?idxno=718131",
            "description": "총 4종류의 프로그래밍 언어(C, C++, JAVA, <b>Python</b>) 사용이 가능하며, 제한된 시간 내에 문제를 풀고 소스코드를 제출하는 방식이다. 현대모비스의 사업 특성을 고려한 임베디드(내장형 시스템) 개발에 초점을 맞춰 메모리... ",
            "pubDate": "Fri, 16 Jun 2023 11:44:00 +0900"
        },
        {
            "title": "&apos;SW에 진심&apos; 현대모비스, 알고리즘 경진대회로 숨은 인재 찾는다",
            "originallink": "http://www.goodkyung.com/news/articleView.html?idxno=210022",
            "link": "http://www.goodkyung.com/news/articleView.html?idxno=210022",
            "description": "총 4종류의 프로그래밍 언어(C, C++, JAVA, <b>Python</b>) 사용이 가능하며 제한된 시간 내에 문제를 풀고 소스코드를 제출하는 방식이다. 현대모비스의 사업 특성을 고려한 임베디드(내장형 시스템) 개발에 초점을 맞춰 메모리... ",
            "pubDate": "Fri, 16 Jun 2023 11:32:00 +0900"
        },
        {
            "title": "“SW 인재 발굴” 현대모비스 알고리즘 경진대회",
            "originallink": "http://news.heraldcorp.com/view.php?ud=20230616000337",
            "link": "https://n.news.naver.com/mnews/article/016/0002157151?sid=101",
            "description": "일반부에서 각각 예선을 통과한 상위 50명씩, 총 100명이 본선에 올라 실력을 겨룬다. 모두 4종류의 프로그래밍 언어(C, C++, JAVA, <b>Python</b>) 사용이 가능하며, 제한된 시간 내에 문제를 풀고 소스코드를 제출하는 방식이다.",
            "pubDate": "Fri, 16 Jun 2023 11:27:00 +0900"
        },
        {
            "title": "현대모비스, 2023 알고리즘 경진대회 열어 숨은 인재 찾는다",
            "originallink": "https://www.megaeconomy.co.kr/news/newsview.php?ncode=1065579252091570",
            "link": "https://www.megaeconomy.co.kr/news/newsview.php?ncode=1065579252091570",
            "description": "총 4종류의 프로그래밍 언어(C, C++, JAVA, <b>Python</b>) 사용이 가능하며, 제한된 시간 내에 문제를 풀고 소스코드를 제출하는 방식이다. 현대모비스의 사업 특성을 고려한 임베디드(내장형 시스템) 개발에 초점을 맞춰 메모리... ",
            "pubDate": "Fri, 16 Jun 2023 11:24:00 +0900"
        },
        {
            "title": "현대모비스, 2023알고리즘 경진대회 개최...SW 우수 인재 발굴",
            "originallink": "https://www.smartfn.co.kr/article/view/sfn202306160026",
            "link": "https://www.smartfn.co.kr/article/view/sfn202306160026",
            "description": "총 4종류의 프로그래밍 언어(C, C++, JAVA, <b>Python</b>) 사용이 가능하며, 제한된 시간 내에 문제를 풀고 소스코드를 제출하는 방식이다. 현대모비스의 사업 특성을 고려한 임베디드(내장형 시스템) 개발에 초점을 맞춰 메모리... ",
            "pubDate": "Fri, 16 Jun 2023 11:20:00 +0900"
        }
    ]
}
"""

json_data = json.loads(data)
print(json_data['items'][0])
# print(json_data['items']['title']) #인덱싱으로 인식하기때문에 문자열이아니라 정수로 인덱싱해야한다.



{'title': '현대모비스 &apos;SW에 眞心&apos; 23 알고리즘 경진대회로 숨은 인재 찾아', 'originallink': 'http://www.kdfnews.com/news/articleView.html?idxno=112067', 'link': 'http://www.kdfnews.com/news/articleView.html?idxno=112067', 'description': '총 4종류의 프로그래밍 언어(C, C++, JAVA, <b>Python</b>) 사용이 가능하고, 제한된 시간 내에 문제를 풀고 소스코드를 제출하는 방식이다. 현대모비스의 사업 특성을 고려한 임베디드(내장형 시스템) 개발에 초점을 맞춰 메모리... ', 'pubDate': 'Fri, 16 Jun 2023 12:24:00 +0900'}


TypeError: list indices must be integers or slices, not str

In [14]:
numbers = ['one', 'two', 'three', 'four', 'five']
   
for n in numbers:
    print(n)


one
two
three
four
five


In [2]:
import json

# 네이버 쇼핑에서, android 라는 키워드로 검색한 상품 리스트 결과
data = """
{
    "lastBuildDate": "Sat, 22 Jun 2019 14:57:13 +0900",
    "total": 634151,
    "start": 1,
    "display": 10,
    "items": [
        {
            "title": "MHL 케이블 (아이폰, <b>안드로이드</b> 스마트폰 HDMI TV연결)",
            "link": "https://search.shopping.naver.com/gate.nhn?id=10782444869",
            "image": "https://shopping-phinf.pstatic.net/main_1078244/10782444869.5.jpg",
            "lprice": "16500",
            "hprice": "0",
            "mallName": "투데이샵",
            "productId": "10782444869",
            "productType": "2"
        },
        {
            "title": "파인디지털 파인드라이브 Q300",
            "link": "https://search.shopping.naver.com/gate.nhn?id=19490416717",
            "image": "https://shopping-phinf.pstatic.net/main_1949041/19490416717.20190527115824.jpg",
            "lprice": "227050",
            "hprice": "359000",
            "mallName": "네이버",
            "productId": "19490416717",
            "productType": "1"
        },
        {
            "title": "주파집 USB NEW 마그네틱 5핀 <b>안드로이드</b> 자석 고속충전케이블",
            "link": "https://search.shopping.naver.com/gate.nhn?id=16222651410",
            "image": "https://shopping-phinf.pstatic.net/main_1622265/16222651410.20181120154423.jpg",
            "lprice": "6500",
            "hprice": "11900",
            "mallName": "네이버",
            "productId": "16222651410",
            "productType": "1"
        },
        {
            "title": "MHL 케이블 아이폰 <b>안드로이드</b> HDMI 미러링",
            "link": "https://search.shopping.naver.com/gate.nhn?id=11859583359",
            "image": "https://shopping-phinf.pstatic.net/main_1185958/11859583359.1.jpg",
            "lprice": "12500",
            "hprice": "0",
            "mallName": "가가넷",
            "productId": "11859583359",
            "productType": "2"
        },
        {
            "title": "아이폰삼각대 / ios&amp;<b>Android</b> 호환 가능",
            "link": "https://search.shopping.naver.com/gate.nhn?id=16341221561",
            "image": "https://shopping-phinf.pstatic.net/main_1634122/16341221561.4.jpg",
            "lprice": "31900",
            "hprice": "0",
            "mallName": "포시즌몰",
            "productId": "16341221561",
            "productType": "2"
        },
        {
            "title": "뷰잉 (viewing)",
            "link": "https://search.shopping.naver.com/gate.nhn?id=13030462232",
            "image": "https://shopping-phinf.pstatic.net/main_1303046/13030462232.20190306144248.jpg",
            "lprice": "87110",
            "hprice": "180000",
            "mallName": "네이버",
            "productId": "13030462232",
            "productType": "1"
        },
        {
            "title": "샤오미 Mi Box (TELEBEE)",
            "link": "https://search.shopping.naver.com/gate.nhn?id=12302122742",
            "image": "https://shopping-phinf.pstatic.net/main_1230212/12302122742.20170920112004.jpg",
            "lprice": "54900",
            "hprice": "99000",
            "mallName": "네이버",
            "productId": "12302122742",
            "productType": "1"
        },
        {
            "title": "MHL 케이블 아이폰 <b>안드로이드</b> HDMI 미러링 TV연결",
            "link": "https://search.shopping.naver.com/gate.nhn?id=8678305242",
            "image": "https://shopping-phinf.pstatic.net/main_8678305/8678305242.5.jpg",
            "lprice": "5500",
            "hprice": "0",
            "mallName": "글로벌텐교",
            "productId": "8678305242",
            "productType": "2"
        },
        {
            "title": "파인디지털 파인드라이브 Q30",
            "link": "https://search.shopping.naver.com/gate.nhn?id=18711239261",
            "image": "https://shopping-phinf.pstatic.net/main_1871123/18711239261.20190415105108.jpg",
            "lprice": "199000",
            "hprice": "315640",
            "mallName": "네이버",
            "productId": "18711239261",
            "productType": "1"
        },
        {
            "title": "이노아이오 스마트빔 3",
            "link": "https://search.shopping.naver.com/gate.nhn?id=14032821135",
            "image": "https://shopping-phinf.pstatic.net/main_1403282/14032821135.20180413144450.jpg",
            "lprice": "259870",
            "hprice": "387000",
            "mallName": "네이버",
            "productId": "14032821135",
            "productType": "1"
        }
    ]
}
"""

json_data = json.loads(data) #loads() 에 데이터를 넣으면 json을 파싱한다.
print (json_data['items'][0]['title'])
print (json_data['items'][0]['link'])
print(json_data['display'])


MHL 케이블 (아이폰, <b>안드로이드</b> 스마트폰 HDMI TV연결)
https://search.shopping.naver.com/gate.nhn?id=10782444869
10


### 네이버 검색 Open API를 이용한 크롤링 초간단 실습
 - https://developers.naver.com/main/
 - [블로그 검색 가이드 문서](https://developers.naver.com/docs/search/blog/)
   - 네이버 Open API 이용신청 [참고](http://hnark.tistory.com/135)

- postman 설치 (https://www.getpostman.com/downloads/) 
  - (상세 가이드: http://www.a-mean-blog.com/ko/blog/Node-JS-API/_/API-%ED%85%8C%EC%8A%A4%ED%8A%B8-%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8-Postman-%EC%84%A4%EC%B9%98%EB%B0%8F-%EA%B0%84%EB%8B%A8-%EC%82%AC%EC%9A%A9%EB%B2%95)

- 사용법
   1. Sign Up in Postman
   2. Insert https://openapi.naver.com/v1/search/news.json?query=스마트 into GET
   3. Add X-Naver-Client-Id(key), <font color="blue">CsODwdUTyG9vOI1uIeIf</font>(value) into Headers
   4. Add X-Naver-Client-Secret(key), <font color="blue">YmIx0GW8JG</font>(value) into Headers
   5. Send
   <img src="postman.png" />

- [참고: 네이버 Open API HTTP 응답 상태 에러 코드 목록1](https://developers.naver.com/docs/common/openapiguide/#/errorcode.md)
- [참고: 일반적인 HTTP 응답 상태 코드](http://ooz.co.kr/260) 

### 네이버 Open API 사용하기

In [28]:
import requests #서버에서 데이터를 가져오는 라이브러리
import pprint #print를 좀더 구조적으로 보여주는 라이브러리

client_key = 'bgpVYzs7UVlAK9_jz93d'
client_secret = 'FmRMdVi_UU'

naver_open_api = 'https://openapi.naver.com/v1/search/shop.json?query=iphone'

#client_key와 client_secret은 header에 담아서 전송해야한다.
header_params = {"X-Naver-Client-Id":client_key,"X-Naver-Client-Secret":client_secret}
res = requests.get(naver_open_api, headers= header_params) #header에 default내용 + 추가 데이터를 추가해서 전송

if res.status_code == 200:
    data = res.json()
    #pprint.pprint(data)
    for index,item in enumerate(data['items']): #range 보다 조금더 개선된 enumerate
        print(index + 1 ,item['title'], item['link'])
else:
    print("error code:" , res.statud_code)


1 Apple <b>아이폰</b> 14 프로 256GB [자급제] https://search.shopping.naver.com/gate.nhn?id=34561756621
2 Apple <b>아이폰</b> 14 128GB [자급제] https://search.shopping.naver.com/gate.nhn?id=34561821618
3 애플 정품 20W 충전기 어댑터 고속 C타입 급속(<b>아이폰</b> 5W 18W 애플워치 에어팟 호환) https://search.shopping.naver.com/gate.nhn?id=83762501308
4 Apple <b>아이폰</b> 14 프로 128GB [자급제] https://search.shopping.naver.com/gate.nhn?id=34558906623
5 만렙 <b>아이폰</b> 무선충전기 애플워치 에어팟 3in1 호환 https://search.shopping.naver.com/gate.nhn?id=82627738066
6 로랜텍 <b>아이폰</b> 충전기 C to 8핀 고속케이블 세트 https://search.shopping.naver.com/gate.nhn?id=33706123618
7 로랜텍 맥세이프 고속 무선 충전기 https://search.shopping.naver.com/gate.nhn?id=36928472618
8 이쏘코리아 맥세이프 충전기 3in1 무선충전기 <b>아이폰</b> 애플워치 에어팟 https://search.shopping.naver.com/gate.nhn?id=83583712454
9 Apple <b>아이폰</b> 13 미니 128GB [자급제] https://search.shopping.naver.com/gate.nhn?id=29030650586
10 더블디 <b>아이폰</b> 고속충전기 12W 듀얼 2.4A https://search.shopping.naver.com/gate.nhn?id=21054480157


In [48]:
import requests
import pprint

client_id = 'BTMVavws8Is7jmVpUcSL'
client_secret = 'sDgiapg86l'

naver_open_api = 'https://openapi.naver.com/v1/search/shop.json?query=갤럭시노트10'
header_params = {"X-Naver-Client-Id":client_id, "X-Naver-Client-Secret":client_secret}
res = requests.get(naver_open_api, headers=header_params)

if res.status_code == 200:
    data = res.json()
    for index, item in enumerate(data['items']):
        print (index + 1, item['title'], item['link'])
else:
    print ("Error Code:", res.status_code)



1 삼성전자 갤럭시탭10.1 SHW-M380S/K/W <b>갤럭시노트10</b>. https://search.shopping.naver.com/gate.nhn?id=15705550514
2 삼성 <b>Galaxy Note 10</b>.1 GT-N8010EAADBT WiFi only (25,7 cm (10,1 Zoll) 태블릿 (Quad-core, 1,4GHz, 16GB inter https://search.shopping.naver.com/gate.nhn?id=15816182521
3 삼성 <b>Galaxy Note 10</b>.1 GT-N8010ZWADBT WiFi only (25,7 cm (10,1 Zoll) 태블릿 (Quad-core, 1,4GHz, 16GB inter https://search.shopping.naver.com/gate.nhn?id=15815943909
4 [헤븐엠]<b>10</b> 1 <b>Galaxy NOTE</b> 32 GB (GT-N8013EAVXAR) - https://search.shopping.naver.com/gate.nhn?id=7922959881
5 삼성 <b>갤럭시 노트</b> 프로 12.2 SM-P900 SM-P901 SM-905 태블릿에 대 한 <b>10</b>FT USB 3.0 마이크로 B 데이터 동기화 충전기 케이블 코드 https://search.shopping.naver.com/gate.nhn?id=17620695866
6 C19560 TD019560 <b>갤럭시노트 10</b> 1LTE E230 태블릿 방탄필름 https://search.shopping.naver.com/gate.nhn?id=19249611936
7 삼성전자 <b>갤럭시 노트 10</b>.1 (2014년형) 16G https://search.shopping.naver.com/gate.nhn?id=16958447459
8 Samsung SAM-EP-TA<b>10</b>JWE 삼성 전자 갤럭시 S5, <b>갤럭시 노트</b> 3 용 Unive

In [73]:
import requests
import openpyxl

client_id = 'BTMVavws8Is7jmVpUcSL'
client_secret = 'sDgiapg86l'
start, num = 1, 0

excel_file = openpyxl.Workbook()
excel_sheet = excel_file.active
excel_sheet.column_dimensions['B'].width = 100
excel_sheet.column_dimensions['C'].width = 100
excel_sheet.append(['랭킹', '제목', '링크'])

for index in range(10):
    start_number = start + (index * 100)
    naver_open_api = 'https://openapi.naver.com/v1/search/shop.json?query=샤오미&display=100&start=' + str(start_number)
    header_params = {"X-Naver-Client-Id":client_id, "X-Naver-Client-Secret":client_secret}
    res = requests.get(naver_open_api, headers=header_params)
    if res.status_code == 200:
        data = res.json()
        for item in data['items']:
            num += 1
            excel_sheet.append([num, item['title'], item['link']])
    else:
        print ("Error Code:", res.status_code)

excel_file.save('IT.xlsx')
excel_file.close()

##  네이버쇼핑에서 원하는 데이터를 가져와서 엑셀화하여 보고서 작성하기


In [35]:
import requests 
import openpyxl

client_key = 'bgpVYzs7UVlAK9_jz93d'
client_secret = 'FmRMdVi_UU'

#client_key와 client_secret은 header에 담아서 전송해야한다.
header_params = {"X-Naver-Client-Id":client_key,"X-Naver-Client-Secret":client_secret}
res = requests.get(naver_open_api, headers= header_params) #header에 default내용 + 추가 데이터를 추가해서 전송

excel_file = openpyxl.Workbook()
excel_sheet = excel_file.active
excel_sheet.column_dimensions['B'].width = 100
excel_sheet.column_dimensions['C'].width = 100
excel_sheet.append(['랭킹','제목','링크'])


#검색결과를 1000개까지 가져오기위해 for문 사용
start,num = 1, 0 #tuple자료형으로 인식
for index in range(10):
    start_num = start +(index * 100)
    naver_open_api = 'https://openapi.naver.com/v1/search/shop.json?query=iphone&display=100&start=' + str(start_num)
    if res.status_code == 200:
        data = res.json()
        #pprint.pprint(data)
        for item in data['items']: #range 보다 조금더 개선된 enumerate
            num += 1
            excel_sheet.append([num ,item['title'], item['link']])
    else:
        print("error code:" , res.statud_code)

        
excel_file.save('shopping_with_iphone.xlsx')
excel_file.close()