# 인턴 교육 2주차 과제: 네이버 OPEN API를 통한 웹 크롤링
- 과제 기한: 6월 14일까지
- 제출자: 배정환 인턴

**세부과제**
1. 네이버 OPEN API 이용
    - 검색어에 대한 20개의 상품을 찾는다.
    - 중고, 렌탈은 제외한다.

2. Pandas를 이용한 데이터프레임 저장
    - 출력된 각 key들의 의미에 대해 이해한다.
    - (column: 상품id, 상품명, 제조사, 최저가, 이미지링크, 구매링크)을 가진 데이터프레임을 만든다.(변수명은 자유)
    - csv로 저장한다.

3. Python 코드로 함수 작성
    - 키워드(검색어)만 입력하면 바로 저장될 수 있도록 함수를 만든다.
        - 키워드를 입력하면 API를 이용해 데이터를 받고 이를 데이터프레임에 저장을 한뒤 자동으로 저장될 수 있게 한다.

**목표**

업무 자동화 시스템을 만들면서 OPEN API에 대한 이해와 데이터 저장에 대한 스킬을 높인다.

**팁**

1. [네이버 OPEN API에 대한 가이드](https://developers.naver.com/docs/common/openapiguide/)

2. [Pandas API reference](https://pandas.pydata.org/docs/reference/index.html)

3. [Python Documentation](https://docs.python.org/ko/3/library/urllib.html)

4. [Python json module Documentation](https://docs.python.org/3/library/json.html#)


1. API데이터를 함수를 통해 받는 코드 작성

In [49]:
import os
import urllib.parse
import urllib.request

from dotenv import load_dotenv

load_dotenv()

def searh_naver_shopping(keyword):
    
    client_id = os.getenv("NAVER_CLIENT_ID")
    client_key = os.getenv("NAVER_CLIENT_KEY")
    
    encrypt_text = urllib.parse.quote(keyword)
    
    url = "https://openapi.naver.com/v1/search/shop?query="+ encrypt_text +"&display=20&exclude=used:rental"

    req_url = urllib.request.Request(url)
    
    req_url.add_header("X-Naver-Client-Id", client_id)
    req_url.add_header("X-Naver-Client-Secret", client_key)
    
    response = urllib.request.urlopen(req_url)
    resp_code = response.getcode()

    if resp_code == 200:
        shop_output = response.read().decode("utf-8")
    else:
        shop_output = "Error" + resp_code
    
    return shop_output



In [50]:
keyword_input = searh_naver_shopping("반팔티")
print(keyword_input)
print(type(keyword_input))

{
	"lastBuildDate":"Mon, 10 Jun 2024 11:21:16 +0900",
	"total":19126815,
	"start":1,
	"display":20,
	"items":[
		{
			"title":"남여공용 스투시 베이직 로고 <b>반팔티셔츠<\/b> BLACKWHITE -",
			"link":"https:\/\/search.shopping.naver.com\/catalog\/40655140276",
			"image":"https:\/\/shopping-phinf.pstatic.net\/main_4065514\/40655140276.20240526074654.jpg",
			"lprice":"34990",
			"hprice":"",
			"mallName":"네이버",
			"productId":"40655140276",
			"productType":"1",
			"brand":"스투시",
			"maker":"",
			"category1":"패션의류",
			"category2":"남성의류",
			"category3":"티셔츠",
			"category4":""
		},
		{
			"title":"지오다노 코튼 피케 폴로 <b>반팔 티셔츠<\/b> 013502",
			"link":"https:\/\/search.shopping.naver.com\/catalog\/46139137391",
			"image":"https:\/\/shopping-phinf.pstatic.net\/main_4613913\/46139137391.20240531124510.jpg",
			"lprice":"11700",
			"hprice":"",
			"mallName":"네이버",
			"productId":"46139137391",
			"productType":"1",
			"brand":"지오다노",
			"maker":"",
			"category1":"패션의류",
			"category2":"남성의류",
			"category3"

In [51]:
import json
import pandas as pd

json_input = json.loads(keyword_input)
# print(json_input)
print(json.dumps(json_input))
# shop_review=pd.read_json(path_or_buf="", orient=json_input)
with open("naver_shopping.json", 'w', encoding="utf-8") as json_file:
    json.dump(json_input, json_file, ensure_ascii=False, sort_keys=True, indent="\t")

{"lastBuildDate": "Mon, 10 Jun 2024 11:21:16 +0900", "total": 19126815, "start": 1, "display": 20, "items": [{"title": "\ub0a8\uc5ec\uacf5\uc6a9 \uc2a4\ud22c\uc2dc \ubca0\uc774\uc9c1 \ub85c\uace0 <b>\ubc18\ud314\ud2f0\uc154\uce20</b> BLACKWHITE -", "link": "https://search.shopping.naver.com/catalog/40655140276", "image": "https://shopping-phinf.pstatic.net/main_4065514/40655140276.20240526074654.jpg", "lprice": "34990", "hprice": "", "mallName": "\ub124\uc774\ubc84", "productId": "40655140276", "productType": "1", "brand": "\uc2a4\ud22c\uc2dc", "maker": "", "category1": "\ud328\uc158\uc758\ub958", "category2": "\ub0a8\uc131\uc758\ub958", "category3": "\ud2f0\uc154\uce20", "category4": ""}, {"title": "\uc9c0\uc624\ub2e4\ub178 \ucf54\ud2bc \ud53c\ucf00 \ud3f4\ub85c <b>\ubc18\ud314 \ud2f0\uc154\uce20</b> 013502", "link": "https://search.shopping.naver.com/catalog/46139137391", "image": "https://shopping-phinf.pstatic.net/main_4613913/46139137391.20240531124510.jpg", "lprice": "11700", "hp

In [52]:
print(json.dumps(json_input))

{"lastBuildDate": "Mon, 10 Jun 2024 11:21:16 +0900", "total": 19126815, "start": 1, "display": 20, "items": [{"title": "\ub0a8\uc5ec\uacf5\uc6a9 \uc2a4\ud22c\uc2dc \ubca0\uc774\uc9c1 \ub85c\uace0 <b>\ubc18\ud314\ud2f0\uc154\uce20</b> BLACKWHITE -", "link": "https://search.shopping.naver.com/catalog/40655140276", "image": "https://shopping-phinf.pstatic.net/main_4065514/40655140276.20240526074654.jpg", "lprice": "34990", "hprice": "", "mallName": "\ub124\uc774\ubc84", "productId": "40655140276", "productType": "1", "brand": "\uc2a4\ud22c\uc2dc", "maker": "", "category1": "\ud328\uc158\uc758\ub958", "category2": "\ub0a8\uc131\uc758\ub958", "category3": "\ud2f0\uc154\uce20", "category4": ""}, {"title": "\uc9c0\uc624\ub2e4\ub178 \ucf54\ud2bc \ud53c\ucf00 \ud3f4\ub85c <b>\ubc18\ud314 \ud2f0\uc154\uce20</b> 013502", "link": "https://search.shopping.naver.com/catalog/46139137391", "image": "https://shopping-phinf.pstatic.net/main_4613913/46139137391.20240531124510.jpg", "lprice": "11700", "hp

[Pandas.read_json에 대한 설명](https://pandas.pydata.org/docs/reference/api/pandas.read_json.html)

In [53]:
import pandas as pd

In [54]:
# naver_news_shopping.json의 경로를 설정해준다.
df = pd.read_json('naver_shopping.json')
df

Unnamed: 0,display,items,lastBuildDate,start,total
0,20,"{'brand': '스투시', 'category1': '패션의류', 'categor...","Mon, 10 Jun 2024 11:21:16 +0900",1,19126815
1,20,"{'brand': '지오다노', 'category1': '패션의류', 'catego...","Mon, 10 Jun 2024 11:21:16 +0900",1,19126815
2,20,"{'brand': '프린트스타', 'category1': '패션의류', 'categ...","Mon, 10 Jun 2024 11:21:16 +0900",1,19126815
3,20,"{'brand': '', 'category1': '패션의류', 'category2'...","Mon, 10 Jun 2024 11:21:16 +0900",1,19126815
4,20,"{'brand': '라코스테', 'category1': '패션의류', 'catego...","Mon, 10 Jun 2024 11:21:16 +0900",1,19126815
5,20,"{'brand': '', 'category1': '패션의류', 'category2'...","Mon, 10 Jun 2024 11:21:16 +0900",1,19126815
6,20,"{'brand': '프린트스타', 'category1': '패션의류', 'categ...","Mon, 10 Jun 2024 11:21:16 +0900",1,19126815
7,20,"{'brand': '지프', 'category1': '패션의류', 'category...","Mon, 10 Jun 2024 11:21:16 +0900",1,19126815
8,20,"{'brand': '라코스테', 'category1': '패션의류', 'catego...","Mon, 10 Jun 2024 11:21:16 +0900",1,19126815
9,20,"{'brand': '타미힐피거', 'category1': '패션의류', 'categ...","Mon, 10 Jun 2024 11:21:16 +0900",1,19126815


- 문제 발생! item 항목에 brand category등 분류가 안되게 들어갔음.
- Parsing을 해줘야하는데 어떻게 해야하는지 감이 안잡힘...\
- `rename`을 써줘야하나 일단 columns들을 영어변수로 바꿔서 편리하게 해보자


- column: 상품id, 상품명, 제조사, 최저가, 이미지링크, 구매링크
- df.columns = ["product_id","product_name","brand_name","low_price","img_link","buy_link"]
- columns 갯수를 넘어가므로 일단 만들어두고 JSON file의 key value 부분을 columns로 쓰는 방법에 대해서 고민을 해보자.
- 1. rename에 대한 방법
- 2. set_axis에 대한 방법  [set_axis](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.set_axis.html)
- 3. pivot_table에 대한 방법 - item열에 있는 것을 columns로 바꾼다는 아이디어 [Pivot_table](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pivot_table.html#pandas.DataFrame.pivot_table)

In [55]:
# shopping_review = df["items"].pivot_table(columns="productId","title","brand","lprice","image","link")

- concat에 대해서 찾아보다가 to_frame()함수에 대해서 찾음 [concat/to_frame()](https://pandas.pydata.org/docs/reference/api/pandas.concat.html)

In [56]:
# to_frame()
item_reviews = df["items"].to_frame()

[json_normalize 문서](https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html#pandas-json-normalize)

In [57]:
# 문제 해결
# json_normalize() 함수를 써야함.
from pandas import json_normalize

shopping_info = json_normalize(json_input["items"])
shopping_info

Unnamed: 0,title,link,image,lprice,hprice,mallName,productId,productType,brand,maker,category1,category2,category3,category4
0,남여공용 스투시 베이직 로고 <b>반팔티셔츠</b> BLACKWHITE -,https://search.shopping.naver.com/catalog/4065...,https://shopping-phinf.pstatic.net/main_406551...,34990,,네이버,40655140276,1,스투시,,패션의류,남성의류,티셔츠,
1,지오다노 코튼 피케 폴로 <b>반팔 티셔츠</b> 013502,https://search.shopping.naver.com/catalog/4613...,https://shopping-phinf.pstatic.net/main_461391...,11700,,네이버,46139137391,1,지오다노,,패션의류,남성의류,티셔츠,
2,무지티 남자 <b>반팔티</b> 17수 32수 오버핏 빅사이즈,https://smartstore.naver.com/main/products/815...,https://shopping-phinf.pstatic.net/main_857014...,5900,,FLEX SHOP 플렉스샵,85701462677,2,프린트스타,프린트스타,패션의류,남성의류,티셔츠,
3,<b>반팔티</b> 무지티 남자 여름 기본 면 이너 라운드 빅사이즈 단체티,https://smartstore.naver.com/main/products/892...,https://shopping-phinf.pstatic.net/main_864724...,4890,,로파제,86472451126,2,,,패션의류,남성의류,티셔츠,
4,라코스테 남성 슬림핏 카라 <b>반팔 티셔츠</b> PH4012,https://search.shopping.naver.com/catalog/3898...,https://shopping-phinf.pstatic.net/main_389889...,43600,,네이버,38988916962,1,라코스테,라코스테,패션의류,남성의류,티셔츠,
5,기능성 <b>반팔</b> 쿨<b>티셔츠</b> 남자 무지 쿨론 헬스 냉감 쿨링 운동...,https://smartstore.naver.com/main/products/628...,https://shopping-phinf.pstatic.net/main_838251...,5500,,FLEX SHOP 플렉스샵,83825153567,2,,,패션의류,남성의류,티셔츠,
6,남자 <b>반팔티</b> 무지 티셔츠 17수 32수,https://smartstore.naver.com/main/products/707...,https://shopping-phinf.pstatic.net/main_846189...,5900,,후리찌,84618944775,2,프린트스타,프린트스타,패션의류,남성의류,티셔츠,
7,지프 남성 소로나 <b>반팔</b> 라운드 <b>티셔츠</b> 4종,https://search.shopping.naver.com/catalog/4690...,https://shopping-phinf.pstatic.net/main_469003...,32900,,네이버,46900319035,1,지프,,패션의류,남성의류,티셔츠,
8,라코스테 <b>반팔티</b> 크루넥 베이직 라운드 여름 티셔츠,https://smartstore.naver.com/main/products/955...,https://shopping-phinf.pstatic.net/main_870997...,34900,,퀵스마트 스토어,87099744126,2,라코스테,라코스테,패션의류,남성의류,티셔츠,
9,타미힐피거 커플 여름 PK <b>반팔</b> 카라티,https://search.shopping.naver.com/catalog/4718...,https://shopping-phinf.pstatic.net/main_471817...,29580,,네이버,47181793552,1,타미힐피거,,패션의류,남성의류,티셔츠,


In [58]:
# pivot_table을 이용해서 내가 원하는 항목만 추리기 -> pivot_table은 내가 원하는 데이터를 읽고 싶을 때 쓴다.
# loc를 써서 나타낸다.

shopping_data = shopping_info.loc[:, ["productId","title","brand","lprice","image","link"]]

shopping_data

Unnamed: 0,productId,title,brand,lprice,image,link
0,40655140276,남여공용 스투시 베이직 로고 <b>반팔티셔츠</b> BLACKWHITE -,스투시,34990,https://shopping-phinf.pstatic.net/main_406551...,https://search.shopping.naver.com/catalog/4065...
1,46139137391,지오다노 코튼 피케 폴로 <b>반팔 티셔츠</b> 013502,지오다노,11700,https://shopping-phinf.pstatic.net/main_461391...,https://search.shopping.naver.com/catalog/4613...
2,85701462677,무지티 남자 <b>반팔티</b> 17수 32수 오버핏 빅사이즈,프린트스타,5900,https://shopping-phinf.pstatic.net/main_857014...,https://smartstore.naver.com/main/products/815...
3,86472451126,<b>반팔티</b> 무지티 남자 여름 기본 면 이너 라운드 빅사이즈 단체티,,4890,https://shopping-phinf.pstatic.net/main_864724...,https://smartstore.naver.com/main/products/892...
4,38988916962,라코스테 남성 슬림핏 카라 <b>반팔 티셔츠</b> PH4012,라코스테,43600,https://shopping-phinf.pstatic.net/main_389889...,https://search.shopping.naver.com/catalog/3898...
5,83825153567,기능성 <b>반팔</b> 쿨<b>티셔츠</b> 남자 무지 쿨론 헬스 냉감 쿨링 운동...,,5500,https://shopping-phinf.pstatic.net/main_838251...,https://smartstore.naver.com/main/products/628...
6,84618944775,남자 <b>반팔티</b> 무지 티셔츠 17수 32수,프린트스타,5900,https://shopping-phinf.pstatic.net/main_846189...,https://smartstore.naver.com/main/products/707...
7,46900319035,지프 남성 소로나 <b>반팔</b> 라운드 <b>티셔츠</b> 4종,지프,32900,https://shopping-phinf.pstatic.net/main_469003...,https://search.shopping.naver.com/catalog/4690...
8,87099744126,라코스테 <b>반팔티</b> 크루넥 베이직 라운드 여름 티셔츠,라코스테,34900,https://shopping-phinf.pstatic.net/main_870997...,https://smartstore.naver.com/main/products/955...
9,47181793552,타미힐피거 커플 여름 PK <b>반팔</b> 카라티,타미힐피거,29580,https://shopping-phinf.pstatic.net/main_471817...,https://search.shopping.naver.com/catalog/4718...


In [59]:
shopping_data["title"] = shopping_data["title"].str.replace('<b>','')
shopping_data["title"] = shopping_data["title"].str.replace('</b>','')

In [60]:
shopping_data1 = shopping_data.set_index("productId")

shopping_data1

Unnamed: 0_level_0,title,brand,lprice,image,link
productId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
40655140276,남여공용 스투시 베이직 로고 반팔티셔츠 BLACKWHITE -,스투시,34990,https://shopping-phinf.pstatic.net/main_406551...,https://search.shopping.naver.com/catalog/4065...
46139137391,지오다노 코튼 피케 폴로 반팔 티셔츠 013502,지오다노,11700,https://shopping-phinf.pstatic.net/main_461391...,https://search.shopping.naver.com/catalog/4613...
85701462677,무지티 남자 반팔티 17수 32수 오버핏 빅사이즈,프린트스타,5900,https://shopping-phinf.pstatic.net/main_857014...,https://smartstore.naver.com/main/products/815...
86472451126,반팔티 무지티 남자 여름 기본 면 이너 라운드 빅사이즈 단체티,,4890,https://shopping-phinf.pstatic.net/main_864724...,https://smartstore.naver.com/main/products/892...
38988916962,라코스테 남성 슬림핏 카라 반팔 티셔츠 PH4012,라코스테,43600,https://shopping-phinf.pstatic.net/main_389889...,https://search.shopping.naver.com/catalog/3898...
83825153567,기능성 반팔 쿨티셔츠 남자 무지 쿨론 헬스 냉감 쿨링 운동 티셔츠,,5500,https://shopping-phinf.pstatic.net/main_838251...,https://smartstore.naver.com/main/products/628...
84618944775,남자 반팔티 무지 티셔츠 17수 32수,프린트스타,5900,https://shopping-phinf.pstatic.net/main_846189...,https://smartstore.naver.com/main/products/707...
46900319035,지프 남성 소로나 반팔 라운드 티셔츠 4종,지프,32900,https://shopping-phinf.pstatic.net/main_469003...,https://search.shopping.naver.com/catalog/4690...
87099744126,라코스테 반팔티 크루넥 베이직 라운드 여름 티셔츠,라코스테,34900,https://shopping-phinf.pstatic.net/main_870997...,https://smartstore.naver.com/main/products/955...
47181793552,타미힐피거 커플 여름 PK 반팔 카라티,타미힐피거,29580,https://shopping-phinf.pstatic.net/main_471817...,https://search.shopping.naver.com/catalog/4718...


In [61]:
# to_csv() 함수를 써서 경로를 설정한 후 csv파일 만들기
shopping_data1.to_csv("C:/Users/pps/Desktop/TIL/shopping_data.csv")

In [62]:
# shopping_data.to_csv("C:/Users/pps/Desktop/TIL/shopping_temp_data.csv")

In [63]:
# 모든 과정을 함수에 담기

import os
import urllib.parse
import urllib.request
import json
import pandas as pd

from dotenv import load_dotenv

load_dotenv()

def searh_naver_shopping(keyword, json_path, csv_path):
    
    client_id = os.getenv("NAVER_CLIENT_ID")
    client_key = os.getenv("NAVER_CLIENT_KEY")
    
    encrypt_text = urllib.parse.quote(keyword)
    
    url = "https://openapi.naver.com/v1/search/shop?query="+ encrypt_text +"&display=20&exclude=used:rental"

    req_url = urllib.request.Request(url)
    
    req_url.add_header("X-Naver-Client-Id", client_id)
    req_url.add_header("X-Naver-Client-Secret", client_key)
    
    response = urllib.request.urlopen(req_url)
    resp_code = response.getcode()

    if resp_code == 200:
        shop_output = response.read().decode("utf-8")
    else:
        shop_output = "Error" + resp_code
    
    
    json_input = json.loads(shop_output)
    with open(json_path, 'w', encoding="utf-8") as json_file:
        json.dump(json_input, json_file, ensure_ascii=False, sort_keys=True, indent="\t")
        
    shopping_info = json_normalize(json_input["items"])
    shopping_data = shopping_info.loc[:, ["productId","title","brand","lprice","image","link"]]
    # shopping_data.replace('<b>|</b>','', regex=True, inplace=True) # 정규식을 이용한 문자열 제거
    shopping_data["title"] = shopping_data["title"].str.replace('<b>','')
    shopping_data["title"] = shopping_data["title"].str.replace('</b>','')
    shopping_data1 = shopping_data.set_index("productId")
    shopping_data1.to_csv(csv_path)
    
    
searh_naver_shopping("바지","pants_shopping.json","C:/Users/pps/Desktop/TIL/pants_shopping_info.csv")
