# data scraping

- 크롤링 : google, naver에서 데이터를 가져오는 것
- 스크랩핑 : API 등을 활용하여 데이터를 가져오는 것

## 웹에서 자료를 수집하는 방법

1. API를 이용해 자료 수집
    - naver, google, kakao, 공공데이터에서 제공하는 API를 이용해 자료 수집<br>
2. Web 페이지를 직접 스크래이핑 해서 자료 수집 (페이지의 성격에 맞게 자료 수집)
    - 정적페이지 수집 : javascript 없이 수집 가능한 사이트
    - 동적페이지 수집 : javascript에 의해 콘텐프가 제어, 웹브라우저 제어를 통해 수집

### API를 이용해 자료 수집
naver, google, kakao, 공공데이터에서 제공하는 API를 이용해 자료 수집<br>
[네이버 내 애플리케이션에서 API 확인](https://developers.naver.com/apps/#/list)

-----

[파라미터(블로그)_쿼리 형식 확인](https://developers.naver.com/docs/serviceapi/search/blog/blog.md#%ED%8C%8C%EB%9D%BC%EB%AF%B8%ED%84%B0)
| 파라미터  | 타입    | 필수 여부 | 설명                                                                 |
|-----------|---------|-----------|----------------------------------------------------------------------|
| `query`   | String  | Y         | 검색어. UTF-8로 인코딩되어야 합니다.                                 |
| `display` | Integer | N         | 한 번에 표시할 검색 결과 개수 (기본값: 10, 최댓값: 100)              |
| `start`   | Integer | N         | 검색 시작 위치 (기본값: 1, 최댓값: 1000)                            |
| `sort`    | String  | N         | 검색 결과 정렬 방법<br>- `sim`: 정확도순으로 내림차순 정렬 (기본값)<br>- `date`: 날짜순으로 내림차순 정렬 |


[응답(블로그)_XML 형식 또는 JSON 형식으로 반환 확인](https://developers.naver.com/docs/serviceapi/search/blog/blog.md#%EC%9D%91%EB%8B%B5)
| 요소                          | 타입      | 설명                                                                                     |
|-------------------------------|-----------|------------------------------------------------------------------------------------------|
| `rss`                        | -         | RSS 컨테이너. RSS 리더기를 사용해 검색 결과를 확인할 수 있습니다.                        |
| `rss/channel`                | -         | 검색 결과를 포함하는 컨테이너. 하위 요소인 `title`, `link`, `description`은 RSS 정보이며, 검색 결과와 상관없습니다. |
| `rss/channel/lastBuildDate`  | dateTime  | 검색 결과를 생성한 시간                                                                  |
| `rss/channel/total`          | Integer   | 총 검색 결과 개수                                                                        |
| `rss/channel/start`          | Integer   | 검색 시작 위치                                                                          |
| `rss/channel/display`        | Integer   | 한 번에 표시할 검색 결과 개수                                                            |
| `rss/channel/item`           | -         | 개별 검색 결과. JSON 형식에서는 `items` 속성의 JSON 배열로 반환됩니다.                  |
| `rss/channel/item/title`     | String    | 블로그 포스트의 제목. 검색어와 일치하는 부분은 `<b>` 태그로 감싸져 있습니다.            |
| `rss/channel/item/link`      | String    | 블로그 포스트의 URL                                                                      |
| `rss/channel/item/description` | String  | 블로그 포스트의 내용을 요약한 패시지 정보. 검색어와 일치하는 부분은 `<b>` 태그로 감싸져 있습니다. |
| `rss/channel/item/bloggername` | String  | 블로그 포스트가 있는 블로그의 이름                                                      |
| `rss/channel/item/bloggerlink` | String  | 블로그 포스트가 있는 블로그의 주소                                                      |
| `rss/channel/item/postdate`  | dateTime  | 블로그 포스트가 작성된 날짜 |

[오류코드(블로그)_오류 코드 확인](https://developers.naver.com/docs/serviceapi/search/blog/blog.md#%EC%98%A4%EB%A5%98-%EC%BD%94%EB%93%9C)
| 오류 코드 | HTTP 상태 코드 | 오류 메시지                                   | 설명                                                                 |
|-----------|----------------|-----------------------------------------------|----------------------------------------------------------------------|
| `SE01`    | 400            | Incorrect query request (잘못된 쿼리요청입니다.) | API 요청 URL의 프로토콜, 파라미터 등에 오류가 있는지 확인합니다.     |
| `SE02`    | 400            | Invalid display value (부적절한 display 값입니다.) | display 파라미터의 값이 허용 범위(1~100)인지 확인합니다.            |
| `SE03`    | 400            | Invalid start value (부적절한 start 값입니다.)   | start 파라미터의 값이 허용 범위(1~1000)인지 확인합니다.             |
| `SE04`    | 400            | Invalid sort value (부적절한 sort 값입니다.)    | sort 파라미터의 값에 오타가 있는지 확인합니다.                      |
| `SE06`    | 400            | Malformed encoding (잘못된 형식의 인코딩입니다.) | 검색어를 UTF-8로 인코딩합니다.                                      |
| `SE05`    | 404            | Invalid search api (존재하지 않는 검색 api 입니다.) | API 요청 URL에 오타가 있는지 확인합니다.                           |
| `SE99`    | 500            | System Error (시스템 에러)                    | 서버 내부에 오류가 발생했습니다. "개발자 포럼"에 오류를 신고해 주십시오. |

- HTTP 프로토콜
    - get 방식
    - post 방식


In [2]:
Client_Id = '5URnX7kyDAZEfTrt0PbY'
Client_Secret = 'CircZsk73U'

In [6]:
import os
import sys
import urllib.request

client_id = Client_Id
client_secret = Client_Secret

# 블로그 검색 중 파이썬으로 검색한 경우만 확인
encText = urllib.parse.quote("파이썬")
print(f'파이썬 검색 : ',encText)


파이썬 검색 :  %ED%8C%8C%EC%9D%B4%EC%8D%AC


In [7]:
# 실제 서비스 서버에 접속하는 주소
URL = 'https://openapi.naver.com/v1/search/blog?query='

# 파이썬으로 검색한 경우의 url 주소 확인
url = URL + encText # JSON 결과
# url = "https://openapi.naver.com/v1/search/blog.xml?query=" + encText # XML 결과
print(url)


https://openapi.naver.com/v1/search/blog?query=%ED%8C%8C%EC%9D%B4%EC%8D%AC


In [8]:
# 데이터를 가져오고자 하는 url 지정하여 할당
request = urllib.request.Request(url)

# 네이버 API에서 요청을 인증하기 위해 client_id, client_secret 추가
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)

# 지정된 request를 HTTP 요청을 보냄
# 응답을 rescode에 할당
response = urllib.request.urlopen(request)
rescode = response.getcode()

# rescode가 200인 경우만 정상적으로 수행되고 나머지는 오류 발생
if(rescode==200):
    response_body = response.read()
    print(response_body.decode('utf-8'))
else:
    print("Error Code:" + rescode)

{
	"lastBuildDate":"Wed, 02 Apr 2025 11:08:31 +0900",
	"total":527588,
	"start":1,
	"display":10,
	"items":[
		{
			"title":"대구<b>파이썬<\/b>학원 실전 기술 익힌 곳",
			"link":"https:\/\/blog.naver.com\/xshinerx\/223787876858",
			"description":"그때 힘이 되어 준 대구<b>파이썬<\/b>학원에 대한 글을 써보려 해요! IT 위주로 학습하는 곳 단순히 구직에... 이 대구<b>파이썬<\/b>학원은 전직, 현직 강사들이 비전공자도 따라갈 수 있을 정도로 눈높이 교육을 진행해 준다고... ",
			"bloggername":"▶ 제이의 맛있는 세상 ◀",
			"bloggerlink":"blog.naver.com\/xshinerx",
			"postdate":"20250308"
		},
		{
			"title":"대전자바학원 <b>파이썬<\/b> 앱개발 공부하고 취업까지",
			"link":"https:\/\/blog.naver.com\/mamansiri\/223750243246",
			"description":"저는 <b>파이썬<\/b>부터 시작해 백엔드 개발에 필요한 다양한 과정을 배우기로 결정했어요. <b>파이썬<\/b>은 최근 많은 사람들이 주목하고 인기 있는 프로그래밍 언어로 특히 생성 AI 앱을 구축하고 싶다면 필수인 언어였고... ",
			"bloggername":"반짝반짝 너와 나",
			"bloggerlink":"blog.naver.com\/mamansiri",
			"postdate":"20250206"
		},
		{
			"title":"<b>파이썬<\/b> 자격증 시험 종류 및 취득과정",
			"link":"https:\/\/blog.naver.com\/hwani-0627\/223748981099",
			"description":"오늘은 <b>파이썬<\/b> 

## 실습_네이버 API 자료 수집

In [12]:
# 애플리케이션 -> fintech_book_search(위 URL에서 아이디, 패스워드 확인)
import os
import sys
import urllib.request
client_id = "_loifYh633NryTnmS7ZK" # 네이버 클라이언트 아이디
client_secret = "7J5zAUYkd9" # 네이버 클라이언트 패스워드

encText = urllib.parse.quote("핀테크") # 검색할 단어의 검색 결과 확인 가능
url = "https://openapi.naver.com/v1/search/blog?query=" + encText + '&start=101&display=100'# JSON 결과(기본값)
# url = "https://openapi.naver.com/v1/search/blog.xml?query=" + encText # XML 결과
request = urllib.request.Request(url)
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)
response = urllib.request.urlopen(request)
rescode = response.getcode()

if(rescode==200):
    response_body = response.read()
    print(response_body.decode('utf-8'))
else:
    print("Error Code:" + rescode)


## URL : http://로 시작하는 웹페이지 접속주소
- url : 실제 서비스 서버에 접속하는 주소
- parameter : 서비스에 요청하는 값

1. URL 주소로 서버에 url과 parameter를 보냄
2. 서버로부터 응답을 받음
3. 응답코드가 200이면 출력


-----
- https://search.shopping.naver.com/book/search?bookTabType=ALL&pageIndex=1&pageSize=40&prevQuery=%EB%84%A4%EC%9D%B4%EB%B2%84%EC%B1%85&query=%ED%8C%8C%EC%9D%B4%EC%8D%AC&sort=REL

- url : https://search.shopping.naver.com/book/search?
- parameter : bookTabType=ALL&pageIndex=1&pageSize=40&prevQuery=%EB%84%A4%EC%9D%B4%EB%B2%84%EC%B1%85&query=%ED%8C%8C%EC%9D%B4%EC%8D%AC&sort=REL

In [13]:
# 찾고자 하는 단어의 파라미터 부분 확인
encText

'%ED%8C%8C%EC%9D%B4%EC%8D%AC'

In [14]:
url = "https://openapi.naver.com/v1/search/blog?query=" + encText
url

'https://openapi.naver.com/v1/search/blog?query=%ED%8C%8C%EC%9D%B4%EC%8D%AC'

In [19]:
# utf-8로 디코딩하여 문자열로 변환
data = response_body.decode('utf-8')
# data

In [20]:
import json

# json 문자열을 딕셔너리로 변환
data = json.loads(data)
# data

In [23]:
import json

# utf-8로 디코딩하여 문자열로 변환
data = response_body.decode('utf-8')

# json 문자열을 딕셔너리로 변환
data = json.loads(data)

# 반복문으로 딕셔너리의 데이터 수집하기 위해 key 확인
print('딕셔너리 키: ', data.keys())

딕셔너리 키:  dict_keys(['lastBuildDate', 'total', 'start', 'display', 'items'])


In [25]:
def text_clean(x):
    result = x.replace('<b>','').replace('</b>','')
    return result

In [26]:
result = {}
for i in range(len(data['items'])):
    for key, value in data['items'][i].items():
        value = text_clean(value)
        result.setdefault(key, []).append(value)
# print(result)

import pandas as pd
df = pd.DataFrame(result)
df

Unnamed: 0,title,link,description,bloggername,bloggerlink,postdate
0,대구파이썬학원 실전 기술 익힌 곳,https://blog.naver.com/xshinerx/223787876858,그때 힘이 되어 준 대구파이썬학원에 대한 글을 써보려 해요! IT 위주로 학습하는 ...,▶ 제이의 맛있는 세상 ◀,blog.naver.com/xshinerx,20250308
1,대전자바학원 파이썬 앱개발 공부하고 취업까지,https://blog.naver.com/mamansiri/223750243246,저는 파이썬부터 시작해 백엔드 개발에 필요한 다양한 과정을 배우기로 결정했어요. 파...,반짝반짝 너와 나,blog.naver.com/mamansiri,20250206
2,파이썬 자격증 시험 종류 및 취득과정,https://blog.naver.com/hwani-0627/223748981099,오늘은 파이썬 자격증 시험 종류 및 취득과정에 대해서 자세히 알려드리도록 하겠습니다...,화닝의 일본어+교육 교실,blog.naver.com/hwani-0627,20250205
3,(파이썬 학습기록)역시 개발공부 바닥도 고인물 투성. 내 길은...,https://blog.naver.com/currybread0/223761299487,최근 파이썬 학습에 있어서 꽤나 큰 변화가 있었기에 이를 기록하고자 합니다. &qu...,찰나의 실행과 독서 그리고 성장,blog.naver.com/currybread0,20250215
4,파이썬 학원 AI를 개발하는 국비지원,https://blog.naver.com/newtechm/223801070808,파이썬 학원 AI를 개발하는 국비지원 최근 파이썬(Python)언어가 개발자 시장에...,법무법인 천선,blog.naver.com/newtechm,20250318
5,아나콘다 주피터 노트북 설치 파이썬 프로그래밍 준비하기,https://blog.naver.com/skdaksdptn/223675613694,거의 모든 분야에서 생성형 AI에 관한 관심이 늘어나면서 인공지능을 활용한 파이썬 ...,짜루의 이것저것 리뷰,blog.naver.com/skdaksdptn,20241128
6,파이썬자격증 시험 일정 및 공부방법,https://blog.naver.com/lunasea883/223700486618,이번 글에서는 위의 언어 중 파이썬자격증 시험 일정 및 공부방법에 대해 말씀드리려고...,JS 해피하게~★,blog.naver.com/lunasea883,20241220
7,안산코딩학원 요즘 대세는 파이썬,https://blog.naver.com/hoyaup/223787933571,안산코딩학원 요즘 대세는 파이썬 최근 파이썬(Python)이라는 컴퓨터 언어에 대한...,Smart Box - JHL,blog.naver.com/hoyaup,20250307
8,"윤가이코딩! 코딩밸리후기, 파이썬기초부터 챗GPT까지",https://blog.naver.com/sungdevilsh/223725619708,모바일앱 코딩 실습 파이썬기초와 챗GPT를 심도 있게 배우고 싶은 1인! 출퇴근 시...,쭈's Diary,blog.naver.com/sungdevilsh,20250114
9,잼코딩 파이썬 독학 - 9. 제어문 : 여러 줄 코드 짜기와 주석 처리,https://blog.naver.com/jamduino/223812080841,오늘의 포스팅은 잼코딩 파이썬 9. 제어문 : 여러 줄 코드 짜기 / 주석에 해당하...,실적을 만드는 코딩학원 잼코딩학원,blog.naver.com/jamduino,20250327
