# data scraping

- 크롤링 : google, naver에서 데이터를 가져오는 것
- 스크랩핑 : API 등을 활용하여 데이터를 가져오는 것

## 웹에서 자료를 수집하는 방법

1. API를 이용해 자료 수집
    - naver, google, kakao, 공공데이터에서 제공하는 API를 이용해 자료 수집<br>
2. Web 페이지를 직접 스크래이핑 해서 자료 수집 (페이지의 성격에 맞게 자료 수집)
    - 정적페이지 수집 : javascript 없이 수집 가능한 사이트
    - 동적페이지 수집 : javascript에 의해 콘텐프가 제어, 웹브라우저 제어를 통해 수집

### API를 이용해 자료 수집
naver, google, kakao, 공공데이터에서 제공하는 API를 이용해 자료 수집<br>
[네이버 내 애플리케이션에서 API 확인](https://developers.naver.com/apps/#/list)

-----

[파라미터(블로그)_쿼리 형식 확인](https://developers.naver.com/docs/serviceapi/search/blog/blog.md#%ED%8C%8C%EB%9D%BC%EB%AF%B8%ED%84%B0)
| 파라미터  | 타입    | 필수 여부 | 설명                                                                 |
|-----------|---------|-----------|----------------------------------------------------------------------|
| `query`   | String  | Y         | 검색어. UTF-8로 인코딩되어야 합니다.                                 |
| `display` | Integer | N         | 한 번에 표시할 검색 결과 개수 (기본값: 10, 최댓값: 100)              |
| `start`   | Integer | N         | 검색 시작 위치 (기본값: 1, 최댓값: 1000)                            |
| `sort`    | String  | N         | 검색 결과 정렬 방법<br>- `sim`: 정확도순으로 내림차순 정렬 (기본값)<br>- `date`: 날짜순으로 내림차순 정렬 |


[응답(블로그)_XML 형식 또는 JSON 형식으로 반환 확인](https://developers.naver.com/docs/serviceapi/search/blog/blog.md#%EC%9D%91%EB%8B%B5)
| 요소                          | 타입      | 설명                                                                                     |
|-------------------------------|-----------|------------------------------------------------------------------------------------------|
| `rss`                        | -         | RSS 컨테이너. RSS 리더기를 사용해 검색 결과를 확인할 수 있습니다.                        |
| `rss/channel`                | -         | 검색 결과를 포함하는 컨테이너. 하위 요소인 `title`, `link`, `description`은 RSS 정보이며, 검색 결과와 상관없습니다. |
| `rss/channel/lastBuildDate`  | dateTime  | 검색 결과를 생성한 시간                                                                  |
| `rss/channel/total`          | Integer   | 총 검색 결과 개수                                                                        |
| `rss/channel/start`          | Integer   | 검색 시작 위치                                                                          |
| `rss/channel/display`        | Integer   | 한 번에 표시할 검색 결과 개수                                                            |
| `rss/channel/item`           | -         | 개별 검색 결과. JSON 형식에서는 `items` 속성의 JSON 배열로 반환됩니다.                  |
| `rss/channel/item/title`     | String    | 블로그 포스트의 제목. 검색어와 일치하는 부분은 `<b>` 태그로 감싸져 있습니다.            |
| `rss/channel/item/link`      | String    | 블로그 포스트의 URL                                                                      |
| `rss/channel/item/description` | String  | 블로그 포스트의 내용을 요약한 패시지 정보. 검색어와 일치하는 부분은 `<b>` 태그로 감싸져 있습니다. |
| `rss/channel/item/bloggername` | String  | 블로그 포스트가 있는 블로그의 이름                                                      |
| `rss/channel/item/bloggerlink` | String  | 블로그 포스트가 있는 블로그의 주소                                                      |
| `rss/channel/item/postdate`  | dateTime  | 블로그 포스트가 작성된 날짜 |

[오류코드(블로그)_오류 코드 확인](https://developers.naver.com/docs/serviceapi/search/blog/blog.md#%EC%98%A4%EB%A5%98-%EC%BD%94%EB%93%9C)
| 오류 코드 | HTTP 상태 코드 | 오류 메시지                                   | 설명                                                                 |
|-----------|----------------|-----------------------------------------------|----------------------------------------------------------------------|
| `SE01`    | 400            | Incorrect query request (잘못된 쿼리요청입니다.) | API 요청 URL의 프로토콜, 파라미터 등에 오류가 있는지 확인합니다.     |
| `SE02`    | 400            | Invalid display value (부적절한 display 값입니다.) | display 파라미터의 값이 허용 범위(1~100)인지 확인합니다.            |
| `SE03`    | 400            | Invalid start value (부적절한 start 값입니다.)   | start 파라미터의 값이 허용 범위(1~1000)인지 확인합니다.             |
| `SE04`    | 400            | Invalid sort value (부적절한 sort 값입니다.)    | sort 파라미터의 값에 오타가 있는지 확인합니다.                      |
| `SE06`    | 400            | Malformed encoding (잘못된 형식의 인코딩입니다.) | 검색어를 UTF-8로 인코딩합니다.                                      |
| `SE05`    | 404            | Invalid search api (존재하지 않는 검색 api 입니다.) | API 요청 URL에 오타가 있는지 확인합니다.                           |
| `SE99`    | 500            | System Error (시스템 에러)                    | 서버 내부에 오류가 발생했습니다. "개발자 포럼"에 오류를 신고해 주십시오. |

- HTTP 프로토콜
    - get 방식
    - post 방식


In [52]:
# 애플리케이션 -> fintech_book_search(위 URL에서 아이디, 패스워드 확인)
import os
import sys
import urllib.request
client_id = "_loifYh633NryTnmS7ZK" # 네이버 클라이언트 아이디
client_secret = "7J5zAUYkd9" # 네이버 클라이언트 패스워드

encText = urllib.parse.quote("핀테크") # 검색할 단어의 검색 결과 확인 가능
url = "https://openapi.naver.com/v1/search/blog?query=" + encText + '&start=101&display=100'# JSON 결과(기본값)
# url = "https://openapi.naver.com/v1/search/blog.xml?query=" + encText # XML 결과
request = urllib.request.Request(url)
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)
response = urllib.request.urlopen(request)
rescode = response.getcode()

if(rescode==200):
    response_body = response.read()
    print(response_body.decode('utf-8'))
else:
    print("Error Code:" + rescode)


{
	"lastBuildDate":"Mon, 31 Mar 2025 14:04:52 +0900",
	"total":456108,
	"start":101,
	"display":100,
	"items":[
		{
			"title":"<b>핀테크<\/b> 기술이 이끄는 간편한 세상",
			"link":"https:\/\/blog.naver.com\/jjsbmh2\/223795518211",
			"description":"<b>핀테크<\/b> 기술이 이끄는 간편한 세상 스마트폰 하나면 모든 결제와 송금이 가능한 시대다. 과거 금융... 몇 년 사이 금융(Finance)에 정보기술(Technology)을 결합한 <b>핀테크<\/b>(Fintech)가 급성장하며 이러한 변화가... ",
			"bloggername":"광클하는 빌런",
			"bloggerlink":"blog.naver.com\/jjsbmh2",
			"postdate":"20250314"
		},
		{
			"title":"녹색 금융과 기술의 만남 '그린 <b>핀테크<\/b>', 제대로 정착하려면?",
			"link":"https:\/\/blog.naver.com\/wisdot_official\/223803754821",
			"description":"자리잡으면서 '그린<b>핀테크<\/b>'가 주목을 받고 있다. 하지만 글로벌 투자흐름과는 달리 국내에서는 아직... 20일 금융업계에 따르면 그린<b>핀테크<\/b>란 디지털 금융 서비스를 통해 환경 보호, 탄소 저감, 그리고 사회적... ",
			"bloggername":"위즈경제",
			"bloggerlink":"blog.naver.com\/wisdot_official",
			"postdate":"20250320"
		},
		{
			"title":"EBS 입트영 해외여행을 편리하게 해 주는 <b>핀테크<\/b> 기술",
			"link":"https:\/\/blog.naver.com\/jjang03\/223680514029",
			

## URL : http://로 시작하는 웹페이지 접속주소
- url : 실제 서비스 서버에 접속하는 주소
- parameter : 서비스에 요청하는 값

1. URL 주소로 서버에 url과 parameter를 보냄
2. 서버로부터 응답을 받음
3. 응답코드가 200이면 출력


-----
- https://search.shopping.naver.com/book/search?bookTabType=ALL&pageIndex=1&pageSize=40&prevQuery=%EB%84%A4%EC%9D%B4%EB%B2%84%EC%B1%85&query=%ED%8C%8C%EC%9D%B4%EC%8D%AC&sort=REL

- url : https://search.shopping.naver.com/book/search?
- parameter : bookTabType=ALL&pageIndex=1&pageSize=40&prevQuery=%EB%84%A4%EC%9D%B4%EB%B2%84%EC%B1%85&query=%ED%8C%8C%EC%9D%B4%EC%8D%AC&sort=REL

In [53]:
# 찾고자 하는 단어의 파라미터 부분 확인
encText

'%ED%95%80%ED%85%8C%ED%81%AC'

In [54]:
url = "https://openapi.naver.com/v1/search/blog?query=" + encText
url

'https://openapi.naver.com/v1/search/blog?query=%ED%95%80%ED%85%8C%ED%81%AC'

In [71]:
data = response_body.decode('utf-8')
# data

In [72]:
import json
data = json.loads(data)
data

{'lastBuildDate': 'Mon, 31 Mar 2025 14:04:52 +0900',
 'total': 456108,
 'start': 101,
 'display': 100,
 'items': [{'title': '<b>핀테크</b> 기술이 이끄는 간편한 세상',
   'link': 'https://blog.naver.com/jjsbmh2/223795518211',
   'description': '<b>핀테크</b> 기술이 이끄는 간편한 세상 스마트폰 하나면 모든 결제와 송금이 가능한 시대다. 과거 금융... 몇 년 사이 금융(Finance)에 정보기술(Technology)을 결합한 <b>핀테크</b>(Fintech)가 급성장하며 이러한 변화가... ',
   'bloggername': '광클하는 빌런',
   'bloggerlink': 'blog.naver.com/jjsbmh2',
   'postdate': '20250314'},
  {'title': "녹색 금융과 기술의 만남 '그린 <b>핀테크</b>', 제대로 정착하려면?",
   'link': 'https://blog.naver.com/wisdot_official/223803754821',
   'description': "자리잡으면서 '그린<b>핀테크</b>'가 주목을 받고 있다. 하지만 글로벌 투자흐름과는 달리 국내에서는 아직... 20일 금융업계에 따르면 그린<b>핀테크</b>란 디지털 금융 서비스를 통해 환경 보호, 탄소 저감, 그리고 사회적... ",
   'bloggername': '위즈경제',
   'bloggerlink': 'blog.naver.com/wisdot_official',
   'postdate': '20250320'},
  {'title': 'EBS 입트영 해외여행을 편리하게 해 주는 <b>핀테크</b> 기술',
   'link': 'https://blog.naver.com/jjang03/223680514029',
   'description': '2024 11월 

In [64]:
data.keys()

dict_keys(['lastBuildDate', 'total', 'start', 'display', 'items'])

In [65]:
def text_clean(x):
    result = x.replace('<b>','').replace('</b>','')
    return result

In [73]:
result = {}
for i in range(len(data['items'])):
    for key, value in data['items'][i].items():
        value = text_clean(value)
        result.setdefault(key, []).append(value)
# print(result)

import pandas as pd
df = pd.DataFrame(result)
df

Unnamed: 0,title,link,description,bloggername,bloggerlink,postdate
0,핀테크 기술이 이끄는 간편한 세상,https://blog.naver.com/jjsbmh2/223795518211,핀테크 기술이 이끄는 간편한 세상 스마트폰 하나면 모든 결제와 송금이 가능한 시대다...,광클하는 빌런,blog.naver.com/jjsbmh2,20250314
1,"녹색 금융과 기술의 만남 '그린 핀테크', 제대로 정착하려면?",https://blog.naver.com/wisdot_official/2238037...,자리잡으면서 '그린핀테크'가 주목을 받고 있다. 하지만 글로벌 투자흐름과는 달리 국...,위즈경제,blog.naver.com/wisdot_official,20250320
2,EBS 입트영 해외여행을 편리하게 해 주는 핀테크 기술,https://blog.naver.com/jjang03/223680514029,2024 11월 27일 EBS 입트영 사연은 핀테크 기술을 이용하여 환전등을 할 필...,베티의 매일영어 쉬운영어,blog.naver.com/jjang03,20241203
3,"센트비, 2024 싱가포르 핀테크 페스티벌에서 혁신을 선보이다!",https://blog.naver.com/sentbecorp/223662020356,센트비가 지난 11월 6일부터 8일까지 열린 2024 싱가포르 핀테크 페스티벌(Si...,"글로벌 핀테크 솔루션, 센트비",blog.naver.com/sentbecorp,20241115
4,"BNK금융그룹, 핀테크 랩 ‘Storage B’ 2기 참여기업 모집",https://blog.naver.com/bnkfinancialgroup/22363...,BNK금융그룹이 우수한 기술력과 성장성을 갖춘 스타트업을 지원하기 위해 운영 중인 ...,BNK금융그룹 공식 블로그,blog.naver.com/bnkfinancialgroup,20241025
...,...,...,...,...,...,...
95,한국핀테크지원센터 제13기 대학생 기자단 '핀플루언서' 모집,https://blog.naver.com/omoggy/223796807220,한국핀테크지원센터에서 제13기 대학생 기자단 '핀플루언서'를 모집합니다! 디지털 금...,지혜로운 백수생활,blog.naver.com/omoggy,20250316
96,[기자단 뉴스] 새로운 핀테크를 제안합니다!,https://blog.naver.com/koreafintech/223514867893,새로운 핀테크를 제안합니다! 12기 대학생 기자단 이유진 아침에 일어나 스마트폰으로...,한국핀테크지원센터,blog.naver.com/koreafintech,20240716
97,핀테크 이용자의 행동 변화 추적: 새로운 경제 트렌드,https://blog.naver.com/xfjfca6747w7/223811240739,오늘은 핀테크(FinTech) 이용자의 행동 변화를 분석하고 이에 따른 새로운 경제...,서비스가득한꿈,blog.naver.com/xfjfca6747w7,20250327
98,핀테크에서의 고객 경험 최적화 전략,https://blog.naver.com/jpglvym916d9/223807522226,오늘은 핀테크 산업에서 고객 경험을 최적화하는 다양한 전략에 대해 알아보겠습니다. ...,그림 같은 아침,blog.naver.com/jpglvym916d9,20250324
