# 웹 크롤링과 스크래핑

웹 크롤링과 웹 스크래핑이라는 용어를 서로 바꾸어 사용하는 경향이 있고 서로 밀접하게 관련되어 있지만, 두 프로세스 사이에는 차이가 있습니다.
크롤링이 웹 페이지의 하이퍼링크를 순회하면서 웹 페이지를 다운로드하는 작업인 반면 스크레이핑은 다운로드한 웹 페이지에서 필요한 정보를 추출하는 작업

- 웹 스크래핑
    - 웹 크롤링과 달리 웹 스크래퍼는 특정 웹 사이트 또는 페이지에서 특정 정보를 검색합니다.
    - 기본적으로 웹 크롤링은 기존의 복사본을 만들고, 웹 스크래핑은 분석을 위한 특정 데이터를 추출하거나 새로운 것을 만듭니다.
    - 웹 스크래핑을 수행하기 위해서는 먼저 필요한 정보를 찾기 위해 웹 크롤링 같은 작업을 수행해야 합니다.
    - 데이터 크롤링에는 웹 페이지의 모든 키워드, 이미지 및 URL을 저장하는 것과 같은 특정 수준의 스크래핑이 필요합니다.
    - 웹 스크래핑은 주식 시장 데이터, 비즈니스 리드, 공급업체 제품 스크래핑과 같은 특정 데이터에 대한 특정 웹 사이트를 대상으로 한 것입니다.

- 웹 크롤링
    - “spider”라고 불리는 웹 크롤러는 웹 페이지의 내부 링크를 따라 인터넷을 체계적으로 검색하여 콘텐츠를 검색하는 독립 실행형 봇입니다.
    - 일반적으로 “crawler”라는 용어는 명확한 최종 목표나 목표가 없어도 사이트나 네트워크가 제공할 수 있는 것을 끝없이 탐색하면서 스스로 웹 페이지를 탐색할 수 있는 프로그램의 능력을 의미합니다.
    - 웹 크롤러는 Google, Bing 등과 같은 검색 엔진에서 URL의 콘텐츠를 추출하고, 이 페이지에서 다른 링크를 확인하고, 링크의 URL을 가져오는 데 주로 사용됩니다.
    - 예를들어 웹 크롤링은 일반적으로 Google, Yahoo, Bing 등이 어떤 종류의 정보를 검색하는 방식입니다


# 파이썬을 활용한 데이터 가공
- 문자열 자료형(인덱싱) : 시퀀스 자료형으로 인덱스가 있고 인덱스 값으로 접근이 가능함
- 파이썬에서 문자열을 쉽게 다룰 수 있도록 제공하는 내장함수 
  * find: 해당문자가 없으면 -1 반환
  * index: 해당 문자가 없으면 에러
  * strip: 데이터 가공 초기 단계에 불필요한 공백을 지울 때 사용
  * replace: 특정 문자를 원하는 내용으로 변경
- 정규표현식
  * 특정한 규칙을 가진 문자열을 표현하기 위해 사용하는 형식
  * 주로 문자열의 검색 및 치환에 활용
  * re 모듈을 제공
  * 규칙을 정의하기 위해 메타 문자를 활용
  * 정규표현식 연습 웹 사이트 : https://pythex.org


In [5]:
text = 'k-digital training 7기'
text1 = 'abc'

print(text[0])
print(text[-1])
print(text[20])
print(text1.capitalize())
print(text1.upper())
print(text.capitalize())
print(text.title())

k
기
기
Abc
ABC
K-digital training 7기
K-Digital Training 7기


In [9]:
text1 = '        k-digital training 7기       '
text2 = ';'

print(text1.strip()+text2)
print(text1.lstrip()+text2)
print(text1.rstrip()+text2)

k-digital training 7기;
k-digital training 7기       ;
        k-digital training 7기;


In [24]:
text = '<title>k-digital training 7기<title>'

print(text.replace('<title>','<div>',1))
print(text.replace('title','div'))

<div>k-digital training 7기<title>
<div>k-digital training 7기<div>


In [40]:
import re
text = '<meta name="twitter:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요">'
p = re.compile('[가-힣]+.+[^">]')
m = p.findall(text)
m


['네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요']

In [43]:
m = re.search('([가-힣]+\s*)+',text)
m.group()

'네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요'

In [57]:
text = "<head> 안녕하세요... <title>k-digital training 3기</title> 반갑습니다...</head>"

p = re.compile(r'<title>(.+)</title>')
q = p.search(text)
print(q.group(0))
print(q.group(1))


<title>k-digital training 3기</title>
k-digital training 3기


In [55]:
text = "<head> 안녕하세요... <title>k-digital training 3기</title> 반갑습니다...</head>"

a = re.search('<title>(.*)</title>',text)
print(a.group())
print(a.group(1))


<title>k-digital training 3기</title>
k-digital training 3기


#### HTML의 구조  및 태그
- 구조
 - \<!Doctype html> : HTML5 문서를 선언하는 구문
 - \<html></html> : HTML 문서의 시작과 끝
 - \<head></head> : CSS, JavaScript, meta, title 정보들을 설정
 - \<body></body> : 실제 홈페이지 화면을 나타내는 부분

- 요소 구조
 - HTML 요소는 여러 속성들을 가질 수 있으며 속성들은 해당 요소에 대한 추가 정보를 제공
 - 시작 태그\(< >)로 시작해서 종료 태그(</>)로 끝남
 - 요소 안에 다른 요소를 작성할 수 있음 
 <img src = './dataset/html요소구조.jpg' STYLE = 'width:50px;'>


#### HTML 태그
- p 태그를 이용하여 문단 작성
- h 태그를 이용하여 폰트 크기 설정
- ul(unordered list)과 ol(ordered list) 태그로 리스트 작성, 리스트 각각의 요소는 li(항목 나열) 태그로 표시  
- table 태그는 thead, tbody를 가질 수 있으며 표를 표현 : tr 행, th(가운데 정렬,굵은 글씨체),td 각 행의 컬럼
- input 태그와 button 태그 : 데이터를 넣는 폼과 페이지 조작 버튼 생성
- select # select 태그로 선택 리스트 생성
- a 태그로 다른 페이지로 이동. 상대경로(내가 있는 경로부터의 경로), 절대경로(항상 같은 url)
- img 태그로 이미지 포함 : src(이미지 붙임), alt(이미지 대체)
- span 태그로 p태그 처럼 글을 추가. span 태그는 옆으로 나열. br 태그 사용하여 p 태그처럼 사용
- div 태그는 화면 레이아웃을 잡는 역할 : 하위 태그들의 영역을 잡아줌


#### CSS 
- CSS로 웹 사이트를 꾸며주기 위해 해당 태그에 접근하는 방식을 크롤러에서도 사용.
- selector : CSS로 꾸미기 위해 특정 요소에 접근하는 것을 셀렉터라고 함.
  - html 파일을 만들었다면 각각의 태그에 다르게 css 를 설정 할 것입니다. 이 때, 어느 요소에 스타일을 적용할지 알려주는 방식이 바로 css 선택자 입니다.
- 태그를 이용하여 접근하면 태그는 전부 CSS 효과가 적용
- class를 이용하면 원하는 요소만 CSS 효과 적용할 수 있고 원하는 요소만 수집할 수 있음.
- id는 class와 다르게 id값이 고유해야 함(id는 한페이지에 하나만 존재해야 함)
- 부모 태그와 자식 태그를 나열하여 복잡한 셀렉터를 생성

CSS 선택자 이해

- https://ssungkang.tistory.com/entry/css-css-%EC%84%A0%ED%83%9D%EC%9E%90selector-%EC%9D%98-%EC%A2%85%EB%A5%98%EC%99%80-%EC%98%88%EC%8B%9C
- https://developer.mozilla.org/en-US/docs/Web/CSS/CSS_Selectors
- https://www.nextree.co.kr/p8468/


#### JavaScript
- 웹 사이트의 기능을 넣어줌. script 태그를 이용하여 작성. head or body 하단에 위치
- js를 이용하여 HTML 코드를 생성. 크롤러로 분석하기 가장 어려운 부분임
- DOM(Document Object Model)이란 HTML을 시각적으로 쉽게 표현하기 위해 만든 객체로 크롤러 만들 때 중요
- 데이터를 수집하기 위해 DOM을 이용해 데이터에 접근한 후 해당 데이터 수집
- 웹 브라우저는 HTML 코드를 가져온 후 JavaScript를 실행시킨 결과를 보여줌
- 소스 보기 페이지에 수집하고자 하는 요소가 없다면 네트워크 탭을 이용, 서버에서 데이터를 받아오는 지 확인
- 그렇지 않은 경우 셀레니움을 사용하여 해결

http://www.tcpschool.com/javascript/js_intro_basic


requests 모듈 : pip install requests 명령어로 설치, anaconda를 설치하면 기본 설치
- http는 요청과 응답으로 이루어져 있음
- 요청/응답 구조
 - 요청
      * GET : 정보를 가져오기 위해 요청
      * POST: 새로운 정보를 보내기 위해 요청
      * PUT: 수정할 정보를 보내기 위해 요청
      * DELETE: 정보를 삭제하기 위해 요청
 - 응답
      * 1XX: 요청을 받았고 작업 진행 중
      * 2XX: 사용자의 요청이 성공적으로 수행 됨
      * 3XX: 요청은 완료되었으나 리다이렉션이 필요
      * 4XX: 사용자의 요청이 잘못됨
      * 5XX: 서버에 오류가 발생함
- import requests로 모듈 호출 후 사용


In [59]:
# 서버 응답 확인 작업 : 200 정상
import requests
URL='http://naver.com'
response = requests.get(URL)
response.status_code

200

In [60]:
html_data = response.text
html_data

'\n<!doctype html>                          <html lang="ko" data-dark="false"> <head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" content="네이버

In [68]:
html_data.find('바로가기')
print(html_data[5883:5887])

바로가기


In [77]:
html_data.find('네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요')
print(html_data[365:397])

네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요


In [78]:
a = len('네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요')
print(html_data[365:365+a])

네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요


In [81]:
s='abc'
s.split('b')

['a', 'c']

In [89]:
import re
content = html_data.split('<meta property=')[1]
print(content)
content = re.search("네이버+",content)
print(content.group())

"og:title" content="네이버"> 
네이버


In [90]:
import requests
URL = 'https://search.naver.com/search.naver'
params = {'query':'빅데이터'}
response = requests.get(URL,params=params)
response.text

'<!doctype html> <html lang="ko"> <head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=2.0"> <meta property="og:title" content="빅데이터 : 네이버 통합검색"/> <meta property="og:image" content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png"> <meta property="og:description" content="\'빅데이터\'의 네이버 통합검색 결과입니다."> <meta name="description" lang="ko" content="\'빅데이터\'의 네이버 통합검색 결과입니다."> <title>빅데이터 : 네이버 통합검색</title> <link rel="shortcut icon" href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_191118_pc.ico">  <link rel="search" type="application/opensearchdescription+xml" href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" title="Naver" /><link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_220714.css"> <link rel="stylesheet" type="text/css" 

In [91]:
URL = 'https://comic.naver.com/webtoon/detail'
params = {'titleId':'785703','no':'9', 'weekday':'true'}
response = requests.get(URL,params=params)
response.text

'\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n\t\r\n\t\t\r\n\t\t\r\n\t\t\r\n\t\t\r\n\t\t\r\n\t\r\n\t<meta http-equiv="Content-type" content="text/html; charset=UTF-8">\r\n\t<title>애옹식당 :: 네이버 웹툰</title>\r\n\t\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n    \r\n    \r\n    \r\n    \r\n    \r\n        <meta property="og:title" content="애옹식당 - 8화 볼록볼록 라비올리" >\r\n        \r\n        <meta property="og:image" content="https://shared-comic.pstatic.net/thumb/webtoon/785703/9/thumbnail_600x315_84cfed15-aec7-41a1-b4b0-8ee5498bf5d5.jpg" >\r\n        <meta property="og:description" content="8화 볼록볼록 라비올리">\r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n\r\n\r\n<meta property="og:url" content="https://comic.naver.com/webtoon/detail?titleId=785703&amp;no=9&amp;weekday=true" >\r\n<meta property="og:type" content="article" >\r\n<meta property="og:article:author" content="네이버 웹툰" >\r\n<meta property="

#### 과제 0721-1
'https://www.naver.com'에서 공지사항을 출력하세요.(find, 인덱싱)


In [6]:
import requests

URL='http://naver.com'
response = requests.get(URL)
html_data = response.text
html_data

'\n<!doctype html>                          <html lang="ko" data-dark="false"> <head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" content="네이버

In [22]:
index = html_data.find('공지사항')
print(html_data[index:index+4])

공지사항


#### 과제 0721-2
'https://www.naver.com'에서 공지사항을 출력하세요.(정규표현식)


In [12]:
import requests

URL='http://naver.com'
response = requests.get(URL)
html_data = response.text
html_data

'\n<!doctype html>                          <html lang="ko" data-dark="false"> <head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" content="네이버

In [23]:
import re

p = re.compile('공지사항')
m = p.findall(html_data)
m

['공지사항']

#### 과제 0721-3
URL = 'http://naver.com' 에서 split()함수와 정규표현식을 이용하여 
['메일', '카페', '블로그', '지식iN', '쇼핑']을 출력하세요


In [20]:
import requests

URL='http://naver.com'
response = requests.get(URL)
html_data = response.text

p = re.compile('\['\w+)
m = p.search(html_data)

m.split(',')
m

SyntaxError: invalid syntax (3138821328.py, line 7)

In [None]:
URL = 'https://www.naver.com'
params = {'titleId':'785703','no':'9', 'weekday':'true'}


In [94]:
#json
response= requests.get('https://raw.githubusercontent.com/naver/naver-openapi-guide/draft/naver-openapi-swagger.json')
result = response.json()
print(type(result))
print(result)
                       

<class 'dict'>
{'swagger': '2.0', 'info': {'description': 'Naver Open API - Restful spec. You can find out more about Naver Open API at [https://developers.naver.com](https://developers.naver.com)', 'version': '1.2.0', 'title': 'Naver Open API', 'termsOfService': 'https://developers.naver.com/products/terms'}, 'host': 'openapi.naver.com', 'basePath': '/', 'tags': [{'name': 'Clova', 'description': 'Naver A.I platform and APIs', 'externalDocs': {'description': 'Find out more', 'url': 'https://developers.naver.com/products/clova/cic'}}, {'name': 'Papago', 'description': 'Naver Machine Learning Translation APIs'}, {'name': 'Naver Login', 'description': 'Login with Naver Id'}, {'name': 'Naver Services', 'description': 'Naver data trend, search, shorten url, captcha APIs'}, {'name': 'Maps', 'description': 'Naver Mpas JS, geocode, static map APIs'}], 'schemes': ['https'], 'paths': {'/v1/vision/face': {'post': {'tags': ['Clova'], 'summary': 'Clova Face Recognition (얼굴감지)', 'description': '얼굴 이

urllib 모듈이란: 파이썬의 표준 모듈로써 URL을 다루기 위한 모듈 패키지
- 설치가 필요하지 않고 import urllib로 활용
- requests 모듈과 마찬가지로 URL과 관련된 여러가지 기능들을 제공

하위모듈
- request : URL을 열고 읽는 모듈(HTTP 요청)
- error : request 모듈에서 발생하는 에러들을 포함하는 모듈
- parse : URL을 파싱하는 모듈(URL 해석 및 조작)
- robots.txt 파일을 파싱하는 모듈


In [108]:
import urllib
URL = 'https://www.naver.com'
request = urllib.request.Request(URL)
print(request)
print(request.full_url)
print(request.type)
print(request.host)

<urllib.request.Request object at 0x000002A571A007C0>
https://www.naver.com
https
www.naver.com


In [109]:
# urlopen() ; 해당 url 열기. request 객체 또는 url을 직접 넣어도 가능
response1 = urllib.request.urlopen(request)
print(response1.getheaders())

[('Server', 'NWS'), ('Date', 'Thu, 21 Jul 2022 03:22:58 GMT'), ('Content-Type', 'text/html; charset=UTF-8'), ('Transfer-Encoding', 'chunked'), ('Connection', 'close'), ('Set-Cookie', 'PM_CK_loc=16f435ae20111e81adcf36de4f939388faeaacd7ccf2bb6847a93eff29c72b72; Expires=Fri, 22 Jul 2022 03:22:58 GMT; Path=/; HttpOnly'), ('Cache-Control', 'no-cache, no-store, must-revalidate'), ('Pragma', 'no-cache'), ('P3P', 'CP="CAO DSP CURa ADMa TAIa PSAa OUR LAW STP PHY ONL UNI PUR FIN COM NAV INT DEM STA PRE"'), ('X-Frame-Options', 'DENY'), ('X-XSS-Protection', '1; mode=block'), ('Strict-Transport-Security', 'max-age=63072000; includeSubdomains'), ('Referrer-Policy', 'unsafe-url')]


In [110]:
response2 = urllib.request.urlopen(URL)
print(response2.getheaders())

[('Server', 'NWS'), ('Date', 'Thu, 21 Jul 2022 03:23:01 GMT'), ('Content-Type', 'text/html; charset=UTF-8'), ('Transfer-Encoding', 'chunked'), ('Connection', 'close'), ('Set-Cookie', 'PM_CK_loc=16f435ae20111e81adcf36de4f939388faeaacd7ccf2bb6847a93eff29c72b72; Expires=Fri, 22 Jul 2022 03:23:01 GMT; Path=/; HttpOnly'), ('Cache-Control', 'no-cache, no-store, must-revalidate'), ('Pragma', 'no-cache'), ('P3P', 'CP="CAO DSP CURa ADMa TAIa PSAa OUR LAW STP PHY ONL UNI PUR FIN COM NAV INT DEM STA PRE"'), ('X-Frame-Options', 'DENY'), ('X-XSS-Protection', '1; mode=block'), ('Strict-Transport-Security', 'max-age=63072000; includeSubdomains'), ('Referrer-Policy', 'unsafe-url')]


In [111]:
print(response1.read(50))

b'\n<!doctype html>                          <html la'


In [112]:
byte_data = response1.read(500)
text_data = byte_data.decode('utf-8')
print(text_data)

ng="ko" data-dark="false"> <head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.c


#### 과제 0721_4
사용 가능한 이미지에 대한 웹 주소를 가져와서 이미지를 저장하세요.

In [114]:

# urlib.request.urlretrieve() : 웹상의 이미지를 저장
import urllib.request
img_src='https://www.shutterstock.com/ko/category/illustrations-clip-art-sem?kw=%EC%A0%80%EC%9E%91%EA%B6%8C%20%EC%97%86%EB%8A%94%20%EC%9D%B4%EB%AF%B8%EC%A7%80&c3apidt=p67950522494&gclid=Cj0KCQjwz96WBhC8ARIsAATR250EF6VGFm2NCyXo1YzuTCH0QjkX9CQ27Keet6xQkIgo-bH_sS8s0OsaAilCEALw_wcB&gclsrc=aw.ds'
new_name = 'cute-dogs.jpg'
urllib.request.urlretrieve(img_src,new_name)

('cute-dogs.jpg', <http.client.HTTPMessage at 0x2a573371a60>)

In [119]:
new_name

'cute-dogs.jpg'

In [117]:
# 단순한 패턴을 읽을 때에는 복잡한 정규표현식 보다는 간단한 parse 모듈을 사용
# urllib.parse : URL을 6개로 분리하여 반환

import urllib
parse = urllib.parse.urlparse('https://section.blog.naver.com/Search/Post.naver?pageNo=1&rangeType=ALL&orderBy=sim&keyword=ai')
print(parse)
print(parse[0])
print(parse[1])
print(parse[2])
print(parse[3])
print(parse[4])
print(parse[5])

ParseResult(scheme='https', netloc='section.blog.naver.com', path='/Search/Post.naver', params='', query='pageNo=1&rangeType=ALL&orderBy=sim&keyword=ai', fragment='')
https
section.blog.naver.com
/Search/Post.naver

pageNo=1&rangeType=ALL&orderBy=sim&keyword=ai



In [26]:
# quote(), unquote() : 아스키코드가 아닌 퍼센트 인코딩으로 변환
# 퍼센트 인코딩은 url에 문자를 표현하는 문자 인코딩 방법(url에 한글이 섞이면 오류 발생)
import urllib

print(urllib.parse.quote('파이썬'))
print(urllib.parse.unquote('%ED%8C%8C%EC%9D%B4%EC%8D%AC'))

URL = 'https://search.naver.com/search.naver?query=%ED%8C%8C%EC%9D%B4%EC%8D%AC'
#URL = 'https://search.naver.com/search.naver?query="파이썬"'
response = urllib.request.urlopen(URL)

byte_data = response.read()
text_data = byte_data.decode('utf-8')
print(text_data)

%ED%8C%8C%EC%9D%B4%EC%8D%AC
파이썬
<!doctype html> <html lang="ko"> <head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=2.0"> <meta property="og:title" content="파이썬 : 네이버 통합검색"/> <meta property="og:image" content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png"> <meta property="og:description" content="'파이썬'의 네이버 통합검색 결과입니다."> <meta name="description" lang="ko" content="'파이썬'의 네이버 통합검색 결과입니다."> <title>파이썬 : 네이버 통합검색</title> <link rel="shortcut icon" href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_191118_pc.ico">  <link rel="search" type="application/opensearchdescription+xml" href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" title="Naver" /><link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_220714.css"> <link rel="style

In [27]:
# 홈페이지를 로컬에 파일로 저장

import urllib
request = urllib.request.Request('http://www.naver.com')
data = urllib.request.urlopen(request).read()
f = open('pc.html','wb')
f.write(data)
f.close()

In [28]:
with open('pc.html','rb') as f:
    data = f.read().decode('utf-8')
    print(data)


<!doctype html>                          <html lang="ko" data-dark="false"> <head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" content="네이버 메

In [34]:
import re
import urllib

query_list = ['파이썬','웹 크롤링','빅데이터','python']
URL = 'https://search.naver.com/search.naver?query='
for i in query_list:
    new_URL = URL + urllib.parse.quote(i)
    response_urlib = urllib.request.urlopen(new_URL)
    byte_data = response_urlib.read()
    text_data = byte_data.decode('utf-8')
    #text_data = text_data.split("검색어를 입력해 주세요")[1].split('도움말')[0]
    text_data = text_data.split("검색어를 입력해 주세요")[1].split('도움말')[1]
    text_data = re.sub('<.+?>','',text_data)
    print(i,":",text_data)

파이썬 : 을 확인해주세요. 최근 검색어 내역이 없습니다.설정이 초기화 된다면 
웹 크롤링 : 을 확인해주세요. 최근 검색어 내역이 없습니다.설정이 초기화 된다면 
빅데이터 : 을 확인해주세요. 최근 검색어 내역이 없습니다.설정이 초기화 된다면 
python : 을 확인해주세요. 최근 검색어 내역이 없습니다.설정이 초기화 된다면 
