## urllib 라이브러리로 웹페이지 추출
- urllib 라이브러리
    - URL을 다루는 모듈을 모아 놓은 패키지
    - HTTP, FTP를 사용해 데이터 다운로드 가능
    - urllib.request 모듈 : 웹사이트에 있는 데이터에 접근하는 기능 제공

In [1]:
from urllib.request import urlopen

In [2]:
f = urlopen('http://hanbit.co.kr')
type(f)
# urlopen() 함수는 HTTPResponse 자료형의 객체를 반환함.
# HTTPResponse 객체는 파일객체이므로 open() 함수로 반환되는 파일 객체로 다룸

http.client.HTTPResponse

In [3]:
f.read()
# read() 메서드로 HTTP 응답 본문을 bytes자료형으로 추출함
# HTTP 연결은 자동으로 닫히므로 따로 close() 함수를 호출하지 않아도 됨

b'<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n<!--[if lte IE 8]>\r\n<script>\r\n  location.replace(\'/support/explorer_upgrade.html\');\r\n</script>\r\n<![endif]-->\r\n<!-- Google Tag Manager -->\r\n<script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({\'gtm.start\':\r\nnew Date().getTime(),event:\'gtm.js\'});var f=d.getElementsByTagName(s)[0],\r\nj=d.createElement(s),dl=l!=\'dataLayer\'?\'&l=\'+l:\'\';j.async=true;j.src=\r\n\'https://www.googletagmanager.com/gtm.js?id=\'+i+dl;f.parentNode.insertBefore(j,f);\r\n})(window,document,\'script\',\'dataLayer\',\'GTM-W9D5PM3\');</script>\r\n<!-- End Google Tag Manager -->\r\n<meta charset="utf-8"/>\r\n<title>\xed\x95\x9c\xeb\xb9\x9b\xec\xb6\x9c\xed\x8c\x90\xeb\x84\xa4\xed\x8a\xb8\xec\x9b\x8c\xed\x81\xac</title>\r\n<link rel="shortcut icon" href="http://www.hanbit.co.kr/images/common/hanbit.ico"> \r\n<meta http-equiv="X-UA-Compatible" content="IE=Edge" />\r\n<meta property="og:type" content="website"/>\r\n<meta property="og:title" content

In [4]:
#상태코드 추출
f.status 

200

In [5]:
# HTTP 헤더 값 추출
f.getheader('Content-Type')

'text/html; charset=UTF-8'

In [6]:
f.getheader('Server')

'Apache'

## 문자코드
- HTTP 헤더에서 인코딩 방식 추출하기 : 정규표현식/HTTPResponse.info() 메서드

In [7]:
import sys
from urllib.request import urlopen

In [8]:
f = urlopen("http://www.hanbit.co.kr/store/books/full_book_list.html")

In [9]:
# HTTP 헤더를 기반으로 인코딩 방식 추출(명시되어 있지 않을 경우 utf-8)
encoding = f.info().get_content_charset(failobj="utf-8")
print('encoding:',encoding)
#print('encoding:',encoding, file=sys.stderr)

encoding: utf-8


In [10]:
# 추출된 인코딩 방식으로 디코딩
text = f.read().decode(encoding)
text

'<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n<!--[if lte IE 8]>\r\n<script>\r\n  location.replace(\'/support/explorer_upgrade.html\');\r\n</script>\r\n<![endif]-->\r\n<!-- Google Tag Manager -->\r\n<script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({\'gtm.start\':\r\nnew Date().getTime(),event:\'gtm.js\'});var f=d.getElementsByTagName(s)[0],\r\nj=d.createElement(s),dl=l!=\'dataLayer\'?\'&l=\'+l:\'\';j.async=true;j.src=\r\n\'https://www.googletagmanager.com/gtm.js?id=\'+i+dl;f.parentNode.insertBefore(j,f);\r\n})(window,document,\'script\',\'dataLayer\',\'GTM-W9D5PM3\');</script>\r\n<!-- End Google Tag Manager -->\r\n<meta charset="utf-8"/>\r\n<title>한빛출판네트워크</title>\r\n<link rel="shortcut icon" href="http://www.hanbit.co.kr/images/common/hanbit.ico"> \r\n<meta http-equiv="X-UA-Compatible" content="IE=Edge" />\r\n<meta property="og:type" content="website"/>\r\n<meta property="og:title" content="한빛출판네트워크"/>\r\n<meta property="og:description" content="출판사, IT전문서, 대학교재, 경제경영, 어린이/유아,

In [11]:
save = open('dp.html', 'w')
save.write(text)
save.close()

## meta 태그에서 인코딩 방식 추출

In [12]:
import re
import sys
from urllib.request import urlopen

In [13]:
f = urlopen("http://www.hanbit.co.kr/store/books/full_book_list.html")
bytes_content = f.read()

In [14]:
# charset은 HTML의 앞부분에 적혀 있는 경우가 많으므로
# 응답 본문의 앞부분 1024바이트를 ASCII 문자로 디코딩
scanned_text = bytes_content[:1024].decode('ascii', errors='replace')

In [15]:
# 디코딩한 문자열에서 정규표현식으로 charset 값을 추출
match = re.search('charset=["\']?([\w-]+)',scanned_text)
#charset=알파벳
match

<re.Match object; span=(585, 599), match='charset="utf-8'>

In [16]:
if match:
    encoding = match.group(1)
else :
    #charset이 명시되어 있지않으면 UTF-8
    encoding = 'utf-8'

print('encoding : ',encoding)

encoding :  utf-8


In [17]:
# 추출한 인코딩으로 다시 디코딩
text = bytes_content.decode(encoding)

In [18]:
text

'<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n<!--[if lte IE 8]>\r\n<script>\r\n  location.replace(\'/support/explorer_upgrade.html\');\r\n</script>\r\n<![endif]-->\r\n<!-- Google Tag Manager -->\r\n<script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({\'gtm.start\':\r\nnew Date().getTime(),event:\'gtm.js\'});var f=d.getElementsByTagName(s)[0],\r\nj=d.createElement(s),dl=l!=\'dataLayer\'?\'&l=\'+l:\'\';j.async=true;j.src=\r\n\'https://www.googletagmanager.com/gtm.js?id=\'+i+dl;f.parentNode.insertBefore(j,f);\r\n})(window,document,\'script\',\'dataLayer\',\'GTM-W9D5PM3\');</script>\r\n<!-- End Google Tag Manager -->\r\n<meta charset="utf-8"/>\r\n<title>한빛출판네트워크</title>\r\n<link rel="shortcut icon" href="http://www.hanbit.co.kr/images/common/hanbit.ico"> \r\n<meta http-equiv="X-UA-Compatible" content="IE=Edge" />\r\n<meta property="og:type" content="website"/>\r\n<meta property="og:title" content="한빛출판네트워크"/>\r\n<meta property="og:description" content="출판사, IT전문서, 대학교재, 경제경영, 어린이/유아,