### 웹 페이지 추출

* urllib을 이용한 웹페이지 추출

In [2]:
from urllib.request import urlopen

In [3]:
f = urlopen('http://hanbit.co.kr')  # http request 선언

In [4]:
# urlopen() 함수는 HTTPResponse 자료형의 객체를 반환
# 파일 객체이므로 open() 함수로 반환되는 파일 객체처럼 핸들링
type(f)

http.client.HTTPResponse

In [5]:
# read() 메서드로 HTTP 응답 본문(bytes 자료형)을 추출
# HTTP 연결은 자동으로 close 되므로 별도의 close() 함수를 호출
f.read()

b'<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n<!--[if lte IE 8]>\r\n<script>\r\n  location.replace(\'/support/explorer_upgrade.html\');\r\n</script>\r\n<![endif]-->\r\n<meta charset="utf-8"/>\r\n<title>\xed\x95\x9c\xeb\xb9\x9b\xec\xb6\x9c\xed\x8c\x90\xeb\x84\xa4\xed\x8a\xb8\xec\x9b\x8c\xed\x81\xac</title>\r\n<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> \r\n<meta http-equiv="X-UA-Compatible" content="IE=Edge" />\r\n<meta property="og:type" content="website"/>\r\n<meta property="og:title" content="\xed\x95\x9c\xeb\xb9\x9b\xec\xb6\x9c\xed\x8c\x90\xeb\x84\xa4\xed\x8a\xb8\xec\x9b\x8c\xed\x81\xac"/>\r\n<meta property="og:description" content="\xeb\x8d\x94 \xeb\x84\x93\xec\x9d\x80 \xec\x84\xb8\xec\x83\x81, \xeb\x8d\x94 \xeb\x82\x98\xec\x9d\x80 \xeb\xaf\xb8\xeb\x9e\x98\xeb\xa5\xbc \xec\x9c\x84\xed\x95\x9c \xec\x95\x84\xec\x8b\x9c\xec\x95\x84 \xec\xb6\x9c\xed\x8c\x90 \xeb\x84\xa4\xed\x8a\xb8\xec\x9b\x8c\xed\x81\xac :: \xed\x95\x9c\xeb\xb9\x9b\xeb\xaf\

In [6]:
f.status  # 정상적으로 응답을 받았을 때: 200, 잘못되었을 때: 404

200

In [7]:
f.getheader('Content-Type') 

'text/html; charset=UTF-8'

### HTTP 헤더에서 인코딩 방식 추출

In [9]:
import sys
from urllib.request import urlopen

In [10]:
f = urlopen('http://www.hanbit.co.kr/store/books/full_book_list.html')

In [11]:
# HTTP 헤더를 기반으로 인코딩 방식을 추출(명시돼 있지 않을 경우 utf-8을 사용)
encoding = f.info().get_content_charset(failobj="utf-8")

In [12]:
# 인코딩 방식을 표준 오류에 출력
print('encoding：', encoding)

encoding： utf-8


In [13]:
# 추출한 인코딩 방식으로 디코딩
text = f.read().decode(encoding)

In [14]:
# 웹 페이지의 내용을 표준 출력에 출력
print(text)

<!DOCTYPE html>
<html lang="ko">
<head>
<!--[if lte IE 8]>
<script>
  location.replace('/support/explorer_upgrade.html');
</script>
<![endif]-->
<meta charset="utf-8"/>
<title>한빛출판네트워크</title>
<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> 
<meta http-equiv="X-UA-Compatible" content="IE=Edge" />
<meta property="og:type" content="website"/>
<meta property="og:title" content="한빛출판네트워크"/>
<meta property="og:description" content="더 넓은 세상, 더 나은 미래를 위한 아시아 출판 네트워크 :: 한빛미디어, 한빛아카데미, 한빛비즈, 한빛라이프, 한빛에듀"/>
<meta property="og:image" content="https://www.hanbit.co.kr/images/hanbitpubnet_logo.jpg" />
<meta property="og:url" content="https://www.hanbit.co.kr/store/books/full_book_list.html"/>
<link rel="canonical" href="https://www.hanbit.co.kr/store/books/full_book_list.html" />
<meta name="keywords" content="한빛미디어,한빛아카데미,한빛비즈,한빛라이프,한빛에듀,리얼타임,대관서비스,책,출판사,IT전문서,IT활용서,대학교재,경제경영,어린이/유아,실용/여행,전자책,자격증,교육,세미나,강의,ebook,정보교과서" />
<meta name="description" content="더 넓은 세

---

In [15]:
with open('dp.html', 'w', encoding=encoding) as wf:
    wf.write(text)

---

In [16]:
import re
from html import unescape

In [17]:
with open('dp.html', encoding='utf-8') as f:
    html = f.read()

In [18]:
for partial_html in re.findall(r'<td class="left"><a.*?</td>', html, re.DOTALL):
    url = re.search(r'<a href="(.*?)">', partial_html).group(1)
    url = 'http://www.hanbit.co.kr' + url
    title = re.sub(r'<.*?>', '', partial_html)
    title = unescape(title)
    print('url:', url)
    print('title:', title)
    print('---')

url: http://www.hanbit.co.kr/store/books/look.php?p_code=B9923613168
title: 모바일 UX/UI 디자인 강의 with Adobe XD
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B9037188841
title: 방구석 심리학 실험실
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B8955111301
title: 스파크를 이용한 자연어 처리
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B6758255857
title: 클라우드 네이티브를 위한 데이터 센터 네트워크 구축
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B9737048306
title: 감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B1833400260
title: 쉽게 배우고 익히는 회계원리[객관식/학습문제 해답](4판)
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B9009516784
title: 미래조직을 위한 조직설계의 이해(4판)
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B7533828722
title: 쉽게 배우고 익히는 회계원리(4판)
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B7970422863
title: fastai와 파이토치가 만나 꽃피운 딥러닝
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code

### meta 태그에서 인코딩 방식 추출

In [19]:
import re
import sys
from urllib.request import urlopen

In [20]:
f = urlopen('http://www.hanbit.co.kr/store/books/full_book_list.html')
# bytes 자료형의 응답 본문을 일단 변수에 저장
bytes_content = f.read()  

In [21]:
# charset은 HTML의 앞부분에 적혀 있는 경우가 많으므로
# 응답 본문의 앞부분 1024바이트를 ASCII 문자로 디코딩
# ASCII 범위 이위의 문자는 U+FFFD(REPLACEMENT CHARACTER)로 변환되어 예외가 발생하지 않음
scanned_text = bytes_content[:1024].decode('ascii', errors='replace')

In [22]:
# 디코딩한 문자열에서 정규 표현식으로 charset 값을 추출
match = re.search(r'charset=["\']?([\w-]+)', scanned_text)

In [23]:
match.group(1)

'utf-8'

In [24]:
if match:
    encoding = match.group(1)
else:
    # charset이 명시돼 있지 않으면 UTF-8을 사용
    encoding = 'utf-8'

In [25]:
# 추출한 인코딩을 표준 오류에 출력
print('encoding:', encoding, file=sys.stderr)

encoding: utf-8


In [26]:
# 추출한 인코딩으로 다시 디코딩
text = bytes_content.decode(encoding)
# 응답 본문을 표준 출력에 출력
print(text)

<!DOCTYPE html>
<html lang="ko">
<head>
<!--[if lte IE 8]>
<script>
  location.replace('/support/explorer_upgrade.html');
</script>
<![endif]-->
<meta charset="utf-8"/>
<title>한빛출판네트워크</title>
<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> 
<meta http-equiv="X-UA-Compatible" content="IE=Edge" />
<meta property="og:type" content="website"/>
<meta property="og:title" content="한빛출판네트워크"/>
<meta property="og:description" content="더 넓은 세상, 더 나은 미래를 위한 아시아 출판 네트워크 :: 한빛미디어, 한빛아카데미, 한빛비즈, 한빛라이프, 한빛에듀"/>
<meta property="og:image" content="https://www.hanbit.co.kr/images/hanbitpubnet_logo.jpg" />
<meta property="og:url" content="https://www.hanbit.co.kr/store/books/full_book_list.html"/>
<link rel="canonical" href="https://www.hanbit.co.kr/store/books/full_book_list.html" />
<meta name="keywords" content="한빛미디어,한빛아카데미,한빛비즈,한빛라이프,한빛에듀,리얼타임,대관서비스,책,출판사,IT전문서,IT활용서,대학교재,경제경영,어린이/유아,실용/여행,전자책,자격증,교육,세미나,강의,ebook,정보교과서" />
<meta name="description" content="더 넓은 세