# ch2.4 웹 페이지 스크레이핑

# meta 태그에서 인코딩 방식 추출하기

In [1]:
import sys
from urllib.request import urlopen

# urlopen() 함수는 HTTPResponse 자료형의 객체를 반환합니다.
f = urlopen('http://www.hanbit.co.kr/store/books/full_book_list.html')
# bytes 자료형의 응답 본문을 일단 변수에 저장합니다.
bytes_content = f.read()  
bytes_content

b'<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n<!--[if lte IE 8]>\r\n<script>\r\n  location.replace(\'/support/explorer_upgrade.html\');\r\n</script>\r\n<![endif]-->\r\n<meta charset="utf-8"/>\r\n<title>\xed\x95\x9c\xeb\xb9\x9b\xec\xb6\x9c\xed\x8c\x90\xeb\x84\xa4\xed\x8a\xb8\xec\x9b\x8c\xed\x81\xac</title>\r\n<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> \r\n<meta http-equiv="X-UA-Compatible" content="IE=Edge" />\r\n<meta property="og:type" content="website"/>\r\n<meta property="og:title" content="\xed\x95\x9c\xeb\xb9\x9b\xec\xb6\x9c\xed\x8c\x90\xeb\x84\xa4\xed\x8a\xb8\xec\x9b\x8c\xed\x81\xac"/>\r\n<meta property="og:description" content="\xeb\x8d\x94 \xeb\x84\x93\xec\x9d\x80 \xec\x84\xb8\xec\x83\x81, \xeb\x8d\x94 \xeb\x82\x98\xec\x9d\x80 \xeb\xaf\xb8\xeb\x9e\x98\xeb\xa5\xbc \xec\x9c\x84\xed\x95\x9c \xec\x95\x84\xec\x8b\x9c\xec\x95\x84 \xec\xb6\x9c\xed\x8c\x90 \xeb\x84\xa4\xed\x8a\xb8\xec\x9b\x8c\xed\x81\xac :: \xed\x95\x9c\xeb\xb9\x9b\xeb\xaf\

In [3]:
# charset은 HTML의 앞부분에 적혀 있는 경우가 많으므로 응답 본문의 앞부분 1024바이트를 ASCII 문자로 디코딩해 둡니다.
# ASCII 범위 이위의 문자는 U+FFFD(REPLACEMENT CHARACTER)로 변환되어 예외가 발생하지 않습니다.
scanned_text = bytes_content[:1024].decode('ascii', errors='replace')
scanned_text

'<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n<!--[if lte IE 8]>\r\n<script>\r\n  location.replace(\'/support/explorer_upgrade.html\');\r\n</script>\r\n<![endif]-->\r\n<meta charset="utf-8"/>\r\n<title>������������������������</title>\r\n<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> \r\n<meta http-equiv="X-UA-Compatible" content="IE=Edge" />\r\n<meta property="og:type" content="website"/>\r\n<meta property="og:title" content="������������������������"/>\r\n<meta property="og:description" content="��� ������ ������, ��� ������ ��������� ������ ��������� ������ ������������ :: ���������������, ������������������, ������������, ���������������, ������������"/>\r\n<meta property="og:image" content="https://www.hanbit.co.kr/images/hanbitpubnet_logo.jpg" />\r\n<meta property="og:url" content="https://www.hanbit.co.kr/store/books/full_book_list.html"/>\r\n<link rel="canonical" href="https://www.hanbit.co.kr/store/books/full_book_list.html" />\r\n<meta

In [5]:
import re

# 디코딩한 문자열에서 정규 표현식으로 charset 값을 추출합니다.
match = re.search('charset=["\']?([\w-]+)', scanned_text)
match
# ["\']?  : 홑따옴표나 쌍따옴표 0 또는 1번 반복
# ([\w-]+)  : 알파벳,숫자,언더바(_),대쉬(-) 한 번 이상 반복 그룹

<re.Match object; span=(159, 173), match='charset="utf-8'>

In [6]:
# match(charset)가 존재하는 경우
if match:
    encoding = match.group(1)
else:
    # charset이 명시돼 있지 않으면 UTF-8을 사용합니다.
    encoding = 'utf-8'

In [13]:
match.group(1)

'utf-8'

In [7]:
# 추출한 인코딩을 표준 오류에 출력합니다.
print('encoding:', encoding, file=sys.stderr)

encoding: utf-8


In [14]:
# 추출한 인코딩으로 다시 디코딩합니다.
text_html = bytes_content.decode(encoding)
# 응답 본문을 표준 출력에 출력합니다.
print(text_html)

<!DOCTYPE html>
<html lang="ko">
<head>
<!--[if lte IE 8]>
<script>
  location.replace('/support/explorer_upgrade.html');
</script>
<![endif]-->
<meta charset="utf-8"/>
<title>한빛출판네트워크</title>
<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> 
<meta http-equiv="X-UA-Compatible" content="IE=Edge" />
<meta property="og:type" content="website"/>
<meta property="og:title" content="한빛출판네트워크"/>
<meta property="og:description" content="더 넓은 세상, 더 나은 미래를 위한 아시아 출판 네트워크 :: 한빛미디어, 한빛아카데미, 한빛비즈, 한빛라이프, 한빛에듀"/>
<meta property="og:image" content="https://www.hanbit.co.kr/images/hanbitpubnet_logo.jpg" />
<meta property="og:url" content="https://www.hanbit.co.kr/store/books/full_book_list.html"/>
<link rel="canonical" href="https://www.hanbit.co.kr/store/books/full_book_list.html" />
<meta name="keywords" content="한빛미디어,한빛아카데미,한빛비즈,한빛라이프,한빛에듀,리얼타임,대관서비스,책,출판사,IT전문서,IT활용서,대학교재,경제경영,어린이/유아,실용/여행,전자책,자격증,교육,세미나,강의,ebook,정보교과서" />
<meta name="descripti

In [18]:
html_file = open('dp.html', 'w')
html_file.write(text_html)
html_file.close()

# ch2.5 스크래핑한 웹 페이지에서 데이터 추출하기

## ch2.5.1 정규 표현식으로 스크레이핑 하기

In [19]:
import re
from html import unescape

# 이전 절에서 다운로드한 파일을 열고 html이라는 변수에 저장합니다.
with open('dp.html') as f:
    html = f.read()
html

'<!DOCTYPE html>\n\n<html lang="ko">\n\n<head>\n\n<!--[if lte IE 8]>\n\n<script>\n\n  location.replace(\'/support/explorer_upgrade.html\');\n\n</script>\n\n<![endif]-->\n\n<meta charset="utf-8"/>\n\n<title>한빛출판네트워크</title>\n\n<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> \n\n<meta http-equiv="X-UA-Compatible" content="IE=Edge" />\n\n<meta property="og:type" content="website"/>\n\n<meta property="og:title" content="한빛출판네트워크"/>\n\n<meta property="og:description" content="더 넓은 세상, 더 나은 미래를 위한 아시아 출판 네트워크 :: 한빛미디어, 한빛아카데미, 한빛비즈, 한빛라이프, 한빛에듀"/>\n\n<meta property="og:image" content="https://www.hanbit.co.kr/images/hanbitpubnet_logo.jpg" />\n\n<meta property="og:url" content="https://www.hanbit.co.kr/store/books/full_book_list.html"/>\n\n<link rel="canonical" href="https://www.hanbit.co.kr/store/books/full_book_list.html" />\n\n<meta name="keywords" content="한빛미디어,한빛아카데미,한빛비즈,한빛라이프,한빛에듀,리얼타임,대관서비스,책,출판사,IT전문서,IT활용서,대학교재,경제경영,어린이/유아,실용/여행,전자책,자격증,교육,세미나,강의

In [52]:
# 크롤링가 스크레이핑 59쪽 
# re.findall()을 사용해 도서 하나에 해당하는 HTML을 추출합니다.
#re.DOTALL  옵션은 여러 줄로 이루어진 문자열에서 \n에 상관없이 검색할 때 많이 사용한다

for partial_html in re.findall('<td class="left"><a.*?</td>', html, re.DOTALL):
    # 도서의 URL을 추출합니다.
    url = re.search('<a href="(.*?)">', partial_html).group(1)
    url = 'http://www.hanbit.co.kr' + url
    # 태그를 제거해서 도서의 제목을 추출합니다.
    title = re.sub('<.*?>', '', partial_html) # <> <> 부분을 공백으로 변경 -> 타이틀 제목만 남음
    print(partial_html)
    title = unescape(title)
    print('url:', url)
    print('title:', title,'\n')

<td class="left"><a href="/store/books/look.php?p_code=B7974847632">리버스 엔지니어링 기드라 실전 가이드</a></td>
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B7974847632
title: 리버스 엔지니어링 기드라 실전 가이드 

<td class="left"><a href="/store/books/look.php?p_code=B6205887122">초등 매일 독서의 힘</a></td>
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B6205887122
title: 초등 매일 독서의 힘 

<td class="left"><a href="/store/books/look.php?p_code=B4035028569">맛있는 디자인 포토샵&일러스트레이터 CC 2022</a></td>
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B4035028569
title: 맛있는 디자인 포토샵&일러스트레이터 CC 2022 

<td class="left"><a href="/store/books/look.php?p_code=B9428200307">파워포인트 디자인 실무 강의 with 신프로</a></td>
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B9428200307
title: 파워포인트 디자인 실무 강의 with 신프로 

<td class="left"><a href="/store/books/look.php?p_code=B1765707537">1학년 한글 떼기</a></td>
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B1765707537
title: 1학년 한글 떼기 

<td class="left"><a href="/store/

## ch2.5.2 XML(RSS) 스크레이핑 후 파싱하기

In [72]:
import sys
from urllib.request import urlopen

# urlopen() 함수는 HTTPResponse 자료형의 객체를 반환합니다.
f = urlopen('https://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109')
# bytes 자료형의 응답 본문을 일단 변수에 저장합니다.
bytes_content = f.read()  

# 추출한 인코딩으로 다시 디코딩합니다.
text_xml = bytes_content.decode('utf-8')
# 응답 본문을 표준 출력에 출력합니다.
print(text_xml)

<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0">
<channel>
<title>기상청 육상 중기예보</title>
<link>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</link>
<description>기상청 날씨 웹서비스</description>
<language>ko</language>
<generator>기상청</generator>
<pubDate>2022년 01월 05일 (수)요일 06:00</pubDate>
 <item>
<author>기상청</author>
<category>육상중기예보</category>
<title>서울,경기도 육상 중기예보 - 2022년 01월 05일 (수)요일 06:00 발표</title>
<link>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</link>
<guid>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</guid>
<description>
	<header>
		<title>서울,경기도 육상중기예보</title>
		<tm>202201050600</tm>
		<wf><![CDATA[○ (기온) 8일(토)~10일(월) 아침 기온은 -8~-1도, 낮 기온은 2~6도로 어제(4일, 아침최저기온 -10~-3도, 낮최고기온 0~4도)보다 조금 높겠고,<br />          11일(화)~15일(토) 아침 기온은 -11~-2도, 낮 기온은 -2~3도로 어제와 비슷하거나 조금 낮겠습니다.      <br />○ (해상) 서해중부해상의 물결은 11일(화)은 1.0~2.5m, 그 밖의 날은 0.5~2.0m로 일겠습니다.<br />○ (주말전망) 8일(토)은 구름많겠고, 9일(일)은 흐리다가 오후에 구름많겠습니다. 아침 기온은 -8~-1도, 낮 기온은 3~6도가 되겠습니다. <br />

In [65]:
# 파일로 저장하기
xml_file = open('rss.xml', 'w',encoding = 'utf-8')
xml_file.write(text_xml)
xml_file.close()

### ElementTree로 필요한 데이터만 추출하기

In [70]:
# ElementTree 모듈을 읽어 들입니다.
from xml.etree import ElementTree
import pandas as pd
tm_ef_list = []
tmn_list = []
tmx_list = []
wf_list = []
mo_de_list = []
# parse() 함수로 파일을 읽어 들이고 ElementTree 객체를 만듭니다.
tree = ElementTree.parse('rss.xml')

# getroot() 메서드로 XML의 루트 요소를 추출합니다.
root = tree.getroot()

# findall() 메서드로 요소 목록을 추출합니다.
# 태그를 찾습니다(자세한 내용은 RSS를 열어 참고해주세요).
for item in root.findall('channel/item/description/body/location/data'):
    # find() 메서드로 요소를 찾고 text 속성으로 값을 추출합니다.
    mo_de = item.find('mode').text
    tm_ef = item.find('tmEf').text
    tmn = item.find('tmn').text
    tmx = item.find('tmx').text
    wf = item.find('wf').text
    print(mo_de,tm_ef, tmn, tmx, wf) # 출력합니다.
    mo_de_list.append(mo_de)
    tm_ef_list.append(tm_ef)
    tmn_list.append(tmn)
    tmx_list.append(tmx)
    wf_list.append(wf)
    
df = pd.DataFrame({'mo_de':mo_de,'tm_ef':tm_ef_list, 'tmn':tmn_list, 'tmx':tmx_list, 'wf':wf_list})

A02 2022-01-08 00:00 -4 4 구름많음
A02 2022-01-08 12:00 -4 4 구름많음
A02 2022-01-09 00:00 -1 4 흐림
A02 2022-01-09 12:00 -1 4 구름많음
A02 2022-01-10 00:00 -4 3 구름많음
A02 2022-01-10 12:00 -4 3 구름많음
A02 2022-01-11 00:00 -8 -1 맑음
A02 2022-01-11 12:00 -8 -1 맑음
A02 2022-01-12 00:00 -7 1 맑음
A02 2022-01-12 12:00 -7 1 맑음
A01 2022-01-13 00:00 -4 3 구름많음
A01 2022-01-14 00:00 -6 0 맑음
A01 2022-01-15 00:00 -7 0 구름많음
A02 2022-01-08 00:00 -3 5 구름많음
A02 2022-01-08 12:00 -3 5 구름많음
A02 2022-01-09 00:00 -1 3 흐림
A02 2022-01-09 12:00 -1 3 구름많음
A02 2022-01-10 00:00 -3 2 구름많음
A02 2022-01-10 12:00 -3 2 구름많음
A02 2022-01-11 00:00 -7 -2 맑음
A02 2022-01-11 12:00 -7 -2 맑음
A02 2022-01-12 00:00 -6 1 맑음
A02 2022-01-12 12:00 -6 1 맑음
A01 2022-01-13 00:00 -2 3 구름많음
A01 2022-01-14 00:00 -4 0 맑음
A01 2022-01-15 00:00 -6 0 구름많음
A02 2022-01-08 00:00 -6 5 구름많음
A02 2022-01-08 12:00 -6 5 구름많음
A02 2022-01-09 00:00 -2 4 흐림
A02 2022-01-09 12:00 -2 4 구름많음
A02 2022-01-10 00:00 -5 3 구름많음
A02 2022-01-10 12:00 -5 3 구름많음
A02 2022-01-11 00:00 -8 -1 맑음


A02 2022-01-09 12:00 -1 4 구름많음
A02 2022-01-10 00:00 -5 3 구름많음
A02 2022-01-10 12:00 -5 3 구름많음
A02 2022-01-11 00:00 -9 -2 맑음
A02 2022-01-11 12:00 -9 -2 맑음
A02 2022-01-12 00:00 -9 2 맑음
A02 2022-01-12 12:00 -9 2 맑음
A01 2022-01-13 00:00 -5 3 구름많음
A01 2022-01-14 00:00 -8 -1 맑음
A01 2022-01-15 00:00 -9 0 구름많음
A02 2022-01-08 00:00 -6 4 구름많음
A02 2022-01-08 12:00 -6 4 구름많음
A02 2022-01-09 00:00 -2 3 흐림
A02 2022-01-09 12:00 -2 3 구름많음
A02 2022-01-10 00:00 -6 2 구름많음
A02 2022-01-10 12:00 -6 2 구름많음
A02 2022-01-11 00:00 -10 -4 맑음
A02 2022-01-11 12:00 -10 -4 맑음
A02 2022-01-12 00:00 -9 0 맑음
A02 2022-01-12 12:00 -9 0 맑음
A01 2022-01-13 00:00 -5 4 구름많음
A01 2022-01-14 00:00 -8 -2 맑음
A01 2022-01-15 00:00 -10 -2 구름많음
A02 2022-01-08 00:00 -4 5 구름많음
A02 2022-01-08 12:00 -4 5 구름많음
A02 2022-01-09 00:00 0 4 흐림
A02 2022-01-09 12:00 0 4 구름많음
A02 2022-01-10 00:00 -4 2 구름많음
A02 2022-01-10 12:00 -4 2 구름많음
A02 2022-01-11 00:00 -8 -3 맑음
A02 2022-01-11 12:00 -8 -3 맑음
A02 2022-01-12 00:00 -9 1 맑음
A02 2022-01-12 12:00 -9 1 맑음

In [71]:
df

Unnamed: 0,mo_de,tm_ef,tmn,tmx,wf
0,A01,2022-01-08 00:00,-4,4,구름많음
1,A01,2022-01-08 12:00,-4,4,구름많음
2,A01,2022-01-09 00:00,-1,4,흐림
3,A01,2022-01-09 12:00,-1,4,구름많음
4,A01,2022-01-10 00:00,-4,3,구름많음
...,...,...,...,...,...
450,A01,2022-01-12 00:00,-10,1,맑음
451,A01,2022-01-12 12:00,-10,1,맑음
452,A01,2022-01-13 00:00,-5,3,구름많음
453,A01,2022-01-14 00:00,-9,-1,맑음


# ch2.6 데이터 저장하기

## ch2.6.1 CSV 파일로 저장하기

In [68]:
df.to_csv('weahter.csv', encoding='utf-8-sig')