# 웹 스크레이핑

## 가. 웹 스크래핑의 개념

1) 웹 스크레이핑(web scraping)
    - 웹 사이트 상에서 원하는 부분에 위치한 정보를 컴퓨터로 하여금 자동으로 추출하여 수집하도록 하는 기술
    
2) 웹 크롤링(web crawling)
    - 자동화 봇(bot)인 웹 크롤러(web crawler)가 정해진 규칙에 따라 복수 개의 웹 페이지를 브라우징하는 작업
    
## 나. 웹 스크래핑을 위한 라이브러리
1) BeautifulSoup <br>
2) scrapy

In [1]:
from urllib.request import urlopen
# url에 접속
html = urlopen("https://google.com")
# url의 웹페이지(html)를 읽어옴
print(html.read())

b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/logos/doodles/2019/labour-day-2019-5473379443277824.5-l.png" itemprop="image"><meta content="2019 &#44540;&#47196;&#51088;&#51032;&#45216;" property="twitter:title"><meta content="2019 &#44540;&#47196;&#51088;&#51032;&#45216; &#44592;&#45392; #Google&#44592;&#45392;&#51068;&#47196;&#44256;" property="twitter:description"><meta content="2019 &#44540;&#47196;&#51088;&#51032;&#45216; &#44592;&#45392; #Google&#44592;&#45392;&#51068;&#47196;&#44256;" property="og:description"><meta content="summary_large_image" property="twitter:card"><meta content="@GoogleDoodles" property="twitter:site"><meta content="https://www.google.com/logos/doodles/2019/labour-day-2019-5473379443277824-2x.png" property="twitter:image"><meta content="https://www.google.com/logos/doodles/2019/labour-day-2019-5473379443277824-2x.png" property="og:ima

In [2]:
# 예외처리 방법
from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError

try:
    # html = urlopen("http://jaba.com")
    html = urlopen("https://java.com")
except HTTPError as e:
    print("HTTP 에러입니다.")
except URLError as e:
    print("존재하지 않는 사이트입니다.")
else:
    print(html.read())

b'\r\n\r\n\t\r\n\r\n\r\n\t\r\n\r\n\r\n\r\n\r\n\r\n\t\r\n<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">\r\n<html lang="en-US" xml:lang="en-US">\r\n<head>\r\n<meta http-equiv="content-type" content="text/html; charset=UTF-8"/>\r\n<meta name="Language" content="en-US"/>\r\n<meta name="ROBOTS" content="INDEX,FOLLOW"/>\r\n\r\n<title>java.com: Java + You</title>\r\n\r\n\t<meta name="description" content=""/>\r\n\t<meta name="keywords" content="java, downloads, software"/>\r\n<meta name="date" content="2019-04-14"/>\n \r\n\r\n\r\n<link rel="stylesheet" href="/ga/css/screen.css" type="text/css" media="screen" charset="utf-8"/>\r\n<link rel="stylesheet" href="/ga/css/print.css" type="text/css" media="print" charset="utf-8"/><meta name="verify-v1" content="3MS6DrzS1vPAj6FPVD41s0687Kbf9IhJBaj4aQpzIu0=" />\r\n<meta http-equiv="X-UA-Compatible" content="IE=7" />\r\n\t<script async="async" type="text/javascript" src=\'//consent.trustarc.com/not

In [3]:
# 이미지 다운로드 방법1
import urllib.request

# daum 사이트의 로고에서 마우스 우클릭 - 이미지 주소 복사
url = "https://t1.daumcdn.net/daumtop_chanel/op/20170315064553027.png"
savename = "./data/images/test.jpg"
# url이 가리키는 주소에 접근해서 해당 자원을 로컬 컴퓨터에 저장하는 코드
urllib.request.urlretrieve(url, savename)
print("저장되었습니다...!")
# 지정된 디렉토리에 다운로드 됨

저장되었습니다...!


In [4]:
# 이미지 다운로드 방법2
import urllib.request

url = "https://www.google.com/logos/doodles/2019/labour-day-2019-5473379443277824.5-l.png"
savename = "./data/images/test2.png"
# 다운로드
# 다운로드받은 이미지 파일을 메모리에 저장
image = urllib.request.urlopen(url).read()
# 파일로 저장
# wb : Write Binary
with open(savename, mode="wb") as f:
    # 메모리의 이미지를 파일로 저장
    f.write(image)
    print("저장되었습니다...!")

저장되었습니다...!


In [5]:
# 매개변수를 추가하여 인터넷 리소스를 요청하는 방법
import urllib.request
import urllib.parse

API = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
# url에 특수문자, 한글이 포함된 경우 URL 인코딩이 필요함
# 지역번호 : 전국 108, 서울/경기 109, 강원 105, 충북 131, 충남 133,
#        전북 146, 전남 156, 경북 143, 경남 159, 제주 184
values = {'stnId': '108'} # 전국옵션
# values = {'stnId': '108'} # 서울/경기
params = urllib.parse.urlencode(values)
# 요청 전용 URL 생성
url = API + "?" + params
print("url =", url)
# 다운로드
try:
    data = urllib.request.urlopen(url).read()
except:
    print("다운로드 실패...")
else:
    text = data.decode("utf-8")
    print(text)

url = http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=108
다운로드 실패...


In [6]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
# 데이터를 수집할 url에 접속
html = urlopen("https://stackoverflow.com")
# 웹스크레이핑 라이브러리인 BeautifulSoup 객체 생성
# parser는 html과 xml parser가 있음
bs = BeautifulSoup(html.read(), "html.parser")
print(bs.title)
print(bs.title.text)
print(bs.h1)
print(bs.title.text)

<title>Stack Overflow - Where Developers Learn, Share, &amp; Build Careers</title>
Stack Overflow - Where Developers Learn, Share, & Build Careers
<h1 class="grid--cell fl1 fs-headline1">
                    Top Questions
            </h1>
Stack Overflow - Where Developers Learn, Share, & Build Careers


In [7]:
# 라이브러리 로딩
from bs4 import BeautifulSoup

# 분석하고 싶은 HTML
html = """
<html><body>
    <h1>Hello Python</h1>
    <p>웹 페이지 분석</p>
    <p>웹 스크래핑</p>
</body></html>
"""

# HTML 분석, html.parser 분석기 사용
# html.parser : 기본 파서
# lxml 등의 외부 파서를 사용할 수 있음.
soup = BeautifulSoup(html, 'html.parser')
# 원하는 부분 추출하기
h1 = soup.html.body.h1
p1 = soup.html.body.p
# sibling 형제 노드(같은 레빌의 노드)
# previous_sibling - 같은 레벨의 이전 요소
# next_sibling - 같은 레벨의 다음 요소
# 첫번째 p 태그의 </p> 뒤의 공백문자, 그 뒤의 <p> 태그 내용이 선택됨
p2 = p1.next_sibling.next_sibling
# 요소의 글자 출력하기
print("h1 = ", h1) # 태그 자체
print("h1 = ", h1.string) # 태그의 내부 텍스트
print("h1 = ", h1.text) # 위 코드와 같음
print("p = ", p1)
print("p = ", p1.string)
print("p = ", p2)
print("p = ", p2.string)

h1 =  <h1>Hello Python</h1>
h1 =  Hello Python
h1 =  Hello Python
p =  <p>웹 페이지 분석</p>
p =  웹 페이지 분석
p =  <p>웹 스크래핑</p>
p =  웹 스크래핑


In [8]:
# 라이브러리 로딩
from bs4 import BeautifulSoup

# 분석하고 싶은 HTML
html = """
<html><body>
    <h1 id='title'>Hello Python</h1>
    <p id='body'>웹 페이지 분석</p>
    <p>웹 스크래핑</p>
    <span>데이터 수집1</span>
    <span>데이터 수집2</span>
</body></html>
"""

# HTML 분석, html.parser 분석기 사용
soup = BeautifulSoup(html, 'html.parser')
# find() 함수로 원하는 부분 추출
title = soup.find(id="title")
body = soup.find(id="body")
span = soup.find("span") # 1개만 찾음 vs find_all()

print("#title = ", title)
print("#title = ", title.string)
print("#body = ", body.string)
print("#span = ", span.string)

#title =  <h1 id="title">Hello Python</h1>
#title =  Hello Python
#body =  웹 페이지 분석
#span =  데이터 수집1


In [9]:
# 라이브러리 로딩
from bs4 import BeautifulSoup

# 분석하고 싶은 HTML
html = """
<html><body>
    <li><a href="http://naver.com">naver</a></li>
    <li><a href="http://daum.net">daum</a></li>
    <li><a href="http://nate.com">nate</a></li>
    <li><a href="http://google.com">google</a></li>
    <li><a href="http://yahoo.com">yahoo</a></li>
</body></html>
"""

# HTML 분석, html.parser 분석기 사용
soup = BeautifulSoup(html, 'html.parser')
# find_all() 메서드로 a 태그를 모두 추출
links = soup.find_all("a")
print(type(links))
print(links)

# 링크 목록 출력
for a in links:
    # a 태그의 속성 중에서 href인 값
    href = a.attrs['href']
    # 하이퍼링크 태그 내부의 텍스트
    text = a.string
    print(text, ":", href)

<class 'bs4.element.ResultSet'>
[<a href="http://naver.com">naver</a>, <a href="http://daum.net">daum</a>, <a href="http://nate.com">nate</a>, <a href="http://google.com">google</a>, <a href="http://yahoo.com">yahoo</a>]
naver : http://naver.com
daum : http://daum.net
nate : http://nate.com
google : http://google.com
yahoo : http://yahoo.com


In [10]:
try:
    # 데이터를 수집할 url에 접속
    html = urlopen("http://www.auction.co.kr/")
except TimeoutError:
    print("접속 시간이 오래걸림")
else:
    # 웹스크레이핑 라이브러리인 BeautifulSoup 객체 생성
    # HTML 분석
    soup = BeautifulSoup(html.read(), 'html.parser')
    # find_all() 함수로 a 태그를 모두 추출
    links = soup.find_all("a")
    # 링크 목록 출력
    for a in links:
        try:
            # a 태그의 속성 중에서 href인 값
            href = a.attrs['href']
            # 하이퍼링크 태그 내부의 텍스트
            text = a.string
            print(text, ":", href)
        except:
            pass

접속 시간이 오래걸림


In [11]:
# 분석 대상 HTML
html = """
<html><body>
<h1>테스트</h1>
<div>div1</div>
<div>div2</div>
<div id="main">
    <h1>도서 목록</h1>
    <ul class="items">
        <li>자바 프로그래밍 입문</li>
        <li>HTML5</li>
        <li>Python</li>
    </ul>
</div>
</body></html>
"""

# HTML 분석
soup = BeautifulSoup(html, 'html.parser')
# 필요한 부분을 CSS로 추출
# 타이틀 부분 추출
# id가 main인 div 태그의 자손 태그 h1 선택
h1 = soup.select_one("div#main > h1").string
print("h1 = ", h1)
# 목록 추출
# id가 main인 div 태그 => class가 items인 ul 태그 => li 태그들을 선택
li_list = soup.select("div#main > ul.items > li")
# 반복 처리
for li in li_list:
    print("li =", li.string)

h1 =  도서 목록
li = 자바 프로그래밍 입문
li = HTML5
li = Python


In [12]:
# 네이버 금융에서 환율 정보 가져오기
from bs4 import BeautifulSoup
import urllib.request as req
# HTML 가져오기
try:
    url = "https://finance.naver.com/marketindex/"
    res = req.urlopen(url)
except TimeoutError:
    print("타임아웃 에러...")
else:    
    # HTML 분석하기
    soup = BeautifulSoup(res, "html.parser")
    # 원하는 데이터 추출
    price = soup.select_one("div.head_info > span.value").string
    print("usd/krw = ", price)

usd/krw =  1,167.00


In [13]:
from urllib.request import urlopen

try:
    html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
except:
    print("연결이 안됨...")
else:
    bs = BeautifulSoup(html, "html.parser")
    # span 태그 중에서 class가 green인 태그들
    nameList = bs.findAll('span', {'class': 'green'})
    for name in nameList:
        print(name.get_text()) # 태그를 제외한 내용만 출력
        
    # 웹페이지의 모든 h 태그 수집
    print("h 태그 수집")
    titles = bs.find_all(['h1', 'h2', 'h3', 'h4', 'h5', 'h6'])
    print([title for title in titles])
    
    # span 태그 중에서 class가 green, red인 태그
    print("class가 green, red 태그만 고름")
    allText = bs.find_all('span', {'class':{'green', 'red'}})
    print([text.string for text in allText])
    
    # 단어 갯수 카운트
    nameList = bs.find_all(text='the prince')
    print(len(nameList))
    print(nameList)

연결이 안됨...


In [14]:
# json 탐색
import json
# {"key" : value} [] 배열

str = \
'{"amount": [{"num": 0}, {"num": 1}, {"num": 2}], \
"fruits": [{"fruit": "apple"}, {"fruit": "banana"}, {"fruit": "pear"}]}'

obj = json.loads(str)

# 변수명이 fruits인 요소들
print(obj.get("fruits"))
# 변수명이 fruits인 요소들 중에서 두번째 요소
print(obj.get("fruits")[1])
# 변수명이 amount인 요소들 중에서 두번째 요소의 변수명이 num인 값
print(obj.get("amount")[1].get("num"))
# 변수명이 fruits인 요소들 중에서 세번재 요소의 변수명이 fruit인 값
print(obj.get("fruits")[2].get("fruit"))

[{'fruit': 'apple'}, {'fruit': 'banana'}, {'fruit': 'pear'}]
{'fruit': 'banana'}
1
pear


In [15]:
# pdf 문서 읽기
# pip install pdfminer3k 설치
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
from urllib.request import urlopen

def readPDF(pdfFile):
    # pdf 리소스 관리자
    rsrcmgr = PDFResourceManager()
    # pdf 내부의 텍스트 입출력을 위한 객체
    retstr = StringIO()
    # 파라미터 객체
    laparams = LAParams()
    # pdf 내용을 텍스트로 변환하기 위한 객체
    device = TextConverter(rsrcmgr, retstr, laparams=laparms)
    # pdf 내용을 텍스트로 변환하는 작업
    process_pdf(rsrcmgr, device, pdfFile)
    device.close()
    # 리턴된 스트링
    content = retstr.getvalue()
    retstr.close()
    return content

try:
    pdfFile = urlopen(\
    "http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
except:
    print("에러 발생...")
else:    
    outputString = readPDF(pdfFile)
    print(outputString)
    pdfFile.close()
    with open("./data/pdf/result.txt", "w") as f:
        f.write(outputString)
        print("저장되었습니다.")

에러 발생...


In [16]:
# 웹페이지의 내용을 분석하여 csv 파일로 저장
# <table> 내부의 텍스트 저장
import csv
from urllib.request import urlopen
from bs4 import BeautifulSoup

try:    
    html = urlopen(\
    "http://en.wikipedia.org/wiki/Comparison_of_text_editors")
except:
    print("에러 발생...")
else:    
    bsObj = BeautifulSoup(html, "html.parser")
    # class가 wikitable인 태그들 중에서 첫번째 태그 선택
    table = bsObj.findAll("table", {"class":"wikitable"})[0]
    rows = table.findAll("tr")

    # wt : 텍스트 쓰기 모드
    csvFile = open("./data/csv/editors.csv", "wt", newline="", encoding="utf-8")

    # csv 파일 저장 객체
    writer = csv.writer(csvFile)
    try:
        for row in rows:
            csvRow = []
            # td, th 태그의 내용을 리스트에 추가
            for cell in row.findAll(['td', 'th']):
                csvRow.append(cell.get_text())
            writer.writerow(csvRow)
    finally:
        print("csv로 저장되었습니다.")
        csvFile.close()
        

에러 발생...


In [17]:
from urllib.request import urlopen
from bs4 import BeautifulSoup as bs
import re
import datetime
import random
import pymysql

conn = pymysql.connect(host='localhost', port=3306,\
user='java', password='java1234', db='pyweb', charset='utf8')
cursor = conn.cursor()
cursor.execute("USE pyweb")
cursor.execute("DELETE FROM pages")
# 랜덤 시드를 고정하면 랜덤값이 고정됨(재현성)
# 여기서는 실행할 때마다 시드값이 바뀌므로 랜덤값이 고정되지 않음
random.seed(datetime.datetime.now())

def store(title, content):
    # 따옴표 처리
    title = title.replace("'", "''") # 작은따옴표 1개를 2개로
    title = title.replace('"', '\"') # 큰 따옴표를 \"로
    content = content.replace("'", "''") # 작은따옴표 1개를 2개로
    content = content.replace('"', '\"') # 큰 따옴표를 \"로
    sql = \
    "INSERT INTO pages (title, content) VALUES ('%s', '%s')" \
    %(title, content)
    
    cursor.execute(sql)
    conn.commit()
    
# 위키피디아의 url 수집
def getLinks(url):
    html = urlopen("http://en.wikipedia.org" + url)
    obj = bs(html, "html.parser")
    # h1 태그의 내용
    title = obj.find("h1").get_text()
    # id가 mw-content-text인 div 태그 내보위 p 태그의 텍스트
    content = obj.find("div",
                      {"id": "mw-content-text"}).find("p").get_text()
    # 테이블에 저장
    store(title, content)
    
    # 링크를 리턴함(정규표현식 사용, ^시작, $끝, * 0회 이상 반복)
    return obj.find("div",
                   {"id": "bodyContent"}).findAll("a",
                    href = re.compile("^(/wiki/)((?!:).)*$"))

# 함수 호출
try:
    links = getLinks("/wiki/Kevin_bacon")
    count = 0
    while len(links) > 0:
        # url 리스트 중에서 랜덤으로 url 선택
        newArticle = \
            links[random.randint(0, len(links) - 1)].attrs["href"]
        print(newArticle)
        # 해당 문서에 포함된 새로운 링크를 가져옴
        links = getLinks(newArticle)
        count += 1
        if count >= 5: # 5건만 처리
            break
except:
    print("에러 발생")

finally:
    cursor.close()
    conn.close()
    print("완료되었습니다.")

에러 발생
완료되었습니다.


In [18]:
# 로그인이 필요한 경우

# jsp02 shop 사이트를 구동한 후 로그인 페이지 테스트

# 로그인을 위한 모듈
import requests
from bs4 import BeautifulSoup

params = {'userid': 'kim', 'passwd': '1234'}

session = requests.Session()

s = session.post("http://localhost:8080/jsp02/cart_servlet/login.do",
                params)
print("세션아이디 : ", s.cookies.get_dict())

res = session.get("http://localhost:8080/jsp02/cart_servlet/list.do")
print("res:", res)
soup = BeautifulSoup(res.text, "html.parser")
print("soup:", soup)
students = soup.select("table > tr > td > span")
print("students:", students)
for st in students:
    str = st.get_text()
    print(str)

세션아이디 :  {'JSESSIONID': 'DCE83B6D30645DA9632CD1F86E09DDEB'}
res: <Response [200]>
soup: 
<!DOCTYPE html>

<html>
<head>
<meta charset="utf-8"/>
<title>Insert title here</title>
<link href="/jsp02/include/css/bootstrap.css" rel="stylesheet"/>
<script src="http://code.jquery.com/jquery-3.3.1.min.js"></script>
<script src="/jsp02/include/js/bootstrap.js"></script>
<script>
$(function() {
	$("#btnList").click(function() {
		location.href="/jsp02/product_servlet/list.do";
	});
	
	// 장바구니 비우기 버튼 클릭
	$("#btnDelete").click(function() {
		if(confirm("장바구니를 비우시겠습니까?")) {
			location.href="/jsp02/cart_servlet/deleteAll.do";
		}
	});
});
</script>
</head>
<body>
<a href="/jsp02/product_servlet/list.do">상품목록</a> |

<div style="text-align: right;">
<a href="/jsp02/shop/login.jsp">로그인</a>	|
			<a href="/jsp02/shop/admin_login.jsp">관리자 로그인</a>
</div>
<form action="/jsp02/cart_servlet/update.do" id="form1" method="post" name="form1">
<table border="1" width="400px">
<tr>
<th>상품명</th>
<th>단가</th>
<th>수량