## 웹 크롤링 기초
### BeautifulSoup 이용

In [None]:
#!pip install bs4

### 1. HTML 태그를 이용한 웹 스크래핑

In [1]:
from bs4 import BeautifulSoup

# 분석하고 싶은 HTML 
html = """
<html>
    <body>
      <h1>웹 크롤링이란?</h1>
      <p>웹 페이지를 분석하는 것</p>
      <p>원하는 부분을 추출하는 것</p>
    </body>
</html>
"""
# HTML 분석하기 
soup = BeautifulSoup(html, 'html.parser')
soup

# # 원하는 부분 추출하기 
# h1 = soup.html.body.h1
# p1 = soup.html.body.p
# p2 = p1.next_sibling.next_sibling

# # 요소의 글자 출력하기 
# print("h   = " + h1.string)
# print("p1  = " + p1.string)
# print("p2  = " + p2.string)


<html>
<body>
<h1>웹 크롤링이란?</h1>
<p>웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body>
</html>

### 2. 여러 개의 요소 추출하기 : find_all() 메서드

In [3]:
from bs4 import BeautifulSoup 
html = """
<html>
    <body>
      <ul>
        <li><a href="http://www.naver.com">naver</a></li>
        <li><a href="http://www.daum.net">daum</a></li>
        <li><a href="http://www.goole.com">google</a></li>
      </ul>
    </body>
</html>
"""
# HTML 분석하기 
soup = BeautifulSoup(html, 'html.parser')

# find_all() 메서드로 추출하기 
links = soup.find_all("a")
print(links)

# 링크 목록 출력하기 
for a in links:
    href = a.attrs['href']
    text = a.string
    print(text, ":", href)

[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>, <a href="http://www.goole.com">google</a>]
naver : http://www.naver.com
daum : http://www.daum.net
google : http://www.goole.com


### 3. CSS 선택자 사용하기
- 1) soup.select("선택자") : CSS 선택자로 요소 여러 개를 리스트로 추출
- 2) soup.select_one("선택자") : CSS 선택자로소 요소 하나를 추출

In [4]:
from bs4 import BeautifulSoup 
# 분석 대상 HTML 
html = """
<html><body>
    <div id="subject">
      <h1>파이썬</h1>
      <ul class="course">
        <li>파이썬 기초</li>
        <li>데이타 분석</li>
        <li>머신 러닝</li>
      </ul>
    </div>
</body> </html>
"""
# HTML 분석하기 
soup = BeautifulSoup(html, 'html.parser')

# 필요한 부분을 CSS 쿼리로 추출하기
# i) 타이틀 부분 추출하기 
h1 = soup.select_one("div#subject > h1").string
print("h1 :", h1)

# ii) 목록 부분 추출하기 
li_list = soup.select("div#subject > ul.course > li")

for li in li_list:
    print("li : ", li.string)

h1 : 파이썬
li :  파이썬 기초
li :  데이타 분석
li :  머신 러닝


### 4. url.request 모듈과 BeautifulSoup 조합하기  

In [5]:
from bs4 import BeautifulSoup
import urllib.request as request

# 기상청 RSS
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp" 

# urlopen()으로 데이터 가져오기 
res = request.urlopen(url)

# BeautifulSoup으로 분석하기 
soup = BeautifulSoup(res, "html.parser")
# print(soup)

# 원하는 데이터 추출하기 
title = soup.find("title").string
wf = soup.find("wf").string
print(title)
print(wf.replace("<br />", ""))

기상청 육상 중기예보
○ (강수) 16일(화) 오전은 중부지방(강원영동 제외)과 전라권에 비가 오겠습니다. 18일(목)은 제주도에 비가 오겠습니다.○ (기온) 이번 예보기간의 아침 기온은 -1~12도로 오늘(11일, 0~7도)과 비슷하거나 조금 높겠으나, 낮 기온은 10~19도로 오늘(11일, 13~21도)과 비슷하거나 조금 낮겠습니다.          한편, 낮 기온은 전국 대부분 지역에서 15도 이상으로 올라 포근하겠으나, 내륙을 중심으로 낮과 밤의 기온차가 크겠으니, 환절기 건강관리에 유의하기 바랍니다.○ (해상) 16일(화)은 동해중부해상에서 바람이 매우 강하게 불겠고, 물결이 2.0~4.0m로 매우 높게 일겠습니다.○ (주말전망) 13일(토)과 14일(일) 중부지방은 대체로 흐리고, 남부지방은 대체로 맑겠으나, 강원영동은 13일(토) 새벽까지 비 또는 눈이 오는 곳이 있겠습니다.               아침 기온은 0~8도, 낮 기온은 9~17도가 되겠습니다.


### [실습 과제]

### 1. CSS 선택자와 find 메서드를 이용하여 아보카도 추출하기

In [6]:
html = """
<html>
<body>
<div id="main-goods" role="page">
  <h1>과일과 야채</h1>
  <ul id="fr-list">
    <li class="red green" data-lo="ko">사과</li>
    <li class="purple" data-lo="us">포도</li>
    <li class="yellow" data-lo="us">레몬</li>
    <li class="yellow" data-lo="ko">오렌지</li>
  </ul>
  <ul id="ve-list">
    <li class="white green" data-lo="ko">무</li>
    <li class="red green" data-lo="us">파프리카</li>
    <li class="black" data-lo="ko">가지</li>
    <li class="black" data-lo="us">아보카도</li>
    <li class="white" data-lo="cn">연근</li>
  </ul>
</div>
<body>
</html>
"""

In [7]:
from bs4 import BeautifulSoup 

soup = BeautifulSoup(html, "html.parser")

# (1) CSS 선택자로 추출하기
#ve-list > li:nth-child(4)
print(soup.select("#ve-list > li")[3].string)   
print(soup.select("#ve-list > li.black")[1].string) 

# # (2) find 메서드로 추출하기 
cond = {"data-lo":"us", "class":"black"}
print(soup.find("li", cond).string)

# # (3) find 메서드를 연속적으로 사용하기 
print(soup.find(id="ve-list").find("li", cond).string)

아보카도
아보카도
아보카도
아보카도


### 2. 정규 표현식으로 href에서 https인 것 추출하기 

#### 정규표현식

In [8]:
import re

re.findall('아.?지', '아버지가 아버지께서 아버지와 아버지는')

['아버지', '아버지', '아버지', '아버지']

In [10]:
re.findall('[a-z][0-9]{2,}@','test123@domain.com')

['t123@']

In [11]:
re.findall(r'([a-z][a-z0-9]{2,})@(\w{3,}([.][a-z]{2,})+)','test@domain.co.kr')

[('test', 'domain.co.kr', '.kr')]

In [12]:
re.findall(r'([.][a-z]{2,})+?','.co.kr')

['.co', '.kr']

In [13]:
re.findall(r'([a-z][a-z0-9]{2,})@(\w{3,}([.][a-z]{2,})+)','test@domain.co.kr')

[('test', 'domain.co.kr', '.kr')]

#### 정규 표현식 연습 사이트 - https://regexr.com/

### 3. 정규 표현식으로 href에서 https인 것 추출하기 

In [9]:
from bs4 import BeautifulSoup 
import re                       # 정규 표현식 모듈

html = """
<ul>
  <li><a href="test1.com">test1</li>
  <li><a href="https://example.com/test2">test2</li>
  <li><a href="https://example.com/test3">test3</li>
  <li><a href="http://example.com/test4">test4</li>
</ul>
"""

soup = BeautifulSoup(html, "html.parser")

# 정규 표현식으로 href에서 https인 것 추출하기 
li = soup.find_all(href=re.compile(r"^https://"))
for e in li: 
    print(e.attrs['href'])

https://example.com/test2
https://example.com/test3


### 4. 위키에 있는 윤동주 작가의 작품 목록 가져오기 

In [10]:
from bs4 import BeautifulSoup 
import urllib.request as request

# 위키 윤동주 작가 페이지 
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

a_list = soup.select("#mw-content-text > div > ul > li > ul > li")

for i, a in enumerate(a_list, start=1):
    name = a.string
    print(i, ":", name)

1 : 서시
2 : 자화상
3 : 소년
4 : 눈 오는 지도
5 : 돌아와 보는 밤
6 : 병원
7 : 새로운 길
8 : 간판 없는 거리
9 : 태초의 아침
10 : 또 태초의 아침
11 : 새벽이 올 때까지
12 : 무서운 시간
13 : 십자가
14 : 바람이 불어
15 : 슬픈 족속
16 : 눈감고 간다
17 : 또 다른 고향
18 : 길
19 : 별 헤는 밤


### 웹에서 이미지 가져오기

In [11]:
# 웹에서 이미지 가져오기 - 바이너리 데이타 
from urllib import request

target = request.urlopen("https://img1.daumcdn.net/thumb/R800x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FTVjps%2FbtqIs8OTe9a%2FQK5RLftK1Sof1EfOxYBRx1%2Fimg.png")
output = target.read()
# print(output)

In [12]:
# 바이너리 데이타를 쓰기 모드로 이미지 저장 - "wb"
file = open("output.png", "wb")
file.write(output)
file.close()