# BeautifulSoup

- find - 태그로 < > 값을 찾는

In [None]:
soup.find("title").string

- select - css 속성으로 값을 찾는 

In [None]:
soup.select("title")
soup.select_one("title").text

### 1. find 예제

In [5]:
from bs4 import BeautifulSoup

html = """
<html><body>
    <h1>스크레이핑이란?</h1>
    <p>웹 페이지를 분석하는 것</p>
    <p>원하는부분을 추출하는 것</p>
</body></html>
"""

soup = BeautifulSoup(html, "html.parser")

h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

print("h1 = ", h1.string)
print("p1 = ", p1.string)
print("p2 = ", p2.string)

h1 =  스크레이핑이란?
p1 =  웹 페이지를 분석하는 것
p2 =  원하는부분을 추출하는 것


In [8]:
from bs4 import BeautifulSoup

html = """
<html><body>
    <h1 id="title">스크레이핑이란?</h1>
    <p id="body">웹 페이지를 분석하는 것</p>
    <p>원하는부분을 추출하는 것</p>
</body></html>
"""

soup = BeautifulSoup(html, "html.parser")

title = soup.find(id="title")
body = soup.find(id="body")

print("title = ", title.string)
print("body = ", body.string)

title =  스크레이핑이란?
body =  웹 페이지를 분석하는 것


In [171]:
from bs4 import BeautifulSoup

html = """
<html><body>
    <ul>
        <li><a href="http://www.naver.com">naver</a></li>
        <li><a href="http://www.daum.net">daum</a></li>
    </ul>
</body></html>
"""

soup = BeautifulSoup(html, "html.parser")

links = soup.find_all("a")

for i in links:
    href = i.attrs['href']
    text = i.string
    print(text, ">", href)

naver > http://www.naver.com
daum > http://www.daum.net


### XML 태그 분석

In [12]:
from bs4 import BeautifulSoup
import urllib.request as req

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=108"

res = req.urlopen(url)

soup = BeautifulSoup(res, "html.parser")

title = soup.find("title").string
wf = soup.find("wf").string

print(title)
print(wf)

기상청 육상 중기예보
○ (하늘상태) 이번 예보기간에는 전국이 구름많거나 흐린 날이 많겠습니다.<br />○ (기온) 이번 예보기간 아침 기온은 17~23도, 낮 기온은 25~31도로 평년(최저기온 18~21도, 최고기온 25~29도)과 비슷하거나 조금 높겠습니다.<br />○ (주말전망) 24일(토)~25일(일)은 전국이 구름많겠습니다. 아침 기온은 19~22도, 낮 기온은 26~31도가 되겠습니다.<br /><br />* 제주도남쪽먼해상에 위치한 정체전선이 25일(일) 이후 점차 북상할 가능성이 있어 예보 변동성이 크겠으니, 앞으로 발표되는 기상정보를 참고하기 바랍니다.


- 실습 1) 시 추출하기

In [172]:
from bs4 import BeautifulSoup
import requests

url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EA%B9%80%EC%86%8C%EC%9B%94"

res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")    # 결과 텍스트(res.text)를 html.parser로 파싱 -> html 태그 형식으로 객체 생성

a = soup.select(".mw-parser-output > ul:nth-child(9) > li")

for i in a:
    print("-", i.text)

# for i in range(35):
#     print("-", soup.select_one(f"ul:nth-child(9) > li:nth-child({i+1})").text)

# for i in soup.select("div.mw-parser-output > ul")[1:-2]:
#     print(i.text)

[<a href="/wiki/%EA%B0%80%EB%8A%94_%EB%B4%84_%EC%82%BC%EC%9B%94" title="가는 봄 삼월">가는 봄 삼월</a>]


- 실습2) 로또 번호 추출하기

In [195]:
from bs4 import BeautifulSoup
import requests

url = "https://www.dhlottery.co.kr/gameResult.do?method=byWin&wiselog=H_C_1_1"

res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")


num = soup.select("span.ball_645")
for i in range(7):
    if i == 0:
        print(soup.select_one("div.win_result > h4 > strong").text)
        print(f"당첨번호 {i+1}:  {num[i].text}")
    elif i < 6:
        print(f"당첨번호 {i+1}:  {num[i].text}")
    else:
        print(f"보너스 번호 : ", num[i].text)


# for i, j in enumerate(soup.select("div.num.win > p > span"), start=1):
#     if i == 1:
#         print(soup.select_one("div.win_result > h4 > strong").text)
#         print(f"당첨번호 {i}: ", j.text)
#     elif i == 6:
#         print(f"당첨번호 {i}: ", j.text)
#         print("Bonus : ", soup.select_one("div.num.bonus > p > span").text)
#     else:
#         print(f"당첨번호 {i}: ", j.text)


# j = 1
# for i in range(7):
#     if i == 0:
#         print(soup.select_one("div.win_result > h4 > strong").text)
#         print("당첨번호", j, ":", soup.select_one(f'div.num.win > p > span:nth-child({j})').text) 
#     elif i <= 5:
#         print("당첨번호", j, ":", soup.select_one(f'div.num.win > p > span:nth-child({j})').text) 
#     else:
#         print("Bonus : ", soup.select_one("div.num.bonus > p > span").text)
#     j += 1

1072회
당첨번호 1:  16
당첨번호 2:  18
당첨번호 3:  20
당첨번호 4:  23
당첨번호 5:  32
당첨번호 6:  43
보너스 번호 :  27


- 실습3) 이메일 주소 가져오기

In [116]:
from bs4 import BeautifulSoup
import requests

url = 'http://localhost/surveyinfo.html'

res = requests.get(url)
res.encoding="utf-8"

soup = BeautifulSoup(res.text, "html.parser")

for i in range(21):
    print(soup.select_one(f"tbody > tr:nth-child({i+1}) > td:nth-child(4)").text)

hong123@naver.com
hellboy2001@gmail.com
hi_he1111@yahoo.co.kr
hacker97@gmail.com
qwer8804@daum.net
a_b_c_market@naver.com
hong1234@naver.com
daebak777@naver.com
alienaaaa1@gmail.com
zxcv1234@daum.net
wtf333@gmail.com
kkk_hhh_hi@naver.com
elfot321@daum.net
geqfadf_123ca@naver.com
h1h1h1h1@gmail.com
crazytrol12@naver.com
chungju_jjang@gmail.com
jjja4444@naver.com
powers1211@gmail.com
voiceheaven94@naver.com
artist78@naver.com


In [147]:
from urllib.request import urlopen
import re

url = "http://localhost/surveyinfo.html" 
data = urlopen(url).read().decode("utf8")

matches = re.findall(r"([a-zA-Z0-9._+]+@[a-zA-Z0-9]+\.(com|org|net))", data)

for i in matches:
    print(i[0])

hong123@naver.com
hellboy2001@gmail.com
hacker97@gmail.com
qwer8804@daum.net
a_b_c_market@naver.com
hong1234@naver.com
daebak777@naver.com
alienaaaa1@gmail.com
zxcv1234@daum.net
wtf333@gmail.com
kkk_hhh_hi@naver.com
elfot321@daum.net
geqfadf_123ca@naver.com
h1h1h1h1@gmail.com
crazytrol12@naver.com
chungju_jjang@gmail.com
jjja4444@naver.com
powers1211@gmail.com
voiceheaven94@naver.com
artist78@naver.com


In [242]:
from bs4 import BeautifulSoup
import requests
import re       # 정규표현식 모듈

url = "http://localhost/surveyinfo.html"

res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")

td_list = soup.find_all('td')

email_re = r"[a-zA-Z0-9._+]+@[a-zA-Z0-9]+(\.[A-Za-z]{2,3}|)\.[A-Za-z]{2,3}"  

# [a-zA-Z0-9._+]+@[a-zA-Z0-9]+(\.[A-Za-z]{2}){0,1}\.[A-Za-z]{2,3}
# [a-zA-Z0-9._+]+@[a-zA-Z0-9]+\.((com|org|net)|(co\.kr))            yahoo.co.kr 포함하는 정규표현식
# 점(.) 은 아무 문자 하나를 의미함   점(.) 사용 시 \. 함께 사용 (점 이라는 문자가 있음을 의미)

pattern = re.compile(email_re)

for td in td_list:
    match = pattern.search(td.get_text())
    if match != None:
        print(match.string)

hong123@naver.com
hellboy2001@gmail.com
hi_he1111@yahoo.co.kr
hacker97@gmail.com
qwer8804@daum.net
a_b_c_market@naver.com
hong1234@naver.com
daebak777@naver.com
alienaaaa1@gmail.com
zxcv1234@daum.net
wtf333@gmail.com
kkk_hhh_hi@naver.com
elfot321@daum.net
geqfadf_123ca@naver.com
h1h1h1h1@gmail.com
crazytrol12@naver.com
chungju_jjang@gmail.com
jjja4444@naver.com
powers1211@gmail.com
voiceheaven94@naver.com
artist78@naver.com


- 정규 표현식 사용하기

In [204]:
from bs4 import BeautifulSoup
import re

html = """
<ul>
    <li><a href="https://example.com"</li>
    <li><a href="http://example.com"</li>
    <li><a href="https://wahu.com"</li>
    <li><a href="https://yeap.com"</li>
</ul>
"""

soup = BeautifulSoup(html,"html.parser")

li = soup.find_all(href=re.compile(r"(^https://)"))

for e in li:
    print(e.attrs['href'])

https://example.com
https://wahu.com
https://yeap.com
