## BeautifulSoup을 활용한 HTML 파싱

In [2]:
import requests
from bs4 import BeautifulSoup

#### requests 모듈로 웹 페이지 코드 가져오기

In [3]:
# requests 모듈에 추가할 HTTP 헤더정보 설정

user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36"
header_info = {'User-agent': user_agent, 'referer': None}
header_info

{'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36',
 'referer': None}

In [4]:
# 웹 페이지의 HTML 소스코드 가져오기

r = requests.get("http://itpaper.co.kr/data/selector.html", headers=header_info)

# 결과 검사
if r.status_code != 200:
    # 에러코드와 에러메시지를 문자열로 구성
    err_msg = "%d %s 에러가 발생했습니다." % (r.status_code, r.reason)
    # 강제로 에러를 발생시킨다.
    raise Exception(err_msg)
    
r.encoding="utf-8"
html = r.text
html

'<!DOCTYPE html>\n<html lang="ko">\n\n<head>\n    <meta charset="UTF-8">\n    <meta name="viewport" content="width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no">\n    <title>BeautifulSoup Sample</title>\n    <style type="text/css">\n        * { padding: 5px; margin: 5px auto; list-style: none; }\n        div#container { border: 3px dashed #ff00ff; }\n        div#container > h1#title { border: 3px dashed #ff6600; }\n        div#container div.box { border: 3px solid #ffff00; }\n        div#container > ul { border: 3px solid #00ff00; }\n        div#container > ul > li { border: 3px dotted #3438af; font-size: 18px; }\n        p, pre { border: 1px solid #555; font-size: 16px; color: #f60;}\n        i {font-size: 12px;}\n    </style>\n</head>\n\n<body>\n    <div id="container">\n        <h1 id="title">Hello World</h1>\n        <div class="box">이 웹 페이지는 CSS 선택자 실습을 위한 샘플 페이지 입니다.</div>\n        <ul class="list-container">\n            <li class="list-ite

In [5]:
# BeautifulSoup 객체 생성

soup = BeautifulSoup(html, 'html.parser')
soup

<!DOCTYPE html>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no" name="viewport"/>
<title>BeautifulSoup Sample</title>
<style type="text/css">
        * { padding: 5px; margin: 5px auto; list-style: none; }
        div#container { border: 3px dashed #ff00ff; }
        div#container > h1#title { border: 3px dashed #ff6600; }
        div#container div.box { border: 3px solid #ffff00; }
        div#container > ul { border: 3px solid #00ff00; }
        div#container > ul > li { border: 3px dotted #3438af; font-size: 18px; }
        p, pre { border: 1px solid #555; font-size: 16px; color: #f60;}
        i {font-size: 12px;}
    </style>
</head>
<body>
<div id="container">
<h1 id="title">Hello World</h1>
<div class="box">이 웹 페이지는 CSS 선택자 실습을 위한 샘플 페이지 입니다.</div>
<ul class="list-container">
<li class="list-item">JAVA</li>
<li class="list-item">HTML,CSS</li>
<li class="list-item">Javascrip

### HTML 요소 추출하기

#### id값에 의한 접근

In [7]:
# id값을 활용하여 HTML 요소 추출하기

title = soup.select("#title")

# 결과 검사
if len(title) == 0:
    # 에러코드와 에러메시지를 문자열로 구성
    err_msg = "지정된 선택자에 대해서 인식된 구조가 없습니다."
    # 강제로 에러를 발생시킨다.
    raise Exception(err_msg)
    
title

[<h1 id="title">Hello World</h1>]

In [8]:
# 추출결과에서 HTML 태그 얻기

tag = title[0]
print(type(tag))
print(tag)

<class 'bs4.element.Tag'>
<h1 id="title">Hello World</h1>


In [9]:
# 태그 안의 내용만 꺼내기

content = tag.text.strip()
content

'Hello World'

#### class 속성에 의한 접근

In [10]:
# class 속성을 갖는 단일 원소에 접근하기

box = soup.select(".box")

# 결과 검사
if len(box) == 0:
    # 에러코드와 에러메시지를 문자열로 구성
    err_msg = "지정된 선택자에 대해서 인식된 구조가 없습니다."
    # 강제로 에러를 발생시킨다.
    raise Exception(err_msg)

box

[<div class="box">이 웹 페이지는 CSS 선택자 실습을 위한 샘플 페이지 입니다.</div>]

In [11]:
# 접근한 원소의 텍스트 추출하기

content = box[0].text.strip()
content

'이 웹 페이지는 CSS 선택자 실습을 위한 샘플 페이지 입니다.'

In [15]:
# 복수 원소에 대한 class 속성

item = soup.select(".list-item")

# 결과 검사
if len(item) == 0:
    # 에러코드와 에러메시지를 문자열로 구성
    err_msg = "지정된 선택자에 대해서 인식된 구조가 없습니다."
    # 강제로 에러를 발생시킨다.
    raise Exception(err_msg)
    
item

[<li class="list-item">JAVA</li>,
 <li class="list-item">HTML,CSS</li>,
 <li class="list-item">Javascript,jQuery</li>,
 <li class="list-item">JSP,Spring</li>,
 <li class="list-item">Python</li>]

In [16]:
# 접근한 원소들로부터 텍스트 추출하기

item_text = []

for i in item:
    k = i.text.strip()
    item_text.append(k)

item_text

['JAVA', 'HTML,CSS', 'Javascript,jQuery', 'JSP,Spring', 'Python']

In [17]:
# 하나의 HTML 태그가 복수의 class 값을 갖는 경우

article = soup.select(".article")

# 결과 검사
if len(article) == 0:
    # 에러코드와 에러메시지를 문자열로 구성
    err_msg = "지정된 선택자에 대해서 인식된 구조가 없습니다."
    # 강제로 에러를 발생시킨다.
    raise Exception(err_msg)

article

[<p class="article hello">안녕하세요. <i>Hello.</i></p>,
 <p class="article welcome">어서오세요. <i>Welcome</i></p>,
 <p class="article say">샘플 웹 페이지 입니다. <i>This is sample web page.</i></p>]

In [18]:
# 접근한 원소로부터 텍스트 추출하기

for i in article:
    k = i.text.strip()
    print(k)

안녕하세요. Hello.
어서오세요. Welcome
샘플 웹 페이지 입니다. This is sample web page.


#### 태그 이름으로 접근하기

In [19]:
# 모든 <i> 태그 가져오기 

italic = soup.select("i")
italic

[<i>Hello.</i>,
 <i>Welcome</i>,
 <i>This is sample web page.</i>,
 <i>copyright©itpaper.co.kr</i>]

In [20]:
# 추출한 태그 리스트에 대한 반복처리

for i in italic:
    k = i.text.strip()
    print(k)

Hello.
Welcome
This is sample web page.
copyright©itpaper.co.kr


#### 자식 선택자

In [22]:
# 예시 1번

article_i = soup.select("#container > .article > i")
article_i

[<i>Hello.</i>, <i>Welcome</i>, <i>This is sample web page.</i>]

In [23]:
# 예시 2번

# 에러 검사는 생략하고 바로 출력
title = soup.select("#container > #title")
title

[<h1 id="title">Hello World</h1>]

In [24]:
# 예시 3번

# 에러 검사는 생략하고 바로 출력
title = soup.select("#container > #title")
title

[<h1 id="title">Hello World</h1>]

#### 자손 선택자

In [25]:
# 자손 선택자를 활용한 목록 정의 태그 추출

# 에러 검사는 생략하고 바로 출력
list_item = soup.select("#container  .list-item")
list_item

[<li class="list-item">JAVA</li>,
 <li class="list-item">HTML,CSS</li>,
 <li class="list-item">Javascript,jQuery</li>,
 <li class="list-item">JSP,Spring</li>,
 <li class="list-item">Python</li>]

#### 두 개 이상의 선택자를 복수로 지정하기

In [26]:
# #title 요소와 .box 요소 복수로 지정하기

# 에러 검사는 생략하고 바로 출력
title_box = soup.select("#title, #container > .box")
title_box

[<h1 id="title">Hello World</h1>,
 <div class="box">이 웹 페이지는 CSS 선택자 실습을 위한 샘플 페이지 입니다.</div>]

#### 두 개 이상의 class가 복수로 지정된 요소

In [27]:
# class 속성이 .article 이면서 .say인 어떤요소

# 에러 검사는 생략하고 바로 출력
article_item = soup.select(".article.say")
article_item

[<p class="article say">샘플 웹 페이지 입니다. <i>This is sample web page.</i></p>]

In [28]:
# class 속성이 .say인 <p> 태그

article_item = soup.select("p.say")
article_item

[<p class="article say">샘플 웹 페이지 입니다. <i>This is sample web page.</i></p>]

#### 하나의 요소를 지정하는 다양한 표현 방법

In [31]:
# 태그 이름으로 접근

link = soup.select("a")
link

[<a class="link" href="https://www.naver.com">네이버</a>,
 <a class="link" href="https://www.daum.net">다음</a>,
 <a class="link" href="https://www.google.com">구글</a>]

In [32]:
# 클래스로 접근

link = soup.select(".link")
link

[<a class="link" href="https://www.naver.com">네이버</a>,
 <a class="link" href="https://www.daum.net">다음</a>,
 <a class="link" href="https://www.google.com">구글</a>]

In [33]:
# 태그 이름과 클래스 속성을 함께 적용

link = soup.select(".link")
link

[<a class="link" href="https://www.naver.com">네이버</a>,
 <a class="link" href="https://www.daum.net">다음</a>,
 <a class="link" href="https://www.google.com">구글</a>]

In [34]:
# 특정 속성을 갖는 요소 지정하기

link = soup.select("a[href]")
link

[<a class="link" href="https://www.naver.com">네이버</a>,
 <a class="link" href="https://www.daum.net">다음</a>,
 <a class="link" href="https://www.google.com">구글</a>]

In [35]:
# HTML 속성에 특정 값이 적용되어있는 경우

link = soup.select("a[href='https://www.google.com']")
link

[<a class="link" href="https://www.google.com">구글</a>]

### 추출한 요소에서 속성값을 얻어오기

In [36]:
# .link라는 클래스를 갖는 <a>태그 추출하기

# 추출한 속성값을 모아놓기 위한 빈 리스트
url = []

# 웹 페이지에서 .link라는 클래스를 갖는 <a>태그 추출
link = soup.select("a.link")

# 추출된 원소 수 만큼 반복
for item in link:
    # 추출된 원소의 속성들 출력하기 -> 딕셔너리 구조
    print(item.attrs)
    
    # 속성 중에 `href`라는 속성이 있다면?
    if "href" in item.attrs:
        # 그 값만 미리 준비한 빈 리스트에 모아놓는다.
        url.append(item.attrs["href"])

# 결과 확인
url

{'href': 'https://www.naver.com', 'class': ['link']}
{'href': 'https://www.daum.net', 'class': ['link']}
{'href': 'https://www.google.com', 'class': ['link']}


['https://www.naver.com', 'https://www.daum.net', 'https://www.google.com']

### 이미 추출한 객체의 하위 원소 추출하기

In [37]:
# 클래스가 .list-container인 요소 얻기

list_container = soup.select(".list-container")
list_container

[<ul class="list-container">
 <li class="list-item">JAVA</li>
 <li class="list-item">HTML,CSS</li>
 <li class="list-item">Javascript,jQuery</li>
 <li class="list-item">JSP,Spring</li>
 <li class="list-item">Python</li>
 </ul>]

In [38]:
# 원소 수 만큼 반복하면서 클래스가 .list-item인 하위 요소 추출

for item in list_container:
    li = item.select(".list-item")
    print(li)
    print("--" * 10)
    
    for li_item in li:
        print(li_item.text.strip())

[<li class="list-item">JAVA</li>, <li class="list-item">HTML,CSS</li>, <li class="list-item">Javascript,jQuery</li>, <li class="list-item">JSP,Spring</li>, <li class="list-item">Python</li>]
--------------------
JAVA
HTML,CSS
Javascript,jQuery
JSP,Spring
Python
