# BeautifulSoup 기초

## BeautifulSoup 특징

* HTML과 XML 파일에서 데이터를 뽑아내기 위한 파이썬 라이브러리
* HTML과 XML의 트리 구조를 탐색, 검색, 변경 가능
* 다양한 파서(parser)를 선택하여 이용 가능

| 파서(parser)  | 선언 | 장점 | 단점 |
|---------------|------|------|------|
| html.parser | `BeautifulSoup(markup, 'html.parser')` | 설치 필요 없음<br />적절한 속도 |  |
| lxml HTML parser | `BeautifulSoup(markup, 'lxml')` | 매우 빠름 | lxml 추가 설치 필요 |
| lxml XML parser | `BeautifulSoup(markup, 'lxml-xml')`<br />`BeautifulSoup(markup, 'xml')` | 매우 빠름<br />유일한 xml parser | lxml 추가 설치 필요 |
| html5lib | `BeautifulSoup(markup, 'html5lib')` | 웹 브라우저와 같은 방식으로 파싱<br />유용한 HTML5 생성 | html5lib 추가 설치 필요<br />매우 느림 |

## HTML 파싱(Parsing)

### 웹페이지 예제 생성

In [None]:
%%writefile example.html
<!DOCTYPE html>
<html>
  <head>
    <title>Page Title</title>
  </head>
  <body>
    <h1>Heading 1</h1>
    <p>Paragraph</p>
    <div>
      <a href="www.google.com">google</a>
    </div>
    <div class="class1">
    <p>a</p>
    <a href="www.naver.com">naver</a>
    <p>b</p>
    <p>c</p>
    </div>
    <div id="id1">
      Example page
      <p>g</p>
    </div>
  </body>
</html>

Writing example.html


In [None]:
from bs4 import BeautifulSoup
import urllib.request

with open("example.html") as fp:
  soup = BeautifulSoup(fp, 'html.parser')

soup

<!DOCTYPE html>

<html>
<head>
<title>Page Title</title>
</head>
<body>
<h1>Heading 1</h1>
<p>Paragraph</p>
<div>
<a href="www.google.com">google</a>
</div>
<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>
<div id="id1">
      Example page
      <p>g</p>
</div>
</body>
</html>

In [None]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Page Title
  </title>
 </head>
 <body>
  <h1>
   Heading 1
  </h1>
  <p>
   Paragraph
  </p>
  <div>
   <a href="www.google.com">
    google
   </a>
  </div>
  <div class="class1">
   <p>
    a
   </p>
   <a href="www.naver.com">
    naver
   </a>
   <p>
    b
   </p>
   <p>
    c
   </p>
  </div>
  <div id="id1">
   Example page
   <p>
    g
   </p>
  </div>
 </body>
</html>


### HTML 태그 파싱

In [None]:
soup.title

<title>Page Title</title>

In [None]:
soup.title.name #title 태그 네임

'title'

In [None]:
soup.title.string #title 태그 속 string

'Page Title'

In [None]:
soup.title.parent.name #title의 parent 태그 네임

'head'

In [None]:
soup.h1

<h1>Heading 1</h1>

In [None]:
soup.p #가장 처음 p 태그

<p>Paragraph</p>

In [None]:
soup.div #가장 처음 div 태그

<div>
<a href="www.google.com">google</a>
</div>

In [None]:
soup.a

<a href="www.google.com">google</a>

### HTML 태그 검색

* `find()`: 해당 조건에 맞는 하나의 태그를 가져옴
* `find_all()`: 해당 조건에 맞는 모든 태그를 가져옴
* `select()`: CSS 선택자와 같은 형식으로 선택 가능

In [None]:
soup_find = soup.find("div")
print(soup_find)

<div>
<a href="www.google.com">google</a>
</div>


In [None]:
soup_find_all = soup.find_all("div")
print(soup_find_all) #리스트 형태로 반환

[<div>
<a href="www.google.com">google</a>
</div>, <div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>, <div id="id1">
      Example page
      <p>g</p>
</div>]


In [None]:
find_by_id = soup.find_all('div', {'id':'id1'}) # {}: 속성값
print(find_by_id) #리스트 형태로 반환

[<div id="id1">
      Example page
      <p>g</p>
</div>]


In [None]:
find_by_class = soup.find_all('div', {'class':'class1'})
print(find_by_class)

[<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>]


In [None]:
soup.find('a').get('href') #첫 번째 a 태그의 href 속성값

'www.google.com'

In [None]:
soup.find('a').get_text()

'google'

In [None]:
site_names = soup.find_all('a')
for name in site_names:
  print(name.get_text())

google
naver


In [None]:
id1 = soup.select('div#id1') #css처럼, id는 '#'으로, class는 '.'으로 접근
id1

[<div id="id1">
       Example page
       <p>g</p>
 </div>]

In [None]:
class1 = soup.select('div.class1')
class1

[<div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

In [None]:
class1_a = soup.select('div.class1 a') #또는 'div.class1 > a'
class1_a

[<a href="www.naver.com">naver</a>]

## 웹페이지 콘텐츠 가져오기

In [None]:
%%writefile anthem.html
<!DOCTYPE html>
<html>
  <head>
  </head>
  <body>
    <div>
      <p id="title">애국가</p>
      <p id="content">
        동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.<br />
        무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
      </p>
      <p id="content">
        남산 위에 저 소나무, 철갑을 두른 듯 바람 서리 불변함은 우리 기상일세.<br />
        무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
      </p>
      <p id="content">
        가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.<br />
        무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
      </p>
      <p id="content">
        이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.<br />
        무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
      </p>
    </div>
  </body>
</html>

Writing anthem.html


In [None]:
with open("anthem.html") as fp:
  soup = BeautifulSoup(fp, 'html.parser')

soup

<!DOCTYPE html>

<html>
<head>
</head>
<body>
<div>
<p id="title">애국가</p>
<p id="content">
        동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.<br/>
        무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
<p id="content">
        남산 위에 저 소나무, 철갑을 두른 듯 바람 서리 불변함은 우리 기상일세.<br/>
        무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
<p id="content">
        가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.<br/>
        무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
<p id="content">
        이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.<br/>
        무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
</div>
</body>
</html>

In [None]:
title = soup.find('p', {'id':'title'})
contents = soup.find_all('p', {'id':'content'})

print(title.get_text())
for content in contents:
  print(content.get_text())

애국가

        동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.
        무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.


        남산 위에 저 소나무, 철갑을 두른 듯 바람 서리 불변함은 우리 기상일세.
        무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.


        가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.
        무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.


        이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.
        무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.



## 인터넷 웹페이지 가져오기

In [None]:
url = "http://suanlab.com"
html = urllib.request.urlopen(url).read() #해당 url의 웹페이지에 대한 html 문서 읽어옴
soup = BeautifulSoup(html, 'html.parser')
soup

<!DOCTYPE html>

<!--[if IE 8]>			<html class="ie ie8"> <![endif]-->
<!--[if IE 9]>			<html class="ie ie9"> <![endif]-->
<!--[if gt IE 9]><!--> <html> <!--<![endif]-->
<head>
<meta charset="utf-8"/>
<title>Home | SuanLab</title>
<meta content="Suan, Computer, Data, Course, Lecture, Research, Big Data, Machine Learning, Deep Learning, Cloud Computing, Data Analysis, Visualzation" name="keywords"/>
<meta content="Suan Computer Laboratory" name="description"/>
<meta content="Suan Lee" name="Author"/>
<!-- mobile settings -->
<meta content="width=device-width, maximum-scale=1, initial-scale=1, user-scalable=0" name="viewport"/>
<!--[if IE]><meta http-equiv='X-UA-Compatible' content='IE=edge,chrome=1'><![endif]-->
<!-- WEB FONTS : use %7C instead of | (pipe) -->
<link href="https://fonts.googleapis.com/css?family=Open+Sans:300,400%7CRaleway:300,400,500,600,700%7CLato:300,400,400italic,600,700" rel="stylesheet" type="text/css"/>
<!-- CORE CSS -->
<link href="assets/plugins/bootstrap/css/boot

In [None]:
labels = soup.find_all(['label'])
for label in labels:
  print(label.get_text())

[2020-05-20] "인공지능의 보안 위협" 칼럼
[2020-03-04] "데이터 경제 시대" 칼럼
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치" 칼럼
[2019-09-25] "유튜브 탄생과 크리에이터 시대" 칼럼
[2019-09-04] "농업으로 들어간 인공지능" 칼럼
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가" 칼럼
[2018-12-30] "파이썬으로 텍스트 분석하기" 책 출판


In [None]:
labels = soup.select('#wrapper > section > div > div > div > div > div > label') #구조선택자 관련된 부분은 지워줌 ex) div:nth-child(1) -> div
for label in labels:
  print(label.get_text())

[2020-05-20] "인공지능의 보안 위협" 칼럼
[2020-03-04] "데이터 경제 시대" 칼럼
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치" 칼럼
[2019-09-25] "유튜브 탄생과 크리에이터 시대" 칼럼
[2019-09-04] "농업으로 들어간 인공지능" 칼럼
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가" 칼럼
[2018-12-30] "파이썬으로 텍스트 분석하기" 책 출판


## 참고 문헌

* https://www.crummy.com/software/BeautifulSoup/bs4/doc/