##BeautifulSoup 기초

### BeautifulSoup 특징
* HTML과 XML 파일에서 데이터를 뽑아내기 위한 파이썬 라이브러리
* HTML과 XML의 트리 구조를 탐색, 검색, 변경 가능
* 다양한 파서(parser)를 선택하여 이용 가능

## HTML 파싱(Parsing)

### 웹페이지 예제 생성

In [23]:
%%writefile example.html
<!DOCTYPE html>
<html>
  <head>
    <title>Page Title</title>
  </head>
    <h1>Heading 1</h1>
    <p>Paragraph</p>
    <div>
      <a href='www.google.com'>google</a>
    </div>
    <div class='class1'>
      <p>a</p>
      <a href='www.naver.com'>naver</a>
      <p>b</p>
      <p>c</p>
    </div>
    <div id='id1'>
      Example page
      <p>g</p>
    </div>
   </body>
  </html>  

Overwriting example.html


In [24]:
from bs4 import BeautifulSoup
import urllib.request

with open('example.html') as fp:
  soup = BeautifulSoup(fp, 'html.parser')

soup

<!DOCTYPE html>

<html>
<head>
<title>Page Title</title>
</head>
<h1>Heading 1</h1>
<p>Paragraph</p>
<div>
<a href="www.google.com">google</a>
</div>
<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>
<div id="id1">
      Example page
      <p>g</p>
</div>
</html>
 

In [25]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Page Title
  </title>
 </head>
 <h1>
  Heading 1
 </h1>
 <p>
  Paragraph
 </p>
 <div>
  <a href="www.google.com">
   google
  </a>
 </div>
 <div class="class1">
  <p>
   a
  </p>
  <a href="www.naver.com">
   naver
  </a>
  <p>
   b
  </p>
  <p>
   c
  </p>
 </div>
 <div id="id1">
  Example page
  <p>
   g
  </p>
 </div>
</html>



## HTML 태그 파싱

In [26]:
soup.title

<title>Page Title</title>

In [27]:
soup.title.name

'title'

In [28]:
soup.title.string

'Page Title'

In [29]:
soup.title.parent

<head>
<title>Page Title</title>
</head>

In [30]:
soup.title.parent.name

'head'

In [31]:
soup.h1

<h1>Heading 1</h1>

In [32]:
soup.p

<p>Paragraph</p>

In [33]:
soup.div

<div>
<a href="www.google.com">google</a>
</div>

In [34]:
soup.a

<a href="www.google.com">google</a>

## HTML 태그 검색
* find(): 해당 조건에 맞는 하나의 태그를 가져옴
* find_all(): 해당 조건에 맞는 모든 태그를 가져옴
* select(): CSS 선택자와 같은 형식으로 선택 가능

In [35]:
soup_find = soup.find('div')
print(soup_find)

<div>
<a href="www.google.com">google</a>
</div>


In [36]:
soup_find_all = soup.find_all('div')
print(soup_find_all)

## find_all은 리스트 형태로 반환

[<div>
<a href="www.google.com">google</a>
</div>, <div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>, <div id="id1">
      Example page
      <p>g</p>
</div>]


In [37]:
find_by_id = soup.find_all('div', {'id':'id1'})
print(find_by_id)

## 찾은 요소가 하나라도 find_all은 리스트 형태로 반환

[<div id="id1">
      Example page
      <p>g</p>
</div>]


In [38]:
find_by_class = soup.find_all('div', {'class':'class1'})
print(find_by_class)

[<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>]


In [43]:
soup.find('a')

<a href="www.google.com">google</a>

In [39]:
soup.find('a').get('href')

'www.google.com'

In [42]:
soup.find('a').get_text()

'google'

In [44]:
site_names = soup.find_all('a')
for name in site_names:
  print(name)

<a href="www.google.com">google</a>
<a href="www.naver.com">naver</a>


In [45]:
site_names = soup.find_all('a')
for name in site_names:
  print(name.get('href'))

www.google.com
www.naver.com


In [46]:
site_names = soup.find_all('a')
for name in site_names:
  print(name.get_text())

google
naver


In [47]:
id1 = soup.select('div#id1')
id1

## CSS 선택자의 구조로 넣어야 함.  id는 #으로 표시

[<div id="id1">
       Example page
       <p>g</p>
 </div>]

In [48]:
class1 = soup.select('div.class1')
class1

## class는 dot(.)

[<div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

In [49]:
class1_a = soup.select('div.class1 a')
# class1_a = soup.selec('div.class1 > a')
class1_a

[<a href="www.naver.com">naver</a>]

## 웹페이지 콘텐츠 가져오기

In [54]:
%%writefile anthem.html
<!DOCTYPE html>
<html>
<head>
</head>
<body>
  <div>
    <p id='title'>애국가</p>
    <p id='content'>
      동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.<br />
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
    </p>
    <p id='content'>
      남산 위에 저 소나무, 철갑을 두른 듯 바람 서리 불변함은 우리 기상일세.<br />
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
    </p>
     <p id='content'>
      가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.<br />
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
    </p>
     <p id='content'>
      이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.<br />
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
    </p>
  </div>
</body>
</html>

Overwriting anthem.html


In [56]:
with open('anthem.html') as fp:
  soup = BeautifulSoup(fp, 'html.parser')
  
soup

<!DOCTYPE html>

<html>
<head>
</head>
<body>
<div>
<p id="title">애국가</p>
<p id="content">
      동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.<br/>
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
<p id="content">
      남산 위에 저 소나무, 철갑을 두른 듯 바람 서리 불변함은 우리 기상일세.<br/>
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
<p id="content">
      가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.<br/>
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
<p id="content">
      이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.<br/>
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
</div>
</body>
</html>

In [57]:
title = soup.find('p', {'id':'title'})
contents = soup.find_all('p', {'id':'content'})

print(title.get_text())
for content in contents:
  print(content.get_text())

애국가

      동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.


      남산 위에 저 소나무, 철갑을 두른 듯 바람 서리 불변함은 우리 기상일세.
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.


      가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.


      이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.



## 인터넷 웹페이지 가져오기

In [58]:
url = 'http://suanlab.com'
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, 'html.parser')
soup

<!DOCTYPE html>

<!--[if IE 8]>			<html class="ie ie8"> <![endif]-->
<!--[if IE 9]>			<html class="ie ie9"> <![endif]-->
<!--[if gt IE 9]><!--> <html> <!--<![endif]-->
<head>
<meta charset="utf-8"/>
<title>Home | SuanLab</title>
<meta content="Suan, Computer, Data, Course, Lecture, Research, Big Data, Machine Learning, Deep Learning, Cloud Computing, Data Analysis, Visualzation" name="keywords"/>
<meta content="Suan Computer Laboratory" name="description"/>
<meta content="Suan Lee" name="Author"/>
<!-- mobile settings -->
<meta content="width=device-width, maximum-scale=1, initial-scale=1, user-scalable=0" name="viewport"/>
<!--[if IE]><meta http-equiv='X-UA-Compatible' content='IE=edge,chrome=1'><![endif]-->
<!-- WEB FONTS : use %7C instead of | (pipe) -->
<link href="https://fonts.googleapis.com/css?family=Open+Sans:300,400%7CRaleway:300,400,500,600,700%7CLato:300,400,400italic,600,700" rel="stylesheet" type="text/css"/>
<!-- CORE CSS -->
<link href="assets/plugins/bootstrap/css/boot

In [59]:
labels = soup.find_all(['label'])
for label in labels:
  print(label.get_text())

## label이 들어간 곳이 또 있으면 안됨

[2020-04-14] "메타버스 시대가 오고 있다"
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"


In [62]:
# labels = soup.select('#wrapper > section > div > div > div:nth-child(1) > div > div:nth-child(1) > label')
labels = soup.select('#wrapper > section > div > div > div > div > div > label')
for label in labels:
  print(label.get_text())

## 정확하게 CSS selector를 쓰기 때문에 label이 다른 곳에 또 있어도 상관없음

[2020-04-14] "메타버스 시대가 오고 있다"
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"
