# BeautifulSoup 기초
From [Suanlab](https://www.youtube.com/watch?v=TbPD9Ndnt04)

BeautifulSoup 특징
* HTML과 XML파일에서 데이터를 뽑아내기 위한 파이썬 라이브러리
* HTML과 XML의 트리 구조를 탐색,검색,변경 가능
* 다양한 파서(parser)를 선택하여 이용 가능

|파서(parser)|선언|장점|단점|
|:----:|:----:|:----:|:----:|
|html.parser|'BeautifulSoup(mark up, 'html.parser')'|설치 필요 없음 적절한 속도||
|lxml HTML.parser|'BeautifulSoup(mark up, 'lxml')'|매우 빠름|lxml 추가설치 필요|
|lxml XML.parser|'BeautifulSoup(mark up, 'lxml-xml')'</br>'BeautifulSoup(mark up, 'xml')'|매우 빠름 </br>유일한 xml parser|lxml 추가설치 필요|
|html.5lib|'BeautifulSoup(mark up, 'html.5lib')'|웹 브라우저와 같은 방식으로 파싱<br>유용한 HTML5생성|html5lib 추가설치 필요<br>매우느림|

## HTML 파싱(Parsing)

### 웹페이지 예제 생성

In [1]:
%%writefile example.html
<!DOCTYPE html>
<html>
  <head>
    <title>Page Title</title>
  </head>
  <body>
    <h1>Heading 1</h1>
    <p>Paragraph</p>
    <div>
      <a href="www.google.com">google</a>
    </div>
    <div class="class1">
      <p>a</p>
      <a href="www.naver.com">naver</a>
      <p>b</p>
    </div>
    <div id="id1">
      Example page
      <p>g</p>
    </div>
  </body>
</html>



Writing example.html


In [3]:
from bs4 import BeautifulSoup
import urllib.request

with open("example.html") as fp:
    soup = BeautifulSoup(fp, 'html.parser')
    
soup

<!DOCTYPE html>

<html>
<head>
<title>Page Title</title>
</head>
<body>
<h1>Heading 1</h1>
<p>Paragraph</p>
<div>
<a href="www.google.com">google</a>
</div>
<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
</div>
<div id="id1">
      Example page
      <p>g</p>
</div>
</body>
</html>

In [4]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Page Title
  </title>
 </head>
 <body>
  <h1>
   Heading 1
  </h1>
  <p>
   Paragraph
  </p>
  <div>
   <a href="www.google.com">
    google
   </a>
  </div>
  <div class="class1">
   <p>
    a
   </p>
   <a href="www.naver.com">
    naver
   </a>
   <p>
    b
   </p>
  </div>
  <div id="id1">
   Example page
   <p>
    g
   </p>
  </div>
 </body>
</html>



### HTML 태그 파싱

In [5]:
soup.title

<title>Page Title</title>

In [6]:
soup.title.name

'title'

In [7]:
soup.title.string

'Page Title'

In [11]:
soup.title.parent

<head>
<title>Page Title</title>
</head>

In [12]:
soup.title.parent.name

'head'

In [13]:
soup.h1

<h1>Heading 1</h1>

In [14]:
soup.p

<p>Paragraph</p>

In [15]:
soup.div

<div>
<a href="www.google.com">google</a>
</div>

In [16]:
soup.a

<a href="www.google.com">google</a>

### HTML 태그 검색
* find():해당 조건에 맞는 하나의 태그를 가져옴
* find_all():해당 조건에 맞는 모든 태그를 가져옴
* select():CSS 선택자와 같은 형식으로 선택 가능

In [20]:
soup_find = soup.find("div")
print(soup_find)

<div>
<a href="www.google.com">google</a>
</div>


In [21]:
soup_find_all = soup.find_all("div")
print(soup_find_all)
#반환결과가 여러개이기 때문에 리스트 형태로 반환

[<div>
<a href="www.google.com">google</a>
</div>, <div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
</div>, <div id="id1">
      Example page
      <p>g</p>
</div>]


In [22]:
print(soup_find_all[2])

<div id="id1">
      Example page
      <p>g</p>
</div>


In [23]:
find_by_id = soup.find_all('div', attrs={'id':'id1'})
print(find_by_id)
#하나만 있더라도 all이 list이기 때문에 list 형태로 반환

[<div id="id1">
      Example page
      <p>g</p>
</div>]


In [24]:
find_by_class = soup.find_all('div',attrs={'class':'class1'} )
print(find_by_class)

[<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
</div>]


In [25]:
soup.find('a').get('href')
#첫번째 a태그에 대해서 href를 가져와

'www.google.com'

In [26]:
soup.find('a').get_text()
# a태그에 감싸져있는 텍스트를 가져오고싶다

'google'

In [28]:
site_names = soup.find_all('a')
for name in site_names:
    print(name.get('href'))

www.google.com
www.naver.com


In [30]:
site_names = soup.find_all('a')
for name in site_names:
    print(name.get_text())

google
naver


In [31]:
id1 = soup.select('div#id1')
# #으로해야 id접근 .으로 해야 class 접근
id1
#하나만 가져오는게 아니라 id1이 포함되어있는 모든구성부분 list형태로 가져옴

[<div id="id1">
       Example page
       <p>g</p>
 </div>]

In [32]:
class1 = soup.select('div.class1')
class1

[<div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 </div>]

In [35]:
class1_a = soup.select('div.class1 a', )
class1_a

[<a href="www.naver.com">naver</a>]

### 웹페이지 컨텐츠 가져오기

In [38]:
%%writefile anthem.html
<!DOCTYPE html>
<html>
<head>
</head>
<body>
  <div>
    <p id="title">애국가</p>
    <p id="content">
      동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.<br />
      무궁화 삼천리 화려 강산대한 사람 대한으로 길이 보전하세.<br />
    </p>
    <p id="content">
      남산 위에 저 소나무 철갑을 두른 듯 바람 서리 불변함은 우리 기상일세.<br />
      무궁화 삼천리 화려 강산대한 사람 대한으로 길이 보전하세.<br />
    </p>
    <p id="content">
      가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.<br />
      무궁화 삼천리 화려 강산대한 사람 대한으로 길이 보전하세.<br />
    </p>
    <p id="content">
      이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.<br />
      무궁화 삼천리 화려 강산대한 사람 대한으로 길이 보전하세.<br />
    </p>
  </div>
</body>
</html>







Writing anthem.html


In [40]:
with open("anthem.html") as fp:
    soup = BeautifulSoup(fp, 'html.parser')
soup

<!DOCTYPE html>

<html>
<head>
</head>
<body>
<div>
<p id="title">애국가</p>
<p id="content">
      동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.<br/>
      무궁화 삼천리 화려 강산대한 사람 대한으로 길이 보전하세.<br/>
</p>
<p id="content">
      남산 위에 저 소나무 철갑을 두른 듯 바람 서리 불변함은 우리 기상일세.<br/>
      무궁화 삼천리 화려 강산대한 사람 대한으로 길이 보전하세.<br/>
</p>
<p id="content">
      가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.<br/>
      무궁화 삼천리 화려 강산대한 사람 대한으로 길이 보전하세.<br/>
</p>
<p id="content">
      이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.<br/>
      무궁화 삼천리 화려 강산대한 사람 대한으로 길이 보전하세.<br/>
</p>
</div>
</body>
</html>

In [43]:
title = soup.find('p', {'id':'title'})
contents = soup.find_all('p', {'id':'content'})

print(title.get_text())
for content in contents:
    print(content.get_text())

애국가

      동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.
      무궁화 삼천리 화려 강산대한 사람 대한으로 길이 보전하세.


      남산 위에 저 소나무 철갑을 두른 듯 바람 서리 불변함은 우리 기상일세.
      무궁화 삼천리 화려 강산대한 사람 대한으로 길이 보전하세.


      가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.
      무궁화 삼천리 화려 강산대한 사람 대한으로 길이 보전하세.


      이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.
      무궁화 삼천리 화려 강산대한 사람 대한으로 길이 보전하세.



### 인터넷 웹페이지 가져오기

In [44]:
url = "http://suanlab.com"
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, 'html.parser')
soup

<!DOCTYPE html>

<!--[if IE 8]>			<html class="ie ie8"> <![endif]-->
<!--[if IE 9]>			<html class="ie ie9"> <![endif]-->
<!--[if gt IE 9]><!--> <html> <!--<![endif]-->
<head>
<meta charset="utf-8"/>
<title>Home | SuanLab</title>
<meta content="Suan, Computer, Data, Course, Lecture, Research, Big Data, Machine Learning, Deep Learning, Cloud Computing, Data Analysis, Visualzation" name="keywords"/>
<meta content="Suan Computer Laboratory" name="description"/>
<meta content="Suan Lee" name="Author"/>
<!-- mobile settings -->
<meta content="width=device-width, maximum-scale=1, initial-scale=1, user-scalable=0" name="viewport"/>
<!--[if IE]><meta http-equiv='X-UA-Compatible' content='IE=edge,chrome=1'><![endif]-->
<!-- WEB FONTS : use %7C instead of | (pipe) -->
<link href="https://fonts.googleapis.com/css?family=Open+Sans:300,400%7CRaleway:300,400,500,600,700%7CLato:300,400,400italic,600,700" rel="stylesheet" type="text/css"/>
<!-- CORE CSS -->
<link href="assets/plugins/bootstrap/css/boot

In [45]:
labels = soup.find_all(['label'])
for label in labels:
    print(label.get_text())

[2020-04-14] "메타버스 시대가 오고 있다"
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"


In [46]:
labels1 = soup.select('#wrapper > section > div > div > div > div > div > label')
# #wrapper > section > div > div > div:nth-child(1) > div > div:nth-child(1) > label 중에서
# nth_child(1) 지워줘야함
for label in labels1:
    print(label.get_text())

[2020-04-14] "메타버스 시대가 오고 있다"
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"
