# BeautifulSoup 기초

## BeautifulSoup 특징

* HTML과 XML 파일에서 데이터를 뽑아내기 위한 파이썬 라이브러리
* HTML과 XML의 트리 구조를 탐색, 검색, 변경 가능
* 다양한 파서(parser)를 선택하여 이용 가능

| 파서(parser)  | 선언 | 장점 | 단점 |
|---------------|------|------|------|
| html.parser | `BeautifulSoup(markup, 'html.parser')` | 설치 필요 없음<br />적절한 속도 |  |
| lxml HTML parser | `BeautifulSoup(markup, 'lxml')` | 매우 빠름 | lxml 추가 설치 필요 |
| lxml XML parser | `BeautifulSoup(markup, 'lxml-xml')`<br />`BeautifulSoup(markup, 'xml')` | 매우 빠름<br />유일한 xml parser | lxml 추가 설치 필요 |
| html5lib | `BeautifulSoup(markup, 'html5lib')` | 웹 브라우저와 같은 방식으로 파싱<br />유용한 HTML5 생성 | html5lib 추가 설치 필요<br />매우 느림 |

## HTML 파싱(Parsing)

### 웹페이지 예제 생성

In [2]:
%%writefile example.html
<!DOCTYPE html>
<html>
    <head>
        <title>page title</title>
    </head>
    <body>
        <h1>heading 1</h1>
        <p>paragraph</p>
        <div>
            <a href = 'www.google.com'>google</a>
        </div>
        <div class = 'class1'>
            <p>a</p>
            <a href = 'www.naver.com'>naver</a>
            <p>b</p>
            <p>c</p>
        </div>
        <div id='id1'>
            example page
            <p>g</p>
        </div>
    </body>
</html>

Writing example.html


In [3]:
from bs4 import BeautifulSoup
import urllib.request

with open('example.html') as fp:    #fp로 불러올게
    soup = BeautifulSoup(fp,'html.parser')    #(파일객체fp, 파서지정)

soup
# 근데 보기가 조금 불편하네?
# 라인이 없으니까

<!DOCTYPE html>

<html>
<head>
<title>page title</title>
</head>
<body>
<h1>heading 1</h1>
<p>paragraph</p>
<div>
<a href="www.google.com">google</a>
</div>
<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>
<div id="id1">
            example page
            <p>g</p>
</div>
</body>
</html>

In [4]:
print(soup.prettify())  #prettify()매소드를 이용하면 조금 나아짐

<!DOCTYPE html>
<html>
 <head>
  <title>
   page title
  </title>
 </head>
 <body>
  <h1>
   heading 1
  </h1>
  <p>
   paragraph
  </p>
  <div>
   <a href="www.google.com">
    google
   </a>
  </div>
  <div class="class1">
   <p>
    a
   </p>
   <a href="www.naver.com">
    naver
   </a>
   <p>
    b
   </p>
   <p>
    c
   </p>
  </div>
  <div id="id1">
   example page
   <p>
    g
   </p>
  </div>
 </body>
</html>


### HTML 태그 파싱

In [5]:
soup.title  # 오 title테그를 가져왔네?
            #근데 테그를 땔수는 없나?

<title>page title</title>

In [6]:
soup.title.name     # .name  붙이니까 title 테그의 이름만 가져왔네

'title'

In [7]:
soup.title.string   # title에 해당하는 내용을 가져옴

'page title'

In [8]:
soup.title.parent #이 title이 포홤되어있는 테그르 ㄹ알고싶을때

<head>
<title>page title</title>
</head>

In [9]:
soup.title.parent.name

'head'

In [10]:
soup.h1

<h1>heading 1</h1>

In [11]:
soup.p

<p>paragraph</p>

In [12]:
soup.div

<div>
<a href="www.google.com">google</a>
</div>

In [13]:
soup.a

<a href="www.google.com">google</a>

### HTML 태그 검색

* `find()`: 해당 조건에 맞는 하나의 태그를 가져옴
* `find_all()`: 해당 조건에 맞는 모든 태그를 가져옴
* `select()`: CSS 선택자와 같은 형식으로 선택 가능

In [14]:
# 이 3개면 왠만한 건 다 스크래핑 할수있다

In [15]:
soup_find = soup.find('div') # soup의 div 테그를 찾아줭!
soup_find   #div의 처음,맨 위 테그만 먼저 보여줌

<div>
<a href="www.google.com">google</a>
</div>

In [16]:
soup_findall = soup.find_all('div')
soup_findall    # 반환결과는 list로 줌 
                # 왜 why? 여러개니까

[<div>
 <a href="www.google.com">google</a>
 </div>, <div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>, <div id="id1">
             example page
             <p>g</p>
 </div>]

In [17]:
find_by_id = soup.find_all('div', {'id':'id1'})  #id로도찾을수 있다
                                # div에 id 준것들중에 id1속성값을 찾아줘
find_by_id      # find all은 하나만 있더라도
                # 리스트 형식으로 줍니다

[<div id="id1">
             example page
             <p>g</p>
 </div>]

In [18]:
find_by_class = soup.find_all('div', {'class':'class1'})
find_by_class

[<div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

In [19]:
print(soup.find('a').get('href')) # 특정 속성값을 가져오고싶다
print(soup.find('a'))
print(soup.find('a').get_text()) # a 테그 안에 감싸져 있는 text값을 가져오고 싶다면?
    # 차이점 뭔지 알겠어?

www.google.com
<a href="www.google.com">google</a>
google


In [20]:
# a 테그가 여러갠데 그 모두의 text값을 가져오고싶다!
# 이번엔 테그가 여러개일때

site_names = soup.find_all('a')

for name in site_names:
    print(name)

for name in site_names:
    print(name.get('href'))

for name in site_names:
    print(name.get_text())

<a href="www.google.com">google</a>
<a href="www.naver.com">naver</a>
www.google.com
www.naver.com
google
naver


In [21]:
id1 = soup.select('div#id1')       #css 처럼 해야함
id1                                 # 포함 되는 모든 내용을 가져옴 
                                    # 그래서 이것도 리스트형식임
                                    # id는 원래 css 에서 #으로 정의했잖아

[<div id="id1">
             example page
             <p>g</p>
 </div>]

In [24]:
class1 = soup.select('div.class1')     # 마찬가지로 class는 .으로 정의했고
class1

[<div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

In [25]:
class1_a = soup.select('div.class1 a')  # a 테그만 가져오고 싶을때
class1_a

[<a href="www.naver.com">naver</a>]

## 웹페이지 콘텐츠 가져오기

In [26]:
%%writefile anthem.html
<!DOCTYLE html>
<html>
    <head>
    </head>
    <body>
        <div>
        <p id = 'title'>애국가</p>
        <p id = 'content'>
            동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라만세<br>
            무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세<br>
        </p>
        <p id = 'content'>
            남산 위에 저 소나무, 철갑을 두른 듯 하느님이 보우하사 우리나라만세<br>
            무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세<br>
        </p>
        <p id = 'content'>
            가을하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세<br>
            무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세<br>
        </p>
        <p id = 'content'>
            이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.<br>
            무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세<br>
        </p>
    </body>
</html>

Writing anthem.html


In [27]:
with open('anthem.html') as fp:
    soup = BeautifulSoup(fp, 'html.parser')

soup

<!--DOCTYLE html-->
<html>
<head>
</head>
<body>
<div>
<p id="title">애국가</p>
<p id="content">
            동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라만세<br/>
            무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세<br/>
</p>
<p id="content">
            남산 위에 저 소나무, 철갑을 두른 듯 하느님이 보우하사 우리나라만세<br/>
            무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세<br/>
</p>
<p id="content">
            가을하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세<br/>
            무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세<br/>
</p>
<p id="content">
            이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.<br/>
            무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세<br/>
</p>
</div></body>
</html>

In [28]:
# 여기에 택스트 부분만 가져오고싶다
# html에 스크래핑 한다는거는 content,text부분만 가져오는게 대다수
title = soup.find('p', {'id':'title'})              #이건 한개니까 
contents =soup.find_all('p', {'id':'content'})      # 이건 여러개니까

print(title.get_text())
for content in contents:
    print(content.get_text())

애국가

            동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라만세
            무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세


            남산 위에 저 소나무, 철갑을 두른 듯 하느님이 보우하사 우리나라만세
            무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세


            가을하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세
            무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세


            이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.
            무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세



## 인터넷 웹페이지 가져오기

In [29]:
url = 'http://suanlab.com/'               # 구성된 html을 어케알지?
html = urllib.request.urlopen(url).read() # 해당 웹페이지에 대한 html을 가져올수있다
soup = BeautifulSoup(html, 'html.parser') # 우리가 정의한 html변수로 써주고
soup

<!DOCTYPE html>

<!--[if IE 8]>			<html class="ie ie8"> <![endif]-->
<!--[if IE 9]>			<html class="ie ie9"> <![endif]-->
<!--[if gt IE 9]><!--> <html> <!--<![endif]-->
<head>
<meta charset="utf-8"/>
<title>Home | SuanLab</title>
<meta content="Suan, Computer, Data, Course, Lecture, Research, Big Data, Machine Learning, Deep Learning, Cloud Computing, Data Analysis, Visualzation" name="keywords"/>
<meta content="Suan Computer Laboratory" name="description"/>
<meta content="Suan Lee" name="Author"/>
<!-- mobile settings -->
<meta content="width=device-width, maximum-scale=1, initial-scale=1, user-scalable=0" name="viewport"/>
<!--[if IE]><meta http-equiv='X-UA-Compatible' content='IE=edge,chrome=1'><![endif]-->
<!-- WEB FONTS : use %7C instead of | (pipe) -->
<link href="https://fonts.googleapis.com/css?family=Open+Sans:300,400%7CRaleway:300,400,500,600,700%7CLato:300,400,400italic,600,700" rel="stylesheet" type="text/css"/>
<!-- CORE CSS -->
<link href="assets/plugins/bootstrap/css/boot

In [30]:
labels = soup.find_all('label')     # find로 수안렙에서 검사를 통해 가져와볼게
for label in labels:
    print(label.get_text())



[2020-05-20] "인공지능의 보안 위협" 칼럼
[2020-03-04] "데이터 경제 시대" 칼럼
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치" 칼럼
[2019-09-25] "유튜브 탄생과 크리에이터 시대" 칼럼
[2019-09-04] "농업으로 들어간 인공지능" 칼럼
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가" 칼럼
[2018-12-30] "파이썬으로 텍스트 분석하기" 책 출판


In [31]:
# labels = soup.select('#wrapper > section > div > div > div:nth-child(1) > div > div:nth-child(1) > label')

 #select()로 수안렙에서 검사를 통해 가져와불게
 # :nth-child(1)을 지워줌으로써 하나만 가져오는게 아닌 전체를 가져오게
 # select를 하면 매우 이지하게 copy selector을 통해 볼수잇어

labels = soup.select('#wrapper > section > div > div > div > div > div > label')
for label in labels:                                                                                               
    print(label.get_text())
    

[2020-05-20] "인공지능의 보안 위협" 칼럼
[2020-03-04] "데이터 경제 시대" 칼럼
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치" 칼럼
[2019-09-25] "유튜브 탄생과 크리에이터 시대" 칼럼
[2019-09-04] "농업으로 들어간 인공지능" 칼럼
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가" 칼럼
[2018-12-30] "파이썬으로 텍스트 분석하기" 책 출판


## 참고 문헌

* https://www.crummy.com/software/BeautifulSoup/bs4/doc/