## [03] BeautifulSoup 라이브러리 기초

### BeautifulSoup 특징
  * HTML과 XML 파일에서 데이터를 뽑아내기 위한 파이썬 라이브러리
  * HTML과 XML의 트리 구조를 탐색, 검색, 변경 가능
  * 다양한 파서(parser)를 선택하여 이용 가능
    

In [1]:
! pip install bs4



### HTML 파싱(Parsing)

#### 웹 페이지 예제


In [2]:
%%writefile example.html
<!DOCTYPE html>
<html>
 <head>
     <title>Page Title</title>
 </head>
 <body>
     <h1>Heading 1</h1>
     <p>Paragraph</p>
     <div>
         <a href="www.google.com">google</a>
     </div>
     <div class="class1">
         <p>a</p>
         <a href="www.naver.com">naver</a>
         <p>b</p>
         <p>c</p>
     </div>
     <div id="id1">
         Example page
        <p>p</p>
     </div>
 </body>
</html> 

Overwriting example.html


In [3]:
from bs4 import BeautifulSoup
import urllib.request

with open("example.html") as fp:
    soup = BeautifulSoup(fp, 'html.parser')

soup

<!DOCTYPE html>

<html>
<head>
<title>Page Title</title>
</head>
<body>
<h1>Heading 1</h1>
<p>Paragraph</p>
<div>
<a href="www.google.com">google</a>
</div>
<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>
<div id="id1">
         Example page
        <p>p</p>
</div>
</body>
</html>

In [4]:
# 좀 더 이쁘게 보기
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Page Title
  </title>
 </head>
 <body>
  <h1>
   Heading 1
  </h1>
  <p>
   Paragraph
  </p>
  <div>
   <a href="www.google.com">
    google
   </a>
  </div>
  <div class="class1">
   <p>
    a
   </p>
   <a href="www.naver.com">
    naver
   </a>
   <p>
    b
   </p>
   <p>
    c
   </p>
  </div>
  <div id="id1">
   Example page
   <p>
    p
   </p>
  </div>
 </body>
</html>



### HTML 태그 파싱

In [5]:
soup.title

<title>Page Title</title>

In [6]:
soup.title.name

'title'

In [7]:
soup.title.string

'Page Title'

In [8]:
soup.title.parent
soup.title.parent.name

'head'

In [9]:
soup.h1

<h1>Heading 1</h1>

In [10]:
soup.p

<p>Paragraph</p>

In [11]:
soup.div

<div>
<a href="www.google.com">google</a>
</div>

In [12]:
soup.a

<a href="www.google.com">google</a>

### HTML 태그 파싱

  * find(): 해당 조건에 맞는 하나의 태그를 가져옴
  * find_all(): 해당 조건에 맞는 모든 태그를 가져옴
  * select(): CSS 선택자와 같은 형식으로 선택 가능

In [13]:
soup_find = soup.find("div")
print(soup_find)

<div>
<a href="www.google.com">google</a>
</div>


In [14]:
soup_find_all = soup.find_all("div")
soup_find_all

[<div>
 <a href="www.google.com">google</a>
 </div>,
 <div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>,
 <div id="id1">
          Example page
         <p>p</p>
 </div>]

In [15]:
find_by_id = soup.find_all('div', {'id':'id1'})
find_by_id

[<div id="id1">
          Example page
         <p>p</p>
 </div>]

In [16]:
find_by_class = soup.find_all('div', {'class':'class1'})
find_by_class

[<div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

In [17]:
find_by_class = soup.find_all('div', class_ = 'class1')
find_by_class

[<div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

In [18]:
soup.find('a').get('href')

'www.google.com'

In [19]:
soup.find('a').get_text()

'google'

In [20]:
site_names = soup.find_all('a')
for name in site_names: 
    print(name)    

<a href="www.google.com">google</a>
<a href="www.naver.com">naver</a>


#### [실습] 사이트 이름만 추출해보기 

In [21]:
## 실습 코드 작성 
site_names = soup.find_all('a')
for name in site_names: 
    print(name.string)

google
naver


In [22]:
id1 = soup.select('div#id1')
id1

[<div id="id1">
          Example page
         <p>p</p>
 </div>]

In [23]:
class1 = soup.select('div.class1')
class1

[<div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

In [24]:
class1_a = soup.select('div.class1 a')
class1_a

[<a href="www.naver.com">naver</a>]

### 웹 페이지 콘텐츠 가져오기

In [25]:
%%writefile busan.html
<!DOCTYPE html>
<html>
 <head>
     <title>안녕 부산 !</title>
 </head>
 <body>
     <div>
         <p id="title">부산 소개서</p>
         <p id="content">
            부산은 세계적 메트로폴리스인 서울에 이어 대한민국 제2의 도시인 한반도 최남단 글로벌 해양도시이다. <br />
            수많은 해변에는 젊음과 생동감이 넘쳐나고, 항구와 부두에는 엄청난 양의 컨테이너와 수출입 무역 상품들이 즐비하며, 거리와 공연장에는 문화와 예술의 향기가 가득하다. <br />
         </p>
         <p id="content">
            또한 지속가능성을 모토로 한 지질학적 유산의 보고이며 APEC기후센터가 자리한 전세계 기후변화 대책의 허브이기도 하다 <br />
            해운대, 광안리 등에는 미래지향적인 마천루들이 속속 스카이라인을 바꾸고 있고, 국제영화제와 불꽃축제 등 낭만의 페스티벌들이 일년 내내 도시를 달군다. <br />
         </p>
         <p id="content">
            이 도시에는 대전환의 역사가 살아 숨 쉰다. <br />
            북한을 포함한 각 지역에서 피란 왔던 한국전쟁 당시의 피란민들은 낙동강을 보호막으로 한반도의 평화를 지켰고 경제 성장의 뿌리를 내렸다. <br />
         </p>
         <p id="content">
            각지에서 흘러든 이질적인 문화들은 융합되어 문화 예술의 향기가 한껏 피어오르는 예술도시로 성장하면서 가덕신공항건설, 금융물류 중심의 글로벌허브도시로 성장해 나가고 있다. <br />
            정치 경제 문화 관광 등 다양한 방면에서 교류와융합이 이루어져 온 용광로와 같은 도시, 부산- 그 뜨거움은 ‘부산’이라는 이름에서도 찾아볼 수 있다. <br />
         </p>
     </div>
 </body>
</html> 

Overwriting busan.html


In [36]:
with open("busan.html",  encoding="utf-8") as fp:
    soup = BeautifulSoup(fp, 'html.parser')

soup

<!DOCTYPE html>

<html>
<head>
<title>안녕 부산 !</title>
</head>
<body>
<div>
<p id="title">부산 소개서</p>
<p id="content">
            부산은 세계적 메트로폴리스인 서울에 이어 대한민국 제2의 도시인 한반도 최남단 글로벌 해양도시이다. <br/>
            수많은 해변에는 젊음과 생동감이 넘쳐나고, 항구와 부두에는 엄청난 양의 컨테이너와 수출입 무역 상품들이 즐비하며, 거리와 공연장에는 문화와 예술의 향기가 가득하다. <br/>
</p>
<p id="content">
            또한 지속가능성을 모토로 한 지질학적 유산의 보고이며 APEC기후센터가 자리한 전세계 기후변화 대책의 허브이기도 하다 <br/>
            해운대, 광안리 등에는 미래지향적인 마천루들이 속속 스카이라인을 바꾸고 있고, 국제영화제와 불꽃축제 등 낭만의 페스티벌들이 일년 내내 도시를 달군다. <br/>
</p>
<p id="content">
            이 도시에는 대전환의 역사가 살아 숨 쉰다. <br/>
            북한을 포함한 각 지역에서 피란 왔던 한국전쟁 당시의 피란민들은 낙동강을 보호막으로 한반도의 평화를 지켰고 경제 성장의 뿌리를 내렸다. <br/>
</p>
<p id="content">
            각지에서 흘러든 이질적인 문화들은 융합되어 문화 예술의 향기가 한껏 피어오르는 예술도시로 성장하면서 가덕신공항건설, 금융물류 중심의 글로벌허브도시로 성장해 나가고 있다. <br/>
            정치 경제 문화 관광 등 다양한 방면에서 교류와융합이 이루어져 온 용광로와 같은 도시, 부산- 그 뜨거움은 ‘부산’이라는 이름에서도 찾아볼 수 있다. <br/>
</p>
</div>
</body>
</html>

#### [실습] '부산 소개서' 문자열만 추출해보기  

In [37]:
## 실습 코드 작성
soup.find("p", id="title").string
soup.find("p", id="title").get_text()


'부산 소개서'

#### [실습] 'content'의 내용들 가져오기

In [28]:
## 실습 코드 작성
contents = soup.find_all("p", id="content")
for c in contents:
    print(c.get_text())


            부산은 세계적 메트로폴리스인 서울에 이어 대한민국 제2의 도시인 한반도 최남단 글로벌 해양도시이다. 
            수많은 해변에는 젊음과 생동감이 넘쳐나고, 항구와 부두에는 엄청난 양의 컨테이너와 수출입 무역 상품들이 즐비하며, 거리와 공연장에는 문화와 예술의 향기가 가득하다. 


            또한 지속가능성을 모토로 한 지질학적 유산의 보고이며 APEC기후센터가 자리한 전세계 기후변화 대책의 허브이기도 하다 
            해운대, 광안리 등에는 미래지향적인 마천루들이 속속 스카이라인을 바꾸고 있고, 국제영화제와 불꽃축제 등 낭만의 페스티벌들이 일년 내내 도시를 달군다. 


            이 도시에는 대전환의 역사가 살아 숨 쉰다. 
            북한을 포함한 각 지역에서 피란 왔던 한국전쟁 당시의 피란민들은 낙동강을 보호막으로 한반도의 평화를 지켰고 경제 성장의 뿌리를 내렸다. 


            각지에서 흘러든 이질적인 문화들은 융합되어 문화 예술의 향기가 한껏 피어오르는 예술도시로 성장하면서 가덕신공항건설, 금융물류 중심의 글로벌허브도시로 성장해 나가고 있다. 
            정치 경제 문화 관광 등 다양한 방면에서 교류와융합이 이루어져 온 용광로와 같은 도시, 부산- 그 뜨거움은 ‘부산’이라는 이름에서도 찾아볼 수 있다. 



### 인터넷 웹 페이지 콘텐츠 가져오기

In [38]:
url = "https://www.busan.go.kr/bhareasymbol"
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, 'html.parser')
soup

<!DOCTYPE html>

<html id="busanportal" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<meta content="부산광역시" name="author">
<meta content="부산광역시" name="keywords">
<meta content="Busan is good 부산이라 좋다. 다시 태어나도 살고 싶은 부산의 주요소식, 시민참여, 행정서비스 안내" name="description">
<meta content="(우 47545) 부산광역시 연제구 중앙대로 1001(연산동)" name="copyright"/>
<meta content="6bedb8bebf3e843bf807f7651dd71cd7d2e56117" name="naver-site-verification"/>
<meta content="ZQtSe4WJXc-jUYgICJX8lRI5-bwA2pMGO7mB2ma0nv0" name="google-site-verification"/>
<meta content="tj24tftgcukoxxwyx6tak2p2tnrhmx" name="facebook-domain-verification"/>
<meta content="website" property="og:type"/>
<meta content="부산광역시" property="og:title"/>
<meta content="Busan is good 부산이라 좋다" property="og:description"/>
<meta content="/humanframe/theme/busan22/assets/img/main/thumb_v2.jpg" property="og:image"/>
<meta content="https://www.bus

In [39]:
symbols = soup.find_all(['h4'])
symbols

[<h4 class="h4Bl">동백꽃</h4>,
 <h4 class="h4Bl">갈매기</h4>,
 <h4 class="h4Bl">고등어</h4>]

In [40]:
for symbol in symbols:
    print(symbol.string)

동백꽃
갈매기
고등어


In [41]:
symbols = soup.find_all(['h4'])
symbols
for symbol in symbols:
    print(symbol.get_text())

동백꽃
갈매기
고등어


In [44]:
symbols = soup.find_all("h4", class_ = "h4Bl")
symbols

[<h4 class="h4Bl">동백꽃</h4>,
 <h4 class="h4Bl">갈매기</h4>,
 <h4 class="h4Bl">고등어</h4>]

In [45]:
symbols = soup.select('#contents > div.content > h4')
symbols
for symbol in symbols:
    print(symbol.get_text())

동백꽃
갈매기
고등어


### [실습]'부기 인스타툰' 제목 가져오기

#### 실습 1 find_all() 사용해서 가져오기

#### 실습 2 select() 사용해서 가져오기

url = 'https://www.busan.go.kr/istoon'

In [46]:
url = 'https://www.busan.go.kr/istoon'
html = urllib.request.urlopen(url).read()
practice_soup = BeautifulSoup(html, 'html.parser')
practice_soup

<!DOCTYPE html>

<html id="busanportal" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<meta content="부산광역시" name="author">
<meta content="부산광역시" name="keywords">
<meta content="Busan is good 부산이라 좋다. 다시 태어나도 살고 싶은 부산의 주요소식, 시민참여, 행정서비스 안내" name="description">
<meta content="(우 47545) 부산광역시 연제구 중앙대로 1001(연산동)" name="copyright"/>
<meta content="6bedb8bebf3e843bf807f7651dd71cd7d2e56117" name="naver-site-verification"/>
<meta content="ZQtSe4WJXc-jUYgICJX8lRI5-bwA2pMGO7mB2ma0nv0" name="google-site-verification"/>
<meta content="tj24tftgcukoxxwyx6tak2p2tnrhmx" name="facebook-domain-verification"/>
<meta content="website" property="og:type"/>
<meta content="부산광역시" property="og:title"/>
<meta content="Busan is good 부산이라 좋다" property="og:description"/>
<meta content="/humanframe/theme/busan22/assets/img/main/thumb_v2.jpg" property="og:image"/>
<meta content="https://www.bus

In [71]:
titles = practice_soup.find_all("p", class_ = "tit")
for title in titles:
    print(title.string)
    # print(title.get_text())

네컷 사진 장인 부산갈매기
MZ 갈매기가 노는 법.jpg
환절기.. 비염 갈매기는 끼룩끼룩 웁니다 
온 부산이 온종일 당신처럼 애지중지
[인스타툰] 타오르는 달집에 소원 비는 중..! 부기 소원은? 비밀♥
[인스타툰] 아니.. 벌써 1월 순삭? 실화? #잃어버린시간을찾습니다


In [81]:
titles = practice_soup.select("li > a.item > div.titBar > p")
for title in titles:
    print(title.string)
    # print(title.get_text())

네컷 사진 장인 부산갈매기
MZ 갈매기가 노는 법.jpg
환절기.. 비염 갈매기는 끼룩끼룩 웁니다 
온 부산이 온종일 당신처럼 애지중지
[인스타툰] 타오르는 달집에 소원 비는 중..! 부기 소원은? 비밀♥
[인스타툰] 아니.. 벌써 1월 순삭? 실화? #잃어버린시간을찾습니다


In [82]:
titles = practice_soup.select(".thumbListType3 > li > a.item > div.titBar > p")
for title in titles:
    print(title.string)
    # print(title.get_text())

네컷 사진 장인 부산갈매기
MZ 갈매기가 노는 법.jpg
환절기.. 비염 갈매기는 끼룩끼룩 웁니다 
온 부산이 온종일 당신처럼 애지중지
[인스타툰] 타오르는 달집에 소원 비는 중..! 부기 소원은? 비밀♥
[인스타툰] 아니.. 벌써 1월 순삭? 실화? #잃어버린시간을찾습니다
