<a href="https://colab.research.google.com/github/eeuuais/data_collection/blob/main/BeautyfulSoup_basic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# HTML 파싱(Parsing)

웹페이지 예제 생성


In [26]:
%%writefile example.html
<!DOCTYPE html>
<html>
  <head>
    <title>Page title</title>
  </head>
  <body>
    <h1>Heading 1</h1>
    <p>Paragrahp</p>
    <div>
      <a href="www.google.com">google</a>
    </div>
    <div class='class1'>
      <p>a</p>
      <a href="www.naver.com">naver</a>
      <p>b</p>
      <p>c</p>
    </div>
    <div id="id1">
      example Page
      <p>g</p>
    </div>
  </body>
</html>


Overwriting example.html


In [29]:
from bs4 import BeautifulSoup
import urllib.request

with open("example.html") as fp:
  soup = BeautifulSoup(fp, 'html.parser')

soup

<!DOCTYPE html>

<html>
<head>
<title>Page title</title>
</head>
<body>
<h1>Heading 1</h1>
<p>Paragrahp</p>
<div>
<a href="www.google.com">google</a>
</div>
<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>
<div id="id1">
      example Page
      <p>g</p>
</div>
</body>
</html>

In [30]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Page title
  </title>
 </head>
 <body>
  <h1>
   Heading 1
  </h1>
  <p>
   Paragrahp
  </p>
  <div>
   <a href="www.google.com">
    google
   </a>
  </div>
  <div class="class1">
   <p>
    a
   </p>
   <a href="www.naver.com">
    naver
   </a>
   <p>
    b
   </p>
   <p>
    c
   </p>
  </div>
  <div id="id1">
   example Page
   <p>
    g
   </p>
  </div>
 </body>
</html>



HTML 태그 파싱

In [31]:
soup.title

<title>Page title</title>

In [32]:
#태그의 name만 가져오기

soup.title.name

'title'

In [33]:
#값만 가져오기

soup.title.string

'Page title'

In [34]:
#타이틀 태그가 포함된 상위태그 출력

soup.title.parent

<head>
<title>Page title</title>
</head>

In [35]:
soup.title.parent.name

'head'

In [36]:
soup.h1

<h1>Heading 1</h1>

In [37]:
soup.p

<p>Paragrahp</p>

p태그의 경우 가장 처음에 사용된 p태그가 불러와 진다

In [38]:
soup.div

<div>
<a href="www.google.com">google</a>
</div>

In [39]:
soup.a

<a href="www.google.com">google</a>

## HTML 태그 검색

- find() : 해당 조건에 맞는 하나의 태그를 가져옴
- find_all() : 해당 조건에 맞는 모든 태그를 가져옴
- select() : CSS 선택자와 같은 형식으로 선택 가능



In [40]:
soup_find = soup.find("div") #첫번째 div에 해당하는 내용이 출력됨
print(soup_find)

<div>
<a href="www.google.com">google</a>
</div>


In [41]:
soup_find_all = soup.find_all("div")
print(soup_find_all) #리스트 형태로 반환

[<div>
<a href="www.google.com">google</a>
</div>, <div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>, <div id="id1">
      example Page
      <p>g</p>
</div>]


In [42]:
find_by_id = soup.find_all("div", {"id":'id1'}) #id1값을 갖는 id를 찾아줘
print(find_by_id) #결과값이 하나라도 리스트로 반환됨

[<div id="id1">
      example Page
      <p>g</p>
</div>]


In [43]:
find_by_class = soup.find_all("div", {"class":'class1'})
print(find_by_class)

[<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>]


In [44]:
soup.find("a").get("href") #첫번째 a태그의 특정 속성값만 가져오기

'www.google.com'

In [45]:
soup.find("a")

<a href="www.google.com">google</a>

In [46]:
soup.find("a").get_text()

'google'

In [47]:
site_names = soup.find_all("a")
#a태그가 포함되어있는 부분마다 출력
for name in site_names:
  print(name)

<a href="www.google.com">google</a>
<a href="www.naver.com">naver</a>


In [48]:
site_names = soup.find_all("a")

for name in site_names:
  print(name.get("href"))

www.google.com
www.naver.com


In [49]:
site_names = soup.find_all("a")

for name in site_names:
  print(name.get_text())

google
naver


In [50]:
id1 = soup.select('div#id1') #CSS selector 처럼 접근해야 함/ select는 하나가 아니라 모두 가져와 줌
id1

[<div id="id1">
       example Page
       <p>g</p>
 </div>]

In [51]:
class1 = soup.select('div.class1')
class1

[<div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

In [53]:
class1_a = soup.select('div.class1 a') #a태그에 대한 부분만 가져오기
class1_a

[<a href="www.naver.com">naver</a>]

## 웹페이지 콘텐츠 가져오기

In [54]:
%%writefile antem.html
<!DOCTYPE html>
<html>
  <head>
  </head>
  <body>
    <div>
      <p id="title">애국가</p>
      <p id="content">
        동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. <br />
        무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세. <br />
      </p>
      <p id="content">
        동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. <br />
        무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세. <br />
      </p>
      <p id="content">
        동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. <br />
        무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세. <br />
      </p>
      <p id="content">
        동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. <br />
        무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세. <br />
      </p>
    </div>
  </body>
</html>

Writing antem.html


In [55]:
with open('antem.html') as fp:
  soup = BeautifulSoup(fp, 'html.parser')

soup

<!DOCTYPE html>

<html>
<head>
</head>
<body>
<div>
<p id="title">애국가</p>
<p id="content">
        동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. <br/>
        무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세. <br/>
</p>
<p id="content">
        동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. <br/>
        무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세. <br/>
</p>
<p id="content">
        동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. <br/>
        무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세. <br/>
</p>
<p id="content">
        동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. <br/>
        무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세. <br/>
</p>
</div>
</body>
</html>

In [56]:
title = soup.find('p', {'id':'title'})
contents = soup.find_all('p', {'id':'content'})

print(title.get_text())
for content in contents:
  print(content.get_text())

애국가

        동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. 
        무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세. 


        동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. 
        무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세. 


        동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. 
        무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세. 


        동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. 
        무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세. 



## 인터넷 웹페이지 가져오기