<a href="https://colab.research.google.com/github/Georgia-MAX-holic/Footprints/blob/main/bs4/bs4_tutorial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#HTML 파싱( Parsing)


## 웹페이지 예제 생성

In [2]:
%%writefile example.html
<!DOCTYPE html>
<html>
   <head>
      <title>Page Title</Title>
    </head>
    <body>
       <h1>Heading 1 </h1>
       <p>Paragraph</p>
       <div>
          <a href="www.google.com">google</a>
       </div>
       <div class="class1">
         <p>a</p>
         <a href="www.naver.com">naver</a>
         <p>b</p>
         <p>c</p>
       </div>
       <div id="id1">
          Example page
          <p>g</p>
       </div>
     </body>


</html>



Overwriting example.html


In [4]:
from bs4 import BeautifulSoup
import urllib.request

with open("example.html") as fp:
  soup = BeautifulSoup(fp, "html.parser")

soup

<!DOCTYPE html>

<html>
<head>
<title>Page Title</title>
</head>
<body>
<h1>Heading 1 </h1>
<p>Paragraph</p>
<div>
<a href="www.google.com">google</a>
</div>
<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>
<div id="id1">
          Example page
          <p>g</p>
</div>
</body>
</html>

In [5]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Page Title
  </title>
 </head>
 <body>
  <h1>
   Heading 1
  </h1>
  <p>
   Paragraph
  </p>
  <div>
   <a href="www.google.com">
    google
   </a>
  </div>
  <div class="class1">
   <p>
    a
   </p>
   <a href="www.naver.com">
    naver
   </a>
   <p>
    b
   </p>
   <p>
    c
   </p>
  </div>
  <div id="id1">
   Example page
   <p>
    g
   </p>
  </div>
 </body>
</html>



## HTML 태그 파싱

In [6]:
soup.title

<title>Page Title</title>

In [7]:
soup.title.name

'title'

In [8]:
soup.title.string

'Page Title'

In [9]:
soup.title.parent

<head>
<title>Page Title</title>
</head>

In [10]:
soup.h1

<h1>Heading 1 </h1>

In [11]:
soup.p

<p>Paragraph</p>

In [12]:
soup.div

<div>
<a href="www.google.com">google</a>
</div>

In [13]:
soup.a

<a href="www.google.com">google</a>

## HTML 태그 검색 
- find() 해당 조건에 맞는 하나의 태그를 가져옴 
- find_all() 해당 조건에 맞는 모든 태그를 가져옴 
- select() CSS  선택자와 같은 형식으로 선택 가능 

In [15]:
soup_find = soup.find("div")
print(soup_find)

<div>
<a href="www.google.com">google</a>
</div>


In [18]:
soup_find_all = soup.find_all("div")
print(soup_find_all)

[<div>
<a href="www.google.com">google</a>
</div>, <div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>, <div id="id1">
          Example page
          <p>g</p>
</div>]


In [19]:
find_by_id = soup.find_all("div", {"id": "id1"})
print(find_by_id)

[<div id="id1">
          Example page
          <p>g</p>
</div>]


In [21]:
find_by_class = soup.find_all("div" , {"class": "class1"})
find_by_class

[<div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

In [22]:
soup.find("a").get("href")

'www.google.com'

In [25]:
soup.find("a").get_text()

'google'

In [30]:
site_names = soup.find_all("a")

for name in site_names:
  print(name.get_text())

google
naver


In [31]:
id1 = soup.select("div#id1")
id1

[<div id="id1">
           Example page
           <p>g</p>
 </div>]

In [32]:
class1 = soup.select("div.class1")
class1

[<div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

In [34]:
class1_a = soup.select("div.class1 a")
class1_a

[<a href="www.naver.com">naver</a>]

In [36]:
%%writefile anthem.html
<!DOCTYPE html>
<html>
<head>
</head>
<body>
   <div>
      <p id="title">애국가</p>
      <p id="content">
      동해물과 백두산이 마르고 닳도록 하느님이 보우사하 우리나라 만세.<br />
      </p>

      <p id="title">애국가</p>
      <p id="content">
      남산 위에 저 소나무, 철갑을 두른 듯 바라 서리 불변함은 우리 기상일세<br />
      </p>      

      <p id="title">애국가</p>
      <p id="content">
      가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세<br />
      </p> 

      <p id="title">애국가</p>
      <p id="content">
      이 기상과 이맘으로 충성을 다하여 괴로우나 즐거우나 나라 보전하세<br />
      </p> 

   </div>
</body>
</html>

Overwriting anthem.html


In [40]:
from bs4 import BeautifulSoup
import urllib.request

with open("anthem.html") as fp:
  soup = BeautifulSoup(fp , "html.parser")

soup

<!DOCTYPE html>

<html>
<head>
</head>
<body>
<div>
<p id="title">애국가</p>
<p id="content">
      동해물과 백두산이 마르고 닳도록 하느님이 보우사하 우리나라 만세.<br/>
</p>
<p id="title">애국가</p>
<p id="content">
      남산 위에 저 소나무, 철갑을 두른 듯 바라 서리 불변함은 우리 기상일세<br/>
</p>
<p id="title">애국가</p>
<p id="content">
      가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세<br/>
</p>
<p id="title">애국가</p>
<p id="content">
      이 기상과 이맘으로 충성을 다하여 괴로우나 즐거우나 나라 보전하세<br/>
</p>
</div>
</body>
</html>

In [46]:
title = soup.find("p", {"id": "title"})
contents = soup.find_all("p",{"id":"content"})
print(title.get_text())

for content in contents:
  print(content.get_text())

애국가

      동해물과 백두산이 마르고 닳도록 하느님이 보우사하 우리나라 만세.


      남산 위에 저 소나무, 철갑을 두른 듯 바라 서리 불변함은 우리 기상일세


      가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세


      이 기상과 이맘으로 충성을 다하여 괴로우나 즐거우나 나라 보전하세



## 웹페이지에서 가져오기

In [72]:
url = "http://suanlab.com/"

html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html ,  "html.parser")


In [73]:
labels = soup.find_all(["label"])
for label in labels:
  print(label.get_text()) 

[2022-12-02] KJDB2022 Workshop
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"
