# 웹 페이지 예제 생성

In [1]:
%%writefile example.html
<!DOCTYPE html>
<html>
  <head>
    <title>Page Title</title>
  </head>
  <body>
    <h1>Heading 1</h1>
    <p>Paragraph</p>
    <div>
      <a href="www.google.com">google</a>
    </div>
    <div class="class1">
      <p>a</p>
      <a href="www.naver.com">naver</a>
      <P>b</p>
      <P>c</p>
    </div>
    <div id="id1">
      Example page
      <p>g</p>
    </div>
  </body>
</html>

Writing example.html


In [32]:
from bs4 import BeautifulSoup
import urllib.request

with open("example.html") as f:
  soup=BeautifulSoup(f, 'html.parser')

soup

<!DOCTYPE html>

<html>
<head>
<title>Page Title</title>
</head>
<body>
<h1>Heading 1</h1>
<p>Paragraph</p>
<div>
<a href="www.google.com">google</a>
</div>
<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>
<div id="id1">
      Example page
      <p>g</p>
</div>
</body>
</html>

In [3]:
print(soup.prettify)

<bound method Tag.prettify of <!DOCTYPE html>

<html>
<head>
<title>Page Title</title>
</head>
<body>
<h1>Heading 1</h1>
<p>Paragraph</p>
<div>
<a href="www.google.com">google</a>
</div>
<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>
<div id="id1">
      Example page
      <p>g</p>
</div>
</body>
</html>
>


# HTML 태크 파싱

In [4]:
soup.title

<title>Page Title</title>

In [5]:
soup.title.name

'title'

In [6]:
soup.title.string

'Page Title'

In [7]:
soup.title.parent

<head>
<title>Page Title</title>
</head>

In [8]:
soup.title.parent.name

'head'

In [9]:
soup.h1

<h1>Heading 1</h1>

In [10]:
soup.p # 문서의 가장 처음 나온 p 태그 출력

<p>Paragraph</p>

In [11]:
soup.div

<div>
<a href="www.google.com">google</a>
</div>

In [12]:
soup.a

<a href="www.google.com">google</a>

# HTML 태그 검색

* find(): 해당 조건에 맞는 하나의 태그를 가져옴
* find_all(): 해당 조건에 맞는 모든 태그를 가져옴
*select(): CSS 선택지와 같은 형식으로 선택 가능

In [13]:
soup_find = soup.find("div")
print(soup_find)

<div>
<a href="www.google.com">google</a>
</div>


In [14]:
soup_find_all = soup.find_all("div")
print(soup_find_all)

[<div>
<a href="www.google.com">google</a>
</div>, <div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>, <div id="id1">
      Example page
      <p>g</p>
</div>]


In [15]:
find_by_id = soup.find_all("div", {"id": "id1"})
print(find_by_id)

[<div id="id1">
      Example page
      <p>g</p>
</div>]


In [16]:
find_by_class = soup.find_all('div', {'class': 'class1'})
print(find_by_class)

[<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>]


In [17]:
soup.find('a').get('href') #url만 추출

'www.google.com'

In [18]:
soup.find('a').get_text()

'google'

In [19]:
site_names = soup.find_all('a')
for name in site_names:
  print(name.get('href'))

www.google.com
www.naver.com


In [20]:
site_names = soup.find_all('a')
for name in site_names:
  print(name.get_text())

google
naver


In [21]:
id1 = soup.select('div#id1')
id1

[<div id="id1">
       Example page
       <p>g</p>
 </div>]

In [22]:
class1 = soup.select('div.class1')
class1

[<div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

In [23]:
class1_a = soup.select('div.class1 a')
class1_a

[<a href="www.naver.com">naver</a>]

# 웹페이지 콘텐츠 가져오기

In [24]:
%%writefile anthem.html
<!DOCTYPE html>
<html>
<head>
</head>
<body>
  <div>
    <p id="title">애국가</p>
    <p id="content">
      동해물과 백두산이 마르고 닳도록 하느님의 보우하사 우리나라 만세.<br />
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
    </p>
     <p id="content">
      남산 위에 저 소나무, 철갑을 두른 듯 바라 서리 불변함은 우리 기상일세.<br />
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
    </p>
     <p id="content">
      가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.<br />
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
    </p>
    <p id="content">
      이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.<br />
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br />
    </p>
  </div>
</body>
</html>

Writing anthem.html


In [27]:
with open("anthem.html") as c:
  soup = BeautifulSoup(c, 'html.parser')

soup

<!DOCTYPE html>

<html>
<head>
</head>
<body>
<div>
<p id="title">애국가</p>
<p id="content">
      동해물과 백두산이 마르고 닳도록 하느님의 보우하사 우리나라 만세.<br/>
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
<p id="content">
      남산 위에 저 소나무, 철갑을 두른 듯 바라 서리 불변함은 우리 기상일세.<br/>
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
<p id="content">
      가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.<br/>
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
<p id="content">
      이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.<br/>
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.<br/>
</p>
</div>
</body>
</html>

In [29]:
title = soup.find('p', {'id':'title'})
title.get_text()

'애국가'

In [30]:
contents=soup.find_all('p', {'id':'content'})
for content in contents:
  print(content.get_text())


      동해물과 백두산이 마르고 닳도록 하느님의 보우하사 우리나라 만세.
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.


      남산 위에 저 소나무, 철갑을 두른 듯 바라 서리 불변함은 우리 기상일세.
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.


      가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.


      이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.
      무궁화 삼천리 화려 강산 대한 사람, 대한으로 길이 보전하세.



# 인터넷 웹페이지 가져오

In [34]:
url="http://suanlab.com/"
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, 'html.parser')
soup

<!DOCTYPE html>

<!--[if IE 8]>			<html class="ie ie8"> <![endif]-->
<!--[if IE 9]>			<html class="ie ie9"> <![endif]-->
<!--[if gt IE 9]><!--> <html> <!--<![endif]-->
<head>
<meta charset="utf-8"/>
<title>Home | SuanLab</title>
<meta content="Suan, Computer, Data, Course, Lecture, Research, Big Data, Machine Learning, Deep Learning, Cloud Computing, Data Analysis, Visualzation" name="keywords"/>
<meta content="Suan Computer Laboratory" name="description"/>
<meta content="Suan Lee" name="Author"/>
<!-- mobile settings -->
<meta content="width=device-width, maximum-scale=1, initial-scale=1, user-scalable=0" name="viewport"/>
<!--[if IE]><meta http-equiv='X-UA-Compatible' content='IE=edge,chrome=1'><![endif]-->
<!-- WEB FONTS : use %7C instead of | (pipe) -->
<link href="https://fonts.googleapis.com/css?family=Open+Sans:300,400%7CRaleway:300,400,500,600,700%7CLato:300,400,400italic,600,700" rel="stylesheet" type="text/css"/>
<!-- CORE CSS -->
<link href="assets/plugins/bootstrap/css/boot

In [35]:
labels=soup.find_all(['label'])
for label in labels:
  print(label.get_text())

[2022-12-02] KJDB2022 Workshop
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"


In [37]:
labels=soup.select('#wrapper > section > div > div > div > div > div > label')
for label in labels:
  print(label.get_text())

[2022-12-02] KJDB2022 Workshop
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"
