In [1]:
# html_test.html에서 소스 코드를 읽어 옵니다. 
with open('html_test.html', 'r', encoding = 'utf-8') as f: 
    html = f.read() 

In [2]:
# 소스 코드는 아래와 같습니다.
print(html)

﻿<html lang="ko"> 
	<head>
		<title>Online Data Scraping Test</title>
	</head>

	<body>
		<p class="title">HTML code for the lecture</p>
		<p class="description">This code will be used as HTML source code for the BS lecture. For more detailed information about BS, you can click
			<a class="BS_English" href="http://www.pythonforbeginners.com/python-on-the-web/beautifulsoup-4-python/"> BS4 for beginners</a></p>
		<p class="description">한국어로 된 정보를 원한다면
			<a class="BS_Korean" href="http://coreapython.hosting.paran.com/etc/beautifulsoup4.html"> BS4 for beginners (한글버전)</a>을 이용하세요</p>
		<div>
			<p><span class="red_price">35.6</span></p>
			<p><span class="blue_price">43.2</span></p>
			<p><span method="manual">24.3</span></p>
		</div>
	</body>
</html>





## BeautifulSoup 클래스 사용하기

In [3]:
from bs4 import BeautifulSoup   
soup=BeautifulSoup(html, 'lxml')

### 태그의 이름을 이용해서 태그 찾기 

title 태그 찾기

In [4]:
soup.title

<title>Online Data Scraping Test</title>

In [5]:
soup.title.text

'Online Data Scraping Test'

첫 번째 p 태그 찾기

In [6]:
soup.p

<p class="title">HTML code for the lecture</p>

### find() 또는 find_all() 함수 사용하기

In [7]:
# 태그의 이름을 찾고자 하는 태그의 조건으로 입력
soup.find('title')

<title>Online Data Scraping Test</title>

In [8]:
# 태그를 찾은 후, 텍스트 정보를 추출하기 위해 text 키워드 사용
soup.find('title').text

'Online Data Scraping Test'

In [9]:
soup.find('p')

<p class="title">HTML code for the lecture</p>

In [10]:
soup.find('p').text

'HTML code for the lecture'

### 태그의 속성 정보 이용하기

find() 함수의 경우

In [11]:
# 태그의 속성 정보를 인자로 입력하기 위해서 attrs 파라미터 사용
soup.find('span', attrs={'class':'blue_price'})

<span class="blue_price">43.2</span>

In [12]:
soup.find('span',attrs={'class':'blue_price'}).text

'43.2'

### find_all() 함수 사용하기

In [13]:
# 아래와 같이 입력하면 두 번째 p 태그를 찾습니다. 
soup.find('p', attrs={'class':'description'})

<p class="description">This code will be used as HTML source code for the BS lecture. For more detailed information about BS, you can click
			<a class="BS_English" href="http://www.pythonforbeginners.com/python-on-the-web/beautifulsoup-4-python/"> BS4 for beginners</a></p>

In [14]:
# 아래와 같이 입력하면 해당 조건을 만족하는 두 개의 p 태그가 모두 찾아지고, 
# 그 결과가 리스트 형태로 반환됩니다.
soup.find_all('p', attrs={'class':'description'})

[<p class="description">This code will be used as HTML source code for the BS lecture. For more detailed information about BS, you can click
 			<a class="BS_English" href="http://www.pythonforbeginners.com/python-on-the-web/beautifulsoup-4-python/"> BS4 for beginners</a></p>,
 <p class="description">한국어로 된 정보를 원한다면
 			<a class="BS_Korean" href="http://coreapython.hosting.paran.com/etc/beautifulsoup4.html"> BS4 for beginners (한글버전)</a>을 이용하세요</p>]

In [15]:
# 인덱스 번호 1을 사용해서 두 번째 원소에 접근할 수 있습니다.
soup.find_all('p', attrs={'class':'description'})[1]

<p class="description">한국어로 된 정보를 원한다면
			<a class="BS_Korean" href="http://coreapython.hosting.paran.com/etc/beautifulsoup4.html"> BS4 for beginners (한글버전)</a>을 이용하세요</p>

In [16]:
# 그렇다면 아래 코드를 실행하면 어떠한 결과가 반환될까요?
soup.find_all('span')[-1].text

'24.3'

## Navigation 기능 사용하기

자식 태그에 접근하기

In [17]:
# 아래의 경우, .contents 는 head 태그의 모든 자식 원소를 리스트 형태로 반환합니다.
soup.head.contents

['\n', <title>Online Data Scraping Test</title>, '\n']

In [18]:
soup.head.contents[1]

<title>Online Data Scraping Test</title>

In [19]:
soup.head.contents[1].text

'Online Data Scraping Test'

부모 태그에 접근하기

In [20]:
soup.title.parent

<head>
<title>Online Data Scraping Test</title>
</head>

형제자매 태그에 접근하기

In [21]:
soup.find('p',attrs={'class':'title'})

<p class="title">HTML code for the lecture</p>

In [23]:
# 아래 코드는 '\n'을 반환합니다.
soup.find('p',attrs={'class':'title'}).next_sibling

'\n'

In [24]:
# 그 다음 p 태그에 접근하기 위해서는 next_sibling 키워드를 다시 한번 적용합니다.
soup.find('p',attrs={'class':'title'}).next_sibling.next_sibling

<p class="description">This code will be used as HTML source code for the BS lecture. For more detailed information about BS, you can click
			<a class="BS_English" href="http://www.pythonforbeginners.com/python-on-the-web/beautifulsoup-4-python/"> BS4 for beginners</a></p>

## 태그 속성의 값 추출하기: get() 함수 사용

In [25]:
# get() 함수의 인자로 추출하고자 하는 값을 저장하고 있는 속성의 이름을 입력합니다.
soup.a.get('href')

'http://www.pythonforbeginners.com/python-on-the-web/beautifulsoup-4-python/'