## beautifulsoup function

In [1]:
from bs4 import BeautifulSoup

In [24]:
html = '''<html><head><title class="t" id="ti">test site</title></head><body><p><span>test0</span><span>test1</span></p><p id="d" class="a">test2</p><p class="b">test3</p></body></html>'''
soup = BeautifulSoup(html, 'lxml')

In [9]:
p_element = soup.p
print(p_element)

<p><span>test0</span><span>test1</span></p>


In [10]:
# 원하는 태그 찾기 : find_all()
print(soup.find_all('title'))

[<title class="t" id="ti">test site</title>]


In [11]:
print(soup.find_all('p'))

[<p><span>test0</span><span>test1</span></p>, <p>test2</p>, <p>test3</p>]


In [19]:
print(soup.find_all(id='d'))        # id로 찾기 가능

[<p id="d">test2</p>]


In [20]:
print(soup.find_all(id = True))

[<title class="t" id="ti">test site</title>, <p id="d">test2</p>]


In [21]:
# find_all()은 전체 HTML을 인식하므로 필요한 데이터는 body에 대부분 있으므로 한정하는 방식이 더 권장
print(soup.body.find_all(id = True))

[<p id="d">test2</p>]


In [22]:
print(soup.body.find_all(id = False))

# id가 존재하지 않는 태그를 찾아서 리스트로 return

[<p><span>test0</span><span>test1</span></p>, <span>test0</span>, <span>test1</span>, <p>test3</p>]


In [23]:
print(soup.find_all('p', id='d'))    # 더 한정해서 찾을 수 있음
print(soup.find_all('p', id='x'))    # 찾고자 하는 id가 없어도 에러 x

[<p id="d">test2</p>]
[]


In [26]:
# class 로도 찾기 가능

# class 키워드는 객체(클래스)를 만들 때 사용하는 키워드 이므로 class_ 를 사용하여 중복 위험을 없애기 (권장)
print(soup.find_all('p', class_='a'))
print(soup.find_all('p', class_='x'))

[<p class="a" id="d">test2</p>]
[]


In [28]:
# find_all() : 두번째 인자는 class_ 속성으로 인식하므로 id로 인식시키려면 id속성을 표기
print(soup.find_all('p', 'a'))
print(soup.find_all('p', 'd'))

print(soup.find_all('p', id='d'))

[<p class="a" id="d">test2</p>]
[]
[<p class="a" id="d">test2</p>]


In [29]:
# 내용요소로도 찾기 가능
print(soup.find_all('p', text='test2'))
print(soup.find_all('p', text='test'))

[<p class="a" id="d">test2</p>]
[]


In [31]:
# 내용요소를 출력
print(soup.find('p', text='test2').get_text())

test2


In [35]:
# 같은 이름의 태그를 찾은 후 제한을 두고 찾아올 수도 있음
print(soup.find_all('p'))             # find_all() : 리미트가 없으면 모든 태그를 찾음
print(soup.find_all('p', limit=1))
print(soup.find_all('p', limit=2))
print(soup.find_all('p', limit=3))
print(soup.find_all('p', limit=4))   # 찾은 태그가 리미트보다 작아도 에러가 나지 않는다

[<p><span>test0</span><span>test1</span></p>, <p class="a" id="d">test2</p>, <p class="b">test3</p>]
[<p><span>test0</span><span>test1</span></p>]
[<p><span>test0</span><span>test1</span></p>, <p class="a" id="d">test2</p>]
[<p><span>test0</span><span>test1</span></p>, <p class="a" id="d">test2</p>, <p class="b">test3</p>]
[<p><span>test0</span><span>test1</span></p>, <p class="a" id="d">test2</p>, <p class="b">test3</p>]


In [36]:
html = '''<html><head><title class="t" id="ti">test site</title></head><body><p><span>test0</span><span>test1</span></p><p id="d" class="a">test2</p><p class="b">test3</p><a>a tag1</a><a>a tag2</a></body></html>'''

soup = BeautifulSoup(html, 'lxml')

In [37]:
# 찾고자 하는 태그가 한 개 이상이라면 list 형식으로 찾도록 할 수 있음
print(soup.find_all(['p', 'a']))     # 한 개의 리스트로 return

[<p><span>test0</span><span>test1</span></p>, <p class="a" id="d">test2</p>, <p class="b">test3</p>, <a>a tag1</a>, <a>a tag2</a>]


In [41]:
# find_all() return 하면 list형으로 출력은 되지만 원 타입은 ResultSet 객체
tag_body = soup.find_all('body')
tag_p = tag_body[0].find_all('p')

print(tag_body)
print(tag_p)

print('-------------------------------')
print(type(tag_body))
print(type(tag_p))


[<body><p><span>test0</span><span>test1</span></p><p class="a" id="d">test2</p><p class="b">test3</p><a>a tag1</a><a>a tag2</a></body>]
[<p><span>test0</span><span>test1</span></p>, <p class="a" id="d">test2</p>, <p class="b">test3</p>]
-------------------------------
<class 'bs4.element.ResultSet'>
<class 'bs4.element.ResultSet'>


In [44]:
# find() : 한개 요소 찾기
print(soup.find('p'))    # 같은 이름의 태그가 한 개 이상일 경우 첫번째 태그를 찾아 줌
print(soup.find_all('p', limit=1)[0])

<p><span>test0</span><span>test1</span></p>
<p><span>test0</span><span>test1</span></p>


In [45]:
print(soup.find('img'))
print(soup.find_all('img', limit=1)[0])

None


IndexError: list index out of range

In [46]:
# find와 find_all() 사용법은 같음
# 단순히 첫번째 요소를 찾는것이 아님에 유의!
# 출력 결과를 리스트가 아닌 하나의 요소로 출력함에도 유의!
print(soup.find('p', class_='b'))
print(soup.find('p', 'b'))
print(soup.find('p', id='d'))

<p class="b">test3</p>
<p class="b">test3</p>
<p class="a" id="d">test2</p>


In [47]:
# 한정
print(soup.find('body').find('p', class_='b'))

<p class="b">test3</p>


In [55]:
html = '''<html><head><title class="t"id="ti">test site</title></head><body><div><p><span>test1</span><span>test2</span></p><p id="d" class="a">test2</p></div><p class="b">test3</p><a>a tag1</a><a>a tag2</a></body></html>'''

soup = BeautifulSoup(html, 'lxml')

In [56]:
# CSS selector를 이용해서 요소 찾기 : select()

print(soup.select('body p'))            # 공백은 부모-자식 관계를 표현
print(soup.select('body .b'))           # . : class
print(soup.select('body p.b'))
print(soup.select('body #d'))           #      # : id
print(soup.select('body p#d'))

print(soup.select('div p'))

[<p><span>test1</span><span>test2</span></p>, <p class="a" id="d">test2</p>, <p class="b">test3</p>]
[<p class="b">test3</p>]
[<p class="b">test3</p>]
[<p class="a" id="d">test2</p>]
[<p class="a" id="d">test2</p>]
[<p><span>test1</span><span>test2</span></p>, <p class="a" id="d">test2</p>]


In [58]:
# 요소 제거 : extract
del_elements = soup.body.extract()

print('삭제 항목', del_elements)
prtin('--------------------------------------------------------------------')
print(soup)


AttributeError: 'NoneType' object has no attribute 'extract'

In [61]:
html = '''<html><head><title class="t"id="ti">test site</title></head><body><div><p><span>test1</span><span>test2</span></p><p id="d" class="a">test2</p></div><p class="b">test3</p><a>a tag1</a><a>a tag2</a></body></html>'''

soup = BeautifulSoup(html, 'lxml')

print(soup.select('p'))

# 같은 이름의 요소들 삭제 
for tag in soup.select('p'):
    tag.extract()

print(soup.select('p'))

[<p><span>test1</span><span>test2</span></p>, <p class="a" id="d">test2</p>, <p class="b">test3</p>]
[]


In [67]:
html = '''<html><head><title class="t"id="ti">test site</title></head><body><div><p><span>test1</span><span>test2</span></p><p id="d" class="a">test2</p></div><p class="b">test3</p><a>a tag1</a><a>a tag2</a></body></html>'''

soup = BeautifulSoup(html, 'lxml')

print(soup.find_all(['p', 'a']))

# 같은 이름의 요소들 삭제 
for tag in soup.find_all(['p', 'a']):
    tag.extract()

print(soup.find_all(['p', 'a']))

[<p><span>test1</span><span>test2</span></p>, <p class="a" id="d">test2</p>, <p class="b">test3</p>, <a>a tag1</a>, <a>a tag2</a>]
[]


In [68]:
# [실습] - 사용자가 삭제하려고 하는 태그를 입력하면 그 웹문서에서 요소를 삭제할 수 있도록 하는
#           함수를 작성하고, 구현해보세요
# ex) remove_element(soup, tags) => remove_element(html, 'p')

In [69]:
def remove_element(soup, tags):
    # 요소 삭제 시 tags에 비어있는 리스트가 들어오면 함수를 종료
    if tags == []:
        return False
    
    removes = []
    
    for tag in soup.find_all(tags):
        removes.append(tag.extract())
    
    return removes

In [71]:
html = '''<html><head><title class="t"id="ti">test site</title></head><body><div><p><span>test1</span><span>test2</span></p><p id="d" class="a">test2</p></div><p class="b">test3</p><a>a tag1</a><a>a tag2</a></body></html>'''

soup = BeautifulSoup(html, 'lxml')

print(remove_element(soup, []))
print(soup)

print('------------------------------------------------------')
# print(remove_element(soup, 'p'))
# print(soup)

print(remove_element(soup, ))


False
<html><head><title class="t" id="ti">test site</title></head><body><div><p><span>test1</span><span>test2</span></p><p class="a" id="d">test2</p></div><p class="b">test3</p><a>a tag1</a><a>a tag2</a></body></html>
------------------------------------------------------
[<p><span>test1</span><span>test2</span></p>, <p class="a" id="d">test2</p>, <p class="b">test3</p>]
<html><head><title class="t" id="ti">test site</title></head><body><div></div><a>a tag1</a><a>a tag2</a></body></html>
