In [1]:
from bs4 import BeautifulSoup

In [2]:
html_str = "<html><div>hello</div></html>"
soup = BeautifulSoup(html_str, "html.parser")

print(type(soup))
print(soup)

<class 'bs4.BeautifulSoup'>
<html><div>hello</div></html>


### 데이터 중 필요한 부분 가져오기

In [3]:
print(soup.find("div"))

<div>hello</div>


In [4]:
html_str = """
<html>
    <body>
        <ul>
            <li>line1</li>
            <li>line2</li>
            <li>line3</li>
        </ul>
    </body>
</html>
"""

soup = BeautifulSoup(html_str, "html.parser")

ul = soup.find("ul")
print(ul)

<ul>
<li>line1</li>
<li>line2</li>
<li>line3</li>
</ul>


In [5]:
# 태그 없이 텍스트만 추출
li = ul.find("li")
print(li.text)

line1


In [6]:
# 태그 없이 텍스트만 추출 (2) - 전체 내용이 나오게
lis = ul.find_all("li")
print(lis)

[<li>line1</li>, <li>line2</li>, <li>line3</li>]


In [7]:
# line3 가져오기
print(lis[2])
print(lis[2].text)

<li>line3</li>
line3


### class 속성을 이용해 데이터 가져오기

In [8]:
html_str = """
<html>
    <body>
        <ul class="class1">
            <li>line1</li>
            <li>line2</li>
            <li>line3</li>
        </ul>
        <ul class="class2">
            <li>line4</li>
            <li>line5</li>
            <li>line6</li>
        </ul>
    </body>
</html>
"""

soup = BeautifulSoup(html_str, "html.parser")

ul = soup.find("ul")
print(ul)

<ul class="class1">
<li>line1</li>
<li>line2</li>
<li>line3</li>
</ul>


In [9]:
# 조건을 추가해 우리가 뽑고 싶은 요소에 정확하게 접근하기 - class2 가져오기
ul = soup.find("ul", {"class": "class2"})
print(ul)

<ul class="class2">
<li>line4</li>
<li>line5</li>
<li>line6</li>
</ul>


### class와 id의 차이
- id는 웹 페이지에서 유일해야 하고, class는 여러 번 사용이 가능함
- 따라서, class는 일반적인 이름으로 짓고 id는 특수하게 지어야함

### 속성 값을 이용해 데이터 가져오기

In [10]:
html_str = """
<html>
    <body>
        <ul class="search">
            <li>
                <a href="https://www.naver.com">네이버</a>
            </li>
            <li>
                <a href="https://www.google.com">구글</a>
            </li>
        </ul>
        <ul class="sns">
            <li>
                <a href="https://www.facebook.com">페이스북</a>
            </li>
            <li>
                <a href="https://www.instagram.com">인스타그램</a>
            </li>
        </ul>
    </body>
</html>
"""

soup = BeautifulSoup(html_str, "html.parser")

ul = soup.find("a")
print(ul)

<a href="https://www.naver.com">네이버</a>


In [11]:
# <a> 태그의 href 속성의 속성 값을 뽑아내어 링크 추출
print(ul['href'])

https://www.naver.com
