# HTML Tag Selection

### find_all , find , select

In [1]:
import bs4

In [2]:
html = '''
        <html>
            <body>
                <p class="a1">p 태그1</p>
                <p class='a2'>p 태그2</p>
                <p class='a1 a2'>p 태그3</p>
                <ul class='a1'>
                    <li>항목1</li>
                    <li>항목2</li>
                    <li>항목3</li>
                </ul>
            </body>
        </html>
       '''
soup = bs4.BeautifulSoup(html, 'lxml')

## find_all

조건에 맞는 태그를 모두 선택

In [3]:
p_list = soup.find_all('p')   # find all p tags in html
li_list = soup.find_all('li') # return type : list

print(p_list)
print(li_list)

for p_tag in p_list:
    print(p_tag.text)

[<p class="a1">p 태그1</p>, <p class="a2">p 태그2</p>, <p class="a1 a2">p 태그3</p>]
[<li>항목1</li>, <li>항목2</li>, <li>항목3</li>]
p 태그1
p 태그2
p 태그3


In [4]:
# css class 이름을 사용하여 태그 선택
# 소스보기에서 추출할 태그 클래스와 동일한 클래스가 더 있는지 Ctrl+f 로 찾아보기
# 조건에 맞는 태그가 없으면 빈 리스트 반환
c_list = soup.find_all(class_='a1')
p_list = soup.find_all('p', class_='a1')

print(c_list,'\n')
print(p_list)

[<p class="a1">p 태그1</p>, <p class="a1 a2">p 태그3</p>, <ul class="a1">
<li>항목1</li>
<li>항목2</li>
<li>항목3</li>
</ul>] 

[<p class="a1">p 태그1</p>, <p class="a1 a2">p 태그3</p>]


## find

조건에 맞는 태그 중 첫번째 객체를 가져온다.

In [5]:
html = '''
        <html>
            <body>
                <p class='a1' id='i1'>p 태그1</p>
                <p class='a2'>p 태그2</p>
                <p class='a1 a2' id='i3'>p 태그3</p>
            </body>
        </html>
       '''
soup = bs4.BeautifulSoup(html, 'lxml')

In [6]:
c = soup.find(class_='a1 a2')
print(c)

# id 속성은 대개 하나만 있어서 find가 적합하다. (JavaScript)
i = soup.find(id='i3')
print(i)

<p class="a1 a2" id="i3">p 태그3</p>
<p class="a1 a2" id="i3">p 태그3</p>


## Select

문법을 이용하여 태그 선택

In [7]:
html = '''
        <html>
            <body>
                <p class='a1' id='i1'>p 태그1</p>
                <p class='a2'>p 태그2</p>
                <p class='a1 a2' id='i3'>p 태그3</p>
            </body>
        </html>
       '''
soup = bs4.BeautifulSoup(html, 'lxml')

In [8]:
# 리스트로 반환
# class : .name
# id    : #name
t1 = soup.select('p')  # p태그
t2 = soup.select('p.a1') # p태그와 클래스
t3 = soup.select('p#i1') # p태그와 id
t4 = soup.select('#i3.a1') # 클래스와 id 순서무관 

print(t1)
print(t2)
print(t3)
print(t4)

[<p class="a1" id="i1">p 태그1</p>, <p class="a2">p 태그2</p>, <p class="a1 a2" id="i3">p 태그3</p>]
[<p class="a1" id="i1">p 태그1</p>, <p class="a1 a2" id="i3">p 태그3</p>]
[<p class="a1" id="i1">p 태그1</p>]
[<p class="a1 a2" id="i3">p 태그3</p>]


## 비교

In [9]:
html = '''
        <html>
            <body>
                <p class='a1' id='i1'>p 태그1</p>
                <p class='a2'>p 태그2</p>
                <p class='a1 a2' id='i3'>p 태그3</p>
            </body>
        </html>
       '''
soup = bs4.BeautifulSoup(html, 'lxml')

In [10]:
findall = soup.find_all('p', class_='a1 a2') 
select = soup.select('p.a1.a2')

print(findall)
print(select)

[<p class="a1 a2" id="i3">p 태그3</p>]
[<p class="a1 a2" id="i3">p 태그3</p>]


In [11]:
findall = soup.find_all(id='i1') 
select = soup.select('#i1')

print(findall)
print(select)

[<p class="a1" id="i1">p 태그1</p>]
[<p class="a1" id="i1">p 태그1</p>]


## 하위 태그

In [12]:
html = '''
        <html>
            <body>
                <div>
                    <p class='a1' id='i1'>p 태그1</p>
                </div>
                <div id='div2'>
                    <p class='a2' id='i2'>p 태그2</p>
                </div>
                <div>
                    <p class='a1 a2' id='i3'>p 태그3</p>
                </div>
            </body>
        </html>
       '''
soup = bs4.BeautifulSoup(html, 'lxml')

In [13]:
div_tag = soup.find('div', id='div2')
print(div_tag)

<div id="div2">
<p class="a2" id="i2">p 태그2</p>
</div>


In [14]:
p_tag = div_tag.find('p')
print(p_tag)

<p class="a2" id="i2">p 태그2</p>


In [15]:
# id가 div2 인 태그의 바로 하위 p태그 : >
tag1 = soup.select('#div2 > p')
print(tag1)

[<p class="a2" id="i2">p 태그2</p>]


In [16]:
# id가 div2 인 태그의 하위 p태그 : 띄어쓰기
tag2 = soup.select('#div2 p')
print(tag2)

[<p class="a2" id="i2">p 태그2</p>]
