# html 문서내 태그 선택

In [2]:
import bs4

### find_all : 조건에 맞는 태그를 모두 가져온다.

In [35]:
html = '''
    <html>
        <body>
            <p class = 'a1'>p 태그 1</p>
            <p class = 'a2'>p 태그 2</p>
            <p class = 'a1 a2'>p 태그 3</p>
            <ul>
                <li class = 'a1'>항목 1</li>
                <li class = 'a2'>항목 2</li>
                <li class = 'a1 a2'>항목 3</li>
            </ul>
        </body>
    </html>
'''
soup = bs4.BeautifulSoup(html, 'lxml')

In [36]:
#p 태그 모두 가져오기
p_list = soup.find_all('p')
#li 태그 모두 가져오기
li_list = soup.find_all('li')
print(p_list,'\n',li_list)

[<p class="a1">p 태그 1</p>, <p class="a2">p 태그 2</p>, <p class="a1 a2">p 태그 3</p>] 
 [<li class="a1">항목 1</li>, <li class="a2">항목 2</li>, <li class="a1 a2">항목 3</li>]


In [37]:
for p_tag in p_list:
    print(p_tag.text)
for li_tag in li_list:
    print(li_tag.text)

p 태그 1
p 태그 2
p 태그 3
항목 1
항목 2
항목 3


In [38]:
# css(cascade style sheet)
# 같은 css class를 복수의 태그에 적용했을 수도 있다. 이에 원하지 않은 태그도 가져올 수 있다.

# p_tage 중 class가 a1 인 태그를 가져온다.
p_list_a1 = soup.find_all('p',class_ = 'a1')
print(p_list_a1)
# p_tage 중 class가 a2 인 태그를 가져온다.
# find_all 인자 는 1:tag, 2:class_
p_list_a2 = soup.find_all('p','a2')
print(p_list_a2)

[<p class="a1">p 태그 1</p>, <p class="a1 a2">p 태그 3</p>]
[<p class="a2">p 태그 2</p>, <p class="a1 a2">p 태그 3</p>]


In [42]:
# 태그에 관계없이 class 가 a1 인 태그 불러오기
a1_list = soup.find_all(class_='a1')
print(a1_list)

# 태그에 관계없이 class 가 a2 인 태그 불러오기
a1_list = soup.find_all(class_='a2')
print(a1_list)

[<p class="a1">p 태그 1</p>, <p class="a1 a2">p 태그 3</p>, <li class="a1">항목 1</li>, <li class="a1 a2">항목 3</li>]
[<p class="a2">p 태그 2</p>, <p class="a1 a2">p 태그 3</p>, <li class="a2">항목 2</li>, <li class="a1 a2">항목 3</li>]


### find
- 조건에 맞는 태그 하나를 가져온다.
- 조건에 맞는 태그가 여러개라면 제일 처음에 나온 태그를 가져온다

In [58]:
html = '''
    <html>
        <body>
            <p class = 'a1' id = 'test1'>p 태그 1</p>
            <p class = 'a1'>p 태그 2</p>
            <p class = 'a2'>p 태그 3</p>
        <body>
    </html>
'''
soup = bs4.BeautifulSoup(html,'lxml')

In [59]:
p_tag = soup.find('p')
print(p_tag)
a1 = soup.find(class_='a1')
print(a1)
a2 = soup.find(class_='a2')
print(a2)

<p class="a1" id="test1">p 태그 1</p>
<p class="a1" id="test1">p 태그 1</p>
<p class="a2">p 태그 3</p>


In [60]:
# html 문서 내 동일한 값을 가진 id 속성은 의미가 없다.
id_test = soup.find(id = 'test1')
print(id_test)

<p class="a1" id="test1">p 태그 1</p>


### select
- html에서 사용하는 selector 문법을 이용해 태그를 지칭하는 함수
    - 태그이름 : '태그이름'
    - class 속성 : '.class속성'
    - id 속성 : '#id속성'

In [71]:
html = '''
    <html>
        <body>
            <p class = 'a1' id = 'test1'>p 태그 1</p>
            <p class = 'a2'>p 태그 2</p>
            <p class = 'a1 a2'>p 태그 3</p>
        <body>
    </html>
'''
soup = bs4.BeautifulSoup(html,'lxml')

In [73]:
p_list = soup.select('p')
a1_list = soup.select('.a1')
test1_list = soup.select('#test1')
p_a1_list = soup.select('p.a1')
print(p_list,'\n',a1_list,'\n',test1_list,'\n',p_a1_list)

[<p class="a1" id="test1">p 태그 1</p>, <p class="a2">p 태그 2</p>, <p class="a1 a2">p 태그 3</p>] 
 [<p class="a1" id="test1">p 태그 1</p>, <p class="a1 a2">p 태그 3</p>] 
 [<p class="a1" id="test1">p 태그 1</p>] 
 [<p class="a1" id="test1">p 태그 1</p>, <p class="a1 a2">p 태그 3</p>]
