# html 문서내의 태그 선택

In [1]:
import bs4

### find_all

조건에 맞는 태그를 모두 가져온다.

In [12]:
html = '''
        <html>
            <body>
                <p class='a1'>p 태그 1</p>
                <p class='a2'>p 태그 2</p>
                <p class='a1 a2'>p 태그 3</p>
                <ul>
                    <li class='a1'>항목1</li>
                    <li class='a2'>항목2</li>
                    <li class='a1 a2'>항목3</li>
                </ul>
            </body>
        </html>
       '''
soup = bs4.BeautifulSoup(html, 'lxml')

In [8]:
# p 태그 모두 가져오기
p_list = soup.find_all('p')
# li 태그 모두 가져오기
li_list = soup.find_all('li')

print(p_list)
print(li_list)

for p_tag in p_list :
    print(p_tag.text)
    
for li_tag in li_list :
    print(li_tag.text)

[<p class="a1">p 태그 1</p>, <p class="a2">p 태그 2</p>, <p class="a1 a2">p 태그 3</p>]
[<li>항목1</li>, <li>항목2</li>, <li>항목3</li>]
p 태그 1
p 태그 2
p 태그 3
항목1
항목2
항목3


In [16]:
# css(Cascade Style Sheet) class 사용하기
# 디자이너가 디자인의 용이성을 위해 적용할 스타일
# 값을 모아서 만들고 이를 class 속성에 적용하게 된다
# 이를 이용해 원하는 태그에 접근할 수 있다.
# 같은 css 클래스를 여러 태그에 적용했을 수도 있기
# 때문에 원하지 않는 태그도 가져올 수 있다.

# p태그 중에 class가 a1인 태그들을 가져온다.
p_list = soup.find_all('p', class_='a1')
print(p_list)

# p 태그 중에 class가 a2인 태그들을 가져온다.
# 처음에 태그 이름이 나왔을 경우 두 번째는 무조건]
# class 속성 값이다.
p_list2 = soup.find_all('p', 'a2')
print(p_list2)

# 태그에 관계 없이 class가 a1인 태그를 가져온다.
a1_list = soup.find_all(class_='a1')
print(a1_list)

# 태그에 관계 없이 class가 a2인 태그를 가져온다.
a2_list = soup.find_all(class_='a2')
print(a2_list)

[<p class="a1">p 태그 1</p>, <p class="a1 a2">p 태그 3</p>]
[<p class="a2">p 태그 2</p>, <p class="a1 a2">p 태그 3</p>]
[<p class="a1">p 태그 1</p>, <p class="a1 a2">p 태그 3</p>, <li class="a1">항목1</li>, <li class="a1 a2">항목3</li>]
[<p class="a2">p 태그 2</p>, <p class="a1 a2">p 태그 3</p>, <li class="a2">항목2</li>, <li class="a1 a2">항목3</li>]


### find

조건에 맞는 태그 하나를 가져온다.

만약 조건에 맞는 태그가 여러개라면 가장 위에 있는 태그 객체를 가져온다.

In [25]:
html = '''
        <html>
            <body>
                <p class='a1' id='test1'>p 태그 1</p>
                <p class='a1'>p 태그 2</p>
                <p class='a2'>p 태그 3</p>
            </body>            
        </html>
       '''
soup = bs4.BeautifulSoup(html, 'lxml')

In [26]:
p_tag = soup.find('p')
print(p_tag)

a2_class = soup.find(class_='a2')
print(a2_class)

a1_class = soup.find(class_='a1')
print(a1_class)

# id 속성 : HTML 문서 내에 동일한 값을 가지고 있는
# id 속성은 두 개 이상 존재하는게 의미가 없다.
# 개발자가 특정태그 하나를 지칭하기 위한 용도로 
# 사용하는 속성
# 동일 속성값을 가진 id 속성이 여러 태그에 존재할
# 수도 있지만 첫 번째 태그 외의 태그는 접근할 수 
# 있는 방법이 없다(JavaScript)
test1_id = soup.find(id='test1')
print(test1_id)

<p class="a1" id="test1">p 태그 1</p>
<p class="a2">p 태그 3</p>
<p class="a1" id="test1">p 태그 1</p>
<p class="a1" id="test1">p 태그 1</p>


In [29]:
# 없는 태그를 가져온다.
a_list = soup.find_all('a')
print(a_list)

kkk_id = soup.find(id='kkk')
print(kkk_id)

[]
None


### select

html에서 사용하는 selector 문법을 이용해 태그를 지칭하는 함수

태그이름 : "태그이름"<br/>
class 속성 : ".class속성"<br/>
id 속성 : "#id속성"<br/>

In [38]:
html = '''
        <p class='a1' id='test1'>p 태그 1</p>
        <p class='a1'>p 태그 2</p>
        <p class='a2'>p 태그 3</p>
       '''
soup = bs4.BeautifulSoup(html, 'lxml')

In [35]:
# p 태그들을 가져온다.
p_list1 = soup.find_all('p')
print(p_list1)

p_list2 = soup.select('p')
print(p_list2)

[<p class="a1">p 태그 1</p>, <p class="a1">p 태그 2</p>, <p class="a2">p 태그 3</p>]
[<p class="a1">p 태그 1</p>, <p class="a1">p 태그 2</p>, <p class="a2">p 태그 3</p>]


In [37]:
# class 속성
a1_class1 = soup.find_all(class_='a1')
a2_class1 = soup.find(class_='a2')
print(a1_class1)
print(a2_class1)

a1_class2 = soup.select('.a1')
a2_class2 = soup.select('.a2')
print(a1_class2)
print(a2_class2)

[<p class="a1">p 태그 1</p>, <p class="a1">p 태그 2</p>]
<p class="a2">p 태그 3</p>
[<p class="a1">p 태그 1</p>, <p class="a1">p 태그 2</p>]
[<p class="a2">p 태그 3</p>]


In [39]:
# id 속성
test1_id1 = soup.find(id='test1')
print(test1_id1)

test1_id2 = soup.select('#test1')
print(test1_id2)

<p class="a1" id="test1">p 태그 1</p>
[<p class="a1" id="test1">p 태그 1</p>]


In [40]:
html = '''
        <div id='test1'>
            <p>test1 내의 p 태그</p>
        </div>
        <div id='test2'>
            <p>test2 내의 p 태그</p>
        </div>
       '''
soup = bs4.BeautifulSoup(html, 'lxml')

In [41]:
# id가 test1, test2인 태그를 가져온다.
test1_tag = soup.find(id='test1')
test2_tag = soup.find(id='test2')

# 각 태그 내부의 p 태그를 가져온다.
p_tag1 = test1_tag.find('p')
p_tag2 = test2_tag.find('p')

print(p_tag1.text)
print(p_tag2.text)


test1 내의 p 태그
test2 내의 p 태그


In [43]:
p_tag1 = soup.select('#test1 > p')[0].text
p_tag2 = soup.select('#test2 > p')[0].text

print(p_tag1)
print(p_tag2)

test1 내의 p 태그
test2 내의 p 태그
