In [3]:
# requests와 정규식을 사용하기 힘든 사람을 구원해주는 마지막 방법!

!pip install beautifulsoup4



In [2]:
# import할때는 bs4라고 해야함

from bs4 import BeautifulSoup

In [3]:
# 표준을 완벽하게 지킨 html 코드이다. -> well-formed
# 여는 태그, 닫는 태그 정확함.
# 대소문자 구분 확실함.

# 하지만 원래 태그간에는 띄워쓰기 1개가 표준이다. 
# 그러면 한줄로 되버려서 사람이 알아보기 힘드니까 개행(줄바꿈)을 해서 만들자.

html = """
<html>
 <head></head>
 <body>
  <div>
   <p>
    <a>go to page</a>
   </p>
  </div>
 </body>
</html>
"""

In [4]:
# dom 객체를 생성해보자
# well formed html은 lxml이 더 빠르게 잘 할 수 있다.
# well formed html -> html 문법을 잘 지킨 경우
# html은 여는태그, 닫는 태그 를 잘 지키지 않아도 에러가 나지않고 실행이 된다. 그래서 거지같이 만드는 사이트가 많다.
# naver, google은 잘 만들어졌지만, 뽐뿌 같은 사이트는 html 문법을 제대로 지키고 만들지 않아서 crawling할때 잘 안되는 경우가 있당.
# 이떄는 html.parser를 쓰는게 좋다.

dom = BeautifulSoup(html, 'lxml')

In [5]:
# well formed html이라서 parsing은 두가지 방식 다 잘 되었다.

dom

<html>
<head></head>
<body>
<div>
<p>
<a>go to page</a>
</p>
</div>
</body>
</html>

In [6]:
# dom 객체를 생성해보자
# html.parser로 파싱하도록 정했다.
# html 코드가 거지같아도 parsing을 잘 한다. 단 느리다.
# lxml이 잘 안될때 차선책으로 알고 있으면 좋음.

dom = BeautifulSoup(html, 'html.parser')

In [7]:
dom


<html>
<head></head>
<body>
<div>
<p>
<a>go to page</a>
</p>
</div>
</body>
</html>

In [8]:
# .해서 attribute 방식으로 자식 태그에 접근할 수 있다!
# dom의 body의 div의 a 태그를 가져옴

dom.body.div.p.a

<a>go to page</a>

In [9]:
# 중간 부모자식 관계를 뛰어넘을 수 있다.

dom.a

<a>go to page</a>

In [10]:
# a 태그를 하나 더 만들었다.

html = """
<html>
 <head></head>
 <body>
  <div>
   <p>
    <a>go to page</a>
    <a>back to home</a>
   </p>
  </div>
 </body>
</html>
"""

In [11]:
dom = BeautifulSoup(html, 'lxml')

In [12]:
# a가 2개가 있음을 확인

dom

<html>
<head></head>
<body>
<div>
<p>
<a>go to page</a>
<a>back to home</a>
</p>
</div>
</body>
</html>

In [13]:
# a를 가져와보자
# 첫번째 a를 가져왔다.

dom.a

<a>go to page</a>

In [15]:
# 2번째 a를 가져오는 방법!
# 복수형 silblings는 뒤에 있는 형재 태그를 모두 가져옴!
# 자매품: find_previous_sibling()은 앞에 있는 형제 태그를 가져옴. 복수형도 가능.

dom.a.find_next_sibling()

<a>back to home</a>

In [18]:
# id를 추가한 html을 만들어보자.

html = """
<html>
 <head></head>
 <body>
  <div id="result">
   <p class="row">
    <a class="red">go to page</a>
    <a class="blue">back to home</a>
   </p>
  </div>
 </body>
</html>
"""

In [19]:
dom = BeautifulSoup(html, "lxml")

In [23]:
# a의 부모가 p이다.
# p의 children을 찾아보자.
# iterator가 나왔다.

dom.p.children

<list_iterator at 0x1a4978b95f8>

In [24]:
# for문으로 내용물을 확인해보자.

for i in dom.p.children:
    print(i)



<a class="red">go to page</a>


<a class="blue">back to home</a>




In [29]:
# p의 부모인 div의 children을 확인해보자.
# div의 자식인 p도 나오고, p의 자식인 a도 나온다.

for i in (dom.div.children):
    print(i)



<p class="row">
<a class="red">go to page</a>
<a class="blue">back to home</a>
</p>




In [27]:
# div에 추가했던 id 속성을 확인해보자.

dom.div["id"]

'result'

In [104]:
# a에 추가했던 class 속성도 확인할 수 있다.

dom.a["class"]

['red']

---

In [18]:
# a 태그에 href와 id를 추가해보자

html = """
<html>
 <head></head>
 <body>
  <div id="result">
   <p class="row">
    <a class="red" href="http://www.google.com" id="first">go to page</a>
    <a class="blue" href="http://www.naver.com" id="second">back to home</a>
   </p>
  </div>
 </body>
</html>
"""

In [19]:
dom = BeautifulSoup(html, 'lxml')

In [107]:
dom.p.children

<list_iterator at 0x1a498264da0>

In [108]:
# children은 iterator 객체이다.
# 이번에는 for문 대신에 comprehension으로 풀어보자.

[tag for tag in dom.p.children]

['\n',
 <a class="red" href="http://www.google.com" id="first">go to page</a>,
 '\n',
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>,
 '\n']

In [41]:
# .attrs를 하면 해당 태그가 가진 속성을 모두 보여준다.

dom.a.attrs

{'class': ['red'], 'href': 'http://www.google.com', 'id': 'first'}

In [32]:
# dom의 자식태그의 attrs를 불러보자.
# 에러가 발생했따.

[child.attrs for child in dom.children]

AttributeError: 'NavigableString' object has no attribute 'attrs'

In [94]:
# 두번째 애가 개행문자 \n이다.

dom_children = [child for child in dom.children]
dom_children

[<html>
 <head></head>
 <body>
 <div id="result">
 <p class="row">
 <a class="red" href="http://www.google.com" id="first">go to page</a>
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>
 </p>
 </div>
 </body>
 </html>, '\n']

In [67]:
# 개행문자는 Tag가 아니라 String이다. -> .attrs를 쓸 수 없다.
# 원래 html 태그는 모두 한줄로 되어있다. response의 text를 보면 항상 한줄로 되어있다. 
# 연습용 html코드를 사람이 읽기 쉽게 하려고 줄을 나눈것이 개행문자로 인식되어버린 탓에 결과에 포함되었다.

for i in dom_children:
    print(type(i))

<class 'bs4.element.Tag'>
<class 'bs4.element.NavigableString'>


In [72]:
# dom의 자식 태그의 어트리뷰트를 확인
# html 태그의 어트리뷰트는 없기 때문에 비어있는 딕셔너리.

dom_children[0].attrs

{}

In [234]:
dom.div

<div id="result">
<p class="row">
<a class="red" href="http://www.google.com" id="first">go to page</a>
<a class="blue" href="http://www.naver.com" id="second">back to home</a>
<div><a>안녕하세요</a></div>
<a class="green">go to page2</a>
</p>
</div>

In [233]:
dom.div["id"]

'result'

In [89]:
dom.div.children

<list_iterator at 0x1a497c771d0>

In [90]:
[tag for tag in dom.div.children]

['\n', <p class="row">
 <a class="red" href="http://www.google.com" id="first">go to page</a>
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>
 </p>, '\n']

In [88]:
for _ in dom.div.children:
    print(type(_), _)

<class 'bs4.element.NavigableString'> 

<class 'bs4.element.Tag'> <p class="row">
<a class="red" href="http://www.google.com" id="first">go to page</a>
<a class="blue" href="http://www.naver.com" id="second">back to home</a>
</p>
<class 'bs4.element.NavigableString'> 



---

## 태그를 찾아오는 방법 3가지.

1. 태그이름 쓰는 방법
2. attrs를 이용하는 방법.
3. 본문에 있는 내용을 검색하는 방법

In [73]:
# a 태그를 모두 찾아와라

dom.find_all('a')

[<a class="red" href="http://www.google.com" id="first">go to page</a>,
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>]

In [79]:
# a태그를 limit 갯수만큼만 찾아와라

dom.find_all('a', limit=1)

[<a class="red" href="http://www.google.com" id="first">go to page</a>]

In [85]:
dom.find_all('p')

[<p class="row">
 <a class="red" href="http://www.google.com" id="first">go to page</a>
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>
 </p>]

In [74]:
# 여러개를 동시에 넣을 수 있다.

dom.find_all({'div','p'})

[<div id="result">
 <p class="row">
 <a class="red" href="http://www.google.com" id="first">go to page</a>
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>
 </p>
 </div>, <p class="row">
 <a class="red" href="http://www.google.com" id="first">go to page</a>
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>
 </p>]

In [75]:
# 어트리뷰트(attrs)를 활용하는 방법

# id가 result라는 attr을 가진 div 태그만 가져와라.

dom.find_all('div', {'id':'result'})

[<div id="result">
 <p class="row">
 <a class="red" href="http://www.google.com" id="first">go to page</a>
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>
 </p>
 </div>]

In [76]:
# class="red"를 속성으로 가지는 태그만 가져와라

dom.find_all('', attrs={'class':'red'})

[<a class="red" href="http://www.google.com" id="first">go to page</a>]

In [77]:
# 손자 태그는 제외하는 옵션
# 1촌 자식 태그만 가져온다. 다음 예제에서 다시 설명함.

dom.find_all('a', recursive=False)

[]

In [20]:
# "go to page"라는 내용을 포함하고 있는 a 태그를 찾아와라

dom.find_all('a', text="go to page")

[<a class="red" href="http://www.google.com" id="first">go to page</a>]

---

In [21]:
# p 태그에 div 태그를 추가함.
# div 태그는 a 태그를 내포함.

html = """
<html>
 <head></head>
 <body>
  <div id="result">
   <p class="row">
    <a class="red" href="http://www.google.com" id="first">go to page</a>
    <a class="blue" href="http://www.naver.com" id="second">back to home</a>
    <div><a>안녕하세요</a></div>
   </p>
  </div>
 </body>
</html>
"""

In [22]:
dom = BeautifulSoup(html, 'lxml')

In [23]:
# 이 녀석은 당연히 첫번째 a태그

dom.a

<a class="red" href="http://www.google.com" id="first">go to page</a>

In [24]:
# 두번째 a태그를 불러왔다!

dom.a.find_next_sibling()

<a class="blue" href="http://www.naver.com" id="second">back to home</a>

In [28]:
# 모든 a태그를 찾아본다.

dom.find_all('a')

[<a class="red" href="http://www.google.com" id="first">go to page</a>,
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>,
 <a>안녕하세요</a>]

In [184]:
# p 안에 있는 a태그만 찾아본다.
# recursive=False 옵션으로 1촌 자식만 가져온다.

dom.p.find_all('a', recursive=False)

[<a class="red" href="http://www.google.com" id="first">go to page</a>,
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>]

In [185]:
# 근데 왜 True를 해도 2개가 나올까?
# 뭔가 이상하다.

dom.p.find_all('a', recursive=True)

[<a class="red" href="http://www.google.com" id="first">go to page</a>,
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>]

In [187]:
# dom.p를 해보니, div 태그가 없다.

dom.p

<p class="row">
<a class="red" href="http://www.google.com" id="first">go to page</a>
<a class="blue" href="http://www.naver.com" id="second">back to home</a>
</p>

In [188]:
# paser의 문제인것 같다. parser를 바꿔보자

dom = BeautifulSoup(html, 'html.parser')

In [189]:
# 모든 a 태그를 찾기 때문에 총 3개가 나옴.

dom.p.find_all('a')

[<a class="red" href="http://www.google.com" id="first">go to page</a>,
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>,
 <a>안녕하세요</a>]

In [190]:
# recursive=False 옵션은 태그 속의 태그는 무시한다.
# p의 자식 태그 중에서만 a 태그를 찾는다.
# p의 자식인 div 태그 안에 있는 a 태그는 무시하고 2개만 가져왔다. (손자 태그는 제외함.)

dom.p.find_all('a', recursive=False)

[<a class="red" href="http://www.google.com" id="first">go to page</a>,
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>]

In [210]:
# find_parent은 부모 태그를 찾는다. 

dom.p.a.find_parent()

<p class="row">
<a class="red" href="http://www.google.com" id="first">go to page</a>
<a class="blue" href="http://www.naver.com" id="second">back to home</a>
<div><a>안녕하세요</a></div>
</p>

In [201]:
# .name으로 이름을 확인해보면 p.
# p 태그이다.

dom.p.a.find_parent().name

'p'

In [212]:
# find_parents는 부모들을 찾는다.
# list로 되어있다.
# html태그 까지 나온다.

dom.p.a.find_parents()

[<p class="row">
 <a class="red" href="http://www.google.com" id="first">go to page</a>
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>
 <div><a>안녕하세요</a></div>
 </p>, <div id="result">
 <p class="row">
 <a class="red" href="http://www.google.com" id="first">go to page</a>
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>
 <div><a>안녕하세요</a></div>
 </p>
 </div>, <body>
 <div id="result">
 <p class="row">
 <a class="red" href="http://www.google.com" id="first">go to page</a>
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>
 <div><a>안녕하세요</a></div>
 </p>
 </div>
 </body>, <html>
 <head></head>
 <body>
 <div id="result">
 <p class="row">
 <a class="red" href="http://www.google.com" id="first">go to page</a>
 <a class="blue" href="http://www.naver.com" id="second">back to home</a>
 <div><a>안녕하세요</a></div>
 </p>
 </div>
 </body>
 </html>, 
 <html>
 <head></head>
 <body>
 <div id="result">
 <p class="row">
 <a class="r

In [30]:
# 최상위 태그인 html 태그까지 가져왔다.

dom.p.a.find_parents()[-2].name

'html'

In [31]:
# html보다 상위 개념인 document까지 가져왔다.

dom.p.a.find_parents()[-1].name

'[document]'

---

In [228]:
# a 태그 하나 더 추가함

html = """
<html>
 <head></head>
 <body>
  <div id="result">
   <p class="row">
    <a class="red" href="http://www.google.com" id="first">go to page</a>
    <a class="blue" href="http://www.naver.com" id="second">back to home</a>
    <div><a>안녕하세요</a></div>
    <a class="green">go to page2</a>
   </p>
  </div>
 </body>
</html>
"""

In [229]:
dom = BeautifulSoup(html, 'html.parser')

In [230]:
# 3번째 a를 가져와보자
# 여기서부터 시작하자.

dom.p.div.a

<a>안녕하세요</a>

In [232]:
# 4번째 a를 가져와보자
# find_parent로 부모를 찾아가자. => div
# find_next_sibling으로 div와 동등한 위치의 다음 태그를 가져돈다 => 4번째 a 태그

dom.p.div.a.find_parent().find_next_sibling()

<a class="green">go to page2</a>

In [231]:
# 2번째 a를 가져와보자

dom.p.div.a.find_parent().find_previous_sibling()

<a class="blue" href="http://www.naver.com" id="second">back to home</a>