파싱
- html 문서에서 원하는 내용 추출
   - 필요한 내용만 추출
   - BeautifulSoup 라이브러리 사용
      - 데이터를 추출하는데 필요한 기능이 들어있는 라이브러리 (피싱 라이브러리)
      - find() / findall()

In [35]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [1]:
from urllib.request import urlopen

In [3]:
# 셀 실행
# ctrl + enter
# shift + enter (다음 셀로 이동)

In [4]:
# 응답 객체에서 소스 코드 가져오기
url = 'https://www.tistory.com'
html = urlopen(url)
text = html.read()

In [6]:
# text.decode('utf8') # 인코딩
# 문서 전체 내용을 텍스트로 받아서 출력

In [7]:
######################################################

In [8]:
### BeautifulSoup 사용법

In [37]:
import bs4
# 오류 있으면 패키지 설치
# !pip install bs4

In [22]:
url = 'https://www.tistory.com'
html = urlopen(url)

In [23]:
# bs4 파싱 객체 반환
bs_obj = bs4.BeautifulSoup(html, 'html.parser')
# 파싱 객체가 생성되면, 객체의 메소드 사용해서 추출 가능

In [30]:
# bs_obj

In [27]:
# 계층구조 표현 : 가독성이 좋음
# print(bs_obj.prettify())

In [31]:
html_str = '<html><div>hello</div><html>'

In [32]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')
bs_obj

<html><div>hello</div><html></html></html>

In [36]:
# (2) find() 메소드 사용해서 태그 추출
# find() : 첫 번째 태그만 추출
# find('태그명')
bs_obj.find('div') 
bs_obj.find('div').text

<div>hello</div>

'hello'

In [39]:
html_str = """
<html>
    <body>
        <ul>
            <li>hello</li>
            <li>bye</li>
            <li>welcome</li>
        </ul>
    </body>
</html>
"""

In [40]:
# 파싱 객체 생성
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')
bs_obj


<html>
<body>
<ul>
<li>hello</li>
<li>bye</li>
<li>welcome</li>
</ul>
</body>
</html>

In [41]:
# <ul> 태그 추출
ul = bs_obj.find('ul')
ul

<ul>
<li>hello</li>
<li>bye</li>
<li>welcome</li>
</ul>

In [43]:
# <ul> 태그 중에서 첫 번째 <li> 태그만 추출
ul.find('li')

ul.findAll('li')

<li>hello</li>

[<li>hello</li>, <li>bye</li>, <li>welcome</li>]

In [54]:
# 모든 <li> 태그 내 text 추출 : 반복문 사용
for i in ul.findAll('li'):
    print(i.text)

hello
bye
welcome


In [55]:
#################################################

In [56]:
# 태그 중에 특정 속성을 갖고 있는 태그 추출
# find('태그명', {'속성명':'속성값'})
# ('ul', {'class':'greet'})

In [57]:
html_str = """
<html>
    <body>
        <ul class="greet">
            <li>hello</li>
            <li>bye</li>
            <li>welcome</li>
        </ul>
        <ul class="reply">
            <li>ok</li>
            <li>no</li>
            <li>sure</li>
        </ul>
    </body>
</html>
"""

In [59]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')
# bs_obj

In [77]:
# class 속성값이 greet인 ul 태그 내 모든 li 태그의 텍스트 값 추출
# bs_obj.findAll('ul',{'class':'greet'}).findAll('li') -> 리스트로 반환된다
for i in bs_obj.find('ul',{'class':'greet'}).findAll('li'):
    print(i.text)

hello
bye
welcome


In [78]:
html_str = '''
<html>
    <body>
        <h1 id='title'>Hello Python</h1>
        <p id="crawling">웹 크롤링</p>
        <p id="parsing">파싱</p>
    </body>
</html>'''

In [79]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [84]:
# id가 title인 태그와 텍스트 추출
bs_obj.find('h1',{'id':'title'})
bs_obj.find('h1',{'id':'title'}).text

<h1 id="title">Hello Python</h1>

'Hello Python'

In [85]:
# id가 parsing인 태그와 택스트 추출
bs_obj.find('p',{'id':'parsing'})
bs_obj.find('p',{'id':'parsing'}).text

<p id="parsing">파싱</p>

'파싱'

In [None]:
# 형제 노드 찾기

In [86]:
html_str = """
<html>
    <body>
        <h1>파이썬 프로그래밍</h1>
        <p>웹 페이지 분석</p>
        <p>크롤링</p><p>파싱</p>        
    </body>
</html>
"""

In [87]:
# 파싱 객체 생성
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [88]:
# 첫 번째 p 태그
bs_obj.find('p')

<p>웹 페이지 분석</p>

In [90]:
# 모든 p 태그
bs_obj.findAll('p')
bs_obj.findAll('p')[1] # 인덱스1 번째 (두 번째) p 태그

[<p>웹 페이지 분석</p>, <p>크롤링</p>, <p>파싱</p>]

<p>크롤링</p>

In [None]:
p1 = bs_obj.find('p')
p1

p1.next_sibling # 줄바꿈한 경우 현제 태그로 '\n'을 인식
p1.next_sibling.next_sibling