### 【 웹 스크래핑 - 정보 추출 】
- 수집된 웹 데이터에서 필요한 정보 추출하는 작업 : 스크래핑
- 스크래핑을 편리하게 진행하기 위한 패키지 : BeautifulSoup4
- binary/str 타입의 웹 데이터 ==> 객체화 (DOM)해서 프로그램 쉽게 사용할 수 있도록 함

[1] 모듈 로딩 <hr>

In [None]:
from urllib.request import urlopen          ## WEB에서 URL기반으로 다운로드용 모듈
from bs4 import BeautifulSoup               ## WEB데이터 객체화 및 정보 추출용 모듈

[2] Markup 문자열에서 정보 추출<hr>
- find_all() 메서드  
    * 조건에 해당하는 모든 태그들 List형태로 반환
    * find() 메서드와 매개변수 일치

In [None]:
## HTML파일에서 일부분만 선택 str로 저장
html_str ="""
<body>
    <a class="ca main" href="http://www.naver.com">네이버</a>
    <a class="cb" href="http://www.google.com" target="_blank">구글</a>

    <h1>풀꽃</h1>
    나태주 시인, 교육인<br>
    <p id='p1' class='ca'>
    2020.04 ~ 제43대 한국시인협회 회장
    </p>

    <p id='p2'>
    나태주                                                                         <br>
    1945년 출생으로 대표 시 풀꽃
    </p>

    <p id='p3'>
    1963년 공주사범학교를 졸업한 뒤 초등학교에서 43년간 교직 생활
    </p>

    <p id='p4'>
    흙의문학상, 박용래문학상, 편운문학상, 한국시인협회상, 정지용문학상
    </p>

</body>
"""

In [None]:
## markup str ==> 객체화
mbs = BeautifulSoup(html_str, 'html.parser')

In [None]:
## [1] find_all()메서드 활용 : BS객체변수명.find_all(tag_str)

## - 현재 HTML 페이지에서 h1태그 모두
h1Tag = mbs.find_all('h1')
print(f"h1Tags => {len(h1Tag)}개", h1Tag)

## - 현재 HTML 페이지에서 p태그 모두
pTags = mbs.find_all('p')
print(f"pTags => {len(pTags)}개")

## - 현재 HTML 페이지에서 a태그 모두
aTags = mbs.find_all('a')
print(f"aTags => {len(aTags)}개", aTags)

h1Tags => 1개 [<h1>풀꽃</h1>]
pTags => 4개
aTags => 2개 [<a class="ca main" href="http://www.naver.com">네이버</a>, <a class="cb" href="http://www.google.com" target="_blank">구글</a>]


In [None]:
## [2] find_all()메서드 활용 : BS객체변수명.find(attr_dict, **kwargs)

## - tag의 속성으로 검색
caTags = mbs.find_all(class_='ca')    ## find_all(attrs={'class':['ca']})
print(f"caTags => {len(caTags)}개")
for tag in caTags:
    print(tag)


caTags => 2개
<a class="ca main" href="http://www.naver.com">네이버</a>
<p class="ca" id="p1">
    2020.04 ~ 제43대 한국시인협회 회장<br/>
</p>


In [None]:
## [3] find_all()메서드 활용 : BS객체변수명.find(text)=> string으로 변경

textTags = mbs.find_all(string='풀꽃')
print(f"textTags => {len(textTags)}개")
for tag in textTags:
    print(tag)


textTags => 1개
풀꽃


In [None]:
## [4] find_all()메서드 활용 : BS객체변수명.find(recursive=True)
##                           태그 아래 자식/자손/후손까지 모두 탐색
deep_html = """
<html>
  <body>
    <div id="container">
      <p class="top">첫 번째 문장</p>
      <div class="inner">
        <p class="inner-p">안쪽 문장 1</p>
        <p class="inner-p">안쪽 문장 2</p>
      </div>
      <p class="bottom">2 번째 문장</p>
    </div>
  </body>
</html>
"""

## HTML => BS객체 저장
dBS = BeautifulSoup(deep_html, "html.parser")


## div 태그 중 id가 container인 Tag객체
container = dBS.find("div", id="container")


## recursive=True (기본값) → 자식 + 손자 + 모든 후손에서 검색
all_p_recursive = container.find_all("p", recursive=True)

print("[기]_recursive=True 결과 =========")
for p in all_p_recursive:
    print("-", p.text)


## recursive=False → 'container'의 직계 자식만 검색
all_p_non_recursive = container.find_all("p", recursive=False)

print("[설] recursive=False 결과 =========")
for p in all_p_non_recursive:
    print("-", p.text)

- 첫 번째 문장
- 안쪽 문장 1
- 안쪽 문장 2
- 2 번째 문장
- 첫 번째 문장
- 2 번째 문장
