## <strong> 10. 웹 스크래핑 </strong>

필요한 라이브러리
+ ```requests```: HTTP 프로토콜을 통해 HTML 문서를 요청
+ ```beautifulsoup4```: HTML 문서로 부터 원하는 데이터 추출

In [None]:
pip install requests

In [None]:
pip install beautifulsoup4

In [1]:
import requests
from bs4 import BeautifulSoup

### <strong> 예제 1: 메타버스 키워드 검색 및 뉴스 타이틀 추출
----

In [2]:
# 웹페이지 주소
url = 'https://search.naver.com/search.naver?ie=UTF-8&sm=whl_nht&query=%EB%A9%94%ED%83%80%EB%B2%84%EC%8A%A4'

# [+] HTTP GET Request로 HTML 문서 받아오기
res = requests.get(url)

In [None]:
# [+] HTML 문서로부터 텍스트 데이터 덩어리 추출
html_doc = res.text
html_doc

#### <strong> BeautifulSoup 파서 사용하기</strong>
+ ```html.parser```: HTML 문서 전용 파서
+ ```xml```: XML 문서 전용 파서

In [4]:
# [+] Beautiful Soup에서 제공하는 HTML 파서 생성
soup = BeautifulSoup(html_doc, 'html.parser')

```BeautifulSoup.prettify()```: 문서 정보를 시각적으로 보기 좋게 재구조화

In [None]:
print(soup.prettify())

`BeautifulSoup.find_all()`: 특정 태그 정보들을 검색

In [6]:
# [+] 문서 내에 모든 <a> 태그들을 검색
soup.find_all('a')

[<a href="#lnb"><span>메뉴 영역으로 바로가기</span></a>,
 <a href="#content"><span>본문 영역으로 바로가기</span></a>,
 <a class="link" href="https://www.naver.com" onclick="return goOtherCR(this, 'a=sta.naver&amp;r=&amp;i=&amp;u='+urlencode(this.href));"><i class="spnew ico_logo">NAVER</i></a>,
 <a aria-pressed="false" class="bt_setkr" href="#" id="ke_kbd_btn" onclick="return tCR('a=sch.ime');" role="button"> <i class="spnew ico_keyboard">한글 입력기</i> <div class="guide_text">입력도구</div> </a>,
 <a aria-pressed="false" class="bt_atcp _btn_arw" data-atcmp-element="" href="#" id="nautocomplete" role="button"><i class="spnew ico_arrow">자동완성 레이어</i><div class="guide_text">검색 레이어</div></a>,
 <a aria-pressed="false" class="item _delAll" href="#" role="button">전체삭제</a>,
 <a class="kwd_help" href="https://help.naver.com/alias/search/word/word_35.naver" onclick="return goOtherCR(this,'a=sly.help&amp;r=&amp;i=&amp;u='+urlencode(this.href));" target="_blank">도움말</a>,
 <a class="kwd_help" href="https://help.naver.com/alia

In [7]:
# 특정 속성의 <a> 태그들을 검색
news = soup.find_all("a", {"class":"news_tit"})
news

[<a class="news_tit" href="http://www.edaily.co.kr/news/newspath.asp?newsid=02138566635778496" onclick="return goOtherCR(this, 'a=nws_all*a.tit&amp;r=1&amp;i=880000E7_000000000000000005608162&amp;g=018.0005608162&amp;u='+urlencode(this.href));" target="_blank" title="맥스트, 현실 기반의 XR메타버스 플랫폼 '맥스버스' 정식 출시">맥스트, 현실 기반의 XR<mark>메타버스</mark> 플랫폼 '맥스버스' 정식 출시</a>,
 <a class="news_tit" href="https://www.yna.co.kr/view/AKR20231030020100371?input=1195m" onclick="return goOtherCR(this, 'a=nws_all*e.tit&amp;r=4&amp;i=880000D8_000000000000000014295502&amp;g=001.0014295502&amp;u='+urlencode(this.href));" target="_blank" title='"일본 교과서 왜곡 막자"…반크, 메타버스 독도 전시관 구축'>"일본 교과서 왜곡 막자"…반크, <mark>메타버스</mark> 독도 전시관 구축</a>,
 <a class="news_tit" href="http://www.wowtv.co.kr/NewsCenter/News/Read?articleId=A202310310077&amp;t=NN" onclick="return goOtherCR(this, 'a=nws_all*a.tit&amp;r=5&amp;i=88000149_000000000000000001131802&amp;g=215.0001131802&amp;u='+urlencode(this.href));" target="_blank" title="한국직업개발원, 장애인 메타

In [8]:
# 첫 번째 뉴스
news[0]

<a class="news_tit" href="http://www.edaily.co.kr/news/newspath.asp?newsid=02138566635778496" onclick="return goOtherCR(this, 'a=nws_all*a.tit&amp;r=1&amp;i=880000E7_000000000000000005608162&amp;g=018.0005608162&amp;u='+urlencode(this.href));" target="_blank" title="맥스트, 현실 기반의 XR메타버스 플랫폼 '맥스버스' 정식 출시">맥스트, 현실 기반의 XR<mark>메타버스</mark> 플랫폼 '맥스버스' 정식 출시</a>

In [9]:
# [+] 뉴스의 URL 정보 가져오기
news[0].get('href')

'http://www.edaily.co.kr/news/newspath.asp?newsid=02138566635778496'

In [10]:
# [+] 뉴스의 제목 정보 가져오기
news[0].get('title')

"맥스트, 현실 기반의 XR메타버스 플랫폼 '맥스버스' 정식 출시"

In [11]:
len(news)

4

In [14]:
# [+] 모든 뉴스의 제목 출력하기
for i in range(len(news)):
    print(news[i].get('title'))

맥스트, 현실 기반의 XR메타버스 플랫폼 '맥스버스' 정식 출시
"일본 교과서 왜곡 막자"…반크, 메타버스 독도 전시관 구축
한국직업개발원, 장애인 메타버스 취업·채용 플랫폼 실증
메타버스 기업 성과는…11월7일 ‘엔알피×넥시드 데모데이’ 개최
