## <strong> 10. 웹 스크래핑 </strong>

필요한 라이브러리
+ ```requests```: HTTP 프로토콜을 통해 HTML 문서를 요청
+ ```beautifulsoup4```: HTML 문서로 부터 원하는 데이터 추출

In [5]:
pip install requests

Note: you may need to restart the kernel to use updated packages.


In [7]:
pip install beautifulsoup4

Note: you may need to restart the kernel to use updated packages.


In [9]:
import requests
from bs4 import BeautifulSoup

### <strong> 예제 1: 메타버스 키워드 검색 및 뉴스 타이틀 추출
----

In [None]:
# 웹페이지 주소
url = 'https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EB%A9%94%ED%83%80%EB%B2%84%EC%8A%A4'

# [+] HTTP GET Request로 HTML 문서 받아오기
res = requests.get(url)

In [None]:
# [+] HTML 문서로부터 텍스트 데이터 덩어리 추출
html_doc = res.text
html_doc

#### <strong> BeautifulSoup 파서 사용하기</strong>
+ ```html.parser```: HTML 문서 전용 파서
+ ```xml```: XML 문서 전용 파서

In [None]:
# [+] Beautiful Soup에서 제공하는 HTML 파서 생성
soup = BeautifulSoup(html_doc, 'html.parser')

```BeautifulSoup.prettify()```: 문서 정보를 시각적으로 보기 좋게 재구조화

In [None]:
print(soup.prettify())

`BeautifulSoup.find_all()`: 특정 태그 정보들을 검색

In [19]:
# [+] 문서 내에 모든 <a> 태그들을 검색
soup.find_all('a')

[<a href="#lnb"><span>메뉴 영역으로 바로가기</span></a>,
 <a href="#content"><span>본문 영역으로 바로가기</span></a>,
 <a class="link" href="https://www.naver.com" onclick="return goOtherCR(this, 'a=sta.naver&amp;r=&amp;i=&amp;u='+urlencode(this.href));"><i class="spnew2 ico_logo">NAVER</i></a>,
 <a aria-pressed="false" class="bt_setkr" href="#" id="ke_kbd_btn" onclick="return tCR('a=sch.ime');" role="button"> <i class="spnew2 ico_keyboard">한글 입력기</i> <div class="guide_text">입력도구</div> </a>,
 <a aria-pressed="false" class="bt_atcp _btn_arw" data-atcmp-element="" href="#" id="nautocomplete" role="button"><i class="spnew2 ico_arrow">자동완성 레이어</i><div class="guide_text">검색 레이어</div></a>,
 <a aria-selected="false" class="tab" href="https://dict.naver.com/dict.search?query=%EB%A9%94%ED%83%80%EB%B2%84%EC%8A%A4&amp;from=tsearch" onclick="return goOtherCR(this,'a=tab*L.jmp&amp;r=1&amp;i=&amp;u='+urlencode(this.href));" role="tab" target="_blank"><i class="spnew2 ico_nav_dic"></i>어학사전</a>,
 <a aria-selected="false"

In [23]:
# [+] 뉴스에 해당되는 태그들만 검색하기
# 뉴스 태그 = "class" 속성이 "news_tit"인 <a> 태그
news = soup.find_all("a", {"class": "news_tit"})
news

[<a class="news_tit" href="http://www.edaily.co.kr/news/newspath.asp?newsid=02929046639057512" onclick="return goOtherCR(this, 'a=nws_all*a.tit&amp;r=1&amp;i=880000E7_000000000000000005870937&amp;g=018.0005870937&amp;u='+urlencode(this.href));" target="_blank" title="2024 코리아 메타버스 페스티벌 ‘KMF 2024’ 성료">2024 코리아 <mark>메타버스</mark> 페스티벌 ‘KMF 2024’ 성료</a>,
 <a class="news_tit" href="https://www.ddaily.co.kr/page/view/2024102815481725046" onclick="return goOtherCR(this, 'a=nws_all*a.tit&amp;r=4&amp;i=880000AC_000000000000000002185192&amp;g=138.0002185192&amp;u='+urlencode(this.href));" target="_blank" title="메타버스 사업 힘주는 라온메타, 실습 콘텐츠 경쟁력은?"><mark>메타버스</mark> 사업 힘주는 라온메타, 실습 콘텐츠 경쟁력은?</a>,
 <a class="news_tit" href="https://www.busan.com/view/busan/view.php?code=2024102813504030043" onclick="return goOtherCR(this, 'a=nws_all*a.tit&amp;r=7&amp;i=880000CE_000000000000000001294780&amp;g=082.0001294780&amp;u='+urlencode(this.href));" target="_blank" title="부산정보산업진흥원, 아세안 7개국과 XR·메타버스 기술 교류">부산정보산업진

In [25]:
# 첫 번째 뉴스
news[0]

<a class="news_tit" href="http://www.edaily.co.kr/news/newspath.asp?newsid=02929046639057512" onclick="return goOtherCR(this, 'a=nws_all*a.tit&amp;r=1&amp;i=880000E7_000000000000000005870937&amp;g=018.0005870937&amp;u='+urlencode(this.href));" target="_blank" title="2024 코리아 메타버스 페스티벌 ‘KMF 2024’ 성료">2024 코리아 <mark>메타버스</mark> 페스티벌 ‘KMF 2024’ 성료</a>

In [27]:
# [+] 뉴스의 URL 정보 가져오기
news[0].get('href')

'http://www.edaily.co.kr/news/newspath.asp?newsid=02929046639057512'

In [31]:
# [+] 뉴스의 제목 정보 가져오기
news[0].get('title')

'2024 코리아 메타버스 페스티벌 ‘KMF 2024’ 성료'

In [33]:
# [+] 모든 뉴스의 제목 출력하기 #range = list만드는 
for i in range(len(news)):
    print(news[i].get('title'))

2024 코리아 메타버스 페스티벌 ‘KMF 2024’ 성료
메타버스 사업 힘주는 라온메타, 실습 콘텐츠 경쟁력은?
부산정보산업진흥원, 아세안 7개국과 XR·메타버스 기술 교류
서울교육 메타버스, 유니티 어워즈 입선…"교육기관 최초"
