## <strong> 10. 웹 스크래핑 </strong>

필요한 라이브러리
+ ```requests```: HTTP 프로토콜을 통해 HTML 문서를 요청
+ ```beautifulsoup4```: HTML 문서로 부터 원하는 데이터 추출

In [1]:
pip install requests

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.1 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
pip install beautifulsoup4 # 정적인 웹페이지에서 데이터를 가져올 때 사용

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.1 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
import requests
from bs4 import BeautifulSoup

### <strong> 예제 1: 메타버스 키워드 검색 및 뉴스 타이틀 추출
----

In [10]:
# 웹페이지 주소
url = 'https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EB%A9%94%ED%83%80%EB%B2%84%EC%8A%A4'

# [+] HTTP GET Request로 HTML 문서 받아오기
res = requests.get(url)
res

<Response [200]>

In [5]:
# [+] HTML 문서로부터 텍스트 데이터 덩어리 추출
html_doc = res.text
html_doc

'<!doctype html> <html lang="ko"><head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta property="og:title" content="메타버스 : 네이버 검색"/> <meta property="og:image" content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png"> <meta property="og:description" content="\'메타버스\'의 네이버 검색 결과입니다."> <meta name="description" lang="ko" content="\'메타버스\'의 네이버 검색 결과입니다."> <title>메타버스 : 네이버 검색</title> <link rel="shortcut icon" href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_32x32_240820.ico">  <link rel="search" type="application/opensearchdescription+xml" href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" title="Naver" /><script> if (top.frames.length!=0 || window!=top) window.open(location, "_top"); </script><link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_240912a.css"> <link rel="stylesheet" type="text/css" hre

#### <strong> BeautifulSoup 파서 사용하기</strong>
+ ```html.parser```: HTML 문서 전용 파서
+ ```xml```: XML 문서 전용 파서

In [6]:
# [+] Beautiful Soup에서 제공하는 HTML 파서 생성
soup = BeautifulSoup(html_doc, 'html.parser')

```BeautifulSoup.prettify()```: 문서 정보를 시각적으로 보기 좋게 재구조화

In [7]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <meta charset="utf-8"/>
  <meta content="always" name="referrer"/>
  <meta content="telephone=no,address=no,email=no" name="format-detection"/>
  <meta content="메타버스 : 네이버 검색" property="og:title">
   <meta content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png" property="og:image"/>
   <meta content="'메타버스'의 네이버 검색 결과입니다." property="og:description"/>
   <meta content="'메타버스'의 네이버 검색 결과입니다." lang="ko" name="description"/>
   <title>
    메타버스 : 네이버 검색
   </title>
   <link href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_32x32_240820.ico" rel="shortcut icon"/>
   <link href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" rel="search" title="Naver" type="application/opensearchdescription+xml">
    <script>
     if (top.frames.length!=0 || window!=top) window.open(location, "_top");
    </script>
    <link href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_240912a.css" rel="stylesheet" type="

`BeautifulSoup.find_all()`: 특정 태그 정보들을 검색

In [8]:
# [+] 문서 내에 모든 <a> 태그들을 검색
soup.findAll('a')

[<a href="#lnb"><span>메뉴 영역으로 바로가기</span></a>,
 <a href="#content"><span>본문 영역으로 바로가기</span></a>,
 <a class="link" href="https://www.naver.com" onclick="return goOtherCR(this, 'a=sta.naver&amp;r=&amp;i=&amp;u='+urlencode(this.href));"><i class="spnew2 ico_logo">NAVER</i></a>,
 <a aria-pressed="false" class="bt_setkr" href="#" id="ke_kbd_btn" onclick="return tCR('a=sch.ime');" role="button"> <i class="spnew2 ico_keyboard">한글 입력기</i> <div class="guide_text">입력도구</div> </a>,
 <a aria-pressed="false" class="bt_atcp _btn_arw" data-atcmp-element="" href="#" id="nautocomplete" role="button"><i class="spnew2 ico_arrow">자동완성 레이어</i><div class="guide_text">검색 레이어</div></a>,
 <a aria-selected="false" class="tab" href="https://dict.naver.com/dict.search?query=%EB%A9%94%ED%83%80%EB%B2%84%EC%8A%A4&amp;from=tsearch" onclick="return goOtherCR(this,'a=tab*L.jmp&amp;r=1&amp;i=&amp;u='+urlencode(this.href));" role="tab" target="_blank"><i class="spnew2 ico_nav_dic"></i>어학사전</a>,
 <a aria-selected="false"

In [9]:
# [+] 뉴스에 해당되는 태그들만 검색하기
# 뉴스 태그 = "class" 속성이 "news_tit"인 <a> 태그
news = soup.findAll('a', {'class':'news_tit'})
news

[<a class="news_tit" href="http://www.edaily.co.kr/news/newspath.asp?newsid=02929046639057512" onclick="return goOtherCR(this, 'a=nws_all*a.tit&amp;r=1&amp;i=880000E7_000000000000000005870937&amp;g=018.0005870937&amp;u='+urlencode(this.href));" target="_blank" title="2024 코리아 메타버스 페스티벌 ‘KMF 2024’ 성료">2024 코리아 <mark>메타버스</mark> 페스티벌 ‘KMF 2024’ 성료</a>,
 <a class="news_tit" href="https://www.ddaily.co.kr/page/view/2024102815481725046" onclick="return goOtherCR(this, 'a=nws_all*a.tit&amp;r=4&amp;i=880000AC_000000000000000002185192&amp;g=138.0002185192&amp;u='+urlencode(this.href));" target="_blank" title="메타버스 사업 힘주는 라온메타, 실습 콘텐츠 경쟁력은?"><mark>메타버스</mark> 사업 힘주는 라온메타, 실습 콘텐츠 경쟁력은?</a>,
 <a class="news_tit" href="https://www.busan.com/view/busan/view.php?code=2024102813504030043" onclick="return goOtherCR(this, 'a=nws_all*a.tit&amp;r=7&amp;i=880000CE_000000000000000001294780&amp;g=082.0001294780&amp;u='+urlencode(this.href));" target="_blank" title="부산정보산업진흥원, 아세안 7개국과 XR·메타버스 기술 교류">부산정보산업진

In [11]:
# 첫 번째 뉴스
news[0]

<a class="news_tit" href="http://www.edaily.co.kr/news/newspath.asp?newsid=02929046639057512" onclick="return goOtherCR(this, 'a=nws_all*a.tit&amp;r=1&amp;i=880000E7_000000000000000005870937&amp;g=018.0005870937&amp;u='+urlencode(this.href));" target="_blank" title="2024 코리아 메타버스 페스티벌 ‘KMF 2024’ 성료">2024 코리아 <mark>메타버스</mark> 페스티벌 ‘KMF 2024’ 성료</a>

In [12]:
# [+] 뉴스의 URL 정보 가져오기
news[0].get('href')

'http://www.edaily.co.kr/news/newspath.asp?newsid=02929046639057512'

In [13]:
# [+] 뉴스의 제목 정보 가져오기
news[0].get('title')

'2024 코리아 메타버스 페스티벌 ‘KMF 2024’ 성료'

In [14]:
# [+] 모든 뉴스의 제목 출력하기
for i in range(len(news)):
    print(news[i].get('title'))

2024 코리아 메타버스 페스티벌 ‘KMF 2024’ 성료
메타버스 사업 힘주는 라온메타, 실습 콘텐츠 경쟁력은?
부산정보산업진흥원, 아세안 7개국과 XR·메타버스 기술 교류
서울교육 메타버스, 유니티 어워즈 입선…"교육기관 최초"
