## <strong> 8. 웹 스크래핑 </strong>

필요한 라이브러리
+ ```requests```: HTTP 프로토콜을 통해 HTML 문서를 요청
+ ```beautifulsoup4```: HTML 문서로 부터 원하는 데이터 추출

In [7]:
!pip install requests



In [8]:
!pip install beautifulsoup4



In [1]:
import requests
from bs4 import BeautifulSoup

### <strong> 예제 1: 메타버스 키워드 검색 및 뉴스 타이틀 추출
----

In [11]:
# 웹페이지 주소
url = 'https://search.naver.com/search.naver?ssc=tab.news.all&where=news&sm=tab_jum&query=메타버스'

# [+] HTTP GET Request로 HTML 문서 받아오기
res = requests.get(url)

In [12]:
res

<Response [200]>

In [13]:
# [+] HTML 문서로부터 텍스트 데이터 덩어리 추출
html_doc = res.text
html_doc

'<!doctype html> <html lang="ko"><head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta property="og:title" content="메타버스 : 네이버 뉴스검색"/> <meta property="og:image" content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png"> <meta property="og:description" content="\'메타버스\'의 네이버 뉴스검색 결과입니다."> <meta name="description" lang="ko" content="\'메타버스\'의 네이버 뉴스검색 결과입니다."> <title>메타버스 : 네이버 뉴스검색</title> <link rel="shortcut icon" href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_32x32_240820.ico">  <link rel="search" type="application/opensearchdescription+xml" href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" title="Naver" /><script> if (top.frames.length!=0 || window!=top) window.open(location, "_top"); </script><link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_250410.css"> <link rel="stylesheet" type="text/c

#### <strong> BeautifulSoup 파서 사용하기</strong>
+ ```html.parser```: HTML 문서 전용 파서
+ ```xml```: XML 문서 전용 파서

In [14]:
# [+] Beautiful Soup에서 제공하는 HTML 파서 생성
soup = BeautifulSoup(html_doc,'html.parser')


```BeautifulSoup.prettify()```: 문서 정보를 시각적으로 보기 좋게 재구조화

In [15]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <meta charset="utf-8"/>
  <meta content="always" name="referrer"/>
  <meta content="telephone=no,address=no,email=no" name="format-detection"/>
  <meta content="메타버스 : 네이버 뉴스검색" property="og:title">
   <meta content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png" property="og:image"/>
   <meta content="'메타버스'의 네이버 뉴스검색 결과입니다." property="og:description"/>
   <meta content="'메타버스'의 네이버 뉴스검색 결과입니다." lang="ko" name="description"/>
   <title>
    메타버스 : 네이버 뉴스검색
   </title>
   <link href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_32x32_240820.ico" rel="shortcut icon"/>
   <link href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" rel="search" title="Naver" type="application/opensearchdescription+xml">
    <script>
     if (top.frames.length!=0 || window!=top) window.open(location, "_top");
    </script>
    <link href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_250410.css" rel="stylesheet"

`BeautifulSoup.find_all()`: 특정 태그 정보들을 검색

In [16]:
# [+] 문서 내에 모든 <a> 태그들을 검색
soup.find_all('a')

[<a href="#lnb"><span>메뉴 영역으로 바로가기</span></a>,
 <a href="#content"><span>본문 영역으로 바로가기</span></a>,
 <a class="link" href="https://www.naver.com" onclick="return goOtherCR(this, 'a=sta.naver&amp;r=&amp;i=&amp;u='+urlencode(this.href));"><i class="spnew2 ico_logo">NAVER</i></a>,
 <a aria-pressed="false" class="bt_setkr" href="#" id="ke_kbd_btn" onclick="return tCR('a=sch.ime');" role="button"> <i class="spnew2 ico_keyboard">한글 입력기</i> <div class="guide_text">입력도구</div> </a>,
 <a aria-pressed="false" class="bt_atcp _btn_arw" data-atcmp-element="" href="#" id="nautocomplete" role="button"><i class="spnew2 ico_arrow">자동완성 레이어</i><div class="guide_text">검색 레이어</div></a>,
 <a aria-selected="false" class="tab" href="?ssc=tab.nx.all&amp;where=nexearch&amp;sm=tab_jum&amp;query=%EB%A9%94%ED%83%80%EB%B2%84%EC%8A%A4" onclick="return goOtherCR(this,'a=tab*N.jmp&amp;r=1&amp;i=&amp;u='+urlencode(this.href));" role="tab"><i class="spnew2 ico_nav_prev">전체</i></a>,
 <a aria-selected="true" class="tab" hre

In [17]:
# [+]뉴스에 해당되는 태그들만 검색하기
# "class" 속성이 "news_tit"인 <a> 태그
news = soup.find_all('a',{'class' : 'news_tit'})
news

[<a class="news_tit" href="https://www.newsis.com/view/NISX20250416_0003141210" onclick="return goOtherCR(this, 'a=nws*a.tit&amp;r=1&amp;i=88000127_000000000000000013186542&amp;g=003.0013186542&amp;u='+urlencode(this.href));" target="_blank" title="인천TP, XR·메타버스 우수콘텐츠 개발·실증 지원과제 모집">인천TP, XR·<mark>메타버스</mark> 우수콘텐츠 개발·실증 지원과제 모집</a>,
 <a class="news_tit" href="https://www.yna.co.kr/view/AKR20250415166700017?input=1195m" onclick="return goOtherCR(this, 'a=nws*e.tit&amp;r=4&amp;i=880000D8_000000000000000015332814&amp;g=001.0015332814&amp;u='+urlencode(this.href));" target="_blank" title="'배그 아버지' 브렌든 그린 &quot;인터넷 같은 3D 메타버스 만든다&quot;">'배그 아버지' 브렌든 그린 "인터넷 같은 3D <mark>메타버스</mark> 만든다"</a>,
 <a class="news_tit" href="http://www.fnnews.com/news/202504140914496540" onclick="return goOtherCR(this, 'a=nws*e.tit&amp;r=5&amp;i=880000FF_000000000000000005335287&amp;g=014.0005335287&amp;u='+urlencode(this.href));" target="_blank" title="AI·메타버스 결합된 영어 스피킹 앱 나왔다">AI·<mark>메타버스</mark> 결합된 영어 스피킹 앱 나

In [18]:
# 첫 번째 뉴스
news[0]

<a class="news_tit" href="https://www.newsis.com/view/NISX20250416_0003141210" onclick="return goOtherCR(this, 'a=nws*a.tit&amp;r=1&amp;i=88000127_000000000000000013186542&amp;g=003.0013186542&amp;u='+urlencode(this.href));" target="_blank" title="인천TP, XR·메타버스 우수콘텐츠 개발·실증 지원과제 모집">인천TP, XR·<mark>메타버스</mark> 우수콘텐츠 개발·실증 지원과제 모집</a>

In [19]:
# [+] 뉴스의 URL 정보 가져오기
news[0].get('href')

'https://www.newsis.com/view/NISX20250416_0003141210'

In [20]:
# [+] 뉴스의 제목 정보 가져오기
news[0].get('title')

'인천TP, XR·메타버스 우수콘텐츠 개발·실증 지원과제 모집'

In [27]:
# [+] 모든 뉴스의 제목 출력하기
#newslen = len(news)
#for i in range(newslen):
#    print(news[i].get('title'))
for news_obj in news:
    print(news_obj.get('title'))    

인천TP, XR·메타버스 우수콘텐츠 개발·실증 지원과제 모집
'배그 아버지' 브렌든 그린 "인터넷 같은 3D 메타버스 만든다"
AI·메타버스 결합된 영어 스피킹 앱 나왔다
대구 달서구, 메타버스 기반 도로명주소 교육
서국한 버추얼협회장 "메타버스, '기술' 아닌 '팬심'이 살릴 것"
스코넥, 경기도 의왕 부동산 매입…"임대수익·메타버스 활용"
미래에셋운용, ETF 이름 변경 '메타버스'→'AI'로
스코넥, 경기도 의왕 부동산 매입
메타버스엔터 버추얼 유닛 ‘프리즈 브이’, 5월 3일 팬 콘서트 개최
공주시 메타버스 플랫폼 ‘공주월드’ 오픈
