In [73]:
# req -> 파이썬에서 브라우저의 역할을 대신해줌
import requests as req

In [74]:
# 1. req를 통해서 네이버 페이지 정보를 요청
# 2. response -> 응답코드를 넘겨받는다.
# 200, 300 -> '통신에 성공했습니다.'
# 400 -> 클라이언트 요청의 문제가 있다.
# 500 -> 서버의 문제가 있다

res = req.get("http://www.naver.com")

In [75]:
res.text

'   <!doctype html> <html lang="ko" class="fzoom"> <head> <meta charset="utf-8"> <meta name="Referrer" content="origin"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <title>NAVER</title> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" 

### 멜론사이트를 요청

In [76]:
# 응답코드 406은 요청의 문제가 있다
# 멜론 서버에서 들어온 요청이 브라우저가 아닌 컴퓨터임을 인지
# 사람인척 속이면 된다 (개발자 모드 -> 네트워크 -> 헤더)
req.get("https://www.melon.com/")

<Response [406]>

In [77]:
head = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'}

In [78]:
req.get("https://www.melon.com/", headers = head)

<Response [200]>

### 뉴스타이틀 수집

In [79]:
# 1. 네이버 사이트(검색한 뉴스화면)를 요청
res = req.get("https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%EC%98%A4%EC%97%BC%EC%88%98+%EB%B0%A9%EB%A5%98")
res.text

'<!doctype html> <html lang="ko"><head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=2.0"> <meta property="og:title" content="오염수 방류 : 네이버 뉴스검색"/> <meta property="og:image" content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png"> <meta property="og:description" content="\'오염수 방류\'의 네이버 뉴스검색 결과입니다."> <meta name="description" lang="ko" content="\'오염수 방류\'의 네이버 뉴스검색 결과입니다."> <title>오염수 방류 : 네이버 뉴스검색</title> <link rel="shortcut icon" href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_191118_pc.ico">  <link rel="search" type="application/opensearchdescription+xml" href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" title="Naver" /><script> if (top.frames.length!=0 || window!=top) window.open(location, "_top"); </script><link rel="stylesheet" type="text/css" href="https://s

### BeautifulSoup
- req를 통해서 받아온 텍스트 데이터를 컴퓨터가 이해할 수 있는 html형태로 변환

In [80]:
# 주의할점. stone이 아닌 일반 soup을 임포트
from bs4 import BeautifulSoup as bs

In [81]:
# 2. 응답을 받은 데이터에서 뉴스 타이틀만 수집
soup = bs(res.text, "lxml")

In [82]:
# select("선택자") -> html데이터에서 특정 요소만 수집
title = soup.select("a.news_tit")

In [83]:
# 수집된 요소 중에 컨텐츠(텍스트) 데이터만 추출
title[0].text

"후쿠시마 오염수 오늘 방류 개시…일본언론 '오후 1시' 예상"

In [84]:
for i in title :
    print(i.text)

후쿠시마 오염수 오늘 방류 개시…일본언론 '오후 1시' 예상
오늘 오후 1시쯤 오염수 방류…IAEA "기준 부합 여부 평가"
“일본 후쿠시마 오염수 방류, 내일 오후 1시 시작 조율중”
주일美대사, 日오염수 방류계획에 "지지"…31일 후쿠시마 방문
日 오염수 내일부터 방류…서울시 "모든 수산물 매일 표본조사"
日오염수 내일부터 방류…"일본산 식품, 계속 수입금지"
아직은 큰 변동없는 수산물가격…'오염수 방류' 영향에 촉각
김동연 "日 오염수 방류, 정부는 방조 넘어 공조…철회하라"
이재명 “日오염수 방류는 제2의 태평양 전쟁”
"유튜브로 방사능 검사 생중계" 오염수 방류 D-1…전국 지자체 '초비상'(종합...


### 네이버금융정보를 수집

In [89]:
# 1. req를 통해서 url 정보를 요청
res = req.get("https://finance.naver.com/")

In [90]:
# 2. 응답데이터가 올바르다면 bs을 통해서 html형태로 변형
soup = bs(res.text, "lxml")

In [91]:
# 3. 변형된 데이터에서 필요한 태그만 수집
# 팁! 부모자식을 의미하는 자식선택자를 잘 활용
# 수집하고자 하는 요소가 아이디, 클래스 구분자가 없다면 반드시 부모를 검사
# 부모태그 구분자가 존재할 때까지 검사를 진행
# 구분자가 없는 경우에는 정확하지 않을 확률이 높음
soup.select("#_topItems1 > tr > th > a")

[<a href="/item/main.naver?code=252670" onclick="clickcr(this, 'spe.slist', '252670', '1', event);">KODEX 200선물인버스2X</a>,
 <a href="/item/main.naver?code=046970" onclick="clickcr(this, 'spe.slist', '046970', '2', event);">우리로</a>,
 <a href="/item/main.naver?code=073640" onclick="clickcr(this, 'spe.slist', '073640', '3', event);">테라사이언스</a>,
 <a href="/item/main.naver?code=251340" onclick="clickcr(this, 'spe.slist', '251340', '4', event);">KODEX 코스닥150선물인버스</a>,
 <a href="/item/main.naver?code=277410" onclick="clickcr(this, 'spe.slist', '277410', '5', event);">인산가</a>,
 <a href="/item/main.naver?code=267320" onclick="clickcr(this, 'spe.slist', '267320', '6', event);">나인테크</a>,
 <a href="/item/main.naver?code=041020" onclick="clickcr(this, 'spe.slist', '041020', '7', event);">폴라리스오피스</a>,
 <a href="/item/main.naver?code=203650" onclick="clickcr(this, 'spe.slist', '203650', '8', event);">드림시큐리티</a>,
 <a href="/item/main.naver?code=214680" onclick="clickcr(this, 'spe.slist', '214680', '9',

In [92]:
# 선택자를 한번에 가지고 오는 방법
# 개발자도구에서 요소에 우클릭 -> copy -> copyselector
# 주의점! 반드시 내가 선택한 하나만 가지고 온다
# 복수개가 필요한 경우에는 선택자를 수정(ex nth-child())

In [None]:
soup.select()