### Requests

In [1]:
# req -> 파이썬에서 브라우저의 역할을 대신

import requests as req

In [3]:
# 1. req를 통해서 네이버 페이지 정보를 요청
#   - Response : 응답 코드를 넘겨받습니다.
#   - 200~300번대 : 통신 성공
#   - 400번대 : 클라이언트 요청의 문제가 있음
#   - 500번대 : 서버의 문제

res = req.get("http://www.naver.com")

In [5]:
res.text  # html 코드를 가져옴

'   <!doctype html> <html lang="ko" class="fzoom"> <head> <meta charset="utf-8"> <meta name="Referrer" content="origin"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <title>NAVER</title> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" 

#### 멜론 사이트 요청

In [8]:
# 응답코드 406 -> 요청에 문제가 있다
# 들어온 요청이 브라우저가 아닌 컴퓨터임을 멜론에서 인지
# --> 사람인 척 속이면 해결 가능!

req.get("https://www.melon.com/")   # 브라우저로 접근하는 것이 아니라서 멜론에서 접근 거부

<Response [406]>

In [9]:
head = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'}

# head = 가면 (크롬의 가면을 쓴 프로그래밍 언어로 접근)

In [10]:
req.get("https://www.melon.com/", headers = head)

<Response [200]>

#### 뉴스 타이틀 수집

In [18]:
# 1. 네이버 사이트(검색한 뉴스화면) 요청

res = req.get("https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%EC%98%A4%EC%97%BC%EC%88%98+%EB%B0%A9%EB%A5%98")
res.text   # 응답객체 중 html 문서만 가져오기

'<!doctype html> <html lang="ko"><head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=2.0"> <meta property="og:title" content="오염수 방류 : 네이버 뉴스검색"/> <meta property="og:image" content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png"> <meta property="og:description" content="\'오염수 방류\'의 네이버 뉴스검색 결과입니다."> <meta name="description" lang="ko" content="\'오염수 방류\'의 네이버 뉴스검색 결과입니다."> <title>오염수 방류 : 네이버 뉴스검색</title> <link rel="shortcut icon" href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_191118_pc.ico">  <link rel="search" type="application/opensearchdescription+xml" href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" title="Naver" /><script> if (top.frames.length!=0 || window!=top) window.open(location, "_top"); </script><link rel="stylesheet" type="text/css" href="https://s

### BeautifulSoup
 - req를 통해 받아온 텍스트 데이터를 컴퓨터가 이해할 수 있는 html 형태로 변환

In [20]:
# 주의할 점: stoneSoup이 아닌 일반 soup을 import

from bs4 import BeautifulSoup as bs

In [22]:
# 2. 응답을 받은 데이터에서 뉴스 타이틀만 수집

soup = bs(res.text, "lxml")  # res.text를 lxml 형태로 변형  --> 코드 정돈됨
                             # 태그 정보를 사용하기 위해 문자열 데이터를 .html 데이터로 변형

In [30]:
# select("선택자") : html 데이터에서 특정 요소만 수집
#   - 요소: 태그 + 컨텐츠

title = soup.select("a.news_tit")   # html에서 a 태그 중 class가 news_tit인 태그만 가져온다
title

[<a class="news_tit" href="https://www.yna.co.kr/view/AKR20230823144800073?input=1195m" onclick="return goOtherCR(this, 'a=nws*h.tit&amp;r=1&amp;i=880000D8_000000000000000014148457&amp;g=001.0014148457&amp;u='+urlencode(this.href));" target="_blank" title="후쿠시마 오염수 오늘 방류 개시…일본언론 '오후 1시' 예상">후쿠시마 <mark>오염수</mark> 오늘 <mark>방류</mark> 개시…일본언론 '오후 1시' 예상</a>,
 <a class="news_tit" href="https://news.kbs.co.kr/news/view.do?ncd=7755293&amp;ref=A" onclick="return goOtherCR(this, 'a=nws*h.tit&amp;r=6&amp;i=88000114_000000000000000011551167&amp;g=056.0011551167&amp;u='+urlencode(this.href));" target="_blank" title="“일본 후쿠시마 오염수 방류, 내일 오후 1시 시작 조율중”">“일본 후쿠시마 <mark>오염수 방류</mark>, 내일 오후 1시 시작 조율중”</a>,
 <a class="news_tit" href="https://news.sbs.co.kr/news/endPage.do?news_id=N1007319428&amp;plink=ORI&amp;cooper=NAVER" onclick="return goOtherCR(this, 'a=nws*h.tit&amp;r=11&amp;i=8800011C_000000000000000001084047&amp;g=055.0001084047&amp;u='+urlencode(this.href));" target="_blank" title='오늘 오후 1시쯤 오염수

In [35]:
# - 수집한 요소에서 컨텐츠(순수한 텍스트) 데이터만 추출

title[0].text

"후쿠시마 오염수 오늘 방류 개시…일본언론 '오후 1시' 예상"

In [36]:
for i in title:
    print(i.text)

후쿠시마 오염수 오늘 방류 개시…일본언론 '오후 1시' 예상
“일본 후쿠시마 오염수 방류, 내일 오후 1시 시작 조율중”
오늘 오후 1시쯤 오염수 방류…IAEA "기준 부합 여부 평가"
日 오염수 내일부터 방류…서울시 "모든 수산물 매일 표본조사"
주일美대사, 日오염수 방류계획에 "지지"…31일 후쿠시마 방문
"일 도쿄전력, 후쿠시마 오염수 '오늘 오후 1시 방류' 확인"
식약처 "후쿠시마 오염수 방류 관계없이 日 식품 수입규제 유지"
오늘 오염수 방류 개시 예정…지금 후쿠시마 바다는?
김동연 "日 오염수 방류, 정부는 방조 넘어 공조…철회하라"
이재명 “日오염수 방류는 제2의 태평양 전쟁”


#### 네이버 금융정보 수집

In [37]:
# 1. req를 통해서 url 정보 요청

res = req.get("https://finance.naver.com/")
res

<Response [200]>

In [39]:
# 2. 응답 데이터가 올바르다면, bs를 통해서 html 형태로 변환

soup = bs(res.text, "lxml")

In [50]:
# 3. 변형된 데이터에서 필요한 태그만 수집
#   - 부모자식을 의미하는 자식선택자를 잘 활용하기 (부모 > 자식)
#   - 수집하고자 하는 요소가 아이디, 클래스 구분자가 없다면 반드시 부모를 검사
#   - 부모 태그에 구분자가 존재할 때까지 검사 진행
#   - 구분자가 없는 경우에는 정확하기 않을 확률이 높음

title = soup.select("#_topItems1 > tr > th > a")        # "#_topItems1 a" 도 가능
                                                        #   <==>  "#_topItems1 > tr:nth-child(1) > th > a"
title

[<a href="/item/main.naver?code=252670" onclick="clickcr(this, 'spe.slist', '252670', '1', event);">KODEX 200선물인버스2X</a>,
 <a href="/item/main.naver?code=073640" onclick="clickcr(this, 'spe.slist', '073640', '2', event);">테라사이언스</a>,
 <a href="/item/main.naver?code=046970" onclick="clickcr(this, 'spe.slist', '046970', '3', event);">우리로</a>,
 <a href="/item/main.naver?code=251340" onclick="clickcr(this, 'spe.slist', '251340', '4', event);">KODEX 코스닥150선물인버스</a>,
 <a href="/item/main.naver?code=267320" onclick="clickcr(this, 'spe.slist', '267320', '5', event);">나인테크</a>,
 <a href="/item/main.naver?code=277410" onclick="clickcr(this, 'spe.slist', '277410', '6', event);">인산가</a>,
 <a href="/item/main.naver?code=203650" onclick="clickcr(this, 'spe.slist', '203650', '7', event);">드림시큐리티</a>,
 <a href="/item/main.naver?code=041020" onclick="clickcr(this, 'spe.slist', '041020', '8', event);">폴라리스오피스</a>,
 <a href="/item/main.naver?code=214680" onclick="clickcr(this, 'spe.slist', '214680', '9',

In [None]:
# 선택자를 한 번에 가지고 오는 방법
# 개발자도구 > 요소 우클릭 > copy > copy selector
# 주의점 : 내가 선택한 하나만 가지고 온다
#        --> 여러개가 필요한 경우에는 선택자를 수정 (ex. nth-child() : 가상 클래스 선택자)

In [49]:
for i in title:
    print(i.text)

KODEX 200선물인버스2X
테라사이언스
우리로
KODEX 코스닥150선물인버스
나인테크
인산가
드림시큐리티
폴라리스오피스
디알텍
시노펙스
KODEX 레버리지
태양금속
스마트레이더시스템
MDS테크
시큐레터
