In [1]:
# req -> 파이썬에서 브라우저의 역할을 대신
import requests as req

In [3]:
# 1. req를 통해서 네이버 페이지 정보를 요청
# 2. response -> 응답코드를 넘겨받는다.
# 200, 300 -> 통신에 성공했습니다.
# 400 -> 클라이언트 요청의 문제가 있다.
# 500 -> 서버의 문제가 있다.
res = req.get("http://www.naver.com")

In [5]:
res.text

'   <!doctype html> <html lang="ko" class="fzoom"> <head> <meta charset="utf-8"> <meta name="Referrer" content="origin"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <title>NAVER</title> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" 

### 멜론사이트를 요청

In [9]:
# 응답코드 406은 요청의 문제가 있다.
# 멜론 서버에서 들어온 요청이 브라우저가 아닌 컴퓨터임을 인지.
# 사람인척 속이면 된다.
req.get("http://www.melon.com")

In [12]:
head = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'}

In [13]:
req.get("http://www.melon.com", headers = head )

<Response [200]>

### 뉴스 타이틀 수집

In [31]:
# 1. 네이버 사이트(검색한 뉴스화면)를 요청
res = req.get("https://search.naver.com/search.naver?sm=tab_hty.top&where=news&query=%EC%A0%90%EB%A9%94%EC%B6%94&oquery=%EC%86%8C%EA%B3%A0%EA%B8%B0&tqi=iMjXGwp0JywssLcXlNdssssssIw-006422")
res.text

### BeautifulSoup
- req를 통해서 받아온 텍스트 데이터를 컴퓨터가 이해할 수 있는 html형태로 변환

In [21]:
# 주의할점. stone이 아닌 일반 soup를 import
from bs4 import BeautifulSoup as bs

In [24]:
# 2. 응답을 받은 데이터에서 뉴스 타이틀만 수집
soup = bs(res.text, "lxml")

In [27]:
# select("선택자") -> html데이터에서 특정 요소만 수집
title = soup.select("a.news_tit")

In [29]:
# 수집된 요소 중에 컨텐츠(텍스트)데이터만 추출
title[0].text

'"서울식 불고기-오징어직화구이-돈까스"…\'맛있는 녀석들\', 점메추 특집 예고'

In [30]:
for i in title :
    print(i.text)

"서울식 불고기-오징어직화구이-돈까스"…'맛있는 녀석들', 점메추 특집 예고
10여명 스타와 60일 간 대화 나눠보니…‘조련형’ 샤이니·‘폭탄형’ 아이브...
'점메추' '떼르메스' '엄마카세'...외계어라고? 애환 담긴 생동의 언어!
[2022특별기획-MZ, 너 누구니] ② "점메추가 뭐야? 메리 추석?"
권진영 "오늘의 점메추는 냉면, 집에서 벌레 잡는 사람은 나" (철파엠)
KT 김동욱-김영환 “‘점메추’는 몰라도 ‘농구’는 잘 알죠”
[신조어 사전] 점메추
‘신조어 과외↔노하우 전수’ 막내 박진영과 고참 김정은의 특별과외
체질별 어울리는 보양식
GM릭터 짤의 진실은?! 펄어비스 '검은사막' GM 인터뷰 ＂오늘도 내일도 검은사...


### 네이버금융정보를 수집

In [35]:
# 1. req를 통해서 url정보를 요청
res = req.get("https://finance.naver.com/")

In [36]:
# 2. 응답데이터가 올바르다면 bs를 통해서 html형태로 변형
soup = bs(res.text, "lxml")

In [48]:
# 3. 변형된 데이터에서 필요한 태그만 수집
# 팁! 부모자식을 의미하는 자식선택자를 잘 활용
# 수집하고자 하는 요소가 아이디, 클래스 구분자가 없다면 반드시 부모를 검사
# 부모태그가 구분자가 존재 할때까지 검사를 진행
# 구분자가 없는 경우에는 정확하지 않을 확률이 높음
name = soup.select("#_topItems1>tr>th")

In [49]:
for i in name:
    print(i.text)

KODEX 200선물인버스2X
테라사이언스
우리로
KODEX 코스닥150선물인버스
나인테크
인산가
드림시큐리티
폴라리스오피스
디알텍
시노펙스
KODEX 레버리지
MDS테크
태양금속
스마트레이더시스템
시큐레터


In [51]:
# 선택자를 한번에 가져오는 방법
# 개발자도구에서 요소에 우클릭 -> copy -> copy Selector
# 검사 > 태그 우클릭 > copy > copy Selector
# 주의점! 반드시 내가 선택한 하나만 가지고 온다
# 복수개가 필요한 경우에는 선택자를 수정(ex nth-child())
"#_topItems1 > tr:nth-child(1) > th > a"

[<a href="/item/main.naver?code=073640" onclick="clickcr(this, 'spe.slist', '073640', '2', event);">테라사이언스</a>]