# Requests와 BeautifulSoup

In [1]:
import requests
from bs4 import BeautifulSoup as bs

res = requests.get('https://datalab.naver.com/keyword/realtimeList.naver')
soup = bs(res.content, 'html.parser')
print(soup)

<!DOCTYPE HTML>

<html lang="ko">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="width=device-width,initial-scale=1.0,maximum-scale=1.0,minimum-scale=1.0,user-scalable=no" name="viewport"/>
<meta content="네이버 :: 서비스에 접속할 수 없습니다." lang="ko" name="description"/>
<title>[접근 오류] 서비스에 접속할 수 없습니다.</title>
<style type="text/css">
        /* PC */
        body,p,h1,h2,h3,h4,h5,h6,ul,ol,li,dl,dt,dd,table,th,td,form,fieldset,legend,input,textarea,button,select{margin:0;padding:0}
        body,input,textarea,select,button,table{font-size:12px;font-family:'굴림',Gulim,helvetica,sans-serif;color:#424242}
        body,html{height:100%}
        img,fieldset{border:0}
        img{vertical-align:middle}
        ul,ol{list-style:none}
        em,address{font-style:normal}
        a{color:#000;text-decoration:none}
        legend{display:none}
        hr{display:none !important}
        #u_skip{position:relative;width:100%;z-index:10}
        #u_skip a{position:a

`[접근 오류] 서비스에 접속할 수 없습니다`

#### 왜 안될까? 어떻게 해야할까?
- 네이버 서버쪽에서는 접속하는 사용자의 정보를 알 수 있다. 그런데 requests로 단순히 주소값만 가지고 호출을 하면 이러한 정보값들이 들어있지 않기 때문에 네이버 쪽에선 **비정상적 접근**이라 생각하고 정상적인 결과를 돌려주지 않는다.

#### 그럼 어떻게 해야할까?
- 사용자 정보를 나타내는 것들을 넣어서 마치 정상적인 브라우저로 접속한 것처럼 보이게 호출
- headers 삽입

In [4]:
headers = {
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9'
    ,'accept-encoding': 'gzip, deflate, br'
    ,'accept-language': 'ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7'
    ,'cache-control': 'max-age=0'
    ,'cookie': 'NNB=BUSDAUTRZR5VU; npic=vWp4CUW+O8rFbCCpYOTC+zAmxDZYgyoHpzLtUKtm2GBuREG5I886WHMrFkp7BApCCA==; ASID=3b05df92000001617396a06c00000056; NRTK=ag#all_gr#1_ma#-2_si#0_en#0_sp#0; _fbp=fb.1.1600062202204.1363939110; _ga_4BKHBFKFK0=GS1.1.1600062200.3.1.1600062292.60; _ga=GA1.1.744445534.1526970805; _ga_7VKFYR6RV1=GS1.1.1601802322.19.0.1601802322.60; nx_ssl=2; NDARK=N; _datalab_cid=50000000'
    ,'referer': 'https://datalab.naver.com/'
    ,'sec-fetch-dest': 'document'
    ,'sec-fetch-mode': 'navigate'
    ,'sec-fetch-site': 'same-origin'
    ,'sec-fetch-user': '?1'
    ,'upgrade-insecure-requests': '1'
    ,'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'
}

res = requests.get('https://datalab.naver.com/keyword/realtimeList.naver', headers=headers)
soup = bs(res.content, 'html.parser')
print(soup)

<!DOCTYPE html>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=1200" name="viewport"/>
<title>급상승검색어 : 네이버 데이터랩</title>
<link href="https://ssl.pstatic.net/static.datalab/202010150900/css/datalab.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/static.datalab/202010150900/css/graph.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/static.datalab/202010150900/img/favicon/android_legacy_xxxhpdi_192x192.png" rel="icon" sizes="192x192"/>
<link href="https://ssl.pstatic.net/static.datalab/202010150900/img/favicon/android_legacy_xxhpdi_144x144.png" rel="icon" sizes="144x144"/>
<link href="https://ssl.pstatic.net/static.datalab/202010150900/img/favicon/android_legacy_xhdpi_96x96.png" rel="icon" sizes="96x96"/>
<link href="https://ssl.pstatic.net/static.datalab/202010150900/img/favicon/android_legacy_hdpi_72X72.png" rel="icon" sizes="72x72"/>
<link href="https://ss

`급상승검색어 : 네이버 데이터랩`
- 제대로 크롤링을 했군!
- 이제 여기서 급상승 검색어만 가져오면 됨

### 방법1: enumerate으로 순위매기기

In [30]:
rank_list = soup.select('.ranking_item .item_title')

for (number, keyword) in enumerate(rank_list):
    print(number+1, keyword.text)

1 이건희
2 아메리칸 퀼트
3 삼성주식
4 시동
5 홍라희
6 이병철
7 이부진
8 여주 라파엘의집
9 상속세
10 자동차극장
11 진혜원
12 김민아
13 영화 시동
14 거짓말의 거짓말 결말
15 007 언리미티드
16 안예은
17 하빕
18 핵심능력 테스트
19 홈플러스 휴무일
20 이건희 막내딸


In [40]:
rank_result_list = []
for (number, keyword) in enumerate(rank_list):
    rank_result_list += [{'rank': number+1, 'value': keyword.text}]

print(rank_result_list)
print('-'*100)

for i in range(len(rank_result_list)):
    print(f'실시간 급상승 검색어 {rank_result_list[i]["rank"]}위는 {rank_result_list[i]["value"]}입니다')

[{'rank': 1, 'value': '이건희'}, {'rank': 2, 'value': '아메리칸 퀼트'}, {'rank': 3, 'value': '삼성주식'}, {'rank': 4, 'value': '시동'}, {'rank': 5, 'value': '홍라희'}, {'rank': 6, 'value': '이병철'}, {'rank': 7, 'value': '이부진'}, {'rank': 8, 'value': '여주 라파엘의집'}, {'rank': 9, 'value': '상속세'}, {'rank': 10, 'value': '자동차극장'}, {'rank': 11, 'value': '진혜원'}, {'rank': 12, 'value': '김민아'}, {'rank': 13, 'value': '영화 시동'}, {'rank': 14, 'value': '거짓말의 거짓말 결말'}, {'rank': 15, 'value': '007 언리미티드'}, {'rank': 16, 'value': '안예은'}, {'rank': 17, 'value': '하빕'}, {'rank': 18, 'value': '핵심능력 테스트'}, {'rank': 19, 'value': '홈플러스 휴무일'}, {'rank': 20, 'value': '이건희 막내딸'}]
----------------------------------------------------------------------------------------------------
실시간 급상승 검색어 1위는 이건희입니다
실시간 급상승 검색어 2위는 아메리칸 퀼트입니다
실시간 급상승 검색어 3위는 삼성주식입니다
실시간 급상승 검색어 4위는 시동입니다
실시간 급상승 검색어 5위는 홍라희입니다
실시간 급상승 검색어 6위는 이병철입니다
실시간 급상승 검색어 7위는 이부진입니다
실시간 급상승 검색어 8위는 여주 라파엘의집입니다
실시간 급상승 검색어 9위는 상속세입니다
실시간 급상승 검색어 10위는 자동차극장입니다
실시간 급상승 검색어 11위는 진혜원입니다
실

### 방법2. 순위까지 크롤링해오기

In [28]:
ranking = soup.select(".ranking_item")

for i in ranking:
    num = i.select_one(".item_num").text
    keyword = i.select_one(".item_title").text
    
    print(num, keyword)

1 이건희
2 아메리칸 퀼트
3 삼성주식
4 시동
5 홍라희
6 이병철
7 이부진
8 여주 라파엘의집
9 상속세
10 자동차극장
11 진혜원
12 김민아
13 영화 시동
14 거짓말의 거짓말 결말
15 007 언리미티드
16 안예은
17 하빕
18 핵심능력 테스트
19 홈플러스 휴무일
20 이건희 막내딸


# Selenium과 BeautifulSoup 이용

- requests와 BS를 이용해서도 크롤링이 가능하지만, 위와 같은 경우처럼 까다로운 상황이 생길수도 있고, 심지어 헤더를 추가해주는 방식으로도 처리를 못하는 경우가 있다.
- 이런 경우 셀레니엄을 이용하여 무적의 크롤러가 되어보자

In [41]:
pip install selenium




In [45]:
from selenium import webdriver
from bs4 import BeautifulSoup as bs
driver=webdriver.Chrome('./chromedriver')
#페이지가 모두 로드될 때까지 3초 기다려주는 코드
driver.implicitly_wait(3)
# 셀레니움을 통해 실제 크롬창에서 접속한 것과 동일하게 해당 URL을 가져옴
driver.get('https://datalab.naver.com/keyword/realtimeList.naver')
#소스를 읽어 BS를 이용해 파싱
html = driver.page_source
soup = bs(html, 'html.parser')

driver.close()

#그 다음은 이전에 requests와 BS를 이용했던 코드와 동일하게 처리
rank_list=soup.select('.ranking_list .item_title')
rank_result_list = []
for (index, rank) in enumerate(rank_list):
    #우리가 이용하기 쉬운 데이터 형태로 만들거주기 위해 Dictionay형태로 구성
    rank_result_list += [{"rank":index+1, "value": rank.text}]

#결과값이 의도한대로 잘 들어갔는지 출력하여 확인
print(rank_result_list)
print('-'*100)
print(f'실시간 급상승 검색어 {rank_result_list[0]["rank"]}위는 "{rank_result_list[0]["value"]}"입니다')

[{'rank': 1, 'value': '이건희'}, {'rank': 2, 'value': '나는 자연인이다'}, {'rank': 3, 'value': '일진머티리얼즈'}, {'rank': 4, 'value': '홍라희'}, {'rank': 5, 'value': '상속세'}, {'rank': 6, 'value': '삼성주식'}, {'rank': 7, 'value': '긱스 동네음악대'}, {'rank': 8, 'value': '삼성'}, {'rank': 9, 'value': '이부진'}, {'rank': 10, 'value': '이병철'}, {'rank': 11, 'value': '아메리칸 퀼트'}, {'rank': 12, 'value': '거짓말의 거짓말 결말'}, {'rank': 13, 'value': '소백산'}, {'rank': 14, 'value': '위아이'}, {'rank': 15, 'value': 'sbs 인기가요'}, {'rank': 16, 'value': '하빕'}, {'rank': 17, 'value': '이승윤 매니저'}, {'rank': 18, 'value': '정세운'}, {'rank': 19, 'value': '이달의 소녀'}, {'rank': 20, 'value': '이윤형'}]
----------------------------------------------------------------------------------------------------
실시간 급상승 검색어 1위는 "이건희"입니다
