## # 네이버 실시간 검색어 수집
------------------------------------
## #01.필요한 모듈 참조

In [10]:
import requests                           #-> 웹페이지 요청 모듈
from bs4 import BeautifulSoup             #-> 웹페이지 소스코드 분석 모듈
from pandas import DataFrame

-----------------------------------------
## #02. 수집 준비

### 1)접속을 수행하기 위한 session 객체 생성

In [2]:
# 접속 세션 만들기
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36"

session = requests.Session()
session.headers.update({'User-agent':user_agent, 'referer':None})

### 2)접근할 페이지 주소(네이버 메인)

In [3]:
content_url = "https://www.naver.com"

## #03.데이터 가져오기

In [6]:
r = session.get(content_url)

#-> 결과확인
if r.status_code != 200:
    print("%d 에러가 발생했습니다." % r.status_code)
    # 즉시 종료 --> jupyter가 재시작됨
    quit()

In [7]:
r.encoding = "utf-8"
print(r.text)

<!doctype html>
















<html lang="ko">
<head>
<meta charset="utf-8">
<meta name="Referrer" content="origin">
<meta http-equiv="Content-Script-Type" content="text/javascript">
<meta http-equiv="Content-Style-Type" content="text/css">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="viewport" content="width=1100">
<meta name="apple-mobile-web-app-title" content="NAVER" />
<meta name="robots" content="index,nofollow"/>
<meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/>
<meta property="og:title" content="네이버">
<meta property="og:url" content="https://www.naver.com/">
<meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png">
<meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/>
<meta name="twitter:card" content="summary">
<meta name="twitter:title" content="">
<meta name="twitter:url" content="https://www.naver.com/">
<meta name="twitter:image" content="https://s.ps

## #04. 데이터 추출

In [9]:
# 웹 페이지의 소스코드 HTML 분석 객체로 생성
soup = BeautifulSoup(r.text, 'html.parser')

# CSS 선택자를 활용하여 가져오기를 원하는 부분 지정
# -> ".class"값 형식으로 지정. 될때까지 지정
selector = soup.select('.ah_roll_area > .ah_l > .ah_item > .ah_a > .ah_k')

if not selector:  #가져온 내용이 없다면?
    print("뉴스기사 크롤링 실패")
    quit()

selector

[<span class="ah_k">오늘이마지막ssg국민용돈</span>,
 <span class="ah_k">웨이브 무료중계 프리미어12</span>,
 <span class="ah_k">경수진</span>,
 <span class="ah_k">디아블로4</span>,
 <span class="ah_k">임세령</span>,
 <span class="ah_k">위메프 블랙프라이스데이</span>,
 <span class="ah_k">위메프 블랙프라이데이</span>,
 <span class="ah_k">오버워치2</span>,
 <span class="ah_k">함중아</span>,
 <span class="ah_k">창원 LG 세이커스</span>,
 <span class="ah_k">이자스민</span>,
 <span class="ah_k">고민시</span>,
 <span class="ah_k">배가본드 결방</span>,
 <span class="ah_k">프로농구 순위</span>,
 <span class="ah_k">아이유 love poem</span>,
 <span class="ah_k">함중아사망</span>,
 <span class="ah_k">후베이 성</span>,
 <span class="ah_k">유유보틀</span>,
 <span class="ah_k">독도 헬기</span>,
 <span class="ah_k">김시래</span>]

## #05. 수집 결과를 데이터 프레임으로 만들기

In [11]:
# 데이터프레임의 인덱스로 사용하기 위해 순위를 저장할 리스트
rank_list = []

#검색어를 저장할 리스트
keyword_list = []

#크롤링 결과수 만큼 반복하면서 순위와 검색어를 리스트에 분류한다
for i, item in enumerate(selector):
    rank_list.append("%02d위" % (i+1))
    keyword_list.append(item.text.strip())

print(rank_list)
print(keyword_list)

['01위', '02위', '03위', '04위', '05위', '06위', '07위', '08위', '09위', '10위', '11위', '12위', '13위', '14위', '15위', '16위', '17위', '18위', '19위', '20위']
['오늘이마지막ssg국민용돈', '웨이브 무료중계 프리미어12', '경수진', '디아블로4', '임세령', '위메프 블랙프라이스데이', '위메프 블랙프라이데이', '오버워치2', '함중아', '창원 LG 세이커스', '이자스민', '고민시', '배가본드 결방', '프로농구 순위', '아이유 love poem', '함중아사망', '후베이 성', '유유보틀', '독도 헬기', '김시래']


In [13]:
#데이터 프레임 생성
df = DataFrame(keyword_list, index=rank_list, columns=['검색어'])
df

Unnamed: 0,검색어
01위,오늘이마지막ssg국민용돈
02위,웨이브 무료중계 프리미어12
03위,경수진
04위,디아블로4
05위,임세령
06위,위메프 블랙프라이스데이
07위,위메프 블랙프라이데이
08위,오버워치2
09위,함중아
10위,창원 LG 세이커스
