### 네이버 연관 검색어 수집
- 정적(static) 웹페이지 데이터 수집 
- BeautifulSoup(bs4): HTML(str) > CSS Selector를 이용하여 엘리먼트 선택

In [1]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

In [2]:
# 1. 웹페이지 분석 : URL
query = "kt"
# 링크 중간에 없어도 되는 부분이 있을 경우 삭제 -> 직접 사이트 확인하면서 삭제하면 됨
url = f"https://search.naver.com/search.naver?query={query}" 

print(url)

https://search.naver.com/search.naver?query=kt


In [3]:
# 2. request(URL) > response(html) : HTML(str)
response = requests.get(url)
response

<Response [200]>

In [4]:
response.text[:250] # html format 확인 가능

'<!doctype html> <html lang="ko"> <head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta name="viewport" content="width=device-width,initial-scale=1.0,maxi'

In [5]:
# 3. HTML(str) > BeatifulSoup object > BS(CSS Selector) > Data
dom = BeautifulSoup(response.text, "html.parser")
type(dom)

bs4.BeautifulSoup

In [6]:
# 10개의 엘리먼트들 선택
# select() : list(Tag, Tag) : element 여러 개를 선택
# select_one() : Tag : element 한 개를 선택
elements = dom.select(".lst_related_srch > .item")
len(elements)

10

In [8]:
element = elements[0]
element

<li class="item"> <a class="keyword" href="?where=nexearch&amp;query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90&amp;ie=utf8&amp;sm=tab_she&amp;qdt=0" onclick="return goOtherCR(this, 'a=rsk_btm*q.list1&amp;r=1&amp;u=' + urlencode(this.href))"> <div class="tit">삼성전자</div> </a> </li>

In [9]:
keyword = element.select_one(".tit").text
keyword

'삼성전자'

In [10]:
link = element.select_one("a").get("href")
link

'?where=nexearch&query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90&ie=utf8&sm=tab_she&qdt=0'

In [11]:
element.text.strip() # strip(): String의 좌우 공백 제거

'삼성전자'

In [12]:
# 각각의 엘리먼트에서 text 데이터 수집
keywords = []
for element in elements:
    keyword = element.select_one(".tit").text
    keywords.append(keyword)
print(keywords)

['삼성전자', 'kt 고객센터', 'kt 인터넷', 'ky', '환율', 'kr', '날씨', 'kt 대리점', 'SKT', 'kt 고객센터 전화번호']


In [13]:
# list comprehension
keywords = [element.select_one(".tit").text for element in elements]
print(keywords)

['삼성전자', 'kt 고객센터', 'kt 인터넷', 'ky', '환율', 'kr', '날씨', 'kt 대리점', 'SKT', 'kt 고객센터 전화번호']


In [14]:
# 4. str(text) > DataFrame
df = pd.DataFrame({"keywors": keywords})
df["query"] = query
df.tail(2)

Unnamed: 0,keywors,query
8,SKT,kt
9,kt 고객센터 전화번호,kt
