### 네이버 연관 검색어 수집
- 정적(static) 웹페이지 데이터 수집 
- BeautifulSoup을 이용하여 HTML 문자열 데이터 parsing

In [1]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

#### 1. 웹페이지 분석 : URL

In [2]:
query = '삼성전자'
url = f'https://search.naver.com/search.naver?query={query}'
url

'https://search.naver.com/search.naver?query=삼성전자'

#### 2. request(URL) > response : str(html)

In [3]:
response = requests.get(url)
response

<Response [200]>

In [6]:
response.text[:200] # html이 잘 가져와졌음을 확인할 수 있음

'<!doctype html> <html lang="ko"><head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta name="viewport" c'

#### 3. str(html) > bs object

In [7]:
dom = BeautifulSoup(response.text, 'html.parser')
type(dom)

bs4.BeautifulSoup

#### 4. bs object > .select(css-selector), .select_one(css-selector) > str(text)

In [None]:
dir(dom)

In [11]:
help(dom.select_one)

Help on method select_one in module bs4.element:

select_one(selector, namespaces=None, **kwargs) method of bs4.BeautifulSoup instance
    Perform a CSS selection operation on the current element.
    
    :param selector: A CSS selector.
    
    :param namespaces: A dictionary mapping namespace prefixes
       used in the CSS selector to namespace URIs. By default,
       Beautiful Soup will use the prefixes it encountered while
       parsing the document.
    
    :param kwargs: Keyword arguments to be passed into SoupSieve's 
       soupsieve.select() method.
    
    :return: A Tag.
    :rtype: bs4.element.Tag



In [12]:
# 우리가 원하는 element만 가져올 수 있는지 일단 확인
elements = dom.select('.item')
len(elements)

123

In [15]:
# item 이라는 클래스는 우리가 원하는 연관검색어 10개 말고도 더 많음을 알았으니
# 한 단계 위에 있는 element 선택 후, 그 하위의 item 클래스 선택
elements = dom.select('.lst_related_srch > .item')
len(elements)

10

In [17]:
elements

[<li class="item"> <a class="keyword" href="?where=nexearch&amp;query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90%EC%A3%BC%EA%B0%80&amp;ie=utf8&amp;sm=tab_she&amp;qdt=0" onclick="return goOtherCR(this, 'a=rsk_top*q.list1&amp;r=1&amp;u=' + urlencode(this.href))"> <div class="tit">삼성전자주가</div> </a> </li>,
 <li class="item"> <a class="keyword" href="?where=nexearch&amp;query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90+%EB%B0%B0%EB%8B%B9%EA%B8%88&amp;ie=utf8&amp;sm=tab_she&amp;qdt=0" onclick="return goOtherCR(this, 'a=rsk_top*a.list1&amp;r=2&amp;u=' + urlencode(this.href))"> <div class="tit">삼성전자 배당금</div> </a> </li>,
 <li class="item"> <a class="keyword" href="?where=nexearch&amp;query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90%EC%84%9C%EB%B9%84%EC%8A%A4&amp;ie=utf8&amp;sm=tab_she&amp;qdt=0" onclick="return goOtherCR(this, 'a=rsk_top*a.list1&amp;r=3&amp;u=' + urlencode(this.href))"> <div class="tit">삼성전자서비스</div> </a> </li>,
 <li class="item"> <a class="keyword" href="?where=nexearch&amp;query=%EC%82%BC%EC%8

#### 5. str(text) > DataFrame

In [21]:
element = elements[0]

In [22]:
# 필요한 것만 가져오기 위해 다시 한 번 css select 진행, 이번엔 select_one()으로
element = element.select_one('.tit')
element

<div class="tit">삼성전자주가</div>

In [25]:
keyword = element.text
keyword

'삼성전자주가'

In [28]:
# 이제 모든 데이터에 대해 연관 검색어만 가져오기
keywords = []
for element in elements:
    keyword = element.select_one('.tit').text
    keywords.append(keyword)
keywords

['삼성전자주가',
 '삼성전자 배당금',
 '삼성전자서비스',
 '삼성전자주식',
 '오늘 삼성전자 주가',
 '삼성전자 배당금 지급일',
 '삼성전자몰',
 '삼성 전자레인지',
 '삼성전자 채용',
 '삼성전자 고객센터']

In [29]:
# 데이터 프레임 만들기
query, keywords

('삼성전자',
 ['삼성전자주가',
  '삼성전자 배당금',
  '삼성전자서비스',
  '삼성전자주식',
  '오늘 삼성전자 주가',
  '삼성전자 배당금 지급일',
  '삼성전자몰',
  '삼성 전자레인지',
  '삼성전자 채용',
  '삼성전자 고객센터'])

In [32]:
df = pd.DataFrame({'keyword': keywords})
df

Unnamed: 0,keyword
0,삼성전자주가
1,삼성전자 배당금
2,삼성전자서비스
3,삼성전자주식
4,오늘 삼성전자 주가
5,삼성전자 배당금 지급일
6,삼성전자몰
7,삼성 전자레인지
8,삼성전자 채용
9,삼성전자 고객센터


In [33]:
df['query'] = query
df

Unnamed: 0,keyword,query
0,삼성전자주가,삼성전자
1,삼성전자 배당금,삼성전자
2,삼성전자서비스,삼성전자
3,삼성전자주식,삼성전자
4,오늘 삼성전자 주가,삼성전자
5,삼성전자 배당금 지급일,삼성전자
6,삼성전자몰,삼성전자
7,삼성 전자레인지,삼성전자
8,삼성전자 채용,삼성전자
9,삼성전자 고객센터,삼성전자


In [5]:
import datetime as datetime

In [16]:
def naver_related_keywords(query):
    url = f'https://search.naver.com/search.naver?query={query}'
    response = requests.get(url)
    dom = BeautifulSoup(response.text, 'html.parser')
    elements = dom.select('.lst_related_srch > .item')
    
    keywords = []
    for element in elements:
        keyword = element.select_one('.tit').text
        keywords.append(keyword)
    df = pd.DataFrame({'keyword': keywords})
    df['query'] = query
    df['datetime'] = datetime.datetime.now().strftime('%Y-%m-%d %H:%M')
    return df

In [19]:
df1 = naver_related_keywords('삼성전자')
df1

Unnamed: 0,keyword,query,datetime
0,삼성전자주가,삼성전자,2023-08-25 12:30
1,삼성전자 배당금,삼성전자,2023-08-25 12:30
2,삼성전자서비스,삼성전자,2023-08-25 12:30
3,삼성전자주식,삼성전자,2023-08-25 12:30
4,오늘 삼성전자 주가,삼성전자,2023-08-25 12:30
5,삼성전자 배당금 지급일,삼성전자,2023-08-25 12:30
6,삼성전자몰,삼성전자,2023-08-25 12:30
7,삼성 전자레인지,삼성전자,2023-08-25 12:30
8,삼성전자 채용,삼성전자,2023-08-25 12:30
9,삼성전자 고객센터,삼성전자,2023-08-25 12:30


In [20]:
df2 = naver_related_keywords('LG전자')
df2

Unnamed: 0,keyword,query,datetime
0,lg전자 주가,LG전자,2023-08-25 12:30
1,lg전자 서비스센터 전화번호,LG전자,2023-08-25 12:30
2,lg전자 베스트샵,LG전자,2023-08-25 12:30
3,lg전자 고객센터,LG전자,2023-08-25 12:30
4,lg 전자레인지,LG전자,2023-08-25 12:30
5,lg전자 에어컨 서비스센터,LG전자,2023-08-25 12:30
6,lg전자 as,LG전자,2023-08-25 12:30
7,lg전자 에어컨,LG전자,2023-08-25 12:30
8,lg전자 서비스센터 예약,LG전자,2023-08-25 12:30
9,lg전자렌지,LG전자,2023-08-25 12:30


In [21]:
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,keyword,query,datetime
0,삼성전자주가,삼성전자,2023-08-25 12:30
1,삼성전자 배당금,삼성전자,2023-08-25 12:30
2,삼성전자서비스,삼성전자,2023-08-25 12:30
3,삼성전자주식,삼성전자,2023-08-25 12:30
4,오늘 삼성전자 주가,삼성전자,2023-08-25 12:30
5,삼성전자 배당금 지급일,삼성전자,2023-08-25 12:30
6,삼성전자몰,삼성전자,2023-08-25 12:30
7,삼성 전자레인지,삼성전자,2023-08-25 12:30
8,삼성전자 채용,삼성전자,2023-08-25 12:30
9,삼성전자 고객센터,삼성전자,2023-08-25 12:30
