# 정적 페이지 데이터 수집

## 네이버 연관 검색어 수집
- 네이버 연관 검색어 수집 
- BeautifulSoup을 이용하여 HTML 문자열 데이터 parsing

In [8]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

### 1. 웹페이지 분석 : URL

In [9]:
keyword = "kt"
url = f"https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query={keyword}"
print(url)

https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=kt


### 2. request(URL) > response : str(*html*)

In [10]:
response = requests.get(url)
response

<Response [200]>

In [11]:
response.text[:250]

'<!doctype html> <html lang="ko"> <head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta name="viewport" content="width=device-width,initial-scale=1.0,maxi'

### 3. str(html) > bs object

In [12]:
dom = BeautifulSoup(response.text, "html.parser")
type(dom)

bs4.BeautifulSoup

### 4. bs object > .select(css-selector), .select_one(css-selector) > str(text)

In [13]:
# select() : 엘리먼트 여러개 선택, list(Tag, Tag)
# select_one() : 엘리먼트 하나 선택, Tag
elements = dom.select(".lst_related_srch > .item")
len(elements)

10

In [14]:
elements[0]

<li class="item"> <a class="keyword" href="?where=nexearch&amp;query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90&amp;ie=utf8&amp;sm=tab_she&amp;qdt=0" onclick="return goOtherCR(this, 'a=rsk_btm*q.list1&amp;r=1&amp;u=' + urlencode(this.href))"> <div class="tit">삼성전자</div> </a> </li>

In [15]:
keywords = []
for element in elements:
    keyword = element.select_one(".tit").text # 엘리먼트 하나 선택
    keywords.append(keyword)
print(keywords)

['삼성전자', 'kt 고객센터', 'kt 인터넷', 'ky', '환율', 'kr', '날씨', 'kt 대리점', 'SKT', 'kt 고객센터 전화번호']


In [16]:
# list comprehension
keywords = [element.select_one(".tit").text for element in elements]
print(keywords)

['삼성전자', 'kt 고객센터', 'kt 인터넷', 'ky', '환율', 'kr', '날씨', 'kt 대리점', 'SKT', 'kt 고객센터 전화번호']


In [11]:
element = elements[0]
keyword = element.select_one(".tit").text
keyword

'삼성전자주가'

In [12]:
link = element.select_one("a").get("href")
link

'?where=nexearch&query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90%EC%A3%BC%EA%B0%80&ie=utf8&sm=tab_she&qdt=0'

In [13]:
element.text.strip()

'삼성전자주가'

In [14]:
# 각각의 엘리먼트에서 text 데이터 수집

In [16]:
keywords = [element.text.strip() for element in elements]
print(keywords)

['삼성전자주가', '삼성전자 주식', '삼성전자 배당금', '삼성전자 주가 전망', '삼성전자 주식가격', '오늘 삼성전자 주가', '삼성전자 채용', '삼성전자 배당금 지급일', '삼성전자서비스', '삼성전자 as센터']


### 5. str(text) > DataFrame

In [18]:
df = pd.DataFrame({"keywors": keywords})
df["query"] = query
df.tail(2)

Unnamed: 0,keywors,query
8,삼성전자서비스,삼성전자
9,삼성전자 as센터,삼성전자


In [19]:
# 현재 시간 데이터 추가

In [20]:
from datetime import datetime

In [21]:
now = datetime.now()
now = now.strftime("%Y-%m-%d %H:%M")
now

'2022-07-10 22:06'

In [22]:
df["date_time"] = now
df.tail(2)

Unnamed: 0,keywors,query,date_time
8,삼성전자서비스,삼성전자,2022-07-10 22:06
9,삼성전자 as센터,삼성전자,2022-07-10 22:06


In [23]:
# query를 입력하면 데이터 프레임을 출력하는 함수
def naver_relate_keyword(query):
    
    url = f"https://search.naver.com/search.naver?query={query}"
    response = requests.get(url)
    dom = BeautifulSoup(response.text, "html.parser")
    elements = dom.select(".lst_related_srch > .item")
    keywords = [element.text.strip() for element in elements]
    
    df = pd.DataFrame({"keywors": keywords})
    df["query"] = query
    
    now = datetime.now()
    now = now.strftime("%Y-%m-%d %H:%M")
    df["date_time"] = now
    
    return df

In [24]:
query = "삼성전자"
df = naver_relate_keyword(query)
df.tail(2)

Unnamed: 0,keywors,query,date_time
8,삼성전자서비스,삼성전자,2022-07-10 22:06
9,삼성전자 as센터,삼성전자,2022-07-10 22:06


In [25]:
dfs = []
queries = ["삼성전자", "LG전자"]

for query in queries:
    print(query, end=" ")
    df = naver_relate_keyword(query)
    dfs.append(df)
    
result = pd.concat(dfs, ignore_index=True)
result

삼성전자 LG전자 

Unnamed: 0,keywors,query,date_time
0,삼성전자주가,삼성전자,2022-07-10 22:06
1,삼성전자 주식,삼성전자,2022-07-10 22:06
2,삼성전자 배당금,삼성전자,2022-07-10 22:06
3,삼성전자 주가 전망,삼성전자,2022-07-10 22:06
4,삼성전자 주식가격,삼성전자,2022-07-10 22:06
5,오늘 삼성전자 주가,삼성전자,2022-07-10 22:06
6,삼성전자 채용,삼성전자,2022-07-10 22:06
7,삼성전자 배당금 지급일,삼성전자,2022-07-10 22:06
8,삼성전자서비스,삼성전자,2022-07-10 22:06
9,삼성전자 as센터,삼성전자,2022-07-10 22:06
