### 네이버 연관 검색어 수집
- 정적(static) 웹페이지 데이터 수집 
- BeautifulSoup을 이용하여 HTML 문자열 데이터 parsing

#### 1. 웹페이지 분석 : URL

In [38]:
import requests
import pandas as pd
from bs4 import BeautifulSoup # html 포맷의 데이터를 css-selector를 이용해 필요한 데이터 추출할 수 있게끔

In [41]:
# 새로고침 하자마자 제일 상단에 불러온 html
query = '삼성전자'
url = f'https://search.naver.com/search.naver?query={query}'
url

'https://search.naver.com/search.naver?query=삼성전자'

#### 2. request(URL) > response : str(html)

In [42]:
response = requests.get(url)
response

<Response [200]>

In [43]:
response.text[:300]

# 정적 페이지에선 html 코드 안에 우리가 필요한 데이터가 숨어있으므로 parsing이 어려움..

'<!doctype html> <html lang="ko"><head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta property="og:title" content="삼성전자 : 네이버 통합검색"/> <meta property="og:image" content="https://ssl.pstatic.net/sstatic/se'

#### 3. str(html) > bs object

In [44]:
# BS 클래스 안의 메소드 사용 위해 객체 만들기
dom = BeautifulSoup(response.text, 'html.parser')
type(dom)

bs4.BeautifulSoup

#### 4. bs object > .select(css-selector), .select_one(css-selector) > str(text)

In [45]:
# dom.select(): 엘리먼트 여러개 선택 → 결과가 리스트(태그 객체 여러개)
# dom.select_one(): 엘리먼트 하나 선택 → 결과가 태그 객체 한 개

elements = dom.select('.lst_related_srch > .item') # 클래스가 두개일 때 하나만 남기기
# 하위에서 상위로 올라가면서 가장 코드 짧아지게끔 하는 게 좋음
# .item으로 선택하면 126개가 선택되므로, 그 바로 상위 클래스인 lst_related_srch > 추가

len(elements)

10

In [46]:
elements[0].text.strip() # strip(): 텍스트 앞뒤 공백 제거

'삼성전자주가'

In [47]:
keywords = [element.text.strip() for element in elements]
keywords

['삼성전자주가',
 '삼성전자주식',
 '삼성전자 배당금',
 '오늘 삼성전자 주가',
 '삼성전자서비스',
 '삼성전자서비스센타',
 '삼성전자주가지수',
 '삼성전자주식가격',
 '삼성 전자레인지',
 '삼성전자 패밀리몰']

#### 5. str(text) > DataFrame

In [48]:
df = pd.DataFrame(keywords)

In [49]:
df

Unnamed: 0,0
0,삼성전자주가
1,삼성전자주식
2,삼성전자 배당금
3,오늘 삼성전자 주가
4,삼성전자서비스
5,삼성전자서비스센타
6,삼성전자주가지수
7,삼성전자주식가격
8,삼성 전자레인지
9,삼성전자 패밀리몰
