# HTML 데이터 파싱을 이용한 크롤링
## 1. 네이버 연관검색어
    - 1. 웹페이지 분석 : URL 찾기
    - 2. 요청 -> 응답 : HTML(str)
    - 3. HTML(str) -> BeautifulSoup obj (css-selector) --> DF

In [1]:
from bs4 import BeautifulSoup

import requests

In [1]:
# 1. 웹페이지 분석 : URL
query = "삼성전자"

url = "https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query={}".format(query)

print(url)

https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=삼성전자


In [2]:
# 2. request - > response : HTML(str)
response = requests.get(url)
response

<Response [200]>

In [3]:
# 3. HTML(str) -> BeautifulSoup Obj (css - selector) -> DF
dom = BeautifulSoup(response.content, "html.parser")
dom

<!DOCTYPE html>
 <html lang="ko"> <head> <meta charset="utf-8"/> <meta content="always" name="referrer"/> <meta content="telephone=no,address=no,email=no" name="format-detection"/> <meta content="width=device-width,initial-scale=1.0,maximum-scale=2.0" name="viewport"/> <meta content="삼성전자 : 네이버 통합검색" property="og:title"> <meta content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png" property="og:image"/> <meta content="'삼성전자'의 네이버 통합검색 결과입니다." property="og:description"/> <meta content="'삼성전자'의 네이버 통합검색 결과입니다." lang="ko" name="description"/> <title>삼성전자 : 네이버 통합검색</title> <link href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_191118_pc.ico" rel="shortcut icon"/> <link href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" rel="search" title="Naver" type="application/opensearchdescription+xml"><link href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_201223.css" rel="stylesheet" type="text/css"/> <link href="https://ssl.pstatic.net/sst

In [4]:
type(dom)

bs4.BeautifulSoup

- select : 여러개의 element 객체를 리스트로 가져옴
- select_one : 하나의 element 객체를 가져옴

In [5]:
elements = dom.select(".lst_related_srch > li")
len(elements)

10

In [6]:
type(elements[0].text), elements[0]

(str,
 <li class="item"> <a class="keyword" href="?where=nexearch&amp;query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90%EC%9A%B0&amp;ie=utf8&amp;sm=tab_she&amp;qdt=0" onclick="return goOtherCR(this, 'a=rsk_top*q.list1&amp;r=1&amp;u=' + urlencode(this.href))"> <div class="tit">삼성전자우</div> </a> </li>)

In [7]:
keywords = [element.text.strip() for element in elements]
print(keywords)

['삼성전자우', '삼성', 'lg전자', 'sk하이닉스', '카카오', '셀트리온', '엘지전자', '대한항공', '현대자동차', '코스피']


#### 함수로 만들어

In [8]:
def naver_relational_keywords(query):
    url = "https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query={}".format(query)
    response = requests.get(url)
    dom = BeautifulSoup(response.content, "html.parser")
    elements = dom.select(".lst_related_srch > li")
    return [element.text.strip() for element in elements]

In [9]:
query = "코로나"
result = naver_relational_keywords(query)
print(result)

['코로나 2.5단계 연장', '코로나 라이브', '코로나 3단계', '코로나 3단계 발표', '코로나 3단계 조치', '코로나 확진자', '코로나 백신', '코로나 집합금지', '코로나 단계', '코로나 2.5단계']


## 2. 다음 뉴스 데이터
- 다음 뉴스의 메인 페이지 15개 기사의 제목, 링크, 내용 수집

In [10]:
# 1. URL
url = "https://news.daum.net/"

In [11]:
# 2. HTML(str)
response = requests.get(url)
response

<Response [200]>

In [12]:
response.text

'\n<!DOCTYPE html>\n\n\n\n<html lang="ko" class="os_unknown none unknown version_0 ">\n<head>\n<meta charset="utf-8">\n<meta name="referrer" content="always" />\n\n<meta property="og:author" content="Daum 뉴스" />\n<meta property="og:site_name" content="다음뉴스" />\n<meta property="og:title" content="홈"/>\n<meta property="og:image" content="https://t1.daumcdn.net/media/img-media/mobile/meta/news.png" />\n<meta property="og:description" content="다음뉴스" />\n<link rel="shortcut icon" href="https://m2.daumcdn.net/img-media/2010ci/Daum_favicon.ico">\n\n<title>홈 | 다음뉴스</title>\n\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\n\n<link rel="stylesheet" type="text/css" href="//t1.daumcdn.net/media/kraken/news/daaa468/common.css.merged.css" />\n<link rel="stylesheet" type="text/css" href="//t1.daumcdn.net/media/kraken/news/daaa468/news.css.merged.css" />\n<link rel="stylesheet" type="text/css" href="//t1.daumcdn.net/media/kraken/news/daaa468/calendar.css.merged.css" />\n\n<!--[if lte IE 8]>\n<

In [14]:
# 3. BS
dom = BeautifulSoup(response.content, "html.parser")
dom


<!DOCTYPE html>

<html class="os_unknown none unknown version_0" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="always" name="referrer">
<meta content="Daum 뉴스" property="og:author"/>
<meta content="다음뉴스" property="og:site_name"/>
<meta content="홈" property="og:title"/>
<meta content="https://t1.daumcdn.net/media/img-media/mobile/meta/news.png" property="og:image"/>
<meta content="다음뉴스" property="og:description"/>
<link href="https://m2.daumcdn.net/img-media/2010ci/Daum_favicon.ico" rel="shortcut icon"/>
<title>홈 | 다음뉴스</title>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<link href="//t1.daumcdn.net/media/kraken/news/daaa468/common.css.merged.css" rel="stylesheet" type="text/css">
<link href="//t1.daumcdn.net/media/kraken/news/daaa468/news.css.merged.css" rel="stylesheet" type="text/css"/>
<link href="//t1.daumcdn.net/media/kraken/news/daaa468/calendar.css.merged.css" rel="stylesheet" type="text/css"/>
<!--[if lte IE 8]>
<script src="https://m2.daumcdn.net/svc/ori

In [15]:
elements = dom.select(".list_headline > li")
len(elements)

15

In [16]:
elements[0]

<li class="item_main">
<a class="link_cont" data-tiara-custom="contentUniqueKey=hamny-20201228184840154" data-tiara-id="20201228184840154" data-tiara-layer="photo" data-tiara-ordnum="1" data-tiara-type="harmony" href="https://news.v.daum.net/v/20201228184840154">
<span class="wrap_thumb">
<img 30대="" 7시간째="" alt="" class="thumb_g" src="https://img1.daumcdn.net/thumb/S189x104ht.u/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fnews%2F202012%2F28%2Fyonhap%2F20201228184841055fggt.jpg&amp;scode=media" 건물="" 경찰과="" 남성="" 대치"="" 청주서="" 폭파하겠다"=""/>
</span>
<strong class="tit_g">"건물 폭파하겠다" 청주서 30대 남성 7시간째 경찰과 대치</strong>
</a>
</li>

In [17]:
datas = []

for element in elements:
    datas.append({
        "title": element.select_one(".tit_g").text.strip().replace("\n",""),
        "link" : element.select_one("a").get("href"),
    })
    
articles_df = pd.DataFrame(datas)
articles_df.tail(2)

Unnamed: 0,title,link
13,"""재택근무 강제를"" vs ""격상 반대""..2.5단계 연장에 의견 '분분'YTN",https://news.v.daum.net/v/20201228183413874
14,"""IMF, 내년 中 경제성장률 7.8% 예상, 韓 경제 훈풍 기대되나""YTN",https://news.v.daum.net/v/20201228183300853


#### content 데이터 추가

In [18]:
link = articles_df.loc[0, "link"]
print(link)

https://news.v.daum.net/v/20201228184840154


In [19]:
response = requests.get(link)
dom = BeautifulSoup(response.content, "html.parser")

In [20]:
dom.select_one("#harmonyContainer").text.strip().replace("\n"," ")

'(청주=연합뉴스) 천경환 기자 = 청주의 한 상가 건물에서 30대 남성이 내부에 휘발유를 뿌리고 폭파 협박을 하면서 경찰과 7시간 넘게 대치하고 있다. 28일 경찰 등에 따르면 이날 오전 11시 10분께 청주시 청원구 율량동 4층짜리 건물 3층의 헬스장에 A씨가 난입해 바닥 등에 휘발유를 뿌리고 문을 부수는 등 난동을 부렸다.                청주 율량동서 30대 남성 난동 [촬영 천경환 기자]              A씨는 "헬스장 관장에게 사기를 당했다. 러시아 대통령의 지시를 받고 건물을 폭파하러 왔다"는 등 횡설수설하면서 경찰·소방당국과 대치하고 있다.  이 과정에서 A씨는 부탄가스에 불을 붙여 건물 밖으로 던지고, 건물에 진입하려는 소방관에게 깨진 유리와 운동기구 등을 던지기도 했다. 경찰은 위험 상황에 대비해 헬스장 직원 등 20여명을 대피시켰다. A씨는 이 헬스장 회원은 아닌 것으로 전해졌다 경찰은 "혹시 모를 사고에 대비해 헬스장에 진입하는 대신 A씨가 흥분을 가라앉힌 뒤 스스로 밖으로 나오도록 설득하고 있다"고 말했다.                 청주 율량동서 30대 남성 난동 [촬영 천경환 기자]              kw@yna.co.kr'

In [21]:
def get_content(link):
    response = requests.get(link)
    dom = BeautifulSoup(response.content, "html.parser")
    return dom.select_one("#harmonyContainer").text.strip().replace("\n"," ")

In [22]:
articles_df["content"] = articles_df["link"].apply(get_content)
articles_df.tail(2)

Unnamed: 0,title,link,content
13,"""재택근무 강제를"" vs ""격상 반대""..2.5단계 연장에 의견 '분분'YTN",https://news.v.daum.net/v/20201228183413874,[앵커] 거리 두기는 이번 주도 3단계로 올라가지 않았습니다. 수도권은 2.5단...
14,"""IMF, 내년 中 경제성장률 7.8% 예상, 韓 경제 훈풍 기대되나""YTN",https://news.v.daum.net/v/20201228183300853,■ 방송 : YTN 라디오 FM 94.5 (15:10~16:00) ■ 날짜 : 2...
