## 3.1 네이버 뉴스 크롤링

In [2]:
import pandas as pd

news_df = pd.read_csv("news_info.csv", encoding="utf-8")
news_df.head()

Unnamed: 0,NewsDate,NewsTitle,Path,URL
0,20200129,"농협은행, 전 영업점에 방역 작업...'우한 폐렴' 확산 방지 총력","..\rawdata\기업별 관련기사\은행\NH농협은행\20200129 농협은행, 전...",https://news.naver.com/main/read.nhn?mode=LS2D...
1,20200129,윤종원 제26대 IBK기업은행장 취임식,..\rawdata\기업별 관련기사\은행\IBK기업은행\20200129 윤종원 제2...,https://news.naver.com/main/read.nhn?mode=LS2D...
2,20200131,"신한銀의 파격실험 영업점, 돈 안벌어도 OK",..\rawdata\기업별 관련기사\은행\신한은행\20200131 신한銀의 파격실험...,https://www.hankyung.com/economy/article/20200...
3,20200203,국민은행 디지털 전환 첨병된 '인사이트 지점',..\rawdata\기업별 관련기사\은행\KB국민은행\20200203 국민은행 디지...,https://news.naver.com/main/read.nhn?mode=LS2D...
4,20200203,신한은행 지점 암행평가 270곳 펀드 판매정지…질적 도약 기회,..\rawdata\기업별 관련기사\은행\신한은행\20200203 신한은행 지점 암...,http://news.mtn.co.kr/newscenter/news_viewer.m...


In [3]:
homepage_df = pd.read_csv("homepage.csv", encoding="utf-8")
homepage_df.head()

Unnamed: 0,Domain,Name,Cnt
0,news.naver.com,네이버뉴스,78
1,www.hankyung.com,한국경제,26
2,www.mk.co.kr,매일경제,15
3,m.news.naver.com,네이버뉴스(모바일),8
4,www.sedaily.com,서울경제,8


<br>

## 3.1.1 네이버 도메인 종류 확인

In [13]:
naver_homepage_df = homepage_df.loc[homepage_df["Name"].str.contains("네이버")].reset_index().drop(columns=["index"])
naver_homepage_df

Unnamed: 0,Domain,Name,Cnt
0,news.naver.com,네이버뉴스,78
1,m.news.naver.com,네이버뉴스(모바일),8
2,n.news.naver.com,네이버뉴스(모바일),5


<br>

### 3.1.2 네이버 홈페이지 기사에 해당되는 URL

- 네이버 도메인은 3가지 종류가 있다.
- 도메인 주소 맨 앞에 `n`과 `m`이 붙은 주소는 모바일 주소이다.
- `news_df` 중 `news.naver.com`이 포함되어 있는 데이터들이 모두 네이버 홈페이지 기사라고 볼 수 있다.

In [22]:
naver_domain = naver_homepage_df["Domain"][0]
naver_domain

'news.naver.com'

In [40]:
naver_urls = [url for url in news_df["URL"] if naver_domain in url]
naver_urls = list(set(naver_urls)) # 중복제거
naver_urls[:20]

['https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=014&aid=0004388236',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=277&aid=0004637897',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=022&aid=0003440343',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=366&aid=0000512312',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=031&aid=0000528562',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=011&aid=0003700986',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=029&aid=0002591747',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=277&aid=0004631863',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=001&aid=0011465994',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=001&aid=0011499170',


<br>

### 3.1.3 모바일 URL 분리

- 도메인 주소별로 크롤링 방법이 상이할 수 있다.
- 그러므로 `m` 또는 `n`으로 시작하는 URL 주소를 분리한다.

In [28]:
# 모바일 URL 1 (m.news.naver.com)
naver_mobile1_urls = [url for url in naver_urls if "m.news" in url]
naver_mobile1_urls

['https://m.news.naver.com/read.nhn?mode=LSD&sid1=001&oid=008&aid=0004361321',
 'https://m.news.naver.com/read.nhn?mode=LSD&sid1=001&oid=008&aid=0004361323',
 'https://m.news.naver.com/read.nhn?mode=LSD&mid=sec&sid1=103&oid=005&aid=0001315714',
 'https://m.news.naver.com/read.nhn?mode=LSD&mid=sec&sid1=101&oid=018&aid=0004624668',
 'https://m.news.naver.com/read.nhn?mode=LSD&sid1=001&oid=277&aid=0004641674',
 'https://m.news.naver.com/read.nhn?mode=LSD&sid1=001&oid=008&aid=0004361320',
 'https://m.news.naver.com/read.nhn?mode=LSD&mid=sec&sid1=101&oid=030&aid=0002874283',
 'https://m.news.naver.com/read.nhn?mode=LSD&mid=sec&sid1=101&oid=009&aid=0004533150']

In [29]:
# 모바일 URL 2 (n.news.naver.com)
naver_mobile2_urls = [url for url in naver_urls if "n.news" in url]
naver_mobile2_urls

['https://n.news.naver.com/article/030/0002878924',
 'https://n.news.naver.com/article/421/0004439723',
 'https://n.news.naver.com/article/011/0003719399',
 'https://n.news.naver.com/article/025/0002972080',
 'https://n.news.naver.com/article/081/0003079568']

In [41]:
# 웹 URL (news.naver.com)
naver_web_urls = [url for url in naver_urls if url not in naver_mobile1_urls + naver_mobile2_urls]
naver_web_urls[:10]

['https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=014&aid=0004388236',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=277&aid=0004637897',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=022&aid=0003440343',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=366&aid=0000512312',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=031&aid=0000528562',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=011&aid=0003700986',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=029&aid=0002591747',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=277&aid=0004631863',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=001&aid=0011465994',
 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=259&oid=001&aid=0011499170']

<br>

### 3.1.4 크롤링 방법 정의

- 크롤링 대상 데이터
  - url 주소(`news_url`)
  - 신문사(`news_press`)
  - 작성일자(`news_date`)
  - 제목(`news_title`)
  - 요약(`news_summary`)
  - 본문(`news_content`)

In [42]:
from bs4 import BeautifulSoup
import requests
import warnings
warnings.filterwarnings('ignore')

#### 3.1.4.1 네이버 웹 기사 크롤링 방법 정의

In [102]:
news_url = naver_web_urls[0]

res = requests.get(news_url)
soup = BeautifulSoup(res.content, 'html.parser')

# 신문사
news_press = soup.select("div.press_logo img")[0]['title']
print(news_press)

# 제목
news_title = soup.select("#articleTitle")[0].text
print(news_title)

# 작성일자
news_date = soup.select("div.sponsor span.t11")[0].text
print(news_date)

# 본문
news_summary = soup.select("#articleBodyContents strong.media_end_summary")[0]
news_summary = str(news_summary)
type(news_summary)
news_summary = news_summary.replace('<strong class="media_end_summary">', "")
news_summary = news_summary.replace('</strong>', '')
news_summary.split("<br/>")

파이낸셜뉴스
소호대출 1년새 17兆 늘린 5대은행..코로나 장기화 땐 연체율 상승 우려
2020.03.11. 오후 6:19


['정부 포용적 금융정책 이어지고',
 '신예대율 규제로 기업대출 늘려',
 '2월 한달간 1조5525억원 급증',
 '경기 둔화에 자영업자 ‘직격탄’',
 '"은행 부실 뇌관 될수도" 비상등']