# **포털사이트 크롤링**

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [2]:
import warnings
warnings.filterwarnings(action='ignore')

![Frame 10 (1).png](attachment:4b741ca1-3c5d-4647-9301-1ded9ba2661f.png)

## **네이트 사이트의 메뉴 추출**

### **🔸 메뉴명과 연결 url을 추출**

In [3]:
import pandas as pd
import bs4
import requests
from urllib.request import urlopen

In [4]:
# url 정의
url = 'https://www.nate.com'

In [5]:
# response 객체 얻어오기
html = urlopen(url)
html

<http.client.HTTPResponse at 0x11239f640>

In [6]:
# 전달된 소스코드만 추출하기 
html_text = html.read()

In [7]:
# binary code 형태로 되어있는 소스코드 -> bs4 객체로 변환
bs_obj = bs4.BeautifulSoup(html_text, 'html.parser')

In [8]:
# 확인
# print(bs_obj.prettify())

In [9]:
# 네이트 사이트의 메뉴 Selector 확인
# #divGnb

In [10]:
# 메뉴 Selector 변수로 저장해두기
menu = bs_obj.find('div', {'id':'divGnb'})
menu_li = menu.select('li')
# menu_li

In [11]:
# 소스코드 구조 보기
menu_li[0]
menu_li[0].text
menu_li[0].a
menu_li[0].a['href']

<li class="mail"><a href="https://mail3.nate.com/#index" onmousedown="nc('NGB01');">메일</a></li>

'메일'

<a href="https://mail3.nate.com/#index" onmousedown="nc('NGB01');">메일</a>

'https://mail3.nate.com/#index'

In [12]:
# 메뉴명과 링크 뽑는 코드 확인하기
for li in menu_li:
    print(li.text, li.a['href'])

# Action List
## 중복이 되는 메뉴는 제외 (더보기 내에 중복되어 있음)
## href 가 없는 메뉴는 제외
## 'javascript' 태그명 제외 

메일 https://mail3.nate.com/#index
뉴스 //news.nate.com/
판 https://pann.nate.com/
AI챗beta https://m.nate.com/aichat.html
TV https://tv.nate.com/
툰앤북 https://toonnbook.nate.com/
운세 https://fortune.nate.com/home/main.nate
게임 http://game.nate.com/
쇼핑 //shopping.nate.com/
팀룸 https://nateonweb.nate.com/teamroom/
네이트뷰 https://view.nate.com/

더보기


뉴스
날씨
스포츠
연예
아이돌24
랭킹뉴스


판
톡톡
판포토
팬톡


네이트온
네이트캐쉬
문자메시지
주소록


컬러링
이슈UP추천

서비스 전체보기
더보기 닫기

 javascript:;
뉴스 //news.nate.com
날씨 //news.nate.com/Weather
스포츠 //sports.news.nate.com/
연예 //news.nate.com/ent/index
아이돌24 //news.nate.com/ent/idol24
랭킹뉴스 //news.nate.com/rank/interest
판 https://pann.nate.com/
톡톡 https://pann.nate.com/talk
판포토 https://pann.nate.com/talk/imageTheme/index
팬톡 https://pann.nate.com/fantalk
네이트온 //nateonweb.nate.com/
네이트캐쉬 //cash.nate.com/center/cashMain.sc
문자메시지 https://sms.nate.com/
주소록 https://mail.nate.com/pims/
컬러링 //mobile.nate.com/
이슈UP추천 //editor.nate.com/


### **🔸 메뉴명과 링크 DF 만들기**
- 빈 df를 생성 후, df에 data를 행으로 추가
- 각각의 행을 df로 생성 후, concat 함수로 결합

In [13]:
# 빈 df 생성
nate_menu = pd.DataFrame({'메뉴':[], '링크':[]})
nate_menu

Unnamed: 0,메뉴,링크


In [14]:
# 메뉴명과 링크 뽑기
# Action List
## 중복이 되는 메뉴는 제외 (더보기 내에 중복되어 있음)
## href 가 없는 메뉴는 제외
## 'javascript' 태그명 제외

index = 0
for li in menu_li:
    menu_text = li.text
    menu_link = li.a['href']
    if menu_text in nate_menu['메뉴'].values or menu_link == '' or menu_link == 'javascript:;':
        continue
    temp = pd.DataFrame({'메뉴':menu_text, '링크':menu_link}, index=[index])
    nate_menu = pd.concat([nate_menu, temp])
    index = index + 1
nate_menu

Unnamed: 0,메뉴,링크
0,메일,https://mail3.nate.com/#index
1,뉴스,//news.nate.com/
2,판,https://pann.nate.com/
3,AI챗beta,https://m.nate.com/aichat.html
4,TV,https://tv.nate.com/
5,툰앤북,https://toonnbook.nate.com/
6,운세,https://fortune.nate.com/home/main.nate
7,게임,http://game.nate.com/
8,쇼핑,//shopping.nate.com/
9,팀룸,https://nateonweb.nate.com/teamroom/


### **🔸 수집 데이터 저장**
- DataLake에 rawdata 그대로 저장
- 저장 공간은 crawl_data 공간에 저장

In [15]:
# 저장공간 존재 여부 확인 후 없으면 생성
import os

if not os.path.exists('crawl_data'):
    os.makedirs('crawl_data')

In [16]:
# 파일 저장
nate_menu.to_csv('./crawl_data/nate_menu.csv')

![Frame 11.png](attachment:f930f6c6-8eed-4994-b296-e856e00f1972.png)

## **네이버 뉴스 크롤링**
- 네이버 뉴스는 네이버 정책에 따라 모든 언론사들의 뉴스가 랜덤하게 배치됨
- 헤드라인 뉴스는 표면적으로는 제공되지 않는다
- 네이버 메인 페이지는 upgrade 정책에 따라 동적구성되는 경우가 있기 때문에, **셀레니움**을 사용해야 함
- sub 페이지는 정적구성 이므로 sub인 news로 바로 접근 

### **🔸 네이버 뉴스 메뉴 추출**

In [17]:
# 소스코드 받아오기 및 bs4 객체로 저장
url = 'https://news.naver.com'
html = urlopen(url)
html_text = html.read()
bs_obj = bs4.BeautifulSoup(html_text, 'html.parser')
# print(bs_obj.prettify())

In [18]:
# 네이버 사이트의 메뉴 Selector 확인
# bs_obj.select('body > section > header > div.Nlnb._float_lnb > div')

In [19]:
# ul 태그 추출 
ul = bs_obj.find('ul', {'class':'Nlnb_menu_list'})
# ul

In [20]:
# li 태그 추출
lis = ul.findAll('li')
print(len(lis))
# print(lis)
print(type(lis))

14
<class 'bs4.element.ResultSet'>


In [21]:
# a태그, text (링크, 메뉴명) 추출하기 위해 확인
for li in lis:
    a_tag = li.find('a')
    print(a_tag.text, " : ", a_tag['href'])

# 별다른 문제 없이 잘 들어가 있는 것이 확인됨 

언론사별  :  https://news.naver.com/?viewType=pc
정치  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100
경제  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=101
사회  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=102
생활/문화  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=103
IT/과학  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=105
세계  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=104
랭킹  :  https://news.naver.com/main/ranking/popularDay.naver
신문보기  :  https://news.naver.com/newspaper/home?viewType=pc
오피니언  :  https://news.naver.com/opinion/home
TV  :  https://news.naver.com/main/tv/index.naver?mid=tvh
팩트체크  :  https://news.naver.com/factcheck/main
알고리즘 안내  :  https://media.naver.com/algorithm
정정보도 모음  :  https://news.naver.com/main/ombudsman/errorArticleList.naver?mid=omb


In [22]:
# 메뉴 df 생성
# 위 네이터와 다르게, 데이터가 잘 뽑혔기 때문에 리스트에 각 컬럼 데이터를 모은 후 df 로 구성 

section = []
link = []
for li in lis:
    a_tag = li.find('a')
    section.append(a_tag.text)
    link.append(a_tag['href'])

col_dict = {'메뉴':section, '링크':link}
naver_news_menu = pd.DataFrame(col_dict)
naver_news_menu

Unnamed: 0,메뉴,링크
0,언론사별,https://news.naver.com/?viewType=pc
1,정치,https://news.naver.com/main/main.naver?mode=LS...
2,경제,https://news.naver.com/main/main.naver?mode=LS...
3,사회,https://news.naver.com/main/main.naver?mode=LS...
4,생활/문화,https://news.naver.com/main/main.naver?mode=LS...
5,IT/과학,https://news.naver.com/main/main.naver?mode=LS...
6,세계,https://news.naver.com/main/main.naver?mode=LS...
7,랭킹,https://news.naver.com/main/ranking/popularDay...
8,신문보기,https://news.naver.com/newspaper/home?viewType=pc
9,오피니언,https://news.naver.com/opinion/home


In [23]:
# DataLake 에 저장
naver_news_menu.to_csv('./crawl_data/naver_news_menu.csv')

### **🔸 언론사별 section의 첫번째 언론사 뉴스 크롤링**
- 기사 타이틀과 기사 요약 언론사명 기고날짜를 추출해서 출력하는 코드 작성
- 네이버 뉴스 소스코드 받아오는 코드부터 작성

In [24]:
# 소스코드 받아오기 및 bs4 객체로 저장
url = "https://news.naver.com/?viewType=pc"
html = urlopen(url)
html_text = html.read()
bs_obj = bs4.BeautifulSoup(html_text, 'html.parser')


# Selector 확인
# bs_obj.select('#ct > div > section.main_content > div.main_brick > div > div:nth-child(1) > div.main_brick_item._channel_news_preview_wrapper')


# 첫번째 언론사 Selector 추출
cjs = bs_obj.find('div', {'class':'cjs_channel_card'})


# 첫번째 기사 추출
## 한 기사가 개별 div로 묶여있지 않고,  title, contents 구분되어 있음 
cjs_1_title = cjs.find('div', {'class':'cjs_ctitle _item_title'})
cjs_1_contents = cjs.find('div', {'class':'cjs_journal_wrap _item_contents'})


# 첫번째 기사 항목 추출
## 기고날짜 (cjs_1_title)
datetime = cjs_1_title.find('span', {'class':'datetime'}).text
## 언론사명 (cjs_1_title)
h4 = cjs_1_title.find('h4', {'class':'channel'})
channel = []
for h in h4:
    span = h4.find('span', {'class':'datetime'})
    if h != span:
        channel.append(h)
## 기사 타이틀 (cjs_1_contents) 
title = cjs_1_contents.find('div', {'class':'cjs_t'}).text
## 기사 요약 (cjs_1_contents) 
summary = cjs_1_contents.find('p', {'class':'cjs_d'}).text
### dict 로 저장
col_dict = {'기사 타이틀':title,
            '기사 요약':summary,
           '언론사':channel,
           '기고 날짜':datetime}

# 결과
col_dict

{'기사 타이틀': "이정재·정우성 '120억원' 인수한 회사 어디?…공시 전 주가 74%↑",
 '기사 요약': '배우 이정재와 정우성이 온라인, 모바일 광고 플랫폼 회사 와이더플래닛을 인수한다. 8일 와이더플래닛은 운영자금과 채무상환자금 목적의 190억원의 제3자배정 유상증자를 결정했다고 공시했다. 신주 발행가액은 3185원,',
 '언론사': ['머니투데이'],
 '기고 날짜': '12월 08일 19:11'}