### 네이버 뉴스 섹션별 TOPIC 크롤링
**정치, 경제, 사회, 생활/문화, IT/과학, 세계**

In [1]:
from urllib.request import urlopen
import requests
import pandas as pd
from bs4 import BeautifulSoup

In [4]:
# 02_0에서 저장한 섹션별 link 파일 불러오기
#
df_menu = pd.read_csv('./crawl_data/naver_news_section.csv', index_col = 0)
df_menu.head()

Unnamed: 0,section,link
0,언론사별,https://news.naver.com/?viewType=pc
1,정치,https://news.naver.com/main/main.naver?mode=LS...
2,경제,https://news.naver.com/main/main.naver?mode=LS...
3,사회,https://news.naver.com/main/main.naver?mode=LS...
4,생활/문화,https://news.naver.com/main/main.naver?mode=LS...


**경제 섹션을 예시 코드로 작성**

In [5]:
df_menu['link'][2]

'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=101'

In [7]:
# 경제 섹션 소스 요청
url = df_menu['link'][2]
res = requests.get(url) # 요청 후 응답객체 반환
# ('Connection aborted.', ConnectionResetError(10054, '현재 연결은 원격 호스트에 의해 강제로 끊겼습니다', None, 10054, None))
# 원격 봇이라고 생각하고 연결 종료
# res

# urlopen() 함수는 진행됨
# res = urlopen(url)
# res.read()

ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '현재 연결은 원격 호스트에 의해 강제로 끊겼습니다', None, 10054, None))

- 위 코드처럼 자동화 봇으로 보고 연결 끊는 경우 해결방법
    - 서버에 요청시 header를 구성해 추가해 줌. 즉, bot이 아님을 증명
    - header 확인
        - 브라우저에서 해당 사이트 접속 시 생성하는 헤더를
        - 개발자 도구로 확인(브라우저 정보 : User-Agent)

In [8]:
# 소스 가져오기
url = df_menu['link'][2]
headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.141 Whale/3.15.136.29 Safari/537.36"}
res = requests.get(url,headers=headers)

In [9]:
html = res.text

In [11]:
bs_obj = BeautifulSoup(html,'html.parser')

In [12]:
bs_obj


<!DOCTYPE HTML>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh">
<meta content="width=1106" name="viewport">
<meta content="경제 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=101" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png" property="og:image">
<meta content="증권, 금융, 부동산, 기업, 국제 등 경제 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author">
<meta content="summary" name="twitter:card"/>
<meta content="경제 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png" name="tw

- 네이버 뉴스 섹션을 확인하면 각 섹션별 topic이 있고 topic중 헤드라인이 노출
- 섹션에서 수집하는 것 보다 토픽페이지로 이동해서 토픽기사 전체를 크롤링 하면 더 많은 기사를 추출할 수 있음
- 섹션 페이지에서는 토픽의 타이틀과 title과 link를 크롤링
- 단, 정치 섹션은 구성이 약간 다르므로 수정해서 사용

In [13]:
# 토픽 추출
# main_content > div > div._persist > div:nth-child(1) > div:nth-child(1) > div.cluster_head > div > div > h2
# h2태그의 class:cluster_head_topic
topic_list = bs_obj.findAll("h2",{"class":"cluster_head_topic"})
len(topic_list) # list로 반환

13

In [14]:
topic_list

[<h2 class="cluster_head_topic">
 <a class="nclicks(cls_eco.clstitle)" href="/main/clusterArticles.naver?id=c_202207251920_00000011&amp;mode=LSD&amp;mid=shm&amp;sid1=101&amp;oid=001&amp;aid=0013334327">
 <span class="cluster_head_sub_topic">인텔 파운드리 </span><span class="cluster_head_sub_topic">미디어텍 반도체 위탁생산 </span>
 </a>
 </h2>,
 <h2 class="cluster_head_topic">
 <a class="nclicks(cls_eco.clstitle)" href="/main/clusterArticles.naver?id=c_202207261110_00000010&amp;mode=LSD&amp;mid=shm&amp;sid1=101&amp;oid=032&amp;aid=0003162402">
 <span class="cluster_head_sub_topic">페이퍼컴퍼니 단속 뜨자 </span><span class="cluster_head_sub_topic">공공공사 입찰업체 절반으로 뚝 </span>
 </a>
 </h2>,
 <h2 class="cluster_head_topic">
 <a class="nclicks(cls_eco.clstitle)" href="/main/clusterArticles.naver?id=c_202207261450_00000005&amp;mode=LSD&amp;mid=shm&amp;sid1=101&amp;oid=015&amp;aid=0004729178">
 <span class="cluster_head_sub_topic">경영진 책임 통감 </span><span class="cluster_head_sub_topic">박두선 대우조선 사장 사퇴 </span>
 </a>
 </h2>,
 <

In [18]:
topic_list[0].find('a')
topic_list[0].find('a')['href']
topic_list[0].find('a').text.replace('\n','')

'인텔 파운드리 미디어텍 반도체 위탁생산 '

In [19]:
# 전체 토픽 title과 link 출력
for topic in topic_list :
    a_t = topic.find('a')
    print(a_t.text.replace('\n',''))
    print(a_t['href'])
# AttributeError: 'NoneType' object has no attribute 'text'
# 마지막 부분에서 a태그가 없는 요소(빈 item)가 있어서 에러 발생
# 예외처리 진행

인텔 파운드리 미디어텍 반도체 위탁생산 
/main/clusterArticles.naver?id=c_202207251920_00000011&mode=LSD&mid=shm&sid1=101&oid=001&aid=0013334327
페이퍼컴퍼니 단속 뜨자 공공공사 입찰업체 절반으로 뚝 
/main/clusterArticles.naver?id=c_202207261110_00000010&mode=LSD&mid=shm&sid1=101&oid=032&aid=0003162402
경영진 책임 통감 박두선 대우조선 사장 사퇴 
/main/clusterArticles.naver?id=c_202207261450_00000005&mode=LSD&mid=shm&sid1=101&oid=015&aid=0004729178
금싸라기 땅 용산정비창 부지 "용적률 1500% 이상" 
/main/clusterArticles.naver?id=c_202207261020_00000004&mode=LSD&mid=shm&sid1=101&oid=018&aid=0005277241
中 화유코발트와 "배터리 리사이클" 합작법인 만든다 LG엔솔 
/main/clusterArticles.naver?id=c_202207260810_00000001&mode=LSD&mid=shm&sid1=101&oid=421&aid=0006239839
코로나에 마약 밀수 대형화 상반기 전년比 11.2%↑ 
/main/clusterArticles.naver?id=c_202207261000_00000003&mode=LSD&mid=shm&sid1=101&oid=025&aid=0003212328
금통위원에 신성환 홍익대 교수 은행연합회 
/main/clusterArticles.naver?id=c_202207261520_00000002&mode=LSD&mid=shm&sid1=101&oid=001&aid=0013335409
상반기 석유제품 280억달러 수출 달러효자 정유업계 빅4 
/main/clusterArticles.naver?id=c_2022

AttributeError: 'NoneType' object has no attribute 'text'

In [20]:
# 전체 토픽 title과 link 출력
for topic in topic_list :
    try :
        a_t = topic.find('a')
        print(a_t.text.replace('\n',''))
        print(a_t['href'])
    except :
        print("에러발생")
# AttributeError: 'NoneType' object has no attribute 'text'
# 마지막 부분에서 a태그가 없는 요소(빈 item)가 있어서 에러 발생
# 예외처리 진행

인텔 파운드리 미디어텍 반도체 위탁생산 
/main/clusterArticles.naver?id=c_202207251920_00000011&mode=LSD&mid=shm&sid1=101&oid=001&aid=0013334327
페이퍼컴퍼니 단속 뜨자 공공공사 입찰업체 절반으로 뚝 
/main/clusterArticles.naver?id=c_202207261110_00000010&mode=LSD&mid=shm&sid1=101&oid=032&aid=0003162402
경영진 책임 통감 박두선 대우조선 사장 사퇴 
/main/clusterArticles.naver?id=c_202207261450_00000005&mode=LSD&mid=shm&sid1=101&oid=015&aid=0004729178
금싸라기 땅 용산정비창 부지 "용적률 1500% 이상" 
/main/clusterArticles.naver?id=c_202207261020_00000004&mode=LSD&mid=shm&sid1=101&oid=018&aid=0005277241
中 화유코발트와 "배터리 리사이클" 합작법인 만든다 LG엔솔 
/main/clusterArticles.naver?id=c_202207260810_00000001&mode=LSD&mid=shm&sid1=101&oid=421&aid=0006239839
코로나에 마약 밀수 대형화 상반기 전년比 11.2%↑ 
/main/clusterArticles.naver?id=c_202207261000_00000003&mode=LSD&mid=shm&sid1=101&oid=025&aid=0003212328
금통위원에 신성환 홍익대 교수 은행연합회 
/main/clusterArticles.naver?id=c_202207261520_00000002&mode=LSD&mid=shm&sid1=101&oid=001&aid=0013335409
상반기 석유제품 280억달러 수출 달러효자 정유업계 빅4 
/main/clusterArticles.naver?id=c_2022

- base_url : https://news.naver.com
- sub_url : /main/clusterArticles.naver?id=c_202207251130_00000383&mode=LSD&mid=shm&sid1=101&oid=648&aid=0000009369
- 수집된 url은 기본 url이 빠져 있으므로 기본 Url을 첨부하여 수집 해야함

In [21]:
# link에 기본 url 추가
base_url = 'https://news.naver.com'
# 전체 토픽 title과 link 출력
for topic in topic_list :
    try :
        a_t = topic.find('a')
        print(a_t.text.replace('\n',''))
        print(base_url + a_t['href'])
    except :
        print("에러발생")
# AttributeError: 'NoneType' object has no attribute 'text'
# 마지막 부분에서 a태그가 없는 요소(빈 item)가 있어서 에러 발생
# 예외처리 진행

인텔 파운드리 미디어텍 반도체 위탁생산 
https://news.naver.com/main/clusterArticles.naver?id=c_202207251920_00000011&mode=LSD&mid=shm&sid1=101&oid=001&aid=0013334327
페이퍼컴퍼니 단속 뜨자 공공공사 입찰업체 절반으로 뚝 
https://news.naver.com/main/clusterArticles.naver?id=c_202207261110_00000010&mode=LSD&mid=shm&sid1=101&oid=032&aid=0003162402
경영진 책임 통감 박두선 대우조선 사장 사퇴 
https://news.naver.com/main/clusterArticles.naver?id=c_202207261450_00000005&mode=LSD&mid=shm&sid1=101&oid=015&aid=0004729178
금싸라기 땅 용산정비창 부지 "용적률 1500% 이상" 
https://news.naver.com/main/clusterArticles.naver?id=c_202207261020_00000004&mode=LSD&mid=shm&sid1=101&oid=018&aid=0005277241
中 화유코발트와 "배터리 리사이클" 합작법인 만든다 LG엔솔 
https://news.naver.com/main/clusterArticles.naver?id=c_202207260810_00000001&mode=LSD&mid=shm&sid1=101&oid=421&aid=0006239839
코로나에 마약 밀수 대형화 상반기 전년比 11.2%↑ 
https://news.naver.com/main/clusterArticles.naver?id=c_202207261000_00000003&mode=LSD&mid=shm&sid1=101&oid=025&aid=0003212328
금통위원에 신성환 홍익대 교수 은행연합회 
https://news.naver.com/main/clusterArticle

### 수집한 data를 Dataframe으로 생성

In [27]:
# 수집 내용 list에 저장
topic_title=[]
topic_link=[]

In [28]:
# link에 기본 url 추가
base_url = 'https://news.naver.com'
# 전체 토픽 title과 link 출력
for topic in topic_list :
    try :
        a_t = topic.find('a')
        topic_title.append(a_t.text.replace('\n',''))
        topic_link.append(base_url + a_t['href'])
    except :
        print("에러발생")

에러발생


In [29]:
topic_title
topic_link

['https://news.naver.com/main/clusterArticles.naver?id=c_202207251920_00000011&mode=LSD&mid=shm&sid1=101&oid=001&aid=0013334327',
 'https://news.naver.com/main/clusterArticles.naver?id=c_202207261110_00000010&mode=LSD&mid=shm&sid1=101&oid=032&aid=0003162402',
 'https://news.naver.com/main/clusterArticles.naver?id=c_202207261450_00000005&mode=LSD&mid=shm&sid1=101&oid=015&aid=0004729178',
 'https://news.naver.com/main/clusterArticles.naver?id=c_202207261020_00000004&mode=LSD&mid=shm&sid1=101&oid=018&aid=0005277241',
 'https://news.naver.com/main/clusterArticles.naver?id=c_202207260810_00000001&mode=LSD&mid=shm&sid1=101&oid=421&aid=0006239839',
 'https://news.naver.com/main/clusterArticles.naver?id=c_202207261000_00000003&mode=LSD&mid=shm&sid1=101&oid=025&aid=0003212328',
 'https://news.naver.com/main/clusterArticles.naver?id=c_202207261520_00000002&mode=LSD&mid=shm&sid1=101&oid=001&aid=0013335409',
 'https://news.naver.com/main/clusterArticles.naver?id=c_202207251130_00000005&mode=LSD&mi

In [30]:
topic_df = pd.DataFrame({'contents':topic_title, "URL":topic_link})
topic_df.head()

Unnamed: 0,contents,URL
0,인텔 파운드리 미디어텍 반도체 위탁생산,https://news.naver.com/main/clusterArticles.na...
1,페이퍼컴퍼니 단속 뜨자 공공공사 입찰업체 절반으로 뚝,https://news.naver.com/main/clusterArticles.na...
2,경영진 책임 통감 박두선 대우조선 사장 사퇴,https://news.naver.com/main/clusterArticles.na...
3,"금싸라기 땅 용산정비창 부지 ""용적률 1500% 이상""",https://news.naver.com/main/clusterArticles.na...
4,"中 화유코발트와 ""배터리 리사이클"" 합작법인 만든다 LG엔솔",https://news.naver.com/main/clusterArticles.na...


### 위 내용을 결합해서 함수로 구성
- 다른 섹션에도 적용하기 위해
- 함수명 : get_topic(url)
- 반환 : 섹션별 수집 데이터를 dict로 구성 후 반환

In [38]:
# 함수 구성
def get_topic(url) :
    
    # 수집 내용 list에 저장
    topic_title = []
    topic_link = []
    
    # 소스 요청해서 가져오기
    headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.141 Whale/3.15.136.29 Safari/537.36"}
    res = requests.get(url,headers=headers)
    
    # 파서기 생성(bs4 객체 생성)
    html = res.text
    bs_obj = BeautifulSoup(html,'html.parser')
    
    # 토픽 추출
    # h2태그의 class:cluster_head_topic
    topic_list = bs_obj.findAll("h2",{"class":"cluster_head_topic"})
    
    # 최종 수집 항목을 list에 저장
    # link에 기본 url 추가
    base_url = 'https://news.naver.com'
    # 전체 토픽 title과 link 출력
    for topic in topic_list :
        try :
            a_t = topic.find('a')
            topic_title.append(a_t.text.replace('\n',''))
            topic_link.append(base_url + a_t['href'])
        except :
            print("에러발생")
    return({"topic":topic_title,"url":topic_link})

In [33]:
# 함수 테스트
get_topic(url)

에러발생


{'topic': ['금통위원에 신성환 홍익대 교수 은행연합회 ',
  '농협금융 상반기 순익 1조3505억 최대 실적 낸 NH농협금융 ',
  'LG엔솔 中 화유코발트와 "배터리 리사이클" 합작법인 만든다 ',
  '금융위 금융안정계정 도입 부실 사전에 차단한다 ',
  '"700억 횡령" 우리은행 직원 금감원 "내부통제 미흡" ',
  '대우조선 경영진 파업 사태 대국민 사과 ',
  '금싸라기 땅 용산정비창 부지 "용적률 1500% 이상" ',
  '공매도 과열종목 지정 확대 과태료 8억 원 납부 ',
  '상반기 석유제품 280억달러 수출 달러효자 정유업계 빅4 ',
  '최태원 SK 회장 바이든 대통령 26일 화상면담 ',
  '올해 실적 전망 낮췄다 LG전자에 1위 뺏긴 월풀 ',
  '韓 투자환경 매력 없었다 해외직접투자 증가율 G7중 최고 '],
 'url': ['https://news.naver.com/main/clusterArticles.naver?id=c_202207261520_00000002&mode=LSD&mid=shm&sid1=101&oid=003&aid=0011327206',
  'https://news.naver.com/main/clusterArticles.naver?id=c_202207261340_00000001&mode=LSD&mid=shm&sid1=101&oid=366&aid=0000830068',
  'https://news.naver.com/main/clusterArticles.naver?id=c_202207260810_00000001&mode=LSD&mid=shm&sid1=101&oid=032&aid=0003162452',
  'https://news.naver.com/main/clusterArticles.naver?id=c_202207261100_00000672&mode=LSD&mid=shm&sid1=101&oid=277&aid=0005123438',
  'https://news.naver.com/main/cluster

In [35]:
# 02_0에서 저장한 섹션별 url 파일 가져오기
df_menu = pd.read_csv('./crawl_data/naver_news_section.csv', index_col=0)
df_menu.head()

Unnamed: 0,section,link
0,언론사별,https://news.naver.com/?viewType=pc
1,정치,https://news.naver.com/main/main.naver?mode=LS...
2,경제,https://news.naver.com/main/main.naver?mode=LS...
3,사회,https://news.naver.com/main/main.naver?mode=LS...
4,생활/문화,https://news.naver.com/main/main.naver?mode=LS...


In [36]:
# 함수 test
pd.DataFrame(get_topic(df_menu['link'][3]))

에러발생


Unnamed: 0,topic,url
0,"""음주운전 징계"" 교원 3년간 547명 무면허 30대 ""징역 2년""",https://news.naver.com/main/clusterArticles.na...
1,"대기발령 후 첫 출근 ""경찰국 설치가 쿠데타적 행위""",https://news.naver.com/main/clusterArticles.na...
2,긴급복지지원 받는 한부모 김현숙 여가부 장관,https://news.naver.com/main/clusterArticles.na...
3,"방대본 조사 착수 ""싸이 흠뻑쇼 갔다오고 확진""",https://news.naver.com/main/clusterArticles.na...
4,류삼영 총경 경찰국 신설 졸속통과…권한쟁의심판청구 촉구,https://news.naver.com/main/clusterArticles.na...
5,14만 전체 경찰회의로 확대 경찰국 반발 격화,https://news.naver.com/main/clusterArticles.na...
6,"""가짜 참기름"" 제조·판매업체 9곳 적발 부산시 특사경",https://news.naver.com/main/clusterArticles.na...
7,중앙지검 2조원대 수상한 해외송금 수사 착수 신한·우리 거액 외환 이상거래,https://news.naver.com/main/clusterArticles.na...
8,"수돗물 유충 18일째 원인도 몰라 ""홍남표 시장 안 보여""",https://news.naver.com/main/clusterArticles.na...
9,대구 30대 여교사 남고생 제자와 부적절 관계,https://news.naver.com/main/clusterArticles.na...


In [39]:
# 함수 구성 + section
def get_topic(url, section) :
    
    # 수집 내용 list에 저장
    topic_title = []
    topic_link = []
    
    # 소스 요청해서 가져오기
    headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.141 Whale/3.15.136.29 Safari/537.36"}
    res = requests.get(url,headers=headers)
    
    # 파서기 생성(bs4 객체 생성)
    html = res.text
    bs_obj = BeautifulSoup(html,'html.parser')
    
    # 토픽 추출
    # h2태그의 class:cluster_head_topic
    topic_list = bs_obj.findAll("h2",{"class":"cluster_head_topic"})
    
    # 최종 수집 항목을 list에 저장
    # link에 기본 url 추가
    base_url = 'https://news.naver.com'
    # 전체 토픽 title과 link 출력
    for topic in topic_list :
        try :
            a_t = topic.find('a')
            topic_title.append(a_t.text.replace('\n',''))
            topic_link.append(base_url + a_t['href'])
        except :
            print("에러발생")
    return({"topic":topic_title,"url":topic_link, "section":section})

In [43]:
# 02_0에서 저장한 섹션별 url 파일 가져오기
df_menu = pd.read_csv('./crawl_data/naver_news_section.csv', index_col=0)
df_menu.head(8)

Unnamed: 0,section,link
0,언론사별,https://news.naver.com/?viewType=pc
1,정치,https://news.naver.com/main/main.naver?mode=LS...
2,경제,https://news.naver.com/main/main.naver?mode=LS...
3,사회,https://news.naver.com/main/main.naver?mode=LS...
4,생활/문화,https://news.naver.com/main/main.naver?mode=LS...
5,IT/과학,https://news.naver.com/main/main.naver?mode=LS...
6,세계,https://news.naver.com/main/main.naver?mode=LS...
7,랭킹,https://news.naver.com/main/ranking/popularDay...


In [40]:
# 함수 test
pd.DataFrame(get_topic(df_menu['link'][3],df_menu['section'][3]))

에러발생


Unnamed: 0,topic,url,section
0,"""가짜 참기름"" 제조·판매업체 9곳 적발 부산시 특사경",https://news.naver.com/main/clusterArticles.na...,사회
1,"대형마트 규제 완화 움직임 ""의무휴업 폐지"" 논의 점화",https://news.naver.com/main/clusterArticles.na...,사회
2,BA.5 국내감염 검출률 49.1% 해외유입 합산하면 56.3%,https://news.naver.com/main/clusterArticles.na...,사회
3,대구 30대 여교사 남고생 제자와 부적절 관계,https://news.naver.com/main/clusterArticles.na...,사회
4,중앙지검 2조원대 수상한 해외송금 수사 착수 신한·우리 거액 외환 이상거래,https://news.naver.com/main/clusterArticles.na...,사회
5,대구에 자율주행 분야 투자 프랑스 자동차부품기업 발레오,https://news.naver.com/main/clusterArticles.na...,사회
6,"수돗물 유충 18일째 원인도 몰라 ""홍남표 시장 안 보여""",https://news.naver.com/main/clusterArticles.na...,사회
7,방위사업청 이전 범시민 추진위 본격 가동 대전시 범시민추진위 발족,https://news.naver.com/main/clusterArticles.na...,사회
8,킥보드 출근 40대 주정차 차량 피하려다 굴착기에,https://news.naver.com/main/clusterArticles.na...,사회
9,"""우영우 팽나무"" 현실서도 천연기념물 되나 관광객 몰려 몸살",https://news.naver.com/main/clusterArticles.na...,사회


### 추출하려하는 모든 섹션에 적용

In [50]:
# 모든 섹션의 topic을 하나의 dataframe에 저장하기 위해 빈 dataframe을 생성
dict_sub={}
dict_sub['topic']=[]
dict_sub['url']=[]
dict_sub['section']=[]

topic_df = pd.DataFrame(dict_sub)
topic_df

Unnamed: 0,topic,url,section


In [51]:
# 섹션별 헤드라인 추출
for i in range(1,7) :
    temp = pd.DataFrame(get_topic(df_menu['link'][i],df_menu['section'][i]))
    topic_df = pd.concat([topic_df,temp],axis=0,ignore_index=True)

에러발생
에러발생
에러발생
에러발생
에러발생
에러발생
에러발생
에러발생


In [52]:
topic_df.head()
topic_df.tail()

Unnamed: 0,topic,url,section
50,"""아베 경호"" 실패 日 경찰 이번엔 부인 탑승 경호차 추돌",https://news.naver.com/main/clusterArticles.na...,세계
51,상반기 LNG 수출 1위 美 우크라전쟁 반사이익,https://news.naver.com/main/clusterArticles.na...,세계
52,"러 ""유럽행 가스관"" 추가 차단 노르트스트림1 또 유지보수",https://news.naver.com/main/clusterArticles.na...,세계
53,폭염 속 알프스가 녹는다 역대급 빙점고도 초긴장,https://news.naver.com/main/clusterArticles.na...,세계
54,상대 선수 은퇴 선언 경기 중 쓰러져 결국 사망,https://news.naver.com/main/clusterArticles.na...,세계


### 위 결과에는 정치 섹션이 들어오지 않음 - 태그 구성이 다르기 때문에
- 정치 섹션도 포함되게 함수 변경
- https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100 를 확인하면 topic이 따로 없음

In [53]:
# 함수 구성 + section
def get_topic(url, section) :
    
    # 수집 내용 list에 저장
    topic_title = []
    topic_link = []
    
    # 소스 요청해서 가져오기
    headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.141 Whale/3.15.136.29 Safari/537.36"}
    res = requests.get(url,headers=headers)
    
    # 파서기 생성(bs4 객체 생성)
    html = res.text
    bs_obj = BeautifulSoup(html,'html.parser')
    
    # section이 정치인 경우는 다른 태그를 추출
    if section == '정치' :
        topic_list = bs_obj.findAll('div',{'class':'cluster_foot_inner'})
    else :
        # 토픽 추출
        # h2태그의 class:cluster_head_topic
        topic_list = bs_obj.findAll("h2",{"class":"cluster_head_topic"})
     
    # 최종 수집 항목을 list에 저장
    # link에 기본 url 추가
    base_url = 'https://news.naver.com'
    # 전체 토픽 title과 link 출력
    for topic in topic_list :
        try :
            a_t = topic.find('a')
            topic_title.append(a_t.text.replace('\n',''))
            topic_link.append(base_url + a_t['href'])
        except :
            print("에러발생")
    return({"topic":topic_title,"url":topic_link, "section":section})

In [55]:
# 모든 섹션의 topic을 하나의 dataframe에 저장하기 위해 빈 dataframe을 생성
dict_sub={}
dict_sub['topic']=[]
dict_sub['url']=[]
dict_sub['section']=[]

topic_df = pd.DataFrame(dict_sub)
topic_df

Unnamed: 0,topic,url,section


In [56]:
# 섹션별 헤드라인 추출
for i in range(1,7) :
    temp = pd.DataFrame(get_topic(df_menu['link'][i],df_menu['section'][i]))
    topic_df = pd.concat([topic_df,temp],axis=0,ignore_index=True)

에러발생
에러발생
에러발생
에러발생
에러발생
에러발생
에러발생


In [59]:
topic_df.head()
topic_df.tail()

Unnamed: 0,topic,url,section
66,베이징서 인니 대통령과 회담 칩거 끝낸 시진핑,https://news.naver.com/main/clusterArticles.na...,세계
67,러 가스 공급 감축에 EU 에너지장관 대책 논의,https://news.naver.com/main/clusterArticles.na...,세계
68,미얀마 정치범 사형 집행에 국제사회 규탄 이어져,https://news.naver.com/main/clusterArticles.na...,세계
69,"러 ""유럽행 가스관"" 추가 차단 노르트스트림1 또 유지보수",https://news.naver.com/main/clusterArticles.na...,세계
70,홍콩대 졸업하려면 국가보안법 이수해야 시진핑 연설도 익혀야,https://news.naver.com/main/clusterArticles.na...,세계


In [60]:
# 파일로 저장
topic_df.to_csv('./crawl_data/naver_news_topic.csv')