## 네이버 뉴스 링크 수집 함수 생성

In [1]:
# 라이브러리 호출
import requests
import json
from bs4 import BeautifulSoup as bts
import pandas as pd
import numpy as np
import time
from tqdm.notebook import tqdm
import os

In [2]:
# 네이버뉴스 링크를 수집하고 데이터프레임으로 반환하는 함수 생성
def NaverNewsLink(searchWord, startNo = 1):
    
    # HTTP 요청 실행
    # 쿼리 문자열: 정렬(sort)-관련도순, 기간(pd)-전체
    res = requests.get(
        url = 'https://s.search.naver.com/p/newssearch/search.naver',         
        params = {
            'nqx_theme': {'theme':{'main':{'name':'sports_event'},'sub':[{'name':'issue'}]}},
            'query': searchWord,
            'sort': 0,
            'spq': 3,
            'pd': 0,
            'start': startNo,
            'where': 'news_tab_api',
        }
    )
    
    # JSON 형태의 문자열을 딕셔너리로 변환
    dic = json.loads(s = res.text)
    
    # 딕셔너리의 각 원소를 bs4.BeautifulSoup 객체로 변환
    # [주의] HTTP 응답 바디 문자열에 공백이 있으면 items의 원소로 추가되므로 삭제해야 함
    items = [bts(markup = i.strip(), features = 'html.parser') for i in dic['contents']]
    
    # 뉴스 링크를 포함하는 HTML 요소를 원소로 갖는 links 생성
    links = [item.select('a.info:last-child') for item in items]
    
    # 언론사, 제목 및 네이버뉴스 링크를 원소로 갖는 데이터프레임 생성
    newsList = pd.DataFrame(data = {
        'press': [item.select(selector = 'a.press')[0].text for item in items], 
        'title': [item.select(selector = 'a.news_tit')[0].text for item in items], 
        'nlink': [link[0]['href'] if len(link) >= 1 else np.nan for link in links]
    })
    
    # 데이터프레임 반환
    return newsList

In [3]:
# 검색어 설정
searchWord = '정몽규'

In [4]:
# 함수 테스트
NaverNewsLink(searchWord = searchWord)

Unnamed: 0,press,title,nlink
0,뉴시스언론사 선정,"올림픽 축구 탈락했는데 파리간 정몽규…""냄비받침 선물하러 갔나""",https://n.news.naver.com/mnews/article/003/001...
1,서울신문언론사 선정,"올림픽 축구 탈락했는데…정몽규, 파리서 FIFA 회장 만났다",https://n.news.naver.com/mnews/article/081/000...
2,SBS Biz,'국민욕받이'라는 정몽규 회장…의문의 1패 [CEO 업앤다운],https://n.news.naver.com/mnews/article/374/000...
3,조선비즈언론사 선정,“축구협회장도 맡아주세요” 정의선 비교에 씁쓸한 정몽규,https://n.news.naver.com/mnews/article/366/000...
4,노컷뉴스언론사 선정,"정몽규는 헛발질, 정의선은 백발백중[파리올림픽]",https://n.news.naver.com/mnews/article/079/000...
5,뉴시스언론사 선정,"""누가 '책 내도 된다'고 했을 것""…이천수, 자서전 회장님 저격",https://n.news.naver.com/mnews/article/003/001...
6,TV조선언론사 선정,"시민단체, 정몽규 회장 고발…""공식사과 하고 물러나야""",https://n.news.naver.com/mnews/article/448/000...
7,위키트리,"""홍명보 연봉은…"" 이천수가 정몽규 대한축구협회장 향해 거침없이 내뱉은 말",
8,국민일보언론사 선정,정몽규 “성적 나쁘다고 회장 퇴진? 나는 국민욕받이”,https://n.news.naver.com/mnews/article/005/000...
9,비즈니스포스트,[Who Is ?] 최익훈 HDC현대산업개발 대표이사,


In [5]:
# 수집 건수 설정
count = 100

In [6]:
# 최종 결과를 저장할 빈 데이터프레임 생성
newsList = pd.DataFrame()

# 반복문으로 관련 네이버뉴스 링크 수집
for i in tqdm(range(1, count + 1, 10)):
    
    # 네이버뉴스 링크를 수집하고 df에 할당
    df = NaverNewsLink(searchWord = searchWord, startNo = i)
    
    # 최종 결과에 df에 추가(행이름 삭제)
    newsList = pd.concat(objs = [newsList, df], ignore_index = True)
    
    # 1초간 멈춤
    time.sleep(1)

  0%|          | 0/10 [00:00<?, ?it/s]

In [7]:
# newsList의 처음 5행 확인
newsList.head()

Unnamed: 0,press,title,nlink
0,뉴시스언론사 선정,"올림픽 축구 탈락했는데 파리간 정몽규…""냄비받침 선물하러 갔나""",https://n.news.naver.com/mnews/article/003/001...
1,서울신문언론사 선정,"올림픽 축구 탈락했는데…정몽규, 파리서 FIFA 회장 만났다",https://n.news.naver.com/mnews/article/081/000...
2,SBS Biz,'국민욕받이'라는 정몽규 회장…의문의 1패 [CEO 업앤다운],https://n.news.naver.com/mnews/article/374/000...
3,조선비즈언론사 선정,“축구협회장도 맡아주세요” 정의선 비교에 씁쓸한 정몽규,https://n.news.naver.com/mnews/article/366/000...
4,노컷뉴스언론사 선정,"정몽규는 헛발질, 정의선은 백발백중[파리올림픽]",https://n.news.naver.com/mnews/article/079/000...


In [8]:
# newsList의 정보 확인
newsList.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   press   100 non-null    object
 1   title   100 non-null    object
 2   nlink   77 non-null     object
dtypes: object(3)
memory usage: 2.5+ KB


In [9]:
# press에서 '언론사 선정' 삭제
newsList['press'] = newsList['press'].str.replace(pat = '언론사 선정', repl = '')

In [10]:
# press 처음 5행 확인
newsList['press'].head()

0        뉴시스
1       서울신문
2    SBS Biz
3       조선비즈
4       노컷뉴스
Name: press, dtype: object

In [11]:
# nlink가 결측인 행 삭제
newsList = newsList.loc[newsList['nlink'].notna(), :]

In [12]:
# newsList의 행 개수 확인
newsList.shape[0]

77

In [13]:
# nlink의 중복 여부(True/False)를 원소로 갖는 dups 생성
# [참고] keep 매개변수에 'first'를 지정하면 첫 번째 중복 건은 False로 반환
dups = newsList['nlink'].duplicated(keep = 'first')

In [14]:
# nlink가 중복(dups가 True)인 건수 확인
dups.sum()

0

In [15]:
# nlink가 중복인 행이 있으면 해당 행을 삭제
newsList = newsList.loc[~dups, :]

In [16]:
# newsList의 행 개수 확인
newsList.shape[0]

77

In [17]:
# nlink에서 쿼리 문자열 삭제
newsList['nlink'] = newsList['nlink'].str.replace(pat = r'(\?.+)', repl = '', regex = True)

In [18]:
# newsList의 처음 5행 확인
newsList.head()

Unnamed: 0,press,title,nlink
0,뉴시스,"올림픽 축구 탈락했는데 파리간 정몽규…""냄비받침 선물하러 갔나""",https://n.news.naver.com/mnews/article/003/001...
1,서울신문,"올림픽 축구 탈락했는데…정몽규, 파리서 FIFA 회장 만났다",https://n.news.naver.com/mnews/article/081/000...
2,SBS Biz,'국민욕받이'라는 정몽규 회장…의문의 1패 [CEO 업앤다운],https://n.news.naver.com/mnews/article/374/000...
3,조선비즈,“축구협회장도 맡아주세요” 정의선 비교에 씁쓸한 정몽규,https://n.news.naver.com/mnews/article/366/000...
4,노컷뉴스,"정몽규는 헛발질, 정의선은 백발백중[파리올림픽]",https://n.news.naver.com/mnews/article/079/000...


In [19]:
# newsList의 행이름 초기화
newsList = newsList.reset_index(drop = True)

In [20]:
# newsList의 처음 5행 확인
newsList.head()

Unnamed: 0,press,title,nlink
0,뉴시스,"올림픽 축구 탈락했는데 파리간 정몽규…""냄비받침 선물하러 갔나""",https://n.news.naver.com/mnews/article/003/001...
1,서울신문,"올림픽 축구 탈락했는데…정몽규, 파리서 FIFA 회장 만났다",https://n.news.naver.com/mnews/article/081/000...
2,SBS Biz,'국민욕받이'라는 정몽규 회장…의문의 1패 [CEO 업앤다운],https://n.news.naver.com/mnews/article/374/000...
3,조선비즈,“축구협회장도 맡아주세요” 정의선 비교에 씁쓸한 정몽규,https://n.news.naver.com/mnews/article/366/000...
4,노컷뉴스,"정몽규는 헛발질, 정의선은 백발백중[파리올림픽]",https://n.news.naver.com/mnews/article/079/000...


In [21]:
# 현재 작업 경로 확인
os.getcwd()

'/Users/seonghona/Documents/Lectures/Customer/DBR/code'

In [22]:
# data 폴더로 작업 경로 변경
os.chdir(path = '../data')

In [23]:
# newsList를 pkl 파일로 저장
pd.to_pickle(obj = newsList, filepath_or_buffer = 'Naver_News_List.pkl')

In [24]:
# 현재 작업 경로에 있는 폴더명과 파일명 확인
os.listdir()

['Naver_News_List.pkl']

## End of Document