## 네이버 뉴스 댓글 수집 함수 생성

- 네이버뉴스 링크가 `https://n.news`로 시작하는 댓글만 수집 가능

In [1]:
# 라이브러리 호출
import os
import pandas as pd
import numpy as np
import requests
from bs4 import BeautifulSoup as bts
import json
import re
import time
from tqdm.notebook import tqdm

In [2]:
# 현재 작업 경로 확인
os.getcwd()

'/Users/seonghona/Documents/Lectures/Customer/DBR/code'

In [3]:
# data 폴더로 작업 경로 변경
os.chdir(path = '../data')

In [4]:
# 현재 작업 경로에 있는 폴더명과 파일명 확인
os.listdir()

['Naver_News_List.pkl']

In [5]:
# pkl 파일을 읽고 newsList 생성
newsList = pd.read_pickle(filepath_or_buffer = 'Naver_News_List.pkl')

In [6]:
# newsList의 처음 5행 확인
newsList.head()

Unnamed: 0,press,title,nlink,body
0,뉴시스,"올림픽 축구 탈락했는데 파리간 정몽규…""냄비받침 선물하러 갔나""",https://n.news.naver.com/mnews/article/003/001...,"인판티노 FIFA 회장, SNS에 사진 공개정몽규 회장, FIFA 회장에 친필서명 ..."
1,서울신문,"올림픽 축구 탈락했는데…정몽규, 파리서 FIFA 회장 만났다",https://n.news.naver.com/mnews/article/081/000...,"인판티노 FIFA 회장, SNS에 사진 공개“친구 만나 반가워”…정 회장, 에세이 ..."
2,SBS Biz,'국민욕받이'라는 정몽규 회장…의문의 1패 [CEO 업앤다운],https://n.news.naver.com/mnews/article/374/000...,"정몽규 HDC그룹 회장, 요즘 난감한 상황이 이어지고 있습니다. 당장 5촌 조카 정..."
3,조선비즈,“축구협회장도 맡아주세요” 정의선 비교에 씁쓸한 정몽규,https://n.news.naver.com/mnews/article/366/000...,"40년 만에 올림픽 출전 불발, 깜깜이 감독 선발 등으로 논란을 겪고 있는 정몽규 ..."
4,노컷뉴스,"정몽규는 헛발질, 정의선은 백발백중[파리올림픽]",https://n.news.naver.com/mnews/article/079/000...,정몽규 대한축구협회장이 2월 16일 오후 서울 종로구 축구회관에서 브리핑을 갖고 클...


In [7]:
# newsList의 정보 확인
newsList.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   press   77 non-null     object
 1   title   77 non-null     object
 2   nlink   77 non-null     object
 3   body    77 non-null     object
dtypes: object(4)
memory usage: 2.5+ KB


In [8]:
# 네이버뉴스 링크로 뉴스 댓글 개수 및 목록을 수집하는 함수 생성
def NaverNewsReply(nlink, pageSize = 100):
    
    # nlink에 따라 HTTP 요청 실행 및 응답 바디 문자열 처리 코드 분기
    if 'https://n.news' in nlink:
        
        # 요청 URL 설정
        url = 'https://apis.naver.com/commentBox/cbox/web_naver_list_jsonp.json'
        
        # nlink에서 cid(company id)와 aid(article id) 추출: 쿼리 문자열에 지정
        cid = re.findall(pattern = r'(?<=article/)(\d+)', string = nlink)[0]
        aid = re.findall(pattern = r'(?<=\d/)(\d+$)', string = nlink)[0]
        
        # 쿼리 문자열 설정: 뉴스 댓글 개수 및 댓글 목록(1페이지)
        query = {
            'ticket': 'news',
            'pool': 'cbox5', 
            'lang': 'ko', 
            'country': 'KR', 
            'objectId': f'news{cid},{aid}', 
            'pageSize': pageSize, 
            'indexSize': 10, 
            'listType': 'OBJECT', 
            'pageType': 'more', 
            'page': 1, 
            'sort': 'favorite', 
            'includeAllStatus': 'true'
        }
        
        # 요청 헤더 설정
        # [참고] referer에 nlink를 지정함
        headers = {
            'content-type': 'application/javascript;charset=UTF-8', 
            'referer': nlink, 
            'user-agent': 'Mozilla/5.0'
        }
        
        # HTTP 요청 실행
        res = requests.get(url = url, params = query, headers = headers)
        
        # HTTP 응답 바디 문자열에서 중괄호 앞에 불필요한 문자열 삭제
        # [참고] 시리즈는 str.replace()으로 쉽게 처리할 수 있음
        text = re.sub(pattern = r'jQuery.+?\(|_callback\(|\);$', repl = '', string = res.text)
        
        # JSON 형태의 문자열을 딕셔너리로 변환
        dic = json.loads(s = text)
        
        # 뉴스 댓글 개수 확인
        replyCount = dic['result']['count']['comment']
        
        # 뉴스 댓글 개수가 0이면 None으로 결과 반환
        if replyCount == 0:
            return {'replyCount': 0, 'totalPages': 0, 'replyList': None}
        
        else:
            # 뉴스 총 페이지수 출력
            totalPages = dic['result']['pageModel']['totalPages']
            
            # 뉴스 댓글 목록을 데이터프레임으로 변환: 1페이지
            replyPage1 = pd.DataFrame(data = dic['result']['commentList'])
            
            # replyPage1에서 선택할 일부 열이름을 리스트로 생성
            cols = ['objectId', 'commentNo', 'parentCommentNo', 'replyAllCount', 'contents', 'userName', 
                    'modTime', 'regTime', 'sympathyCount', 'antipathyCount', 'hiddenByCleanbot', 'deleted']
            
            # 총 페이지수가 1이면 replyPage1 반환하고 총 페이지수가 2 이상이면 반복문 실행
            if totalPages == 1:
                
                # 결과 반환
                return {'replyCount': replyCount, 'totalPages': totalPages, 'replyList': replyPage1[cols]}
            
            else:
                # 반복문 실행 범위는 총 페이지수에 1을 더한 값을 지정함
                # [참고] 1페이지는 이미 수집했으므로 2페이지부터 실행하기 때문
                for page in range(totalPages + 1):
                    
                    # 다음 페이지 수집에 필요한 쿼리 문자열을 more에 할당
                    more = dic['result']['morePage']
                    
                    # 쿼리 문자열 설정: 뉴스 댓글 목록(2페이지 이후)
                    query = {
                        'ticket': 'news',
                        'pool': 'cbox5', 
                        'lang': 'ko', 
                        'country': 'KR', 
                        'objectId': f'news{cid},{aid}', 
                        'pageSize': 20, 
                        'indexSize': 10, 
                        'listType': 'OBJECT', 
                        'pageType': 'more', 
                        'page': 2, 
                        'sort': 'favorite', 
                        'moreParam.direction': 'next', 
                        'moreParam.prev': more['prev'], 
                        'moreParam.next': more['next'], 
                        'includeAllStatus': 'true'
                    }
                    
                    # HTTP 요청 실행
                    res = requests.get(url = url, params = query, headers = headers)
                    
                    # HTTP 응답 바디 문자열에서 중괄호 앞에 불필요한 문자열 삭제
                    text = re.sub(pattern = r'jQuery.+?\(|_callback\(|\);$', repl = '', string = res.text)
                    
                    # JSON 형태의 문자열을 딕셔너리로 변환
                    dic = json.loads(s = text)
                    
                    # 뉴스 댓글을 데이터프레임으로 변환
                    replyPage2 = pd.DataFrame(data = dic['result']['commentList'])
                    
                    # 뉴스 댓글 목록 행 추가
                    replyPage1 = pd.concat(objs = [replyPage1, replyPage2], ignore_index = True)
                
                # 결과 반환
                return {'replyCount': replyCount, 'totalPages': totalPages, 'replyList': replyPage1[cols]}
    
    # nlink가 'https://n.news'로 시작하지 않으면 None으로 결과 반환
    else:
        return {'replyCount': 0, 'totalPages': 0, 'replyList': None}

In [9]:
# 인덱스 설정: 첫 번째 원소
# [참고] 반복문으로 실행할 코드에 인덱스를 추가하면 편리함
i = 0

In [10]:
# 해당 인덱스의 nlink 확인
print(newsList['nlink'].iloc[i])

https://n.news.naver.com/mnews/article/003/0012717267


In [11]:
# 함수 테스트
NaverNewsReply(nlink = newsList['nlink'].iloc[i])

{'replyCount': 204,
 'totalPages': 3,
 'replyList':                objectId           commentNo     parentCommentNo  \
 0    news003,0012717267  833652862377525492  833652862377525492   
 1    news003,0012717267  833653336652644737  833653336652644737   
 2    news003,0012717267  833654375934067221  833654375934067221   
 3    news003,0012717267  833653269342454167  833653269342454167   
 4    news003,0012717267  833653347641720850  833653347641720850   
 ..                  ...                 ...                 ...   
 175  news003,0012717267  833655063414047045  833655063414047045   
 176  news003,0012717267  833655047811236021  833655047811236021   
 177  news003,0012717267  833654973941153887  833654973941153887   
 178  news003,0012717267  833654706009014330  833654706009014330   
 179  news003,0012717267  833654696261452187  833654696261452187   
 
      replyAllCount                                           contents  \
 0                5  고작 본인 책 홍보하고 사진 몇장 찍자고 파리까지 간거냐??? 축

In [12]:
# 경고를 출력하지 않도록 설정
import warnings
warnings.filterwarnings('ignore')

In [13]:
# 반복 실행할 횟수 생성
n = len(newsList)
print(n)

77


In [14]:
# newsList에 뉴스 댓글 개수를 저장할 열 추가
newsList['replyCount'] = np.nan

# 뉴스 댓글 목록을 저장할 빈 데이터프레임 생성
replyList = pd.DataFrame()

# 반복문으로 네이버뉴스 댓글 개수 및 목록 수집
for i in tqdm(range(n)):
    
    # 반복문 실행 도중 에러가 발생하면 다음 원소를 실행하도록 설정
    try:
        
        # 네이버뉴스 링크로 뉴스 댓글 개수 및 목록 수집 함수 실행
        result = NaverNewsReply(nlink = newsList['nlink'].iloc[i])
        
        # newsList에 뉴스 댓글 개수 추가
        newsList['replyCount'].iloc[i] = result['replyCount']
        
        # 뉴스 댓글 개수가 1 이상이면 결과 추가하고 0이면 다음 원소 실행
        if result['replyCount'] >= 1:
            
            # replyList에 댓글 목록 추가
            replyList = pd.concat(objs = [replyList, result['replyList']], ignore_index = True)
        
        else:
            pass
    
    except:
        next
    
    # 1초간 멈춤
    time.sleep(1)

  0%|          | 0/77 [00:00<?, ?it/s]

In [15]:
# newsList의 처음 10행 확인
newsList.head(n = 10)

Unnamed: 0,press,title,nlink,body,replyCount
0,뉴시스,"올림픽 축구 탈락했는데 파리간 정몽규…""냄비받침 선물하러 갔나""",https://n.news.naver.com/mnews/article/003/001...,"인판티노 FIFA 회장, SNS에 사진 공개정몽규 회장, FIFA 회장에 친필서명 ...",204.0
1,서울신문,"올림픽 축구 탈락했는데…정몽규, 파리서 FIFA 회장 만났다",https://n.news.naver.com/mnews/article/081/000...,"인판티노 FIFA 회장, SNS에 사진 공개“친구 만나 반가워”…정 회장, 에세이 ...",135.0
2,SBS Biz,'국민욕받이'라는 정몽규 회장…의문의 1패 [CEO 업앤다운],https://n.news.naver.com/mnews/article/374/000...,"정몽규 HDC그룹 회장, 요즘 난감한 상황이 이어지고 있습니다. 당장 5촌 조카 정...",3.0
3,조선비즈,“축구협회장도 맡아주세요” 정의선 비교에 씁쓸한 정몽규,https://n.news.naver.com/mnews/article/366/000...,"40년 만에 올림픽 출전 불발, 깜깜이 감독 선발 등으로 논란을 겪고 있는 정몽규 ...",354.0
4,노컷뉴스,"정몽규는 헛발질, 정의선은 백발백중[파리올림픽]",https://n.news.naver.com/mnews/article/079/000...,정몽규 대한축구협회장이 2월 16일 오후 서울 종로구 축구회관에서 브리핑을 갖고 클...,91.0
5,뉴시스,"""누가 '책 내도 된다'고 했을 것""…이천수, 자서전 회장님 저격",https://n.news.naver.com/mnews/article/003/001...,"""회장님이 잘못한 건 능력 없는 사람을 쓰는 것""\n\n\n\n[서울=뉴시스] 축구...",12.0
6,TV조선,"시민단체, 정몽규 회장 고발…""공식사과 하고 물러나야""",https://n.news.naver.com/mnews/article/448/000...,정몽규 대한축구협회 회장 /TV조선 방송화면 캡처정몽규 대한축구협회 회장을 업무방해...,84.0
7,국민일보,정몽규 “성적 나쁘다고 회장 퇴진? 나는 국민욕받이”,https://n.news.naver.com/mnews/article/005/000...,자서전 ‘축구의 시대-정몽규 축구 30년’서 토로“반성도 하지만 서운한 적도 있었다...,1398.0
8,조선일보,"이천수 “홍명보 얼마 받는지 국감으로 밝혀질 것, 갑자기 돈 얘기 이상”",https://n.news.naver.com/mnews/article/023/000...,전 국가대표 축구선수 이천수. /유튜브\t\t\t\t\t\t\t\t\t\t전 국가대...,277.0
9,이데일리,"정몽규 고발한 시민단체 ""올림픽 축구 때 치킨 즐길 권리 앗아가""",https://n.news.naver.com/mnews/article/018/000...,"김순환 서민위 사무총장 고발인조사 전 회견""정몽규, 이번 사태 책임자…사과 후 물러...",6.0


In [16]:
# replyList의 처음 10행 확인
replyList.head(n = 10)

Unnamed: 0,objectId,commentNo,parentCommentNo,replyAllCount,contents,userName,modTime,regTime,sympathyCount,antipathyCount,hiddenByCleanbot,deleted
0,"news003,0012717267",833652862377525492,833652862377525492,5,고작 본인 책 홍보하고 사진 몇장 찍자고 파리까지 간거냐??? 축협회장이 아니라 정...,sdw8****,2024-08-08T11:35:30+0900,2024-08-08T11:35:30+0900,381,2,False,False
1,"news003,0012717267",833653336652644737,833653336652644737,3,FIFA 회장 만난다고 우리가 정몽규 지를 무슨 우러러 보고\n월드컵 못나갈까봐 전...,twin****,2024-08-08T11:42:51+0900,2024-08-08T11:42:51+0900,162,1,False,False
2,"news003,0012717267",833654375934067221,833654375934067221,1,클린스만 위약금 본인이 꼭 충당해라,boi2****,2024-08-08T11:58:59+0900,2024-08-08T11:58:59+0900,103,1,False,False
3,"news003,0012717267",833653269342454167,833653269342454167,3,몽규 비행기 호텔값은 자비로 간거니? 아님?,jjan****,2024-08-08T11:41:49+0900,2024-08-08T11:41:49+0900,54,1,False,False
4,"news003,0012717267",833653347641720850,833653347641720850,1,헤헤~~굽신굽신. 피파에 자리 좀 없슈?,lljh****,2024-08-08T11:43:02+0900,2024-08-08T11:43:02+0900,26,1,False,False
5,"news003,0012717267",833656787071664298,833656787071664298,0,이사람은 멘탈이 이상한듯.\n뭐가 중요하고 중요하지 않은지.\n어떤걸 해야하고 하지...,eatb****,2024-08-08T12:36:25+0900,2024-08-08T12:36:25+0900,12,0,False,False
6,"news003,0012717267",833655515845230917,833655515845230917,0,니가 뭘 했다구 자서전이냐?,nsm4****,2024-08-08T12:16:41+0900,2024-08-08T12:16:41+0900,5,0,False,False
7,"news003,0012717267",833662678290399660,833662678290399660,0,"정몽규 사퇴해라, 축구 참가도 못했는데 거기를 왜가.\n참 부끄러워,",cig0****,2024-08-08T14:07:51+0900,2024-08-08T14:07:51+0900,4,0,False,False
8,"news003,0012717267",833654698996137985,833654698996137985,0,이 스키는 디지는게 대한민국에 보약 ㅋㅋ,vvvt****,2024-08-08T12:04:00+0900,2024-08-08T12:04:00+0900,4,0,False,False
9,"news003,0012717267",833654051882140085,833654051882140085,0,한글책을 선물했대 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ,ant3****,2024-08-08T11:53:57+0900,2024-08-08T11:53:57+0900,4,0,False,False


In [17]:
# replyList의 정보 확인
replyList.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4032 entries, 0 to 4031
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   objectId          4032 non-null   object
 1   commentNo         4032 non-null   object
 2   parentCommentNo   4032 non-null   object
 3   replyAllCount     4032 non-null   int64 
 4   contents          4032 non-null   object
 5   userName          4032 non-null   object
 6   modTime           4032 non-null   object
 7   regTime           4032 non-null   object
 8   sympathyCount     4032 non-null   int64 
 9   antipathyCount    4032 non-null   int64 
 10  hiddenByCleanbot  4032 non-null   bool  
 11  deleted           4032 non-null   bool  
dtypes: bool(2), int64(3), object(7)
memory usage: 323.0+ KB


In [18]:
# 현재 작업 경로 확인
os.getcwd()

'/Users/seonghona/Documents/Lectures/Customer/DBR/data'

In [19]:
# newsList와 replyList를 각각 pkl 파일로 저장
pd.to_pickle(obj = newsList, filepath_or_buffer = 'Naver_News_List.pkl')
pd.to_pickle(obj = replyList, filepath_or_buffer = 'Naver_News_Reply.pkl')

In [20]:
# 현재 작업 경로에 있는 폴더명과 파일명 확인
os.listdir()

['Naver_News_Reply.pkl', 'Naver_News_List.pkl']

## End of Document