### 1.1. 네이터 뉴스 기사에서 제목과 본문을 추출
#### - 네이버 뉴스기사(news.naver.com)의 URL을 입력했을 때 뉴스기사의 제목과 본문을 추출하는 코드

In [None]:
# 웹 페이지 다운로드를 위한 패키지
import requests
# HTML 분석을 위한 패키지
from bs4 import BeautifulSoup

In [None]:
# URL을 입력하면 웹 페이지에서 제목과 본문을 추출하는 함수
def read_naver_news(url):
  try:
    raw = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})
  except:    
    return None  # 페이지가 존재하지 않거나 접속이 불가능한 경우  
  print("HTML 파일", raw.text[0:300]) # 가공되지 않은 HTML 파일 출력(앞의 300개 문자만 출력)

  html = BeautifulSoup(raw.text, "html.parser") # BeautifulSoup로 HTML 파일 분석
  
  # 제목부분 얻기
  title_part = html.find("h2", class_="media_end_head_headline")

  if title_part is None:
    title_part = ""   # 제목이 없는 경우 공백을 입력
  else:    
    title_part = title_part.get_text().replace("\n", "") # 줄바꿈문자(\n)가 들어간 경우 삭제
  print("\n뉴스기사 제목 :", title_part) # 제목부분 출력

  # 본문 얻기
  content_part = html.find('div', id="newsct_article").get_text()
  if content_part is None:
    print("뉴스기사 본문이 존재하지 않습니다!")
    return None   # 본문이 없는 경우  
  print("뉴스기사 본문 :", content_part) # 뉴스기사 본문 출력

  return (title_part, content_part)  # (제목, 본문) 튜플을 반환

In [None]:
# 네이버 뉴스기사 URL
test_url = "https://n.news.naver.com/mnews/article/028/0002608023?sid=101"

In [None]:
# 제목과 본문 텍스트 얻기
title, contents = read_naver_news(test_url)

HTML 파일
<!doctype html>
<html lang="ko" data-useragent="Mozilla/5.0">
	<head>
		<meta charset="utf-8">
		<meta http-equiv="X-UA-Compatible" content="IE=edge">
		<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" />
		<meta property="

뉴시기사 제목
제조업 경기전망 5분기째 부정적…대기업이 더 암울

뉴스기사 본문


대기업 BSI 중기보다 낮아“주력 수출업종 부진 영향”



연합뉴스국내 제조업 경기 전망이 5분기 연속 부정적으로 나타났다. 주력 수출 업종인 반도체·전자·철강·화학 등이 부진하면서 대기업 체감경기가 중견·중소기업보다 더 나빠졌다.대한상공회의소는 28일 전국 2172개 제조업체를 대상으로 조사(8월23~9월5일)한 올해 4분기 경기전망지수(BSI)가 81로, 지난 3분기(79)와 큰 차이없이 5분기째 부정적 전망이 이어졌다고 밝혔다. 이 지수가 100 이상이면 해당 분기의 경기를 이전 분기보다 긍정적으로 보는 기업이 많은 것이고, 100 이하면 그 반대다.업종별로는 조선·부품(103), 의료·정밀(102)을 제외한 모든 업종에서 경기전망지수가 100을 넘지 못했다. 원자재 국외 의존도가 높은 비금속광물(70)이 가장 부진했는데, 공급망 차질에 고환율이 겹친 때문으로 상의는 분석했다. 기업 규모별로 보면 대기업 경기전망지수(69)가 중견·중소기업(82)보다 낮았다. 국내 수출 대기업의 주력 업종인 반도체, 정보기술·전자, 철강, 화학 업종의 경기전망이 모두 부진한 영향으로 풀이된다.대한상의 관계자는 “연말 즈음에 풀릴 것으로 봤던 대외 경기가 오히려 악화하거나 내년까지 장기화할 것으로 예상되면서, 수출 비중이 높아 글로벌 경기나 환율

In [None]:
print("뉴스기사 제목 :", title)

뉴스기사 제목 : 제조업 경기전망 5분기째 부정적…대기업이 더 암울


In [None]:
print("뉴스기사 본문\n", contents)

뉴스기사 본문
 

대기업 BSI 중기보다 낮아“주력 수출업종 부진 영향”



연합뉴스국내 제조업 경기 전망이 5분기 연속 부정적으로 나타났다. 주력 수출 업종인 반도체·전자·철강·화학 등이 부진하면서 대기업 체감경기가 중견·중소기업보다 더 나빠졌다.대한상공회의소는 28일 전국 2172개 제조업체를 대상으로 조사(8월23~9월5일)한 올해 4분기 경기전망지수(BSI)가 81로, 지난 3분기(79)와 큰 차이없이 5분기째 부정적 전망이 이어졌다고 밝혔다. 이 지수가 100 이상이면 해당 분기의 경기를 이전 분기보다 긍정적으로 보는 기업이 많은 것이고, 100 이하면 그 반대다.업종별로는 조선·부품(103), 의료·정밀(102)을 제외한 모든 업종에서 경기전망지수가 100을 넘지 못했다. 원자재 국외 의존도가 높은 비금속광물(70)이 가장 부진했는데, 공급망 차질에 고환율이 겹친 때문으로 상의는 분석했다. 기업 규모별로 보면 대기업 경기전망지수(69)가 중견·중소기업(82)보다 낮았다. 국내 수출 대기업의 주력 업종인 반도체, 정보기술·전자, 철강, 화학 업종의 경기전망이 모두 부진한 영향으로 풀이된다.대한상의 관계자는 “연말 즈음에 풀릴 것으로 봤던 대외 경기가 오히려 악화하거나 내년까지 장기화할 것으로 예상되면서, 수출 비중이 높아 글로벌 경기나 환율 등 대외 변수에 더 민감한 대기업에서 부정적 전망이 강하게 나타났다”고 분석했다. 올해 실적이 목표치를 달성할 수 없다고 보는 기업이 49.8%였다. 목표치를 달성하거나 이에 근접할 것이란 기업은 45.3%, 목표치를 초과할 것으로 보는 기업은 4.9%였다. 올해 실적에 영향을 미칠 것으로 예상하는 주요 리스크(중복응답)로는 원가 상승 및 원자재 수급 불안(82.1%)을 가장 많이 꼽았다. 이어 환율 등 대외 경제지표 변동성 심화(47.2%), 금리인상 기조(46.9%), 인플레이션에 따른 민간소비 위축(27.0%), 주요국 경기 둔화로 인한 수출 부진(19.5%), 미-중 갈등 등 공급망 리스크(18.9%),

### 1.2. YouTube API를 사용하여 한국은행 관련 영상과 댓글 수집하기
#### - YouTube API를 사용하기 위해서는 구글 계정이 필요하고 어플리케이션을 새로 등록한 후 API_KEY를 받아야 함
#### - 무료로 API를 사용할 수 있는 할당량(1만회/일, API 종류에 따라 다름)이 정해져 있음
#### YouTube API 관련하여 자세한 사항은 API reference를 참고
##### * https://developers.google.com/youtube/v3/docs?hl=ko)

In [None]:
# YouTube API 
from googleapiclient.discovery import build
from googleapiclient.errors import HttpError
from oauth2client.tools import argparser
from datetime import datetime
from dateutil.relativedelta import *
from tqdm import notebook
from os.path import join

In [None]:
# API_KEY
API_KEY = 'AIzaSyAyQypeNc_M_no9Yv-O9CEVS2BrrFQCwG0'

# 서비스 이름 (youtube API v3 사용)
YOUTUBE_API_SERVICE_NAME = "youtube"
YOUTUBE_API_VERSION = "v3"

# YouTube API 사용을 위한 build 객체 생성
youtube = build(YOUTUBE_API_SERVICE_NAME, YOUTUBE_API_VERSION, developerKey=API_KEY)

In [None]:
# 검색어
QUERY = "한국은행"

In [None]:
# YouTube video list api descripiton (https://developers.google.com/youtube/v3/docs/videos/list?hl=ko)

# 영상 목록 검색
video_list = youtube.search().list(
    q = QUERY,
    order = "viewCount",    # 조회수가 높은 항목부터 결과로 보여주기
    part = "snippet",
    maxResults = 100,       # 한번에 보여줄 결과 갯수
    type = "video"          # 플레이리스트, 채널은 검색결과에서 제외
).execute()

In [None]:
video_list

{'kind': 'youtube#searchListResponse',
 'etag': 'hu2T4SJcrPXETylA7BarpQl2dDM',
 'nextPageToken': 'CDIQAA',
 'regionCode': 'NL',
 'pageInfo': {'totalResults': 1000000, 'resultsPerPage': 50},
 'items': [{'kind': 'youtube#searchResult',
   'etag': 'mWFXRU07u9OALNASDEB02G9WfAs',
   'id': {'kind': 'youtube#video', 'videoId': 'V5xVcFhIX2s'},
   'snippet': {'publishedAt': '2022-08-03T02:07:28Z',
    'channelId': 'UChlgI3UHCOnwUGzWzbJ3H5w',
    'title': '[자막뉴스] 덜컥 다가온 외환위기 악몽...다급해진 한국은행 / YTN',
    'description': '7월 소비자물가가 1년 전보다 6.3% 올랐습니다. 외환위기 때인 1998년 11월의 6.8% 이후 가장 높은 수치입니다. 또, 6월에 이어 두 달 ...',
    'thumbnails': {'default': {'url': 'https://i.ytimg.com/vi/V5xVcFhIX2s/default.jpg',
      'width': 120,
      'height': 90},
     'medium': {'url': 'https://i.ytimg.com/vi/V5xVcFhIX2s/mqdefault.jpg',
      'width': 320,
      'height': 180},
     'high': {'url': 'https://i.ytimg.com/vi/V5xVcFhIX2s/hqdefault.jpg',
      'width': 480,
      'height': 360}},
    'channelTitle': ' YTN',
    'liv

In [None]:
import pandas as pd

In [None]:
# 데이터프레임을 만들기 위해 임시로 사용할 dictionary
dict_video_list = { "영상ID":[], "영상제목":[], "영상설명":[], "영상게시일시":[], "채널명":[], "영상조회":[], "영상좋아요":[], "댓글수":[] }

# 검색결과로 나온 영상 정보를 dictionary에 저징
for video in video_list["items"]:
    dict_video_list["영상ID"].append(video['id']['videoId'].strip())
    dict_video_list["영상제목"].append(video["snippet"]['title'].strip())
    dict_video_list["영상설명"].append(video["snippet"]['description'].strip())
    dict_video_list["영상게시일시"].append(video["snippet"]['publishTime'].strip())
    dict_video_list["채널명"].append(video["snippet"]['channelTitle'].strip())
        
    # 조회수, 좋아요, 댓글 수와 같은 통계정보 얻기
    videoId = video['id']['videoId'].strip()
    video_stat = youtube.videos().list(
        part='statistics',
        id = videoId
    ).execute()   
    
    dict_video_list["영상조회"].append(video_stat['items'][0]['statistics']["viewCount"])
    if "likeCount" in video_stat['items'][0]['statistics'].keys():
        dict_video_list["영상좋아요"].append(video_stat['items'][0]['statistics']["likeCount"])
    else:
        dict_video_list["영상좋아요"].append(0)
            
    if "commentCount" in video_stat['items'][0]['statistics'].keys():
        dict_video_list["댓글수"].append(video_stat['items'][0]['statistics']["commentCount"])
    else:
        dict_video_list["댓글수"].append(0)

# dictionary를 데이터 프레임으로 변환
df_video_list = pd.DataFrame(dict_video_list)

In [None]:
df_video_list.head()

Unnamed: 0,영상ID,영상제목,영상설명,영상게시일시,채널명,영상조회,영상좋아요,댓글수
0,V5xVcFhIX2s,[자막뉴스] 덜컥 다가온 외환위기 악몽...다급해진 한국은행 / YTN,7월 소비자물가가 1년 전보다 6.3% 올랐습니다. 외환위기 때인 1998년 11월...,2022-08-03T02:07:28Z,YTN,1912395,11478,4742
1,Jdq7Ztc9XLE,"독일 은행원 언니, 여동생 따라 간 은행에 충격! (한국은행 실제반응 ㅋㅋ)","독일 은행에서 일하는 에밀리의 친언니, 아나! 아나가 한국은행에서 보고 놀란 장면들...",2022-01-25T09:15:00Z,어썸 코리아 Awesome KOREA,1807815,35608,1291
2,k-EQ7ofeTYw,"[에디터픽] &quot;韓, 아시아서 가장 위험&quot;..&#39;제2 IMF&...",1.'킹달러' 세계 금융시장 강타...총성 없는 '환율 전쟁'(김상우 기자) 2.O...,2022-09-27T08:12:02Z,YTN,1165971,8958,2162
3,vfGY0qycl1g,[자막뉴스] 영끌족 &#39;발등에 불&#39;...한은 총재까지 &#39;섬뜩한 ...,은행권 주택담보대출 변동금리의 기준인 코픽스가 7월에 0.52%포인트 상승해 2.9...,2022-08-17T10:44:16Z,YTN,837135,5353,2007
4,6WaB2fGpNN4,[자막뉴스] 美가 쏘아올린 시한폭탄...벼랑 끝 한국은행 / YTN,미국의 문제도 역시 인플레이션입니다. 지난달 소비자물가는 1년 전보다 8.3% 올라...,2022-09-19T08:32:21Z,YTN,643041,4309,2151


In [None]:
# 앞서 수집한 각 영상에 입력된 댓글을 수집
dict_comments = { "영상ID":[], "댓글":[], "댓글작성자":[], "댓글작성일시":[], "댓글좋아요":[], "대댓글":[] }

for i in notebook.tqdm(range(len(df_video_list.iloc[0:3])), desc="유튜브 영상 댓글 수집"):
  video = df_video_list.iloc[i]  # 영상정보 얻기    
  nextPageToken = ""  # 다음페이지 조회를 위한 토큰값
  numPages = 1  # 페이지 수
  
  try:
    while nextPageToken != None:
      # NextPage Token이 결과에 나오면 다음 페이지가 있다는 의미
      comment_list = youtube.commentThreads().list(
        part='snippet,replies',
        videoId=video["영상ID"],     # 댓글을 수집할 영상 ID
        maxResults=100,          # 영상별 100개의 댓글 수집 (대댓글은 포함하지 않음)
        order='relevance',       # 연관성 기준으로 정렬
        textFormat='plainText',  # 텍스트 포맷
        pageToken=nextPageToken      # 앞 페이지 조회시 얻은 nextPageToken 값
      ).execute()

      for comment in comment_list["items"]:
        dict_comments["영상ID"].append(comment['snippet']['videoId'].strip())
        dict_comments["댓글"].append(comment['snippet']['topLevelComment']['snippet']['textDisplay'].strip())
        dict_comments["댓글작성자"].append(comment['snippet']['topLevelComment']['snippet']['authorDisplayName'].strip())
        dict_comments["댓글작성일시"].append(comment['snippet']['topLevelComment']['snippet']['publishedAt'].strip())
        dict_comments["댓글좋아요"].append(comment['snippet']['topLevelComment']['snippet']['likeCount'])
        dict_comments["대댓글"].append(comment['snippet']['totalReplyCount'])

      # 다음 페이지가 있는 경우
      if "nextPageToken" in comment_list.keys():
        #nextPageToken = comment_list["nextPageToken"]
        # 실습을 위해서 일단 영상별로 100개의 댓글만 수집합니다. 
        # 100개 이상을 수집하기 위해서는 위의 코드를 사용하세요.
        nextPageToken = None 
      else:
        nextPageToken = None
      numPages += 1  # 페이지 수 증가

  except:
    # 댓글을 차단하는 경우 오류가 발생할 수 있는데 이때 그냥 넘겨버림    
    continue

유튜브 영상 댓글 수집:   0%|          | 0/50 [00:00<?, ?it/s]



In [None]:
# dictionary를 데이터 프레임으로 변환
df_comments = pd.DataFrame.from_dict(dict_comments)

In [None]:
df_comments.head()

Unnamed: 0,영상ID,댓글,댓글작성자,댓글작성일시,댓글좋아요,대댓글
0,V5xVcFhIX2s,1998년도 외환 위기는 한국을 포함한 몇몇나라에서만 문제였고 세계경제는 특별한 문...,메존일각고다이,2022-08-09T03:21:26Z,675,157
1,V5xVcFhIX2s,한국의 가계부채 비중과 그 용도를 생각했을 때 단순히 금리를 인상해서 소비자 물가가...,라지피자,2022-08-03T22:35:50Z,408,36
2,V5xVcFhIX2s,"소잃고 외양간 고치지말고 우리나라도 0.5, 0.75, 과감하게 단기간에 올려 물...",제이제이,2022-08-04T04:56:22Z,566,3
3,V5xVcFhIX2s,이 보도 본 뒤 국가부도의 날 또 보고 왔습니다\n위기는 정말 주기적으로 돌아오네요...,튀밥먹는튀밥냥이,2022-08-07T12:07:07Z,269,10
4,V5xVcFhIX2s,최대 외환보유의 시대에서 곧바로 이런 지경까지 이르게 되다니...ㅠㅠ,유준치,2022-08-08T19:50:03Z,447,11


In [None]:
df_comments.tail()

Unnamed: 0,영상ID,댓글,댓글작성자,댓글작성일시,댓글좋아요,대댓글
16886,S_zqoReKPe0,cbdc진짜..현생인류 멸종각..,kj kim,2022-06-22T14:31:03Z,17,0
16887,S_zqoReKPe0,안녕하세요,강일수,2022-06-22T15:54:25Z,14,0
16888,S_zqoReKPe0,이미 끝난 정권이다\n각자도생 합시다\n검소한 생활이 자기를 살린다 굥 믿지말고 삽시다,利在田田,2022-06-23T00:25:48Z,13,0
16889,S_zqoReKPe0,1,전현일,2022-06-22T21:11:57Z,7,0
16890,S_zqoReKPe0,굥짬뽕에 여러사람 골로가네 ㅋㅋㅋ,안정적,2022-06-22T23:38:27Z,7,0


In [None]:
# 영상ID를 사용해서 각 댓글이 작성된 영상의 제목과 설명을 추가
df_new_comments = df_comments.join(df_video_list[["영상ID", "영상제목", "영상설명"]].set_index("ID"), on="영상ID", how="left")

In [None]:
df_new_comments.head()

Unnamed: 0,영상ID,댓글,작성자,작성일시,좋아요,대댓글,제목,설명
0,V5xVcFhIX2s,1998년도 외환 위기는 한국을 포함한 몇몇나라에서만 문제였고 세계경제는 특별한 문...,메존일각고다이,2022-08-09T03:21:26Z,674,157,[자막뉴스] 덜컥 다가온 외환위기 악몽...다급해진 한국은행 / YTN,7월 소비자물가가 1년 전보다 6.3% 올랐습니다. 외환위기 때인 1998년 11월...
1,V5xVcFhIX2s,이 보도 본 뒤 국가부도의 날 또 보고 왔습니다\n위기는 정말 주기적으로 돌아오네요...,튀밥먹는튀밥냥이,2022-08-07T12:07:07Z,269,10,[자막뉴스] 덜컥 다가온 외환위기 악몽...다급해진 한국은행 / YTN,7월 소비자물가가 1년 전보다 6.3% 올랐습니다. 외환위기 때인 1998년 11월...
2,V5xVcFhIX2s,최대 외환보유의 시대에서 곧바로 이런 지경까지 이르게 되다니...ㅠㅠ,유준치,2022-08-08T19:50:03Z,446,11,[자막뉴스] 덜컥 다가온 외환위기 악몽...다급해진 한국은행 / YTN,7월 소비자물가가 1년 전보다 6.3% 올랐습니다. 외환위기 때인 1998년 11월...
3,V5xVcFhIX2s,솔직히 서브프라임에서 시작된 저금리 기조를 전세계가 그만둘 타이밍을 놓쳐버린게 크다...,용가리,2022-08-06T06:13:55Z,197,32,[자막뉴스] 덜컥 다가온 외환위기 악몽...다급해진 한국은행 / YTN,7월 소비자물가가 1년 전보다 6.3% 올랐습니다. 외환위기 때인 1998년 11월...
4,V5xVcFhIX2s,대한민국은 처음부터 금리를 좀 높게 잡고있어야 했다 그래서 레버리지를 못쓰게 만들었...,Json Choi,2022-08-03T02:22:21Z,1692,162,[자막뉴스] 덜컥 다가온 외환위기 악몽...다급해진 한국은행 / YTN,7월 소비자물가가 1년 전보다 6.3% 올랐습니다. 외환위기 때인 1998년 11월...
