# 네이버 뉴스 & 유튜브 컨텐츠 수집기

이 노트북은 특정 키워드에 대해 다음 정보를 수집합니다:
1. 네이버 뉴스 기사
2. 유튜브 동영상 정보

검색 기간: 2025년 3월 1일 ~ 현재


In [1]:
# 필요한 라이브러리 설치
%pip install requests beautifulsoup4 selenium webdriver-manager pandas google-api-python-client


Note: you may need to restart the kernel to use updated packages.


In [2]:
# 필요한 라이브러리 임포트
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime, timedelta
import time
from googleapiclient.discovery import build
import re
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
import json


In [None]:
# pip install google-api-python-client pandas openpyxl

from googleapiclient.discovery import build
import pandas as pd
from datetime import datetime

def collect_top_youtube_videos(query, api_key, max_results=100, start_date="2025-03-01T00:00:00Z"):
    youtube = build("youtube", "v3", developerKey=api_key)
    
    all_results = []
    next_page_token = None

    while len(all_results) < max_results:
        request = youtube.search().list(
            part="snippet",
            q=query,
            type="video",
            order="viewCount",             # 조회수순
            maxResults=min(50, max_results - len(all_results)),
            publishedAfter=start_date,     # 2025년 3월 이후
            pageToken=next_page_token
        )
        response = request.execute()

        for item in response["items"]:
            all_results.append({
                "title": item["snippet"]["title"],
                "channel": item["snippet"]["channelTitle"],
                "published": item["snippet"]["publishedAt"],
                "videoId": item["id"]["videoId"],
                "url": f"https://www.youtube.com/watch?v={item['id']['videoId']}"
            })

        next_page_token = response.get("nextPageToken")
        if not next_page_token:
            break

    # === 조회수 등 통계 가져오기 ===
    # YouTube API는 statistics를 따로 호출해야 함 (50개 단위)
    for i in range(0, len(all_results), 50):
        video_ids = [v["videoId"] for v in all_results[i:i+50]]
        stats = youtube.videos().list(
            part="statistics",
            id=",".join(video_ids)
        ).execute()

        stats_dict = {item["id"]: item["statistics"] for item in stats["items"]}
        for v in all_results[i:i+50]:
            s = stats_dict.get(v["videoId"], {})
            v["viewCount"] = int(s.get("viewCount", 0))
            v["likeCount"] = int(s.get("likeCount", 0))
            v["commentCount"] = int(s.get("commentCount", 0))

    return all_results


if __name__ == "__main__":
    query = "SKT 유심 유출"
    API_KEY="AIzaSyA06SE1TCiZrGyTvlH1YwNgwqjMxoI2NFc"
    
    # 데이터 수집
    videos = collect_top_youtube_videos(query, API_KEY, max_results=100, start_date="2025-03-01T00:00:00Z")

    # DataFrame 변환
    df = pd.DataFrame(videos)

    # 저장
    filename = f"YouTube_TOP100_{datetime.now().strftime('%Y%m%d_%H%M%S')}.xlsx"
    df.to_excel(filename, index=False, engine="openpyxl")

    print(f"✅ 조회수 상위 100개 영상 저장 완료: {filename}")
    print(df.head())


✅ 조회수 상위 100개 영상 저장 완료: YouTube_TOP100_20250924_134955.xlsx
                                               title    channel  \
0           지금 유심이 문제가 아닙니다 이거부터 당장 끄세요! (모든 통신사 공통)       1분미만   
1              최악의 사태와 대응.. SKT 유심 해킹&amp;피해 대처법 총정리    ITSub잇섭   
2  &quot;핸드폰 꺼놓는 순간&quot;…SKT폰 &#39;이건 하지 말아야&#39...  JTBC News   
3                              skt 유심해킹이후 대처법 빨리하세요!       만렙백수   
4     [자막뉴스] 3년 이내 SKT 썼으면 불안...조사하니 더 큰 게 터졌다 / YTN        YTN   

              published      videoId  \
0  2025-04-26T08:19:53Z  3B6nv74tSkw   
1  2025-04-28T10:30:42Z  yPFP6QcL_wI   
2  2025-04-29T00:55:01Z  P5UiGz68mZk   
3  2025-04-26T12:11:40Z  rlaKrI4bjQs   
4  2025-05-19T04:28:36Z  dLt-3APQFKI   

                                           url  viewCount  likeCount  \
0  https://www.youtube.com/watch?v=3B6nv74tSkw    4721564     131127   
1  https://www.youtube.com/watch?v=yPFP6QcL_wI    3253518      80215   
2  https://www.youtube.com/watch?v=P5UiGz68mZk    2843573      19376   
3  https

In [None]:
# YouTube 동영상 수집 예제
if __name__ == "__main__":
    # 검색어 설정
    query = input("검색할 키워드를 입력하세요: ")
    
    try:
        # 데이터 수집
        print(f"\n'{query}' 관련 동영상을 수집하고 있습니다...")
        videos = collect_top_youtube_videos(
            query=query,
            api_key=YOUTUBE_API_KEY,
            max_results=MAX_RESULTS
        )

        # 결과 저장
        filename, df = save_to_excel(videos, query)
        
        print(f"\n✅ 조회수 상위 {len(videos)}개 영상 저장 완료: {filename}")
        print("\n상위 5개 동영상:")
        print(df.head())
        
    except Exception as e:
        print(f"\n❌ 오류가 발생했습니다: {str(e)}")
        print("\n가능한 원인:")
        print("1. API 키가 올바르지 않거나 만료됨")
        print("2. API 할당량 초과")
        print("3. 네트워크 연결 문제")
