In [1]:
import json
from googleapiclient.discovery import build
from googleapiclient.errors import HttpError

# API 설정
API_KEY = 'AIzaSyDqnRXsmZgaQmerlq9hatyrIoFjjA9kvYg'
YOUTUBE_API_SERVICE_NAME = 'youtube'
YOUTUBE_API_SERVICE_VERSION = 'v3'

# API 클라이언트 생성
youtube = build(YOUTUBE_API_SERVICE_NAME, YOUTUBE_API_SERVICE_VERSION, developerKey=API_KEY)

In [3]:
NUM_VIDEOS = 50
COMMENTS_PER_VIDEO = 30
CATEGORY_ID = '25'

In [4]:
def fetch_videos_and_comments(num_videos, comments_per_video):
    collected_data = []
    video_count = 0  # 수집된 영상 개수

    try:
        print(f"카테고리 {CATEGORY_ID}에서 {num_videos}개의 영상을 검색합니다...")

        # 정치 카테고리의 영상 검색
        search_response = youtube.search().list(
            part='snippet',
            type='video',
            videoCategoryId=CATEGORY_ID,
            maxResults=50,  # 한 번에 최대 50개 검색 가능
            order='date'  # 최신순 정렬
        ).execute()

        # 검색된 영상 정보 처리
        for video in search_response['items']:
            if video_count >= num_videos:
                break  # 원하는 영상 개수에 도달하면 중단

            video_id = video['id']['videoId']
            video_title = video['snippet']['title']
            video_count += 1

            print(f"  [{video_count}/{num_videos}] 영상 ID: {video_id}, 제목: {video_title}")

            # 댓글 가져오기
            try:
                comment_response = youtube.commentThreads().list(
                    videoId=video_id,
                    part='snippet',
                    maxResults=comments_per_video,
                    order='relevance'  # 관련성 순 정렬
                ).execute()

                for comment_item in comment_response.get('items', []):
                    # 일반 댓글
                    top_comment = comment_item['snippet']['topLevelComment']['snippet']
                    comment_id = comment_item['id']
                    author = top_comment['authorDisplayName']
                    text = top_comment['textDisplay']
                    likes = top_comment.get('likeCount', 0)
                    is_reply = False
                    parent_id = None

                    collected_data.append({
                        'comment_id': comment_id,
                        'parent_id': parent_id,
                        'author': author,
                        'text': text,
                        'likes': likes,
                        'is_reply': is_reply,
                        'video_id': video_id,
                        'video_title': video_title
                    })

                    # 대댓글 처리
                    if 'replies' in comment_item:
                        for reply in comment_item['replies']['comments']:
                            reply_snippet = reply['snippet']
                            collected_data.append({
                                'comment_id': reply['id'],
                                'parent_id': comment_id,
                                'author': reply_snippet['authorDisplayName'],
                                'text': reply_snippet['textDisplay'],
                                'likes': reply_snippet.get('likeCount', 0),
                                'is_reply': True,
                                'video_id': video_id,
                                'video_title': video_title
                            })

            except HttpError as e:
                print(f"댓글 수집 실패 (영상 ID: {video_id}): {e}")
                continue

    except HttpError as e:
        print(f"영상 검색 실패: {e}")

    return collected_data

In [5]:
collected_comments = fetch_videos_and_comments(NUM_VIDEOS, COMMENTS_PER_VIDEO)

카테고리 25에서 50개의 영상을 검색합니다...
  [1/50] 영상 ID: K95jPpIYQvU, 제목: 배신자 1. 한동훈 2. 조경태 3. 안철수
  [2/50] 영상 ID: Hw1-ElHCQWM, 제목: 박지원-홍장원 이간책에 넘어가 일낸 한동훈
  [3/50] 영상 ID: GDjfbvyVzi0, 제목: D-1 운명의 날…여당서 공개 찬성 나와 / KBS  2024.12.06.
  [4/50] 영상 ID: SAw8l84B3PQ, 제목: 2차 계엄 없다, 공포 마케팅 마라
  [5/50] 영상 ID: Tem7dGXoVLY, 제목: 윤수괴의 민낯 &quot;병력 더 넣어라&quot; 직접 지시 #비상계엄 #MBC뉴스데스크
  [6/50] 영상 ID: UYlyQObMe2M, 제목: Breaking News : बिहार से बड़ी खबर, खान सर गिरफ़्तार? | Khan Sir Arrested | Bihar | BPSC | Protest
댓글 수집 실패 (영상 ID: UYlyQObMe2M): <HttpError 403 when requesting https://youtube.googleapis.com/youtube/v3/commentThreads?videoId=UYlyQObMe2M&part=snippet&maxResults=30&order=relevance&key=AIzaSyDqnRXsmZgaQmerlq9hatyrIoFjjA9kvYg&alt=json returned "The video identified by the <code><a href="/youtube/v3/docs/commentThreads/list#videoId">videoId</a></code> parameter has disabled comments.". Details: "[{'message': 'The video identified by the <code><a href="/youtube/v3/docs/commentThreads/list#videoId">videoId</a></c

  [36/50] 영상 ID: ul-nmyI83lc, 제목: [에디터픽] &#39;해제 직후 2차 계엄령 논의?&#39;...우원식 국회의장 &quot;제2의 비상계엄 용납 불가&quot; / YTN
댓글 수집 실패 (영상 ID: ul-nmyI83lc): <HttpError 403 when requesting https://youtube.googleapis.com/youtube/v3/commentThreads?videoId=ul-nmyI83lc&part=snippet&maxResults=30&order=relevance&key=AIzaSyDqnRXsmZgaQmerlq9hatyrIoFjjA9kvYg&alt=json returned "The video identified by the <code><a href="/youtube/v3/docs/commentThreads/list#videoId">videoId</a></code> parameter has disabled comments.". Details: "[{'message': 'The video identified by the <code><a href="/youtube/v3/docs/commentThreads/list#videoId">videoId</a></code> parameter has disabled comments.', 'domain': 'youtube.commentThread', 'reason': 'commentsDisabled', 'location': 'videoId', 'locationType': 'parameter'}]">
  [37/50] 영상 ID: zZ4U102edB0, 제목: 한동훈, 하루 만에 당론 반대 돌아선 배경은 [뉴스9]
  [38/50] 영상 ID: 962aDmd1aXQ, 제목: Aar Paar With Amish Devgan LIVE: Maharshtra CM Oath | Devendra Fadnavis | Eknath Shinde | BJP | Modi
댓글 수집 실패 (영상 

In [6]:
output_file = 'youtube_politics_comments_relevance.json'
with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(collected_comments, f, ensure_ascii=False, indent=4)

print(f"데이터 수집 완료! JSON 파일이 '{output_file}'에 저장되었습니다.")

데이터 수집 완료! JSON 파일이 'youtube_politics_comments_relevance.json'에 저장되었습니다.
