In [49]:
from googleapiclient.discovery import build
import pandas as pd

In [50]:

# API key and initialization
from dotenv import load_dotenv
import os
load_dotenv()
YOUTUBE_API_KRY = os.getenv("YOUTUBE_API_KEY")
API_KEY = YOUTUBE_API_KRY
YOUTUBE_API_SERVICE_NAME = "youtube"
YOUTUBE_API_VERSION = "v3"

In [51]:

# Initialize YouTube API client
youtube = build(YOUTUBE_API_SERVICE_NAME, YOUTUBE_API_VERSION, developerKey=API_KEY)

# List of people to search
names = [
    '엄홍길 대장', '유재석', '유 퀴즈 온 더 블럭', '장도연', '포레스텔라', 
    '나 혼자 산다', '박경림', '조세호', '런닝맨', '태어난 김에 세계일주 3',
    'KISS OF LIFE', 'TEMPEST', '김민규', '김선태(충주맨)', '김원훈',
    '숏박스', '여고추리반', '유니스', '이수지', '장다아', '장영란',
    '정영주', '천우희', '최강야구', '홍이삭'
]


In [52]:

def get_videos(query, max_results=30):
    """Fetch popular videos for a query."""
    response = youtube.search().list(
        q=query,
        part="snippet",
        type="video",
        maxResults=max_results,
        order="date"
    ).execute()
    return [{'video_id': item['id']['videoId'], 'title': item['snippet']['title']} for item in response.get('items', [])]


In [53]:
from googleapiclient.errors import HttpError

def get_comments_and_replies(video_id, max_results=10):
    """Fetch top comments and their replies for a video."""
    try:
        response = youtube.commentThreads().list(
            part="snippet,replies",
            videoId=video_id,
            maxResults=max_results,
            order="relevance"
        ).execute()
    except HttpError as e:
        print(f"Skipping video {video_id} due to error: {e}")
        return []  # Return an empty list if comments are disabled or another error occurs

    comments = []
    
    # Fetch top-level comments and their replies
    for item in response.get('items', []):
        comment = item['snippet']['topLevelComment']['snippet']
        
        # Append the top-level comment
        comments.append({
            'comment_id': item['id'],
            'parent_id': None,
            'text': comment['textDisplay'],
            'author': comment['authorDisplayName'],
            'like_count': comment['likeCount']
        })

        # If replies exist, append them
        if 'replies' in item:
            for reply in item['replies']['comments']:
                reply_snippet = reply['snippet']
                comments.append({
                    'comment_id': reply['id'],
                    'parent_id': item['id'],
                    'text': reply_snippet['textDisplay'],
                    'author': reply_snippet['authorDisplayName'],
                    'like_count': reply_snippet['likeCount']
                })
    return comments


In [54]:


def fetch_data_for_names(names):
    """Fetch videos and comments for all names."""
    all_data = []
    for name in names:
        print(f"Fetching videos for: {name}")
        videos = get_videos(name)
        for video in videos:
            print(f"Fetching comments for video: {video['title']} ({video['video_id']})")
            comments = get_comments(video['video_id'])
            for comment in comments:
                all_data.append({
                    'name': name,
                    'video_id': video['video_id'],
                    'video_title': video['title'],
                    'comment_id': comment['comment_id'],
                    'parent_id': comment['parent_id'],
                    'text': comment['text'],
                    'author': comment['author'],
                    'like_count': comment['like_count']
                })
    return all_data


In [55]:

# Run the function and save the data to a CSV
data = fetch_data_for_names(names)
df = pd.DataFrame(data)
df.to_csv("youtube_comments_인물별.csv", index=False)
print("Data saved to youtube_comments_인물별.csv")


Fetching videos for: 엄홍길 대장
Fetching comments for video: 서울 근교 등산 엄홍길 대장은 5분 컷 가능하겠는데? (N_TZbG7By1A)
Fetching comments for video: 엄홍길 대장이 가장 두려워 했던 존재 #짧은명언 #동기부여 (ai1SE9jIA64)
Fetching comments for video: 엄홍길 대장에 결단 &#39;내가 이기적이었다&#39; (L-aenb_wbPk)
Fetching comments for video: 엄홍길 대장, 17년 만에 다시 히말라야에 오른 사연은? | 한국-네팔 수교 50년 기념 엄홍길, 다시 히말라야로 | KBS 20241027 방송 (fpn5f-8KHRM)
Fetching comments for video: 엄홍길 대장한테 등산 금지령 받은 이유 (frDo9U3MmcI)
Fetching comments for video: 엄홍길대장과 함께하는 거류산듬반축제 #거류산의 여신들~~^^♡ (3RNYhraDcYI)
Fetching comments for video: 엄홍길대장과 함께하는 거류산등반축제 #써니라인댄스공연#바다새 (asjAz-IEUEM)
Fetching comments for video: 엄홍길대장과 함께하는 거류산듬반축제 써니라인댄스공연#아가씨 (BRNOeAj0Btw)
Fetching comments for video: 엄홍길대장과 함께하는 거류산듬반축제 ㆍ써니라인댄스공연#쥴리아 (kP2O_U65cRU)
Fetching comments for video: 엄홍길대장과 함께하는 거류산듬반축제 ᆢ써니라인댄스공연 (ArdUBq1dxKg)
Fetching comments for video: 엄홍길이 말한 히말라야 정복이 어려운 이유 (yvDCNpGWOSc)
Fetching comments for video: 엄홍길대장과 맨발가다 #울산돈키호테 문명호 (e9nYpNRbBgs)
Fetching comments for video: 에베레스트는 기본! 엄홍길 

HttpError: <HttpError 403 when requesting https://youtube.googleapis.com/youtube/v3/search?q=%EC%88%8F%EB%B0%95%EC%8A%A4&part=snippet&type=video&maxResults=30&order=date&key=AIzaSyBZ4tyVBjV79P3_mQovvirejIlypNzPKck&alt=json returned "The request cannot be completed because you have exceeded your <a href="/youtube/v3/getting-started#quota">quota</a>.". Details: "[{'message': 'The request cannot be completed because you have exceeded your <a href="/youtube/v3/getting-started#quota">quota</a>.', 'domain': 'youtube.quota', 'reason': 'quotaExceeded'}]">

In [None]:
df = pd.read_csv("youtube_comments_인물별.csv")
df.head()

Unnamed: 0,name,video_id,video_title,comment_id,parent_id,text,author,like_count
0,엄홍길 대장,ai1SE9jIA64,엄홍길 대장이 가장 두려워 했던 존재 #짧은명언 #동기부여,UgzQETi7pXfry8agsw94AaABAg,,승리하자 화이팅🙏🏻,@grace-xu5el,5.0
1,엄홍길 대장,ai1SE9jIA64,엄홍길 대장이 가장 두려워 했던 존재 #짧은명언 #동기부여,UgxMhrGvmYbh2jJiO2l4AaABAg,,술은 끊었습니다.. 1승 했죠<br>근데 담배는 연달아 패배중입니다😢<br>담배는 ...,@Richgoldenboy,1.0
2,엄홍길 대장,ai1SE9jIA64,엄홍길 대장이 가장 두려워 했던 존재 #짧은명언 #동기부여,UgwQOjQx_IVVPxDrchx4AaABAg,,히말라야 슬펐지😢,@콩콩이-y4u,6.0
3,엄홍길 대장,ai1SE9jIA64,엄홍길 대장이 가장 두려워 했던 존재 #짧은명언 #동기부여,UgzU8AZTY8n8MFxeNR94AaABAg,,자신을 이겨라,@324hth,5.0
4,엄홍길 대장,ai1SE9jIA64,엄홍길 대장이 가장 두려워 했던 존재 #짧은명언 #동기부여,Ugx2_dqLcBK0jGbQaTt4AaABAg,,고 박영석 대장님도 말씀하셨지<br>북극의 추위 북극곰의 위협<br>근데 그건 다 ...,@봄봄-z1k,0.0


In [None]:
# 부모 댓글 중, 완전히  답글이 2개 이상 있는 경우, 부모 댓글 spam = 1 로 표시
df['spam'] = df['parent_id'].map(df['parent_id'].value_counts().to_dict())
df['spam'] = df['spam'].apply(lambda x: 1 if x > 1 else 0)
df['spam'].value_counts()   

spam
0    445
Name: count, dtype: int64

In [None]:
# 댓글 작성자 이름에 "I9" 또는 "19"의 개수 계산
i9_count = df['author'].str.contains("9금", na=False).sum()
print(f'"I9" 또는 "19"를 포함한 댓글 작성자 수: {i9_count}')

# 해당 댓글 행 출력
i9_comments = df[df['author'].str.contains("9금", na=False)]
display(i9_comments)


"I9" 또는 "19"를 포함한 댓글 작성자 수: 0


Unnamed: 0,name,video_id,video_title,comment_id,parent_id,text,author,like_count,spam
