### 웹 크롤링 필요 라이브러리

In [2]:
# Import Library
import re
import pandas as pd
from googleapiclient.discovery import build
from datetime import datetime, timedelta

### API 활용 댓글 크롤링 관련  함수

#### 1) UTC 시간을 한국어로 변환하는 함수

In [5]:
# UTC 시간을 한국 시간으로 변환하는 함수
def convert_to_korean_time(utc_datetime_str):
    utc_datetime = datetime.strptime(utc_datetime_str, "%Y-%m-%dT%H:%M:%SZ")
    kst_datetime = utc_datetime + timedelta(hours=9)
    return kst_datetime.strftime("%Y-%m-%d")

# DataFrame에서 특정 컬럼의 UTC 시간을 KST로 변환하는 함수
def convert_column_to_korean_time(df, column_name):
    df[column_name] = df[column_name].apply(convert_to_korean_time)
    return df

#### 2) 유튜브 댓글 수집 함수
- 날짜
- 댓글 아이디
- 댓글 내용
- 좋아요 수

In [7]:
def video_comments(video_id):
	# empty list for storing reply
	replies = []

	# creating youtube resource object
	youtube = build('youtube', 'v3', developerKey=api_key)

	# retrieve youtube video results
	video_response = youtube.commentThreads().list(part='snippet,replies', videoId=video_id).execute()

	# iterate video response
	while video_response:

		# extracting required info
		# from each result object
		for item in video_response['items']:

			# Extracting comments ()
			published = item['snippet']['topLevelComment']['snippet']['publishedAt']
			user = item['snippet']['topLevelComment']['snippet']['authorDisplayName']

			# Extracting comments
			comment = item['snippet']['topLevelComment']['snippet']['textDisplay']
			likeCount = item['snippet']['topLevelComment']['snippet']['likeCount']

			replies.append([published, user, comment, likeCount])

			# counting number of reply of comment
			replycount = item['snippet']['totalReplyCount']

			# if reply is there
			if replycount>0:
				# iterate through all reply
				for reply in item['replies']['comments']:

					# Extract reply
					published = reply['snippet']['publishedAt']
					user = reply['snippet']['authorDisplayName']
					repl = reply['snippet']['textDisplay']
					likeCount = reply['snippet']['likeCount']

					# Store reply is list
					#replies.append(reply)
					replies.append([published, user, repl, likeCount])

			# print comment with list of reply
			#print(comment, replies, end = '\n\n')

			# empty reply list
			#replies = []

		# Again repeat
		if 'nextPageToken' in video_response:
			video_response = youtube.commentThreads().list(
					part = 'snippet,replies',
					pageToken = video_response['nextPageToken'],
					videoId = video_id
				).execute()
		else:
			break
	#endwhile
	return replies

In [8]:
# 동영상 제목 가져오기 함수
def get_video_title_for_filename(video_id):
    youtube = build("youtube", "v3", developerKey=api_key)
    
    video_response = youtube.videos().list(part="snippet", id=video_id).execute()
    
    # 동영상 제목 추출
    if video_response['items']:
        video_title = video_response['items'][0]['snippet']['title']
    else:
        video_title = "제목을 가져올 수 없음"
    
    # 파일 이름에 사용 불가한 문자 제거
    sanitized_title = re.sub(r'[\\/*?:"<>|]', "", video_title)
    
    # 파일 이름 길이 제한 (예: 100자 이하로 제한)
    max_length = 100
    if len(sanitized_title) > max_length:
        sanitized_title = sanitized_title[:max_length]
    
    return sanitized_title

### 데이터 수집
- 필요 파라미터
  - API Key
  - Video link : ex) https://www.youtube.com/watch?v=xDlaALV5j04
  - Video ID : ex) xDlaALV5j04 <- https://www.youtube.com/watch?v= **xDlaALV5j04**

In [10]:
# Insert Your API KEY
api_key = 'AIzaSyDHNwFky0d94JBJ5R37W9pXyLFOxtgIN0M'

# Enter video id
video_id = "https://www.youtube.com/watch?v=RehVJ7cH_9o".replace('https://www.youtube.com/watch?v=','') #isikan dengan kode / ID video

# Call function
comments = video_comments(video_id)
df = pd.DataFrame(comments, columns=['Date', 'ID', 'Comment', 'Like'])
df = convert_column_to_korean_time(df, 'Date')
df

Unnamed: 0,Date,ID,Comment,Like
0,2024-10-25,@이환희-o8w,전원은 냉장고처럼 항상 켜두는건가요,0
1,2024-09-14,@danielyun8356,사망여우님 채널에 나온 제품이군요,1
2,2024-09-09,@shlee9228,사망여우 정보 확인 하세요. 제조사 사*꾼 집단이라고 합니다.,0
3,2024-09-08,@고고-m4e,사막여우 보고 린클 어디서 봤는데 하고 찾아보니 잇섭이네,1
4,2024-09-07,@johnclock,린클 어디서 봤나 했는데 여기였네…. 예전에 잇섭님 믿고 사볼까 했는데 안사길 잘함;;,0
...,...,...,...,...
1822,2022-07-23,@Dori_-_,푸짐한 잇섭형...,4
1823,2022-07-23,@진선영-r7e,1트,0
1824,2022-07-23,@9reum9,ㅋㅋ늘어난 배가 매력적이십니다,11
1825,2022-07-23,@황인태-d3j,1등,0


### 데이터 전처리(일부)

#### 1) 전처리 확인용 전체 행/열 옵션 설정

In [13]:
pd.set_option('display.max_colwidth', None) # 컬럼 너비 제한 해제
pd.set_option('display.max_columns', None) # Pandas 전체 열 확인
pd.set_option('display.max_rows', None) # Pandas 전체 행 확인

#### 2) 중복 댓글 삭제

In [15]:
df = df.drop_duplicates()
df

Unnamed: 0,Date,ID,Comment,Like
0,2024-10-25,@이환희-o8w,전원은 냉장고처럼 항상 켜두는건가요,0
1,2024-09-14,@danielyun8356,사망여우님 채널에 나온 제품이군요,1
2,2024-09-09,@shlee9228,사망여우 정보 확인 하세요. 제조사 사*꾼 집단이라고 합니다.,0
3,2024-09-08,@고고-m4e,사막여우 보고 린클 어디서 봤는데 하고 찾아보니 잇섭이네,1
4,2024-09-07,@johnclock,린클 어디서 봤나 했는데 여기였네…. 예전에 잇섭님 믿고 사볼까 했는데 안사길 잘함;;,0
5,2024-09-06,@user-emiya_kookejja,사망여우 보고 호다닥 왔습니다,0
6,2024-09-06,@frodos47,린클 사망여우 채널에 등장,2
7,2024-09-06,@TheUMma11,사망여웁니다,1
8,2024-09-06,@gggggarden,사기네,0
9,2024-09-06,@2서준,린클 사기 기업인데 입장은요?<br>사망여우 영상 올라왔습니다<br>가짜 광고하는 회사의 대표가 차린 기업이라는 것이라는,2


### 데이터 수집 결과 저장

In [17]:
title = get_video_title_for_filename(video_id)
df.to_csv(f'{title}.csv')