# 영상 URL 수집

In [17]:
import time
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.action_chains import ActionChains

In [28]:
def openSelenium():
    # ChromeOptions 설정
    options = Options()
    # options.add_argument("--incognito")
    options.add_argument("--headless=new") 
    options.add_argument("--no-sandbox")
    # options.add_argument("--disable-setuid-sandbox")
    # options.add_argument("--disable-dev-shm-usage")
    # options.add_argument(
    #     "user-agent=Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.50 Safari/537.36"
    # )
    # options.add_experimental_option("detach", True)

    # Selenium Manager를 통한 자동 드라이버 관리
    driver = webdriver.Chrome(options=options)
    
    # 암시적 대기 시간 설정
    driver.implicitly_wait(1.5)

    # WebDriver 속성 수정 (anti-detection)
    driver.execute_cdp_cmd(
        "Page.addScriptToEvaluateOnNewDocument",
        {"source": """ Object.defineProperty(navigator, 'webdriver', { get: () => undefined }) """},
    )
    
    return driver

    
def closeSelenium(browser):
    browser.close()
    browser.quit()
    


def scroll_with_action_chains(driver, scroll_num=10):
    """ActionChains를 사용하여 스크롤"""
    action = ActionChains(driver)
    for _ in range(scroll_num):  # 원하는 횟수만큼 반복
        action.scroll_by_amount(0, 5000).perform()  # 세로로 500px씩 스크롤
        time.sleep(2)  # 콘텐츠 로딩 대기

In [26]:
browser = openSelenium()

In [27]:
closeSelenium(browser)

In [4]:
channel_lst = ["피식대학", "SGBG", "swab85", "konuri", "Yoiki", "NERDULT", "donghahahaha", "JBKWAK", "geean84", "carthejungwon"] 
# 피식대학, 싱긍벙글, 승우아빠, 고누리, 가요이, 너덜트, 동하하(스탠드업), 곽튜브, 기안84, 카더정원

In [5]:
v_lst = []
for channel in channel_lst:
    print(channel)
    browser.get(f"https://www.youtube.com/@{channel}/videos")
    time.sleep(2)
    scroll_with_action_chains(browser)
    html = BeautifulSoup(browser.page_source, "html.parser")
    video_contents = html.select('#thumbnail')

    lst = []
    for c in video_contents:
        href = c.get('href')
        if href:
            lst.append(href)
    print(channel, "스크롤 후 : ", len(set(lst)))
    v_lst.append([channel, list(set(lst))])

피식대학
피식대학 스크롤 후 :  330
SGBG
SGBG 스크롤 후 :  292
swab85
swab85 스크롤 후 :  330
konuri
konuri 스크롤 후 :  330
Yoiki
Yoiki 스크롤 후 :  154
NERDULT
NERDULT 스크롤 후 :  82
donghahahaha
donghahahaha 스크롤 후 :  114
JBKWAK
JBKWAK 스크롤 후 :  330
geean84
geean84 스크롤 후 :  165
carthejungwon
carthejungwon 스크롤 후 :  64


In [1]:
import pandas as pd

In [None]:
df = pd.DataFrame(v_lst)

In [None]:
df.to_csv('video_url_lst_v1.csv', encoding='utf-8-sig')

In [24]:
# 채널 메타정보 (https://developers.google.com/youtube/v3/docs/channels?hl=ko)

# 영상 속 컨텐츠 수집 (유튜브 api 사용) 
- YouTube Data API를 사용 설정하는 프로젝트에는 일일 10,000단위의 기본 할당량이 할당되며, 이는 대다수의 API 사용자에게 충분한 용량입니다.
    - 메타 데이터 : 비디오(https://developers.google.com/youtube/v3/docs/videos?hl=ko)
        - 싫어요 : 올린 사람이 비공개로 설정하면 수집 불가능
    - 리뷰 : youtube#comment / snippet,replies / list:1 -> 100개씩 수집 가능, 1,000개 수집하면 10 할당
    - 자막 : https://blog.pages.kr/3251
    - 영상 : https://github.com/get-pytube/pytube3
- API 키 : AIzaSyAUK1xyhD_JW_F_NA5L1zVE_zxaUjFJ90A
- 할당량 초과시 : https://github.com/ytdl-org/youtube-dl?tab=readme-ov-file
- 참고: https://velog.io/@jihyunko/python-%EC%9C%A0%ED%8A%9C%EB%B8%8C-%EB%8C%93%EA%B8%80-%ED%81%AC%EB%A1%A4%EB%A7%81

- 리포트에서 수집 가능한 요소 확인 필요 : 
    - https://developers.google.com/youtube/reporting/v1/reference/rest/v1/jobs?hl=ko

In [2]:
import os
import pandas as pd
import json
from googleapiclient.discovery import build

In [3]:
df = pd.read_csv('video_url_lst_v1.csv', index_col=0)

In [4]:
# API 키 설정
API_KEY = 'AIzaSyAUK1xyhD_JW_F_NA5L1zVE_zxaUjFJ90A'
YOUTUBE_API_SERVICE_NAME = 'youtube'
YOUTUBE_API_VERSION = 'v3'

# YouTube API 서비스 초기화
youtube = build(YOUTUBE_API_SERVICE_NAME, YOUTUBE_API_VERSION, developerKey=API_KEY)

### 채널 정보 수집

In [5]:
# 피식대학, 싱긍벙글, 승우아빠, 고누리, 가요이, 너덜트, 동하하(스탠드업), 곽튜브, 기안84, 카더정원
channel_lst = ["피식대학", "SGBG", "swab85", "konuri", "Yoiki", "NERDULT", "donghahahaha", "JBKWAK", "geean84", "carthejungwon"] 
channel_id_lst = ["UCGX5sP4ehBkihHwt5bs5wvg", "UC7_CFRfhIj-fSk3patOQOaw", "UCgsffS7MfKL6YU3r_U3E-aA", "UCs0P4GrXEumyYn-d8ASrGlA", "UC8TxOmxwC8QpHRZra7sOFig", "UCXEKwWflysXu312NmIP_dlw", "UC_VSHnyAnKnljt3iMYd8H3w", "UClRNDVO8093rmRTtLe4GEPw", "UC1Rz7a_DWtsE9cQwSyElE0Q", "UCA6Z6cF3orXMmdeCPUH1-NA"] 

In [30]:
for c_name, c_id in zip(channel_lst, channel_id_lst):
    print('수집 중 인 채널:', c_name)
    os.makedirs(f'{c_name}', exist_ok=True)
    
    # 채널 정보 가져오기
    request = youtube.channels().list(
        part='snippet, statistics, contentDetails, topicDetails, status, brandingSettings', 
        id=c_id
    )
    response_channel = request.execute()    
    save_file_name = c_name + '/chanel_info.json'
    with open(save_file_name, "w") as json_file:
        json.dump(response_channel, json_file, ensure_ascii=False, indent=4)
    print(f'저장 완료: {save_file_name}')

수집 중 인 채널: 피식대학
저장 완료: 피식대학/chanel_info.json
수집 중 인 채널: SGBG
저장 완료: SGBG/chanel_info.json
수집 중 인 채널: swab85
저장 완료: swab85/chanel_info.json
수집 중 인 채널: konuri
저장 완료: konuri/chanel_info.json
수집 중 인 채널: Yoiki
저장 완료: Yoiki/chanel_info.json
수집 중 인 채널: NERDULT
저장 완료: NERDULT/chanel_info.json
수집 중 인 채널: donghahahaha
저장 완료: donghahahaha/chanel_info.json
수집 중 인 채널: JBKWAK
저장 완료: JBKWAK/chanel_info.json
수집 중 인 채널: geean84
저장 완료: geean84/chanel_info.json
수집 중 인 채널: carthejungwon
저장 완료: carthejungwon/chanel_info.json


In [19]:
for c_name, c_id in zip(channel_lst, channel_id_lst):
    print(c_name, c_id)
    # 채널 검색
    request = youtube.search().list(
            part='snippet',
            channelId=c_id,
            type = 'video',
            eventType = 'live' 
        )
    response_video = request.execute()
    print(response_video)
    # break
    # response_channel = request.execute()    
    # save_file_name = c_name + '/chanel_info.json'
    # with open(save_file_name, "w") as json_file:
    #     json.dump(response_channel, json_file, ensure_ascii=False, indent=4)
    # print(f'저장 완료: {save_file_name}')

피식대학 UCGX5sP4ehBkihHwt5bs5wvg
{'kind': 'youtube#searchListResponse', 'etag': 'jY03jGgN1g_xKk8RSHyjN_PoL8I', 'regionCode': 'KR', 'pageInfo': {'totalResults': 0, 'resultsPerPage': 0}, 'items': []}
SGBG UC7_CFRfhIj-fSk3patOQOaw


{'kind': 'youtube#searchListResponse', 'etag': 'jY03jGgN1g_xKk8RSHyjN_PoL8I', 'regionCode': 'KR', 'pageInfo': {'totalResults': 0, 'resultsPerPage': 0}, 'items': []}
swab85 UCgsffS7MfKL6YU3r_U3E-aA
{'kind': 'youtube#searchListResponse', 'etag': 'jY03jGgN1g_xKk8RSHyjN_PoL8I', 'regionCode': 'KR', 'pageInfo': {'totalResults': 0, 'resultsPerPage': 0}, 'items': []}
konuri UCs0P4GrXEumyYn-d8ASrGlA
{'kind': 'youtube#searchListResponse', 'etag': 'jY03jGgN1g_xKk8RSHyjN_PoL8I', 'regionCode': 'KR', 'pageInfo': {'totalResults': 0, 'resultsPerPage': 0}, 'items': []}
Yoiki UC8TxOmxwC8QpHRZra7sOFig
{'kind': 'youtube#searchListResponse', 'etag': 'jY03jGgN1g_xKk8RSHyjN_PoL8I', 'regionCode': 'KR', 'pageInfo': {'totalResults': 0, 'resultsPerPage': 0}, 'items': []}
NERDULT UCXEKwWflysXu312NmIP_dlw
{'kind': 'youtube#searchListResponse', 'etag': 'jY03jGgN1g_xKk8RSHyjN_PoL8I', 'regionCode': 'KR', 'pageInfo': {'totalResults': 0, 'resultsPerPage': 0}, 'items': []}
donghahahaha UC_VSHnyAnKnljt3iMYd8H3w
{'kind': 

In [15]:
response_video

{'kind': 'youtube#searchListResponse',
 'etag': 'WSg6l7VuC3BZDI1jNmi7ClZICNc',
 'nextPageToken': 'CAUQAA',
 'regionCode': 'KR',
 'pageInfo': {'totalResults': 61207, 'resultsPerPage': 5},
 'items': [{'kind': 'youtube#searchResult',
   'etag': 'KmFhfbEZnzYmMt17KULee9HJ60k',
   'id': {'kind': 'youtube#video', 'videoId': 'ZcPro3QF3ms'},
   'snippet': {'publishedAt': '2023-02-20T11:55:22Z',
    'channelId': 'UCGX5sP4ehBkihHwt5bs5wvg',
    'title': '이 영상 하나로 영국 발음 끝내기',
    'description': 'shorts #피식대학 #피식쇼 #영국남자 #영국발음 #영국.',
    'thumbnails': {'default': {'url': 'https://i.ytimg.com/vi/ZcPro3QF3ms/default.jpg',
      'width': 120,
      'height': 90},
     'medium': {'url': 'https://i.ytimg.com/vi/ZcPro3QF3ms/mqdefault.jpg',
      'width': 320,
      'height': 180},
     'high': {'url': 'https://i.ytimg.com/vi/ZcPro3QF3ms/hqdefault.jpg',
      'width': 480,
      'height': 360}},
    'channelTitle': '피식대학Psick Univ',
    'liveBroadcastContent': 'none',
    'publishTime': '2023-02-20T11:55:2

### 비디오 내 정보, 댓글 수집

In [None]:
re_try_lst = []
for _, row in df.iterrows():
    name = row['0']
    v_id_lst = eval(row['1'])
    print('수집 중 인 채널: ', name)
    os.makedirs(f'{name}', exist_ok=True)
    for v_id in v_id_lst:
        v_id_ = v_id.split('/watch?v=')[1]
        print(v_id_)
        # try:
        # 비디오 정보 가져오기
        # request = youtube.videos().list(
        #     part='snippet, statistics, topicDetails, paidProductPlacementDetails, liveStreamingDetails', # fileDetails, processingDetails, suggestions은 소유자만 접근 가능
        #     id=v_id_
        # )
        # response_video = request.execute()
        # print(response_video)

        break
    break
        # # JSON 파일로 저장
        # save_file_name = name + '/video_' + v_id_ + '.json'
        # with open(save_file_name, "w") as json_file:
        #     json.dump(response_video, json_file, ensure_ascii=False, indent=4)
        # print(f'저장 완료: {save_file_name}')
        
            # # 댓글 불러오기
            # request = youtube.commentThreads().list(
            #     part='snippet, replies',
            #     videoId=v_id_,
            #     maxResults=100,
            #     order = "relevance",
                
            # )
            # response_comment = request.execute()
            
            # # JSON 파일로 저장
            # save_file_name = name + '/comment_1_' + v_id_ + '.json'
            # with open(save_file_name, "w") as json_file:
            #     json.dump(response_comment, json_file, ensure_ascii=False, indent=4)
            # print(f'저장 완료: {save_file_name}')
            
            # # 다음 페이지도 저장
            # for i in range(2, 4, 1):
            #     nextPageToken = response_comment['nextPageToken']
            #     request = youtube.commentThreads().list(
            #         part='snippet, replies',
            #         videoId=v_id_,
            #         maxResults=100,
            #         order = "relevance",
            #         pageToken = nextPageToken
                    
            #     )
            #     response_comment = request.execute()
                
            #     # JSON 파일로 저장
            #     save_file_name = name + f'/comment_{i}_' + v_id_ + '.json'
            #     with open(save_file_name, "w") as json_file:
            #         json.dump(response_comment, json_file, ensure_ascii=False, indent=4)
            #     print(f'저장 완료: {save_file_name}')
                
        # except:
        #     save_file_name = name + '/' + v_id_ + '.json'
        #     re_try_lst.append(save_file_name)
        #     print(f"다시 저장 필요함:{save_file_name}")

In [8]:
response_video

{'kind': 'youtube#videoListResponse',
 'etag': 'R_fI0Z-nL5y3AAhE7dUdrCHiFX4',
 'items': [{'kind': 'youtube#video',
   'etag': 'BHWpCTushejTXXuCtiyHBFviqh8',
   'id': 'kvN2n_iZWcc',
   'snippet': {'publishedAt': '2024-04-01T11:00:07Z',
    'channelId': 'UCGX5sP4ehBkihHwt5bs5wvg',
    'title': '[한사랑산악회] 산에서,,,찾은 계절과,,인생;;',
    'description': '#한사랑산악회 #안산 #계절\n\n피식대학 https://www.instagram.com/psickuniv\n이용주 https://www.instagram.com/denver_yongju\n김민수 https://www.instagram.com/mukgostudent\n정재형 https://www.instagram.com/hell773h\n이창호 https://www.instagram.com/zzang2ho',
    'thumbnails': {'default': {'url': 'https://i.ytimg.com/vi/kvN2n_iZWcc/default.jpg',
      'width': 120,
      'height': 90},
     'medium': {'url': 'https://i.ytimg.com/vi/kvN2n_iZWcc/mqdefault.jpg',
      'width': 320,
      'height': 180},
     'high': {'url': 'https://i.ytimg.com/vi/kvN2n_iZWcc/hqdefault.jpg',
      'width': 480,
      'height': 360},
     'standard': {'url': 'https://i.ytimg.com/vi/kvN2n_iZWcc/sdd

In [8]:
len(re_try_lst)

0

In [15]:
pd.DataFrame(re_try_lst).to_csv('fail_lst_v1.csv')

### 대본 수집

In [31]:
from selenium.webdriver.common.by import By

In [29]:
browser = openSelenium()

In [None]:
re_try_lst = []
for _, row in df.iterrows():
    name = row['0']
    v_id_lst = eval(row['1'])
    print('수집 중 인 채널: ', name)
    for v_id in v_id_lst:
        video_url = 'http://youtube.com/' + v_id
        print(video_url)
        browser.get(video_url)
        time.sleep(3)
        html = BeautifulSoup(browser.page_source, "html.parser")
        # <tp-yt-paper-button animated="" aria-disabled="false" class="button style-scope ytd-text-inline-expander" elevation="0" id="expand-sizer" role="button" style-target="host" tabindex="0">
        transcript_button = WebDriverWait(browser, 10).until(
            EC.element_to_be_clickable((By.ID, "expand-sizer"))  # ID로 더보기 버튼 찾기
        )
        print(transcript_button)
        transcript_button.click()
    break

In [34]:
browser.find_element(By.ID, "expand-sizer")

<selenium.webdriver.remote.webelement.WebElement (session="b76ee283b7b6c4957c8933f14ba54beb", element="f.AF537A1C345785FD79770ED7A65D8C8C.d.044A71586E8E3E04FDAEB47BD36F8164.e.83")>