# 유튜브 검색 url 수집(API 활용)

유튜브 api_key 획득 방법
- Google Cloud Platform (구글 로그인 필요 https://console.cloud.google.com/apis/)
- 새로운 프로젝트 생성 및 프로젝트 명 등록
- 라이브러리-> You Tube Data API v3 선택 -> [사용] 탭 클릭
- 사용자인증정보 -> +사용자인증정보만들기 클릭 -> API키 선택 -> 생성된 API키 복사 후 저장


유튜브 채널 ID 확인 방법
- 채널 웹페이지에서 채널 이름 옆에 '더보기' 클릭
- 정보 > 채널 공유 > 채널 ID 복사

## 수집 데이터 엿보기

In [None]:
import requests
import pandas as pd
from urllib.parse import quote_plus

API_KEY = 'AIzaSyB-y91CbagoGNr0EsNy47APSvh3h7hUADo'
SEARCH_QUERY = '경희대'
encoded_query = quote_plus(SEARCH_QUERY)
CHANNEL_ID = 'UCcQTRi69dsVYHN3exePtZ1A'

target_url = f"https://www.googleapis.com/youtube/v3/search?key={API_KEY}&channelId={CHANNEL_ID}&part=snippet&q={encoded_query}&type=video&maxResults=50&order=date&videoCategoryId=25" #MAX_RESULTS = 50  # 한 페이지에 최대 50개의 결과 요청

response = requests.get(target_url)
data = response.json()

len(data['items'])   # MAX_RESULTS = 50

title=data['items'][0]['snippet']['title']
date=data['items'][0]['snippet']['publishedAt']
video_id=data['items'][0]['id']['videoId']
video_url=f"https://www.youtube.com/watch?v={video_id}"

print([title, date, video_id, video_url])

## 검색어로 유튜브 제목과 url 수집: 채널 설정 가능, 뉴스로 제한, 시간 제한(2분 미만) 없음

In [None]:
## 함수 만들기

import requests
import pandas as pd
from urllib.parse import quote_plus

def youtube_url_search1(API_KEY, SEARCH_QUERY, CHANNEL_ID, TOTAL_MAX_RESULTS):
    encoded_query = quote_plus(SEARCH_QUERY)     # 한글 쿼리 URL 인코딩
    # YouTube 검색 URL 초기 설정
    if CHANNEL_ID:
        target_url = f"https://www.googleapis.com/youtube/v3/search?key={API_KEY}&channelId={CHANNEL_ID}&part=snippet&q={encoded_query}&type=video&maxResults=50&order=date&videoCategoryId=25" #MAX_RESULTS = 50  # 한 페이지에 최대 50개의 결과 요청
    else:
        target_url = f"https://www.googleapis.com/youtube/v3/search?key={API_KEY}&part=snippet&q={encoded_query}&type=video&maxResults=50&order=date&videoCategoryId=25" # 25= news politics, 22= People & Blogs

    videos = []     # 영상 정보를 저장할 리스트 초기화
    collected_results = 0  # 수집한 데이터 개수를 추적하기 위한 카운터
    while collected_results < TOTAL_MAX_RESULTS:
        response = requests.get(target_url)
        data = response.json()
        # 영상 정보 추출
        if 'items' in data:
            for item in data['items']:
                if collected_results >= TOTAL_MAX_RESULTS:
                    break
                video_id = item['id']['videoId']
                title = item['snippet']['title']
                date = item['snippet']['publishedAt']
                video_url = f"https://www.youtube.com/watch?v={video_id}"
                videos.append({'title': title, 'date':date, 'video_url': video_url})
                collected_results += 1
        # nextPageToken이 있으면 URL 업데이트, 없으면 반복 중단
        if 'nextPageToken' in data and collected_results < TOTAL_MAX_RESULTS:
            page_token = data['nextPageToken']
            target_url = f"{target_url}&pageToken={page_token}"  # 업데이트된 target_url 사용
        else:
            break
    return pd.DataFrame(videos)


In [None]:
## 실습1

API_KEY = '--AIzaSyB-y91CbagoGNr0EsNy47APSvh3h7hUADo'
SEARCH_QUERY = '축구'
CHANNEL_ID = 'UCcQTRi69dsVYHN3exePtZ1A'  # KBS 채널 ID
#MAX_RESULTS = 50  # 한 페이지에 최대 50개의 결과 요청
TOTAL_MAX_RESULTS = 1000  # 총 요청할 결과 수 설정. 1000 정도로 하면 대체로 검색되는 건수 모두 수집됨(보통 몇백건)

youtube_urls1=youtube_url_search1(API_KEY=API_KEY, SEARCH_QUERY=SEARCH_QUERY, CHANNEL_ID=CHANNEL_ID, TOTAL_MAX_RESULTS=TOTAL_MAX_RESULTS)

# 결과 출력과 저장
print(youtube_urls1)
youtube_urls1.to_excel('youtube_urls1.xlsx')

# 유튜브 사이트에서 실제 검색 결과와 차이 날 수 있음: YouTube 웹사이트는 사용자의 검색 기록, 시청 기록, 위치 정보 등을 기반으로 개인화된 검색 결과를 제공. 반면, API를 통한 검색은 이러한 개인화 요소를 반영하지 않고 더 일반적이고 중립적인 결과를 반환.

## 검색어로 유튜브 제목과 url 수집: 채널 설정 가능, 2분 미만의 뉴스로 제한

In [None]:
## 함수 만들기

import requests
import pandas as pd
from urllib.parse import quote_plus
import re

## 비디오 길이 파싱 함수
def parse_duration(duration):
    """ISO 8601 기간을 분 단위로 변환"""
    hours, minutes, seconds = 0, 0, 0
    time_parts = re.findall(r"(\d+H|\d+M|\d+S)", duration)
    for part in time_parts:
        value = int(part[:-1])
        if part.endswith("H"):
            hours = value
        elif part.endswith("M"):
            minutes = value
        elif part.endswith("S"):
            seconds = value
    total_minutes = hours * 60 + minutes + seconds / 60
    return total_minutes


## 유튜브 검색 url 수집 함수
def youtube_url_search2(API_KEY, SEARCH_QUERY, CHANNEL_ID, TOTAL_MAX_RESULTS):
    encoded_query = quote_plus(SEARCH_QUERY)  # 한글 쿼리 URL 인코딩
    # YouTube 검색 URL 초기 설정
    if CHANNEL_ID:
        target_url = f"https://www.googleapis.com/youtube/v3/search?key={API_KEY}&channelId={CHANNEL_ID}&part=snippet&q={encoded_query}&type=video&maxResults=50&order=date&videoCategoryId=25" #MAX_RESULTS = 50  # 한 페이지에 최대 50개의 결과 요청
    else:
        target_url = f"https://www.googleapis.com/youtube/v3/search?key={API_KEY}&part=snippet&q={encoded_query}&type=video&maxResults=50&order=date&videoCategoryId=25"

    videos = []     # 영상 정보를 저장할 리스트 초기화
    collected_results = 0     # 수집한 데이터 개수를 추적하기 위한 카운터

    while collected_results < TOTAL_MAX_RESULTS:
        search_response = requests.get(target_url)
        search_data = search_response.json()
        if 'items' not in search_data:
            break  # 항목이 없으면 중단
        video_ids = [item['id']['videoId'] for item in search_data['items'] if 'videoId' in item['id']]
        # 비디오 상세 정보 요청
        details_url = f"https://www.googleapis.com/youtube/v3/videos?key={API_KEY}&part=contentDetails&id={','.join(video_ids)}"
        details_response = requests.get(details_url)
        details_data = details_response.json()
        # 비디오 길이 확인 및 필터링
        for item in details_data['items']:
            duration = item['contentDetails']['duration']
            total_minutes = parse_duration(duration)
            if total_minutes < 2:  # 2분 미만인 경우만 선택
                video_id = item['id']
                video = next((x for x in search_data['items'] if x['id']['videoId'] == video_id), None)
                if video:
                    title = video['snippet']['title']
                    video_url = f"https://www.youtube.com/watch?v={video_id}"
                    videos.append({'title': title, 'video_url': video_url})
                    collected_results += 1
                    if collected_results >= TOTAL_MAX_RESULTS:
                        break
        # 다음 페이지 토큰 처리
        if 'nextPageToken' in search_data and collected_results < TOTAL_MAX_RESULTS:
            target_url = f"https://www.googleapis.com/youtube/v3/search?key={API_KEY}&channelId={CHANNEL_ID}&part=snippet&q={encoded_query}&type=video&maxResults=50&order=date&videoCategoryId=25&pageToken={search_data['nextPageToken']}"
    return pd.DataFrame(videos)


In [None]:
## 실습2

API_KEY = 'AIzaSyB-y91CbagoGNr0EsNy47APSvh3h7hUADo'
SEARCH_QUERY = '축구'
CHANNEL_ID = 'UCcQTRi69dsVYHN3exePtZ1A'  # KBS 채널 ID
TOTAL_MAX_RESULTS = 1000  # 총 요청할 결과 수 설정. 1000 정도로 하면 대체로 검색되는 건수 모두 수집됨(보통 몇백건)

youtube_urls2=youtube_url_search2(API_KEY=API_KEY, SEARCH_QUERY=SEARCH_QUERY, CHANNEL_ID=CHANNEL_ID, TOTAL_MAX_RESULTS=TOTAL_MAX_RESULTS)

# 결과 출력과 저장
print(youtube_urls2)
youtube_urls2.to_excel('youtube_urls2.xlsx')

# 유튜브 사이트에서 실제 검색 결과와 차이 날 수 있음: YouTube 웹사이트는 사용자의 검색 기록, 시청 기록, 위치 정보 등을 기반으로 개인화된 검색 결과를 제공. 반면, API를 통한 검색은 이러한 개인화 요소를 반영하지 않고 더 일반적이고 중립적인 결과를 반환.