# **유튜버 검색 및 DB 입력 자동화**

### 1. 키워드 검색
- youtube api 일간 사용량 10,000
- **search** 할당량 100: 하루 최대 100개 (많은 검색 불가)
- **channels** 할당량 1: 직접 검색하여 채널 id 수집 > 채널 정보 수집

In [None]:
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from googleapiclient.discovery import build

def get_channel_info(driver, channel_name, max_retries=2):
    """
    Selenium을 사용하여 YouTube에서 채널을 검색하고, 채널명과 채널 핸들(ID)를 가져오는 함수
    """
    for attempt in range(max_retries):
        try:
            # YouTube 검색 URL
            search_url = f"https://www.youtube.com/results?search_query={channel_name}&sp=EgIQAg%253D%253D"  # 채널 필터 추가
            driver.get(search_url)

            # 페이지 로딩 대기
            WebDriverWait(driver, 5).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, "ytd-channel-renderer"))
            )

            # 첫 번째 채널 정보 블록 찾기
            channel = driver.find_element(By.CSS_SELECTOR, "ytd-channel-renderer")

            # 채널명 추출
            name_element = channel.find_element(By.CSS_SELECTOR, "yt-formatted-string#text")
            channel_name_found = name_element.text.strip()

            # 채널 핸들 (ID) 추출
            handle_element = channel.find_element(By.CSS_SELECTOR, "yt-formatted-string#subscribers")
            channel_handle = handle_element.text.strip()  # @ 포함된 핸들

            if channel_name_found.lower() == channel_name.lower():
                return {
                    "채널명": channel_name_found,
                    "핸들": channel_handle  # 핸들 (예: @ChimChakMan_Official)
                }

            return None  # 채널을 찾지 못한 경우
        except Exception as e:
            print(f"Error fetching data for {channel_name} (attempt {attempt + 1}/{max_retries}): {e}")
            time.sleep(2)  # 재시도 전 대기
    return None


def get_channel_details(api_key, channel_handle):
    """
    YouTube Data API를 사용하여 채널 핸들로 상세 정보를 가져오는 함수
    """
    youtube = build("youtube", "v3", developerKey=api_key)

    try:
        # 채널 핸들을 이용하여 API 호출
        channel_response = youtube.channels().list(
            part="snippet,statistics",
            forHandle=channel_handle  # 'id' 대신 'forHandle' 사용
        ).execute()

        if 'items' in channel_response and len(channel_response['items']) > 0:
            channellist = channel_response['items'][0]
            return {
                "keyword": channellist['snippet']['title'],
                "os": channellist['id'],
                "publishedAt": channellist['snippet']['publishedAt'],
                "description": channellist['snippet'].get('description', ''),
                "naver_image": channellist['snippet']['thumbnails']['high']['url'],
                "viewCount": channellist['statistics'].get('viewCount', '0'),
                "subscriberCount": channellist['statistics'].get('subscriberCount', '0'),
                "videoCount": channellist['statistics'].get('videoCount', '0'),
            }
    except Exception as e:
        print(f"Error fetching details for {channel_handle}: {e}")

    return None


# 실행 예제
if __name__ == "__main__":
    # API 키 설정 (본인의 API 키 입력)
    API_KEY = "AIzaSyCqgEF-kNAyYdUBqFQQXtogZWiaRcZ0H0c"

    # Chrome 드라이버 설정
    chrome_options = Options()
    chrome_options.add_argument("--headless")  # 브라우저 창을 띄우지 않음
    chrome_options.add_argument("--no-sandbox")
    chrome_options.add_argument("--disable-dev-shm-usage")

    service = Service()
    driver = webdriver.Chrome(service=service, options=chrome_options)

    # 사용자 입력 (콤마로 구분된 여러 개의 검색어 입력 가능)
    search_channel_names = input("검색할 유튜브 채널명을 입력하세요 (여러 개 입력 시 콤마로 구분): ")

    # 입력값을 리스트로 변환
    search_channel_list = [name.strip() for name in search_channel_names.split(",")]

    # 데이터 저장 리스트
    df_results_list = []

    for search_channel_name in search_channel_list:
        print(f"\n🔍 {search_channel_name} 채널 검색 중...")

        # 1. Selenium을 사용하여 채널 핸들 가져오기
        channel_info = get_channel_info(driver, search_channel_name)

        if channel_info:
            print(f"✅ 채널 검색 성공: {channel_info}")

            # 2. API를 사용하여 채널 세부 정보 가져오기
            channel_details = get_channel_details(API_KEY, channel_info["핸들"])

            if channel_details:
                # 데이터프레임 생성 및 처리
                df_results = pd.DataFrame([channel_details])
                df_results['os_source'] = 'YOUTUBE'

                # 'naver_info' 컬럼 추가 (딕셔너리 형태의 문자열)
                df_results['naver_info'] = df_results.apply(lambda row:
                    f"{{'description': '{row['description']}', 'publishedAt': '{row['publishedAt']}', 'viewCount': '{row['viewCount']}', 'subscriberCount': '{row['subscriberCount']}', 'videoCount': '{row['videoCount']}'}}",
                    axis=1
                )

                # combined_keyword 컬럼 추가
                df_results['combined_keyword'] = df_results['keyword']

                # 필요 없는 컬럼 삭제
                df_results = df_results.drop(columns=['publishedAt', 'description', 'viewCount', 'subscriberCount', 'videoCount'])

                # 컬럼 순서 정리
                desired_order = ['os', 'os_source', 'keyword', 'combined_keyword', 'naver_info', 'naver_image']
                df_results = df_results[desired_order]

                # 리스트에 추가
                df_results_list.append(df_results)

            else:
                print(f"⚠️ API에서 {search_channel_name} 정보를 가져오지 못했습니다.")
        else:
            print(f"⚠️ {search_channel_name} 채널을 찾을 수 없습니다.")

    # WebDriver 종료
    driver.quit()

    # 여러 개의 검색 결과를 하나의 데이터프레임으로 결합
    if df_results_list:
        final_df = pd.concat(df_results_list, ignore_index=True)
    else:
        print("\n❌ 검색된 유튜브 채널이 없습니다.")

final_df





🔍 풍자테레비 채널 검색 중...
✅ 채널 검색 성공: {'채널명': '풍자테레비', '핸들': '@PUNGJAPUNGJA'}

🔍 뭐든하기루 채널 검색 중...
✅ 채널 검색 성공: {'채널명': '뭐든하기루', '핸들': '@whateverplay'}

🔍 밥슨[Spicyking] 채널 검색 중...
✅ 채널 검색 성공: {'채널명': '밥슨[Spicyking]', '핸들': '@Spicyking'}


Unnamed: 0,os,os_source,keyword,combined_keyword,naver_info,naver_image
0,UCI5WgFSOVO9UJFcqQTiClHQ,YOUTUBE,풍자테레비,풍자테레비,{'description': '비지니스 메일\npung111ja222@naver.c...,https://yt3.ggpht.com/UXaQ-pvp8Xw_B8n_GDOeK7ah...
1,UCUxh_8uMMnHY-jBSwDjTVWg,YOUTUBE,뭐든하기루,뭐든하기루,{'description': '안녕하세요 개그우먼 신기루입니다.\n뭔들 해볼게요 ❤...,https://yt3.ggpht.com/QnJ8RJ5E0ZMC3HDEG3x07Smu...
2,UCwX4ljNa8NWObWpK-RUA4HA,YOUTUBE,밥슨[Spicyking],밥슨[Spicyking],{'description': '⬇️비지니스문의⬇️\n\nqlqlalal0098@gm...,https://yt3.ggpht.com/2HD1yEYIg0pRuDfBYRD6gPNM...


### 2. 데베에 추가

In [None]:
from sqlalchemy import create_engine
import pandas as pd
import urllib.parse
import ast
import json
import re

# 🔹 MySQL 연결 정보
db_config = {
    "dialect": "mysql",
    "driver": "pymysql",
    "username": "username",
    "password": urllib.parse.quote("password"),  # '@' 처리
    "server": "server",
    "port": 3306,
    "database": "database",
}

# 🔹 SQLAlchemy 연결 URL 생성
DB_URL = "{dialect}+{driver}://{username}:{password}@{server}:{port}/{database}".format(**db_config)

# 🔹 DB 연결
engine = create_engine(DB_URL)

# 기존 데이터 삭제 없이 업데이트 또는 삽입
from sqlalchemy import text

# 🔹 SQL 쿼리
insert_keyword_query = text("""
insert_keyword_query
""")

insert_middle_query = text("""
insert_middle_query
""")

# 🔹 여러 개의 데이터를 한 번에 삽입
with engine.begin() as conn:
    for row in final_df.to_dict(orient="records"):

        # 🔹 수집된 keyword 삽입
        result = conn.execute(insert_keyword_query, row)

        # 🔹 방금 삽입된 keyword_id 가져오기
        keyword_id = conn.execute(text("SELECT LAST_INSERT_ID();")).scalar()

        # 🔹 keyword_id가 생성되었을 경우
        if keyword_id:
            conn.execute(insert_middle_query, {"keyword_id": keyword_id})

print("데이터 삽입 완료!")


데이터 삽입 완료!
