In [130]:
!pip install pytrends
!pip install google-api-python-client

Collecting pytrends
  Downloading pytrends-4.9.2-py3-none-any.whl.metadata (13 kB)
Downloading pytrends-4.9.2-py3-none-any.whl (15 kB)
Installing collected packages: pytrends
Successfully installed pytrends-4.9.2

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Collecting google-api-python-client
  Downloading google_api_python_client-2.153.0-py2.py3-none-any.whl.metadata (6.7 kB)
Collecting httplib2<1.dev0,>=0.19.0 (from google-api-python-client)
  Downloading httplib2-0.22.0-py3-none-any.whl.metadata (2.6 kB)
Collecting google-auth!=2.24.0,!=2.25.0,<3.0.0.dev0,>=1.32.0 (from google-api-python-client)
  Downloading google_auth-2.36.0-py2.py3-none-any.whl.metadata (4.7 kB)
Collecting google-auth-httplib2<1.0.0,>=0.2.0 (from google-api-python-client)
  Downloading google_auth_httplib2-0.2

In [131]:
import csv
import pandas as pd
# 셀레니움 사용
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import WebDriverException, NoSuchElementException, TimeoutException
import time
# 구글 트랜드 사용
from pytrends.request import TrendReq

In [141]:

def save_partial_results(data_dict, data_col_name, filename="partial.csv"):
    """
    중간 데이터 저장 함수 정의
    """
    partial_data = {
        'year': list(data_dict.keys()),
        data_col_name: list(data_dict.values()),
    }
    # Pandas DataFrame으로 변환 후 저장
    pd.DataFrame(partial_data).to_csv(filename, index=False)
    print(f"부분 데이터가 {filename}에 저장되었습니다!")

def get_article_counts_by_year():
    '''
    연도별로 프로야구 관련 기사 개수를 크롤링한다.
    리턴값: 2010년부터 2024년까지 기사 개수를 년도: 기사 개수 딕셔너리 형태로 리턴
    '''
    total_articles_counts = {year: 0 for year in range(2010, 2025)}
    for year in range(2010, 2025):
        for month in range(1, 13):
            for day in range(1, 32):
                # 날짜 형식 맞추기 (예: 20240101)
                date = f"{year}{month:02}{day:02}"

                # 날짜 유효성 검사
                try:
                    time.strptime(date, "%Y%m%d")  # 유효하지 않은 날짜는 ValueError 발생
                except ValueError:
                    continue

                # 하루 기사 개수 계산
                daily_articles = get_daily_article_count(date)
                total_articles_counts[year] += daily_articles
                print(f"{date} 기사 개수: {daily_articles}개 / 총: {total_articles_counts[year]}개")
        save_partial_results(total_articles_counts, 'article_counts_by_year', f"{year}_partial_y_aud_arti.csv")
    return total_articles_counts

def get_daily_article_count(date):
    '''
    하루의 기사 개수를 리턴합니다.
    리턴값: int
    '''
    total_post_counts = 0
    # Selenium Chromedriver 설정
    chromedriver_path = "/usr/local/bin/chromedriver"  # Chromedriver 경로
    service = Service(chromedriver_path)
    driver = webdriver.Chrome(service=service)
    # 네이버 야구 페이지 이동
    base_url = f"https://sports.news.naver.com/kbaseball/news/index?isphoto=N&view=photo&date={date}&type=latest"
    try: 
        driver.get(base_url)
        time.sleep(5)  # 페이지 로딩 대기

        # 전체 페이지 수 가져오기
        try:
            while True:
                total_pages_element = driver.find_element(By.CSS_SELECTOR, "div.paginate")
                total_pages = total_pages_element.text.split()
                print(total_pages)
                # 마지막 페이지 찾기
                if total_pages[-1] == "다음":
                    next_button = driver.find_element(By.CLASS_NAME, "next")
                    next_button.click()
                    time.sleep(2)
                else: # 마지막 페이지 기사 개수 + 30 * (마지막 페이지 개수 - 1)
                    try: 
                        last_page_id = total_pages[-1]
                        last_page_button = driver.find_element(By.CSS_SELECTOR, f"a[data-id='{last_page_id}']")
                        last_page_button.click()
                        time.sleep(2)
                    except Exception as e:
                        print(f"{date}: {e}")
                        
                        
                    ul_selector = "div.news_list2 > ul"  # ul 태그의 선택자
                    li_selector = f"{ul_selector} > li"  # ul 아래 li 선택자
                    li_elements = driver.find_elements(By.CSS_SELECTOR, li_selector)
                    total_post_counts = (int(last_page_id)-1) * 30 + len(li_elements)
                    # print(f"ul 아래 li 개수: {len(li_elements)}개")
                    break
        except Exception as e:
            print(f"오류 발생: {e}")

        # 드라이버 종료
        driver.quit()
        # print(f"{date} 기사 개수: {total_post_counts}")
        return total_post_counts
    except WebDriverException as e:
        print(f"URL 로드 중 오류 발생: {e}")
        return 0

def get_web_search_by_year():
    """
    구글 트랜드를 이용한 연도별 웹 검색량을 크롤링한다.
    리턴값: 2010~2024년 웹 검색량을 {'year': 검색량} 형태의 딕셔너리로 반환.
    """
    pytrends = TrendReq(hl="ko", tz=360)
    keywords = ["야구", "KBO", "야구장", "프로야구"]

    # 요청 딜레이 및 에러 방지
    try:
        pytrends.build_payload(keywords, timeframe="2010-01-01 2024-12-31", geo="KR")
        trends = pytrends.interest_over_time()
    except Exception as e:
        print(f"데이터 요청 실패: {e}")
        return {}

    # 데이터 처리
    if not trends.empty:
        trends = trends.reset_index()  # 날짜(date)를 열로 변환
        trends["year"] = trends["date"].dt.year  # 연도 추출

        # 연도별 합산
        yearly_trends = trends.groupby("year")[["야구", "KBO", "야구장", "프로야구"]].sum()

        # 모든 키워드의 합산 열 추가
        yearly_trends["web_search_by_years"] = yearly_trends.sum(axis=1)

        # 연도별 총 검색량 딕셔너리로 반환
        web_search_counts = yearly_trends["web_search_by_years"].to_dict()
        return web_search_counts
    else:
        print("데이터가 비어 있습니다.")
        return {}

# def get_kbo_youtube_views_by_year():
#     '''
#     연도별 KBO 유튜브 조회수를 크롤링한다.
#     리턴값: ~2024년까지 유튜브 조회수를 리스트로 리턴
#     '''

# # 중간 데이터 저장 함수 정의
# def save_partial_results(likes_counts, post_counts, filename="partial_y_a_insta.csv"):
#     """
#     likes_counts와 post_counts 데이터를 지정된 파일에 저장합니다.
#     """
#     partial_data = {
#         'year': list(likes_counts.keys()),
#         'instagram_likes_by_year': list(likes_counts.values()),
#         'instagram_posts_by_year': list(post_counts.values()),
#     }
#     # Pandas DataFrame으로 변환 후 저장
#     pd.DataFrame(partial_data).to_csv(filename, index=False)
#     print(f"부분 데이터가 {filename}에 저장되었습니다!")
    
def get_instagram_data_by_year():
    from selenium.webdriver.common.by import By
    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.common.action_chains import ActionChains
    from selenium.webdriver.chrome.service import Service
    from selenium import webdriver
    import time

    # Chromedriver 경로 설정
    chromedriver_path = "/usr/local/bin/chromedriver"
    service = Service(chromedriver_path)
    dr = webdriver.Chrome(service=service)
    dr.set_window_size(414, 800)
    dr.set_page_load_timeout(300)

    # Instagram 로그인
    dr.get('https://www.instagram.com/')
    time.sleep(2)
    id_box = WebDriverWait(dr, 30).until(EC.presence_of_element_located((By.CSS_SELECTOR, "#loginForm > div > div:nth-child(1) > div > label > input")))
    password_box = dr.find_element(By.CSS_SELECTOR, "#loginForm > div > div:nth-child(2) > div > label > input")
    login_button = dr.find_element(By.CSS_SELECTOR, '#loginForm > div > div:nth-child(3) > button')
    id_box.send_keys("sksohn01@sookmyung.ac.kr")
    password_box.send_keys("sks0hn01!!")
    login_button.click()
    time.sleep(5)

    # KBO 계정으로 이동
    dr.get("https://www.instagram.com/kbo.official/")
    time.sleep(5)

    # 좋아요 수 및 게시물 수 계산
    likes_counts = {year: 0 for year in range(2010, 2025)}
    post_counts = {year: 0 for year in range(2010, 2025)}

    # 무한 스크롤
    SCROLL_PAUSE_TIME = 2
    last_height = dr.execute_script("return document.body.scrollHeight")
    while True:
        dr.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(SCROLL_PAUSE_TIME)
        new_height = dr.execute_script("return document.body.scrollHeight")
        if new_height == last_height:
            break
        last_height = new_height

    # 게시물 처리
    cards = dr.find_elements(By.CLASS_NAME, '_aagw')
    for i in range(len(cards)):
        retries = 0
        while retries < 3:  # 재시도 최대 3회
            try:
                cards = dr.find_elements(By.CLASS_NAME, '_aagw')  # 매번 요소 재참조
                card = cards[i]

                # 스크롤 후 클릭
                dr.execute_script("arguments[0].scrollIntoView(true);", card)
                time.sleep(1)

                # 강제 클릭
                ActionChains(dr).move_to_element(card).click().perform()
                time.sleep(2)

                # 좋아요 데이터 처리
                like_element = WebDriverWait(dr, 30).until(
                    EC.presence_of_element_located((By.CLASS_NAME, 'x193iq5w.xeuugli.x1fj9vlw.x13faqbe.x1vvkbs.xt0psk2.x1i0vuye.xvs91rp.x1s688f.x10wh9bi.x1wdrske.x8viiok.x18hxmgj'))
                )
                likes = like_element.text.replace("좋아요 ", "").replace("개", "").strip()
                if "만" in likes:
                    likes = float(likes[:-1]) * 10000

                # 업로드 연도 가져오기
                time_element = WebDriverWait(dr, 30).until(EC.presence_of_element_located((By.CSS_SELECTOR, 'time.x1p4m5qa')))
                upload_time = int(time_element.get_attribute('datetime')[:4])

                # 데이터 누적
                likes_counts[upload_time] += int(likes)
                post_counts[upload_time] += 1
                break  # 성공적으로 처리했으면 재시도 루프 종료
            except Exception as e:
                retries += 1
                print(f"게시물 {i+1} 클릭 중 오류 발생, 재시도 {retries}/3: {e}")
        else:
            print(f"게시물 {i+1} 처리 실패, 다음 게시물로 넘어갑니다.")

        # 뒤로가기
        dr.back()
        time.sleep(2)

    dr.quit()
    return likes_counts, post_counts


In [None]:
# 인기도 칼럼 수집: 관중수(audience_by_year), 연도별 기사 개수(article_counts_by_year), 크보 유튜브 조회수(kbo_youtube_views_by_year), 인스타그램 해시태그 언급량(instagram_hashtags_by_year), 방송 시청률

### 연도별 기사 개수, 관중수 구하기

In [129]:
# 연도별 기사 개수, 관중수 구하기
################ !!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 실행 금지
##############################################################
year = [
    2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019,
    2020, 2021, 2022, 2023, 2024
]
audience_by_year = [
    5928626, 6810028, 7156157, 6441945, 6509915, 7360530, 8339577, 8400688, 8073742, 7286008, 
    328317, 1228489, 6076074, 8100326, 10887705
]

article_counts = get_article_counts_by_year()
data = {'year': year,
        'audience_by_year': audience_by_year,
        'article_counts_by_year': list(article_counts.values()),
}
year_data = pd.DataFrame(data)
# year_data.to_csv('y_aud_arti.csv', index=False)

### 웹 검색량 데이터

In [142]:
# 웹 검색량 데이터
data = pd.read_csv("./y_aud_arti.csv")

web_search_counts = get_web_search_by_year()
data['web_search_count_by_year'] = list(web_search_counts.values())

data = pd.DataFrame(data)
data.to_csv('add_web_search.csv', index=False)


  df = df.fillna(False)


### 유튜브 조회수, 좋아요수, 댓글수 구하기

In [None]:
# 유튜브 조회수, 좋아요수, 댓글수 구하기

data = pd.read_csv("./y_aud_arti.csv")
kbo_youtube_views = get_kbo_youtube_views_by_year()

data['kbo_youtube_views_by_year'] = list(kbo_youtube_views.values())
year_data = pd.DataFrame(data)
year_data.to_csv('yaa_youtube.csv', index=False)

---
# Temp

In [None]:
# 라이브러리 임포트
from googleapiclient.discovery import build
import datetime
import pandas as pd

''' 아래 "<--change here-->" 에 자신의 API-Key를 입력하면 됩니다.
'''


# API key와 YouTube API 버전을 세팅
api_key = "AIzaSyBpWqno1zpgTXq0xw2AxiPj3fCFyZkPRCQ"
youtube = build('youtube', 'v3', developerKey=api_key)
print('>>> API key 설정')

# 유튜브 모든 채널에는 'Uploads'라는 기본 채널이 있음
# 해당 채널 ID를 가져온 뒤에, 해당 Uploads의 리스트를 다시 호출해오는 함수

# 유튜브 데이터느 매일 변경됨. 오늘 날짜를 Last_update로 기록하기 위해 Datetime을 사용
today = datetime.datetime.now()
nowDate = today.strftime('%Y-%m-%d')

# 채널id를 가지고 비디오 리스트를 가져오는 함수
def get_channel_videos(channel_id):
    # get Uploads playlist id
    res = youtube.channels().list(id=channel_id, part='contentDetails').execute()
    playlist_id = res['items'][0]['contentDetails']['relatedPlaylists']['uploads']
    res2 = youtube.channels().list(id=channel_id, part='snippet').execute()
    channel_title = res2['items'][0]['snippet']['title']
    print('>>> 대상 채널명: ' + channel_title)
    videos = []
    next_page_token = None

    while 1:
        res = youtube.playlistItems().list(playlistId=playlist_id,
                                           part='snippet',
                                           maxResults=50,
                                           pageToken=next_page_token).execute()
        videos += res['items']
        next_page_token = res.get('nextPageToken')

        if next_page_token is None:
            break

    return videos

# 채널의 ID를 입력하면, 그 채널에 속한 비디오를 추출
chan_id = input("채널 아이디: ")
videos = get_channel_videos(chan_id)

print('>>> 대상 채널 ID: '+ chan_id)
print('>>> YouTube에서 해당 채널에 속한 모든 비디오 ID 확인 완료')

# 추출된 비디오 리스트에서 video ID만을 추출하여 list로 만든다.
videoid_list = []
for video in videos:
    id_from_api = video['snippet']['resourceId']['videoId']
    videoid_list.append(id_from_api)

# videoid_list에 ID만 모두 추출하여 저장이 되었다.

# 각 비디오에서 데이터를 추출하여, Dataframe을 만들기 위해 빈 list를 생성한다.
title = []
views = []
likes = []
# dislikes = []
comments = []
upload_date = []
print('>>> 데이터 수집 준비 완료')

# 각 비디오에서 데이터를 가져와서 리스트에 추가한다.
print('>>> 개별 비디오 데이터 수집 시작')
for i in range(len(videoid_list)):
    # for i in range(200):
    request = youtube.videos().list(part='snippet,contentDetails,statistics', id=videoid_list[i])
    response = request.execute()

    if response['items'] == []:
        title.append('-')
        views.append('-')
        likes.append('-')
        # dislikes.append('-')
        comments.append('-')

    else:
        # result에서 추출
        tname = response['items'][0]['snippet']['title']
        vc = response['items'][0]['statistics']['viewCount']
        lc = response['items'][0]['statistics']['likeCount']
        dlc = response['items'][0]['statistics']['dislikeCount']
        cc = response['items'][0]['statistics']['commentCount']
        pA = response['items'][0]['snippet']['publishedAt']

        # append
        title.append(tname)
        views.append(vc)
        likes.append(lc)
        # dislikes.append(dlc)
        comments.append(cc)
        upload_date.append(pA)

print('>>> 개별 비디오 데이터 수집 완료')
print('>>> 비디오 URL 정리')
# YouTube API 응답에는 Video URL이 없음. 이를 생성하기 위해 prefix + Video ID로 리스트를 만든다.
vidurl_prefix = 'https://www.youtube.com/watch?v='
vidurl_list = []

for i in range(len(videoid_list)):
    vidurl = vidurl_prefix + videoid_list[i]
    vidurl_list.append(vidurl)

# Google API의 응답은 UTC를 기준으로 한다. KST로 변환이 필요하며, KST는 UTC+9이다.

original_pubdate = []
for i in range(len(upload_date)):
    originaldate = upload_date[i]
    convertedtime = datetime.datetime.strptime(originaldate, '%Y-%m-%dT%H:%M:%SZ')
    KSTdate = datetime.datetime.strptime(originaldate, '%Y-%m-%dT%H:%M:%SZ') + datetime.timedelta(hours=9)
    KST_converted = KSTdate.strftime('%Y-%m-%d %H:%M')
    original_pubdate.append(KST_converted)


# 위에까지 생성된 모든 리스트를 하나의 데이터프레임으로 옮긴다.
print('>>> 데이터프레임 형태로 가공')
sum_df = pd.DataFrame([title, original_pubdate, videoid_list, vidurl_list, views, likes, comments]).T

# 편의를 위해 컬럼 이름을 추가해준다.
sum_df.columns = ['title', 'PublishedAt', 'ID', 'URL', 'views', 'likes', 'comments']

# 유튜브 조회수는 매일 다르므로, 오늘 작업 날짜를 데이터프레임으로 추가한다. 시간은 무시한다.
# 데이터 프레임에 넣기 전에, 비디오 개수만큼 날짜가 들어간 리스트를 만든다.
date_list = []
for i in range(len(videoid_list)):
    date_list.append(nowDate)


# 데이터프레임에 'Last_update_Date'을 추가한다.
print('>>> 오늘 날짜(작업일) 기록 중')
sum_df['Last_updated_Date'] = date_list

# 채널명을 다시 가져온다.
res2 = youtube.channels().list(id=chan_id, part='snippet').execute()
channel_title = res2['items'][0]['snippet']['title']

# 오늘 날짜가 들어간 csv 파일을 생성한다.
print('>>> 작업이 완료되었습니다.')
filename = channel_title + '_' + today.strftime('%Y%m%d') + '.csv'
sum_df.to_csv(filename, encoding='utf-8-sig', index=False)
print('결과물: ',filename)
# CHANNEL_ID = "UCoVz66yWHzVsXAFG8WhJK9g"  # KBO 공식 채널 ID

>>> API key 설정
>>> 대상 채널명: KBO
>>> 대상 채널 ID: UCoVz66yWHzVsXAFG8WhJK9g
>>> YouTube에서 해당 채널에 속한 모든 비디오 ID 확인 완료
>>> 데이터 수집 준비 완료
>>> 개별 비디오 데이터 수집 시작
{'kind': 'youtube#videoListResponse', 'etag': 'kf8ed2lEE8sOT59XaEv6ESOEf8s', 'items': [{'kind': 'youtube#video', 'etag': 'm0Sdqej9yztdpyLTsvzGCH7dV3A', 'id': 'aSx_Ie97Vhs', 'snippet': {'publishedAt': '2024-11-16T16:43:53Z', 'channelId': 'UCoVz66yWHzVsXAFG8WhJK9g', 'title': "[𝗢.𝗧.𝗥] '8회의 약속? 약속의 8회?' 어쨌든 만든 주인공 인터뷰(박성한, 최원준, 박영현)| 2024 WBSC 프리미어12 야구 국가대표 크보직캠", 'description': '#프리미어12 #야구대표팀 #야구 \n팀코리아 야구 대표팀 콘텐츠 "오프 더 레코드! [O.T.R]" \n대한민국을 대표하는 선수들의 비하인드가 궁금하시면 구독🔔과 좋아요👍 부탁드립니다!\n\n\n✉️ 광고/스폰서/협업 문의\ngh@koreabaseball.or.kr\n\nKBO 리그는 오직 TVING에서! 📱✨\n✉️ 광고/스폰서/협업 문의\ngh@koreabaseball.or.kr\n\nKBO 리그는 오직 TVING에서! 📱✨', 'thumbnails': {'default': {'url': 'https://i.ytimg.com/vi/aSx_Ie97Vhs/default.jpg', 'width': 120, 'height': 90}, 'medium': {'url': 'https://i.ytimg.com/vi/aSx_Ie97Vhs/mqdefault.jpg', 'width': 320, 'height': 180}, 'high': {'url'

NameError: name 'pA' is not defined