In [1]:
#========================================================================================================
#                                          #  데이터 프레임 생성
#========================================================================================================
'''
사용법 :  코드를 Run All한뒤, 검색어와 검색갯수 지정하면 데이터프레임이 생성됩니다.
'''

#----------------------
# 0) 파라미터 세팅
#----------------------
searchQuery = '곽튜브 일본'     # 유튜브 검색 키워드
searchCount = 1                 #  검색 갯수

In [2]:
# ---index---
# 1. 기본세팅 (common setting)
# 2. collecting data
# 3. cleaning data
# 4. making data

In [3]:
#========================================================================================================#
#                                                  기본세팅                                              #
#========================================================================================================#

# I. 모듈 자동 리로드
# II. 항시적용모듈
# III. 파싱을위한모듈
# IV. 한글폰트세팅 
# V. sns테마설정
# VI. API세팅
# VII. 객체 인스턴스 생성

#--------------------------------------------------------------------------------------------------------
#                                             I. 모듈 자동 리로드
#--------------------------------------------------------------------------------------------------------
%load_ext autoreload
%autoreload 2

#--------------------------------------------------------------------------------------------------------
#                                             II. 항시적용모듈 
#--------------------------------------------------------------------------------------------------------
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from utils import *


#--------------------------------------------------------------------------------------------------------
#                                           III. 파싱을위한모듈 
#--------------------------------------------------------------------------------------------------------
import csv
import json

from urllib import parse
import requests
from bs4 import BeautifulSoup


from youtubeApi import YoutubeApi
from countryCodeAPI import CountryCodeApi

from tqdm import tqdm

from collections import OrderedDict



In [4]:
#--------------------------------------------------------------------------------------------------------
#                                            IV. 한글폰트세팅 
#--------------------------------------------------------------------------------------------------------
import matplotlib
import matplotlib.font_manager as fm

font_location = "C:\\Windows\\Fonts\\Malgun.ttf"
font_name = fm.FontProperties(fname=font_location).get_name()

matplotlib.rc('font',family=font_name)

#--------------------------------------------------------------------------------------------------------
#                                            V. sns 테마설정 
#--------------------------------------------------------------------------------------------------------

sns.set_theme(style='whitegrid')


#--------------------------------------------------------------------------------------------------------
#                                             VI. API세팅 
#--------------------------------------------------------------------------------------------------------

#------------------
# 1) youtubeApi
#------------------
# 유튜브 API 키
# youtubeApiKey = 'AIzaSyCYuiTxHY0bymW1O6yabaTHauf3fCrHbyI'
youtubeApiKey = 'AIzaSyBtTI5zfPtsdvyAco9CSiYmptN4NaHd40I'

#------------------
# 2) countryCodeApi
#------------------
# 국가코드 API 키
countryCodeApiKey = 'v6PZedo0OjiH84tKhGwXk8GpKTqVAbkYOrvk0crJjrGW7mJALzmAw0YQKf4csjvmkJcYhdAo0RtTLPrIBF66qQ=='

#--------------------------------------------------------------------------------------------------------
#                                         VII. 객체 인스턴스 생성
#--------------------------------------------------------------------------------------------------------
youtubeApi = YoutubeApi(youtubeApiKey)
countryCodeApi = CountryCodeApi(countryCodeApiKey)
utils = Utils

In [5]:
#========================================================================================================#
#                                              # 데이터수집                                              #
#========================================================================================================#

# 1) 사용자 입력 키워드로 데이터 추출
#------------------
jsonDataBySearchCount = youtubeApi.getJsonBySearchQuery(searchQuery,searchCount)
dictDataBySearchCount = youtubeApi.getDictBySearchQuery(searchQuery,searchCount)

channelId = dictDataBySearchCount['items'][0]['snippet']['channelId']
videoId = dictDataBySearchCount['items'][0]['id']['videoId']
videoId

# 2) 채널ID로 데이터 추출
#------------------
jsonDataByChannelId = youtubeApi.getJsonByChannelId(searchQuery,channelId)
dictDataByChannelId = youtubeApi.getDictByChannelId(searchQuery,channelId)

dictDataByChannelId


# 3) 비디오ID로 데이터 추출
#------------------
jsonDataByVideoId = youtubeApi.getJsonByVideoId(videoId,searchCount)
dictDataByVideoId = youtubeApi.getDictByVideoId(videoId,searchCount)

dictDataByVideoId


# 4) 스니펫 데이터프레임 생성
#------------------
snippetDataFrame = utils.make_df(dictDataByChannelId)
snippetDataFrame


# 5) 스테틱 데이터프레임 생성
#------------------
statisticsDataFrame = utils.makeDataFromStatistics(dictDataByVideoId)
statisticsDataFrame


# 5) 유튜브데이터프레임 : 스니펫 + 스테틱 을 합쳐서 새로운 데이터프레임 생성
#------------------
youtubeDataFrame = pd.concat([snippetDataFrame, statisticsDataFrame], axis=1)
youtubeDataFrame

Unnamed: 0,publishedAt,channelId,title,description,thumbnails,channelTitle,liveBroadcastContent,publishTime,videoId,viewCount,likeCount,favoriteCount,commentCount
0,2022-08-28T12:59:35Z,UClRNDVO8093rmRTtLe4GEPw,도쿄의 고독한 대식가 - 일본(1),안녕하세요 '디스이즈네버댓'의 초청으로 일본에 잠시 왔습니다. 당분간 일본 먹방여행...,{'default': {'url': 'https://i.ytimg.com/vi/49...,곽튜브,none,2022-08-28T12:59:35Z,49tjroGV8nk,4012935,43818,0,4047


In [6]:
#========================================================================================================#
#                                              # 데이터전처리                                            #
#========================================================================================================#

# 1) youtubeDataFrame에 국가 컬럼 추가
#------------------

# title에서 국가명 추출
splitedTitleWord = utils.get_splited_string_list(snippetDataFrame.loc[0,'title'])
splitedTitleWord

# 전세계 국가명 리스트 생성
jsonData = countryCodeApi.getJsonDataByCountryInfo()
rawKorCoutryList = countryCodeApi.getKorCountryNameByList(jsonData)
rawKorCoutryList

# 전세계 국가명 리스트에서 제목에 포함된 국가명과 중복된 문자열을 반환
for i in range(len(splitedTitleWord)):
    countryName = utils.get_one_duplicate_string_from_two_lists(rawKorCoutryList,splitedTitleWord) 
# 유튜브 데이터프레임에 컬럼 추가
youtubeDataFrame['country'] = countryName
youtubeDataFrame

Unnamed: 0,publishedAt,channelId,title,description,thumbnails,channelTitle,liveBroadcastContent,publishTime,videoId,viewCount,likeCount,favoriteCount,commentCount,country
0,2022-08-28T12:59:35Z,UClRNDVO8093rmRTtLe4GEPw,도쿄의 고독한 대식가 - 일본(1),안녕하세요 '디스이즈네버댓'의 초청으로 일본에 잠시 왔습니다. 당분간 일본 먹방여행...,{'default': {'url': 'https://i.ytimg.com/vi/49...,곽튜브,none,2022-08-28T12:59:35Z,49tjroGV8nk,4012935,43818,0,4047,


In [8]:
#========================================================================================================#
#                                              # 데이터생성                                              #
#========================================================================================================#

# 1) 유튜브 데이터프레임을 CSV로 저장
#------------------
youtubeDataFrame.to_csv('./resultData/youtubeDataFrame.csv', encoding='utf-8-sig', index=False)
