<a href="https://colab.research.google.com/github/realp0tato/oss2025/blob/main/OSS2025_Mining_Hidden_Gems_on_YouTube.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Youtube API와 함께하는 핸즈온 튜토리얼
Youtube는 No1인 비디오 공유 플랫폼이다. 1억명 사용자들은 수천억시간의 비디오를 소비하고 매분마다 500시간의 컨텐츠가 업로드된다.

다양한 형태와 장르의 영상들이 존재한다. 주로 뮤직비디오, 강좌, 버라이어티 쇼, 드라마, 상품 리뷰 등 녹화된 방송들이 게시되기도 한다. 한편, 홈쇼핑, 게이밍 대회 와 같은 영상들은 실시간으로 스트리밍 되기도 한다.

빅데이터 4V(Volume, Velocity, Variety, Veracity) 측면에서 Youtube 관련 데이터를 관심있어야하는 이유는 다음과 같다.
- Volume: 10억명의 사용자가 생성하고 관람하는 데이터는 엄청나게 많다.
- Velocity: 다양한 스트리밍 채널에서 사용자들은 수초내에 수백개의 메시지와 함께 커뮤니케이션 및 보기가 가능하다.
- Variety: 동영상 데이터 뿐만 아니라, 구조화된  데이터(통계치, 메타데이터)와 비구조화된 텍스트(채팅, 댓글)들을 다룰 수 있다.
- Veracity: Youtube 영상 자체가 특정 사실에 대해 불확실 정보를 포함할 수 있으며, 영상에 대한 정보가 잘못 표기될 수도 있다.

# 본 튜토리얼의 기본 목표
1. Youtube API를 이용하여 영상을 검색하거나 관련된 정보를 수집할 수 있다.
2. 수집된 정보로부터 그래프 기반 시각화
3. 키워드 분석


Copyright 2023 by datasciencelabs.org



# 사전조건
1. Youtube API를 활용하기 위해서는 Google API Python Client Library.로부터 API Key를 발급받아야 한다.
2. 개인 컴퓨터를 사용하는 경우, 가능한 Linux를 이용해서 설치(install)부분을 설치완료해야한다.

# 설치하기

install the google api python client

In [1]:
!pip install google-api-python-client youtube_transcript_api
!pip install pyvis
!pip install youtube-transcript-api

Collecting youtube_transcript_api
  Downloading youtube_transcript_api-1.0.3-py3-none-any.whl.metadata (23 kB)
Downloading youtube_transcript_api-1.0.3-py3-none-any.whl (2.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.2/2.2 MB[0m [31m27.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: youtube_transcript_api
Successfully installed youtube_transcript_api-1.0.3
Collecting pyvis
  Downloading pyvis-0.3.2-py3-none-any.whl.metadata (1.7 kB)
Collecting jedi>=0.16 (from ipython>=5.3.0->pyvis)
  Downloading jedi-0.19.2-py2.py3-none-any.whl.metadata (22 kB)
Downloading pyvis-0.3.2-py3-none-any.whl (756 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m756.0/756.0 kB[0m [31m18.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jedi-0.19.2-py2.py3-none-any.whl (1.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m43.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: jedi, pyvis
Suc

# API documentation
구체적인 Youtube API[https://developers.google.com/youtube/v3] 다음 링크에 있는 문서를 참고하시기 바랍니다.

API Reference
https://developers.google.com/youtube/v3/docs

## Query Template

PYTHON API는 다음과 같이 api.(resources).(method) 형태로 구성된다.
```
# To perform list method on playlists resource
request = youtube.playlists().list(
)
# To perform list method on videos resource
request = youtube.videos().list(
)
# to perform list method on channels resource
request = youtube.channels().list(
)
```

Search vs. Video resources

Search resource: contains information about a Youtube video, channel or playlist that matches the search parameters specified in an API request

Video resource: representes a Youtube Video

Part parameter
https://developers.google.com/youtube/v3/docs/search/list#parameters

a comma-separated list of one or more search resource properties that the API response will include. Set the parameter value to snippet.

In [2]:
from google.colab import drive
import json

drive.mount('/content/drive')

with open('/content/drive/MyDrive/Colab Notebooks/config.json') as f:
    config = json.load(f)

API_KEY = config["API_KEY"]
WIKI_API_KEY = config["WIKI_API_KEY"]


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
# API client library
import googleapiclient.discovery
# API information
api_service_name = "youtube"
api_version = "v3"


# API client
youtube = googleapiclient.discovery.build(
    api_service_name, api_version, developerKey = API_KEY)

# 'request' variable is the only thing you must change
# depending on the resource and method you need to use
# in your query
request = youtube.search().list(
    part="id,snippet",
    type='video',
    q="python 강의",
    videoDuration='medium',
    videoDefinition='high',
    maxResults= 6
)

# Query execution
video_list = request.execute()

# Print the results

In [4]:
tittle1 = video_list['items'][0]['snippet']['title']
tittle2 = video_list['items'][1]['snippet']['title']
tittle3 = video_list['items'][2]['snippet']['title']
tittle4 = video_list['items'][3]['snippet']['title']
tittle5 = video_list['items'][4]['snippet']['title']
tittle6 = video_list['items'][5]['snippet']['title']
print(tittle1)
print(tittle2)
print(tittle3)
print(tittle4)
print(tittle5)
print(tittle6)

AI 시대 파이썬을 배워야 하는 이유
Colab 시작하기 - Python 기초 강의, Python 시작하기
파이썬(python) 설치와 실행, IDLE(아이들) 사용 방법
[파이썬 기초 14강] 파이썬 클래스, 객체, 인스턴스, 생성자, 메서드, self 개념 총정리!! 정말 쉽게 설명해 드립니다.
코딩 초보를 위한 파이썬 기초 강의 - 01. Python 소개 &amp; 기본 세팅 | Python for Beginners
[중급자를 위한 Python] #1 강의소개


### Youtube 자막 받아오기

In [5]:
from youtube_transcript_api import YouTubeTranscriptApi

# Youtube 자막 추출 함수
def get_transcript(video_id, languages=['ko']):
  transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=['ko'])
  full_transcript = ' '.join([item['text'] for item in transcript])
  return full_transcript


In [7]:
# Video ID 추출
video_id1 = video_list['items'][0]['id']['videoId']
video_id2 = video_list['items'][1]['id']['videoId']
video_id3 = video_list['items'][2]['id']['videoId']
video_id4 = video_list['items'][3]['id']['videoId']
video_id5 = video_list['items'][4]['id']['videoId']
video_id6 = video_list['items'][5]['id']['videoId']

# Youtube 영상의 자막 받아오기
full_transcript1 = get_transcript(video_id1)
full_transcript2 = get_transcript(video_id2)
full_transcript3 = get_transcript(video_id3)
full_transcript4 = get_transcript(video_id4)
full_transcript5 = get_transcript(video_id5)
full_transcript6 = get_transcript(video_id6)



RequestBlocked: 
Could not retrieve a transcript for the video https://www.youtube.com/watch?v=7ttbyGI5igA! This is most likely caused by:

YouTube is blocking requests from your IP. This usually is due to one of the following reasons:
- You have done too many requests and your IP has been blocked by YouTube
- You are doing requests from an IP belonging to a cloud provider (like AWS, Google Cloud Platform, Azure, etc.). Unfortunately, most IPs from cloud providers are blocked by YouTube.

There are two things you can do to work around this:
1. Use proxies to hide your IP address, as explained in the "Working around IP bans" section of the README (https://github.com/jdepoix/youtube-transcript-api?tab=readme-ov-file#working-around-ip-bans-requestblocked-or-ipblocked-exception).
2. (NOT RECOMMENDED) If you authenticate your requests using cookies, you will be able to continue doing requests for a while. However, YouTube will eventually permanently ban the account that you have used to authenticate with! So only do this if you don't mind your account being banned!

If you are sure that the described cause is not responsible for this error and that a transcript should be retrievable, please create an issue at https://github.com/jdepoix/youtube-transcript-api/issues. Please add which version of youtube_transcript_api you are using and provide the information needed to replicate the error. Also make sure that there are no open issues which already describe your problem!

Wikipedia API를 이용하여 관련 키워드 추출

In [None]:
import requests
import json

# API 정보
url = 'http://www.wikifier.org/annotate-article'

params1 = {
    'text': full_transcript1,
    'lang': 'ko',
    'userKey': WIKI_API_KEY,
    'pageRankSqThreshold': 0.8,
    'applyPageRankSqThreshold': 'true',
    'nTopDfValuesToIgnore': 100,
    'nWordsToIgnoreFromList': 100
}

response1 = requests.post(url, data=params1)
wikis1 = response1.json()

params2 = {
    'text': full_transcript2,
    'lang': 'ko',
    'userKey': WIKI_API_KEY,
    'pageRankSqThreshold': 0.8,
    'applyPageRankSqThreshold': 'true',
    'nTopDfValuesToIgnore': 100,
    'nWordsToIgnoreFromList': 100
}

response2 = requests.post(url, data=params2)
wikis2 = response2.json()

params3 = {
    'text': full_transcript3,
    'lang': 'ko',
    'userKey': WIKI_API_KEY,
    'pageRankSqThreshold': 0.8,
    'applyPageRankSqThreshold': 'true',
    'nTopDfValuesToIgnore': 100,
    'nWordsToIgnoreFromList': 100
}

response3 = requests.post(url, data=params3)
wikis3 = response3.json()

params4 = {
    'text': full_transcript4,
    'lang': 'ko',
    'userKey': WIKI_API_KEY,
    'pageRankSqThreshold': 0.8,
    'applyPageRankSqThreshold': 'true',
    'nTopDfValuesToIgnore': 100,
    'nWordsToIgnoreFromList': 100
}

response4 = requests.post(url, data=params4)
wikis4 = response4.json()

params5 = {
    'text': full_transcript5,
    'lang': 'ko',
    'userKey': WIKI_API_KEY,
    'pageRankSqThreshold': 0.8,
    'applyPageRankSqThreshold': 'true',
    'nTopDfValuesToIgnore': 100,
    'nWordsToIgnoreFromList': 100
}

response5 = requests.post(url, data=params5)
wikis5 = response5.json()

params6 = {
    'text': full_transcript6,
    'lang': 'ko',
    'userKey': WIKI_API_KEY,
    'pageRankSqThreshold': 0.8,
    'applyPageRankSqThreshold': 'true',
    'nTopDfValuesToIgnore': 100,
    'nWordsToIgnoreFromList': 100
}

response6 = requests.post(url, data=params6)
wikis6 = response6.json()

In [None]:
keywords1 = set()
for d in wikis1['ranges']:
  for candidate in d['candidates']:
    if candidate['cosine'] > 0.05:
      keywords1.add(candidate['title'])

keywords2 = set()
for d in wikis2['ranges']:
  for candidate in d['candidates']:
    if candidate['cosine'] > 0.05:
      keywords2.add(candidate['title'])

keywords3 = set()
for d in wikis3['ranges']:
  for candidate in d['candidates']:
    if candidate['cosine'] > 0.05:
      keywords3.add(candidate['title'])

keywords4 = set()
for d in wikis4['ranges']:
  for candidate in d['candidates']:
    if candidate['cosine'] > 0.05:
      keywords4.add(candidate['title'])

keywords5 = set()
for d in wikis5['ranges']:
  for candidate in d['candidates']:
    if candidate['cosine'] > 0.05:
      keywords5.add(candidate['title'])

keywords6 = set()
for d in wikis6['ranges']:
  for candidate in d['candidates']:
    if candidate['cosine'] > 0.05:
      keywords6.add(candidate['title'])

#### Exercise
영상 간 공통 키워드를 연결하는 네트워크 그래프를 만들기
1. N개 유튜브 강의에 대해 대표 키워드 세트 정의
2. 영상 2개씩 조합하여 공통 키워드 추출
3. 공통 키워드가 있으면 NetworkX를 이용해 연결
4. 엣지 라벨로 공통 키워드 표시, 노드는 영상 제목 표시

In [None]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

# 1. 한글 폰트 설치 (나눔고딕)
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import matplotlib
import networkx as nx
from itertools import combinations

# 2. Colab 런타임에 폰트 적용
plt.rc('font', family='NanumBarunGothic')
plt.rcParams['axes.unicode_minus'] = False

# 3. 영상별 키워드 예시
# 추출한 것으로 수정 필요!
video_keywords = {
    tittle1 : keywords1,
    tittle2 : keywords2,
    tittle3 : keywords3,
    tittle4 : keywords4,
    tittle5 : keywords5,
    tittle6 : keywords6
}

# 4. NetworkX 그래프 생성
G = nx.Graph()
G.add_nodes_from(video_keywords.keys())

for vid1, vid2 in combinations(video_keywords.keys(), 2):
    shared = video_keywords[vid1] & video_keywords[vid2]
    if shared:
        G.add_edge(vid1, vid2, weight=len(shared), label=", ".join(shared))

# 5. 시각화
pos = nx.spring_layout(G, seed=42)

plt.figure(figsize=(10, 6))
nx.draw_networkx_nodes(G, pos, node_size=1000, node_color="lightyellow")
nx.draw_networkx_labels(G, pos, font_size=12, font_family='NanumBarunGothic')
nx.draw_networkx_edges(G, pos, width=2)

# edge label 표시
edge_labels = nx.get_edge_attributes(G, "label")
nx.draw_networkx_edge_labels(G, pos, edge_labels=edge_labels, font_size=10, font_family='NanumBarunGothic')

plt.title("유튜브 영상 간 공통 키워드 네트워크 ", fontsize=14)
plt.axis("off")
plt.show()

In [None]:
from pyvis.network import Network
from IPython.core.display import display, HTML
from itertools import combinations

# pyvis 네트워크 생성
net = Network(height="750px", width="100%", notebook=True, cdn_resources="in_line")

# 노드 간 간격 설정
net.repulsion(
    node_distance=350,
    central_gravity=0.1,
    spring_length=200,
    spring_strength=0.01,
    damping=0.09
)

# 노드 추가 (영상 제목을 노드 내부에 표시)
for title in video_keywords.keys():
    net.add_node(
        title,
        label=title,
        size=40,
        font={'size': 18}
    )

# 엣지 추가 (굵기와 키워드 글씨 크기 통일)
for vid1, vid2 in combinations(video_keywords.keys(), 2):
    shared_keywords = list(video_keywords[vid1] & video_keywords[vid2])
    if shared_keywords:
        full_keywords_text = ", ".join(shared_keywords)
        preview_keywords = ", ".join(shared_keywords[:3])
        if len(shared_keywords) > 3:
            preview_keywords += f" 외 +{len(shared_keywords) - 3}"

        net.add_edge(
            vid1,
            vid2,
            title=full_keywords_text,       # 마우스 오버 툴팁
            label=preview_keywords,         # 엣지에 표시될 키워드
            width=2,                        # 엣지 굵기 통일
            font={'size': 15}               # 키워드 글자 크기 통일
        )

# 시각화 결과 출력
html_filename = "youtube_keywords_network.html"
net.show(html_filename)

[인터랙티브 네트워크 그래프 보기](https://realp0tato.github.io/oss2025/youtube_keywords_network.html)