
# Populate chapters of Youtube video


In [1]:
youtube_video_id="PJhl54FrGyw"
language = "ko"


chapter_part_in_description = """
00:00 시작
08:08 정책, 제도, 사람 중에서 가장 중요한 것은?
15:56 사람에 대한 평가기준이 없는 사회에서 직무담당자(Träger)의 책임
19:06 이 채널의 앞선 강의를 듣지 않으면 연속되는 강의를 이해하기 쉽지 않다
29:04 인물에 대한 잘못된 평가기준: 신언서판(身言書判)
38:26 인재평가의 프레임워크
43:26 이낙연 현상이란 무엇인가?
1:01:44 이낙연의 공직생활
1:07:03 김수영 시인의 시 〈어느 날 고궁을 나오면서〉 (1965년 작품)
1:10:23 민주진영의 왜 분노하는가? 〈마지막 지푸라기〉
1:24:22 문재인 정부의 문재인, 이낙연, 노영민 등 3인의 태도
1:40:36 민주시민이 이낙연 현상 때문에 민주당에 등을 돌렸다
1:42:26 이재명, 추미애, 이낙연, 윤석열의 AMP지수
1:49:01 정리
"""



In [2]:
# Officially no way to get chapter automatically, 
# so we need to parse the text in description and set up the dictionary 
# [ (time_in_sec, chapter_title) ]
import re 
pattern = r'(\d+(:\d+){1,2})\s(.+)'
matches = re.findall(pattern, chapter_part_in_description)

def time_to_seconds(time):
    parts = time.split(':')
    seconds = int(parts[-1])
    minutes = int(parts[-2]) if len(parts) > 1 else 0
    hours = int(parts[-3]) if len(parts) > 2 else 0
    return hours * 3600 + minutes * 60 + seconds

chapters = [(time_to_seconds(time), title.strip()) for time, _, title in matches]


# Build up note with chapter and script under each chapter 

In [41]:
import os
from collections import deque
from youtube_transcript_api import YouTubeTranscriptApi

# Populate the script of YouTube video
data = YouTubeTranscriptApi.get_transcripts([youtube_video_id], languages=[language])
script_data = deque( data[0][youtube_video_id] )


# Put the script under each chatpter
# [ (chapter_title,  chapter_contents) ]

script_by_chapter = []

script_in_chapter = ""
for i in range( len(chapters) ):
    current_time_in_sec, current_title = chapters[i]
    next_time_in_sec, next_title = chapters[i + 1] if i + 1 < len(chapters) else (None, None)


    s = script_data.popleft()
    end_time_of_script_in_sec = int( s['start'] + s['duration'] )

    if next_time_in_sec is not None:
        
        while( end_time_of_script_in_sec < next_time_in_sec ):
            script_in_chapter += (  os.linesep + s['text'] )
            s = script_data.popleft()
            end_time_of_script_in_sec = int( s['start'] + s['duration'] )

        chapter_data = (current_title, script_in_chapter)
        script_by_chapter.append(chapter_data)
        script_in_chapter = ""        



In [42]:
import json 

print( json.dumps(script_by_chapter, indent=2, ensure_ascii=False) )



[
  [
    "시작",
    "\n안녕하십니까 최동석입니다\n오늘도 마이크를 테스트 하면서\n시작하겠습니다 제\n목소리가 잘 들리시나요\n잘 들리시면 그\n채팅창에\n댓글을 좀 남겨주시면 고맙겠습니다 잘\n들리시나요\n그 왜 그러냐 하면\n지난번에\n때 잘 들립니다\n지난번에 저를 도와주셨던 우리 젊은\n청년 음향 전문가가 저한테 메시지를\n보냈어요\n그러니까 월요일 날 강의하는 내용을\n이제 듣고 그 음향을\n듣더니 그\n볼륨 노브의 오디오 믹서 볼륨 노브에\n그\n조금 조절을\n했으면 좋겠다는\n메시지를 저한테 보내\n줬습니다\n그러니까 지금\n4시 방향으로 있는데 그걸 3시 방향\n쪽으로 올려\n옮겨 놓는게 좋겠다 그런 말씀을 해서\n지금 3시 방향으로\n옮겼고요 그래서 마이크 소리가\n잘 들리면네 잘 들린다고 합니다 3시\n방향으로 그 전문가가 3시 방향으로\n볼륨을\n돌려놓고 지금\n하고 있습니다 잘 들리면\n감사합니다 잘 들리는 모양입니다네\n아 오늘은 그 예고해 드린 대로\n이낙연 현상에 대해서 얘기하겠습니다\n우리가 이낙연 현상을 우리 민주\n시민은 어떻게 해석해야 할 것인지\n생각해 보겠습니다\n이낙연은 좀 독특한\n캐릭터죠 아주 독특한 캐릭터입니다\n왜 그런지\n이번 시간에 같이\n얘기해 보겠습니다\n그러니까 사람 분을 눈을 길러야\n되는데 우리가 눈을 못 길러서\n결국 이낙연의\n많은 사람들이 이게 다\n녹아난 거죠 그러니까\n온 국민이 또 화났다고\n문재인의 페인트모션에도 녹아났지만\n이낙연의 페인트모션\n자 그러면 오늘 강의를 본격적으로\n시작하겠습니다\n이제\n서울은 잠깐만 얘기하면\n제가 왜 이낙연의\n이익을 그냥 이낙연이라고 하지 않고\n이낙연 현상이라고 말했는지 하면 이런\n사회 현상은\n여러 가지가 종합되어서 나타나잖아요\n물론 자연 현상도 그렇지만 그래서\n사회\n현상은 자연과학과 달리 수학적으로\n표현하기가 굉장히 어려워요 자연\n현상은\n과학자들이\n물리학자들이 그것을 다 힘을 수확으로\n풀어내지 않습니까 근데 사회

In [8]:
import json 

print( json.dumps(script_data, indent=2) )

[
  {
    "PJhl54FrGyw": [
      {
        "text": "\uc548\ub155\ud558\uc2ed\ub2c8\uae4c \ucd5c\ub3d9\uc11d\uc785\ub2c8\ub2e4",
        "start": 17.88,
        "duration": 5.58
      },
      {
        "text": "\uc624\ub298\ub3c4 \ub9c8\uc774\ud06c\ub97c \ud14c\uc2a4\ud2b8 \ud558\uba74\uc11c",
        "start": 19.88,
        "duration": 5.5
      },
      {
        "text": "\uc2dc\uc791\ud558\uaca0\uc2b5\ub2c8\ub2e4 \uc81c",
        "start": 23.46,
        "duration": 4.88
      },
      {
        "text": "\ubaa9\uc18c\ub9ac\uac00 \uc798 \ub4e4\ub9ac\uc2dc\ub098\uc694",
        "start": 25.38,
        "duration": 2.96
      },
      {
        "text": "\uc798 \ub4e4\ub9ac\uc2dc\uba74 \uadf8",
        "start": 28.58,
        "duration": 4.96
      },
      {
        "text": "\ucc44\ud305\ucc3d\uc5d0",
        "start": 32.34,
        "duration": 4.26
      },
      {
        "text": "\ub313\uae00\uc744 \uc880 \ub0a8\uaca8\uc8fc\uc2dc\uba74 \uace0\ub9d9\uaca0\uc2b5\ub2c8\ub2e4 \uc798",
   