pip install youtube-transcript-api

# GPT 요약

In [8]:
from youtube_transcript_api import YouTubeTranscriptApi
import pandas as pd

In [9]:
# JSON 로드
import json

with open("../data/video_meta.json", "r", encoding="utf-8") as f:
    video_meta = json.load(f)

In [10]:
# 1. 자막 추출 함수 정의
def get_transcript(video_id):
    try:
        transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=['ko', 'en'])
        full_text = " ".join([seg['text'] for seg in transcript])
        return full_text
    except Exception as e:
        print(f"오류: (ID: {video_id}):", e)
        return None

In [11]:
dataset = []
for video in video_meta:
    transcript = get_transcript(video["video_id"])
    if transcript:
        dataset.append({
            "video_id": video["video_id"],
            "title": video["title"],
            "url": video["url"],
            "channel": video.get("channel", ""),
            "published": video.get("published", ""),
            "transcript": transcript
        })

In [12]:
transcript_df = pd.DataFrame(dataset)
transcript_df.head()

Unnamed: 0,video_id,title,url,channel,published,transcript
0,iwUYHUPwL30,ADsP 핵심요약 5시간 벼락치기 특강 | 미어캣 [편집본] | adsp 독학,https://www.youtube.com/watch?v=iwUYHUPwL30,비빅터,1 year ago,데이터의 특성에서 존재적 특성과 단위적으로 나온 거 있잖아요 요거 요게 그냥 다 단...
1,m6Vez0J2Xig,ADsP 핵심요약 5시간 벼락치기 특강 _live stream 녹화,https://www.youtube.com/watch?v=m6Vez0J2Xig,위키북스,Streamed 2 years ago,안녕하세요 기다리고 계신 분들도 계시네요 인사 먼저 드릴게요 저는 오늘 죄송합니다 ...
2,8YN9vZp495E,[ADsP 1과목] 데이터의 이해 - 기다리던 총정리 시간,https://www.youtube.com/watch?v=8YN9vZp495E,EduAtoZ - Programming,3 years ago,1과목 데이터에 이에 대해서 교환을 보면서 쭉 정리하는 시간을 갖도록 하겠습니다 짜...
3,_ZrneQl69Lo,ADsP 핵심이론 5시간 완성 ｜ 시험 전 벼락치기 필수 영상🔥 ｜ 와우패스 김계철...,https://www.youtube.com/watch?v=_ZrneQl69Lo,와우패스,2 years ago,자 안녕하십니까 자 강의에 관련된 내용들은 우리 교재 2권에 해당되는 2023년 a...
4,MuJUhXoM-9E,[ADsP 3과목] 데이터 분석 - Part 3 - 기다리던 총정리 시간,https://www.youtube.com/watch?v=MuJUhXoM-9E,EduAtoZ - Programming,3 years ago,3 밤 호 파트 3 정형 데이터 마이닝 부터 쪽 요약해 보도록 하겠습니다 보면은 데...


In [13]:
data_path = "../data/transcript_data.csv"
transcript_df.to_csv(data_path, index=False, encoding="utf-8-sig")

In [14]:
for row in dataset:
    print(f" {row['title']} ({row['channel']})")
    print(f"URL: {row['url']}")
    print(row['transcript'][:500])
    print("\n" + "=" * 100 + "\n")

 ADsP 핵심요약 5시간 벼락치기 특강 | 미어캣 [편집본] | adsp 독학 (비빅터)
URL: https://www.youtube.com/watch?v=iwUYHUPwL30
데이터의 특성에서 존재적 특성과 단위적으로 나온 거 있잖아요 요거 요게 그냥 다 단어가 어떤 의미다 정도 예 그런 정도만 알고 있으면 돼요 존재적 특성 그냥 있는 그대로에 사실 얘는 팩트를 얘기하는 겁니다 그냥 그냥 팩트예요 팩트를 얘기하는 거고 여기는 뭐가 들어 얘는 수학 80.0 100점 어떤 어 존재적 특성은 팩트에 기반한 존재적 데이터가 특성을 갖고 있다는 거고 당위적 특성은 이게 가공이 된다거나 변형이 된다거나 집계가 된다 그러면 어떤 의미를 갖는다는 거죠 그래서 평균 90점 3학년 1반의 평균 90점 근데 3학년 2반의 평균은 70점 이러면 평균 점수 90점 70점은 의미를 갖죠 어떤 의미를 갖느냐 1반이 더 잘하네 그죠 이반보이스 데와 정보는 무엇이 다를까 이런 것도 그냥 읽어 보시고 넘어가시면 되고요 정성적 데이터와 정량적 데이터라는 부분이 있는데 요게 예전 기출 문제에 잠깐 나온게 있는데 별 하나라고 달아둔 거는 이렇게 크게 많이 이렇게 뭐 어렵거나 그런 문제도 아니


 ADsP 핵심요약 5시간 벼락치기 특강 _live stream 녹화 (위키북스)
URL: https://www.youtube.com/watch?v=m6Vez0J2Xig
안녕하세요 기다리고 계신 분들도 계시네요 인사 먼저 드릴게요 저는 오늘 죄송합니다 실방이다 보니까 오디오가 동시에 들어갔네 저는 adsp 시중에 이제 미어캣이라고 부르는 미어캣 책이라 부르는 책을 전용운이라고 합니다 되게 만나뵙게 돼서 되게 반갑구요 얘기를 하면서 강의가 이제 뭐 좀 하면 어떻겠느냐 이런 조금 제한이 있었고 그래서 이제 처음에는 사실은 이렇게 아이 뭐 강의하겠습니다 이렇게 하고 그렇게 하고 나서 이제 돌아서 곰곰이 생각을 해보니까 되게 많이 부담스럽더라구요 왜냐하면 그 여러분들은 정말 뭐 취업을 준비하시는 분들 계실 거