# 9장 유튜브 콘텐츠 분석 및 챗봇 만들기

## 9.1 유튜브 콘텐츠 정보 가져오기

### 9.1.1 유튜브 동영상 관련 정보 가져오기

[9장: 229페이지]

In [None]:
import yt_dlp

# 유튜브 비디오 정보를 가져오는 함수
def get_youtube_video_info(video_url):
    ydl_opts = {            # 다양한 옵션 지정
        'noplaylist': True,
        'quiet': True,
        'no_warnings': True,
    }
    
    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
        video_info = ydl.extract_info(video_url, download=False) # 비디오 정보 추출
        video_id = video_info['id']              # 비디오 정보에서 비디오 ID 추출
        title = video_info['title']              # 비디오 정보에서 제목 추출
        upload_date = video_info['upload_date']  # 비디오 정보에서 업로드 날짜 추출
        channel = video_info['channel']          # 비디오 정보에서 채널 이름 추출
        duration = video_info['duration_string']

    return video_id, title, upload_date, channel, duration

[9장: 230페이지]

In [None]:
video_url = 'https://www.youtube.com/watch?v=pSJrML-TTmI'
get_youtube_video_info(video_url)

In [None]:
import yt_dlp
from pathlib import Path

# 파일 이름에 부적합한 문자를 제거하는 함수
def remove_invalid_char_for_filename(input_str):
    # 윈도우 파일 이름에 안 쓰는 문자 제거 
    invalid_characters = '<>:"/\|?*'
    
    for char in invalid_characters:
        input_str = input_str.replace(char, '_')
        
    # 파일명 마지막에 . 제거
    while input_str.endswith('.'):
        input_str = input_str[:-1]  
        
    return input_str
 
# 유튜브 비디오를 다운로드하는 함수     
def download_youtube_video(video_url, folder, file_name=None):
    
    _, title, _, _, _ = get_youtube_video_info(video_url)
    filename_no_ext = remove_invalid_char_for_filename(title)
        
    if file_name == None:
        download_file = f"{filename_no_ext}.mp4" # 확장자는 mp4
    else:
        download_file = file_name

    outtmpl_str = f'{folder}/{download_file}'
        
    download_path = Path(outtmpl_str)  
    
    ydl_opts = {                # 다양한 옵션 지정                    
        'format': 'best',       # 다운로드 형식 지정 (최적)
        'outtmpl': outtmpl_str, # 다운로드 경로 지정
        'noplaylist': True,
        'quiet': True,
        'no_warnings': True,
    }

    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
        video_info = ydl.extract_info(video_url, download=True) # 비디오 정보 추출
        title = video_info.get('title', None)  # 비디오 정보 중 제목만 추출

    return title, download_path

위의 `download_youtube_video()` 함수를 이용해 유튜브 비디오를 다운로드하는 코드는 다음과 같습니다.


<!-- 
|video_url = "https://www.youtube.com/watch?v=liQMi0Ftw9Q" # 문재인 대통령 퇴임 연설
download_folder = "./download"
download_youtube_video(video_url, download_folder)
 -->

In [None]:
video_url = 'https://www.youtube.com/watch?v=pSJrML-TTmI'
download_folder = "C:/myPyAI/data/download" # 다운로드할 폴더는 미리 생성 후 지정
video_title, download_path = download_youtube_video(video_url, download_folder)

print("- 유튜브 제목:", video_title)
print("- 다운로드한 파일명:", download_path.name)

[9장: 232페이지]

In [None]:
video_url = 'https://www.youtube.com/watch?v=Ks-_Mh1QhMc'
download_folder = "C:/myPyAI/data/download"  # 다운로드할 폴더는 미리 생성 후 지정
file_name = "youtube_video_file.mp4"         # 비디오 파일 이름 지정
video_title, download_path  = download_youtube_video(video_url, download_folder, file_name)

print("- 유튜브 제목:", video_title)
print("- 다운로드한 파일명:", download_path.name)

[9장: 233페이지]

In [None]:
import yt_dlp
from pathlib import Path

# 유튜브 비디오를 오디오 파일로 다운로드하는 함수 
def download_youtube_as_mp3(video_url, folder, file_name=None):
    
    _, title, _, _, _ = get_youtube_video_info(video_url)
    filename_no_ext = remove_invalid_char_for_filename(title)
        
    if file_name == None:
        download_file = f"{filename_no_ext}.mp3"
    else:
        download_file = file_name

    outtmpl_str = f'{folder}/{download_file}'
    download_path = Path(outtmpl_str)  
        
    ydl_opts = {     
        'extract_audio': True,      # 다양한 옵션 지정                    
        'format': 'bestaudio/best', # 다운로드 형식 지정 (최적)
        'outtmpl': outtmpl_str,     # 다운로드 경로 지정
        'noplaylist': True,
        'quiet': True,
        'no_warnings': True,
    }

    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
        video_info = ydl.extract_info(video_url, download=False) # 비디오 정보 추출
        title = video_info.get('title', None) # 비디오 정보 중 제목만 추출
        ydl.download(video_url) # 다운로드

    return title, download_path

[9장: 234페이지]

In [None]:
video_url = 'https://www.youtube.com/watch?v=Ks-_Mh1QhMc'
download_folder = "C:/myPyAI/data/download" # 다운로드할 폴더는 미리 생성 후 지정
file_name = "youtube_video_file.mp3"        # 오디오 파일 이름 지정
title, download_path = download_youtube_as_mp3(video_url, download_folder, file_name)
# title, download_path = download_youtube_as_mp3(video_url, download_folder)

print("- 유튜브 제목:", video_title)
print("- 다운로드한 파일명:", download_path.name)

### 9.1.2 유튜브 자막 정보 가져오기

[9장: 236페이지]

In [None]:
def get_video_id(video_url):
    video_id = video_url.split('v=')[1][:11]
    
    return video_id 

In [None]:
video_url = "https://www.youtube.com/watch?v=pSJrML-TTmI"
print("유튜브 비디오 ID:", get_video_id(video_url))

In [None]:
video_url = "https://www.youtube.com/watch?v=YYXdXT2l-Gg&list=PL-osiE80TeTt2d9bfVyTiXJA-UTHn6WwU&index=1"
print("유튜브 비디오 ID:", get_video_id(video_url))

In [None]:
from youtube_transcript_api import YouTubeTranscriptApi

video_url = "https://www.youtube.com/watch?v=pSJrML-TTmI"
video_id = get_video_id(video_url)

transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)

print(f"- 유튜브 비디오 ID: {video_id}")
for transcript in transcript_list:
    print(f"- [자막 언어] {transcript.language}, [자막 언어 코드] {transcript.language_code}")

[9장: 237페이지]

In [None]:
transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=['ko'])
transcript[0:3]

In [None]:
from youtube_transcript_api.formatters import SRTFormatter, TextFormatter

srt_formatter = SRTFormatter() # SRT 형식으로 출력 지정
srt_formatted = srt_formatter.format_transcript(transcript)
print(srt_formatted[:150])

[9장: 238페이지]

In [None]:
text_formatter = TextFormatter() # 텍스트(txt) 형식으로 출력 지정
text_formatted = text_formatter.format_transcript(transcript)
print(text_formatted[:100])

In [None]:
download_folder = "C:/myPyAI/data/download" # 다운로드 폴더

# SRT 형식으로 파일 저장
srt_file = f"{download_folder}/{video_id}.srt"
print("- SRT 형식의 파일 경로:", srt_file)
with open(srt_file, 'w') as f:
    f.write(srt_formatted)
    
# 텍스트 형식으로 파일 저장    
text_file = f"{download_folder}/{video_id}.txt"
with open(text_file, 'w') as f:
    f.write(text_formatted)
print("- Text 형식의 파일 경로:", text_file)

## 9.2 유튜브 동영상 요약, 음성 추출, 번역

### 9.2.1 유튜브 동영상 내용 요약

[9장: 240페이지]

In [None]:
import requests
import os

def summarize_contents(contents_url, target_language):
    
    KAGI_API_TOKEN = os.environ["KAGI_API_TOKEN"] # Kagi API 키
    
    api_url = "https://kagi.com/api/v0/summarize"
    headers = {"Authorization": "Bot " + KAGI_API_TOKEN}
    parameters = {"url":contents_url, "target_language":target_language}

    r = requests.get(api_url, headers=headers, params=parameters)
    summary = r.json()['data']['output'] # 요약 내용을 별도의 변수에 할당
    
    return summary

In [None]:
import textwrap

contents_url = "https://www.youtube.com/watch?v=Ks-_Mh1QhMc"
target_language = "KO" # 요약할 언어를 한국어로 지정

try:
    summary = summarize_contents(contents_url, target_language)

    print("[콘텐츠 URL]", contents_url)
    print(textwrap.shorten(summary, 150 ,placeholder=' [..이하 생략..]')) # 축약 출력
    # print(summary) # 전체 출력
except:
    print("해당 URL의 내용을 요약하지 못했습니다. 다시 시도해 주세요.")

[9장: 241페이지]

In [None]:
import textwrap

contents_urls = ["https://www.youtube.com/watch?v=arj7oStGLkU",
                 "https://www.youtube.com/watch?v=lmyZMtPVodo",
                 "https://www.youtube.com/watch?v=JdwWgw4fq7I"]
                 
target_language = "KO" # 요약할 언어를 한국어로 지정

for contents_url in contents_urls:
    try:
        summary = summarize_contents(contents_url, target_language)
        print("[콘텐츠 URL]", contents_url)
        print(textwrap.shorten(summary, 150 ,placeholder=' [..이하 생략..]')) # 축약 출력
        # print(summary) # 전체 출력
    except:
        print("해당 URL의 내용을 요약하지 못했습니다. 다시 시도해 주세요.")        

### 9.2.2 비디오, 오디오 파일의 음성을 텍스트로 추출

[9장: 243페이지]

In [None]:
import openai
from pathlib import Path
import os

def audio_transcribe(input_path, resp_format= "text", lang="en"):  
    
    openai.api_key = os.environ["OPENAI_API_KEY"] # OpenAI API Key
    with open(input_path, "rb") as f: # 음성 파일 열기
        # 음성 추출  
        transcript = openai.Audio.transcribe(
            model="whisper-1",
            file=f,
            language=lang,            
            response_format=resp_format # 추출할 텍스트 형식 지정
        )
    # 음성을 텍스트로 추출한 후에 텍스트 파일로 저장
    path = Path(input_path)
    if resp_format == "text":
        output_file = f"{path.parent}/{path.stem}.txt"
    else:
        output_file = f"{path.parent}/{path.stem}.srt"
        
    output_path = Path(output_file)    
        
    with open(output_file, 'w', encoding='utf-8') as f:
        f.write(transcript)

    return transcript, output_path

[9장: 244페이지]

In [None]:
audio_file = "C:/myPyAI/data/download/youtube_video_file.mp3"

print(f"[음성 파일 경로] {audio_file}\n")
r_format = "srt" # 출력 형식을 srt로 지정

transcript, output_path = audio_transcribe(audio_file, r_format)    

print(f"- [텍스트 추출 형식] {r_format}")
print(f"- [출력 파일] {output_path.name}")
print(f"- [음성 추출 결과(일부 출력)]\n{transcript[:137]}") # 추출 결과 출력(일부)
# print(f"- [음성 추출 결과]\n{transcript}") # 추출 결과 출력(전체)

###  9.2.3 동영상 자막 번역

[9장: 245페이지]

In [None]:
import deepl
from pathlib import Path
import os 

def transplate_text_file(input_path, t_lang="KO"):
    
    # 원본 파일 읽기
    with open(input_path, encoding='utf-8') as f:
        text = f.read()

    # 번역 수행
    auth_key = os.environ["DEEPL_AUTH_KEY"] # Deepl 인증 키
    translator = deepl.Translator(auth_key) # translator 객체를 생성
    result = translator.translate_text(text, target_lang=t_lang)
    
    # 번역 파일 쓰기
    path = Path(input_path)
    output_file = f"{path.parent}/{path.stem}_번역_{t_lang}{path.suffix}"
    
    output_path = Path(output_file)    

    with open(output_file, 'w', encoding='utf-8') as f:
        f.write(result.text)   

    return output_path

[9장: 246페이지]

In [None]:
input_file = "C:/myPyAI/data/download/youtube_video_file.srt"

translated_file = transplate_text_file(input_file)
print("- 번역 파일:", translated_file.name)

### 9.2.4 번역한 자막으로 유튜브 보기

## 9.3 유튜브 내용으로 학습한 챗봇 만들기

### 9.3.1 유튜브 비디오 자막 정보 활용

[9장: 250페이지]

In [None]:
from youtube_transcript_api import YouTubeTranscriptApi
from youtube_transcript_api.formatters import TextFormatter
import textwrap

video_url = "https://www.youtube.com/watch?v=pSJrML-TTmI" # 동영상의 URL 입력
video_id = get_video_id(video_url)

transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=['ko'])

text_formatter = TextFormatter() # SRT 형식으로 출력 지정
text_formatted = text_formatter.format_transcript(transcript)
text_info = text_formatted.replace("\n", " ") # 개행문자 제거

shorten_text_info = textwrap.shorten(text_info, 150 ,placeholder=' [..이하 생략..]')
print(shorten_text_info) # 축약 출력
# print(text_info) # 전체 내용 출력

[9장: 251페이지]

In [None]:
import openai

def answer_from_given_info(question_info, prompt):

    # 입력 정보에 기반해 답변 요청
    user_content = f"{prompt} 다음 내용을 바탕으로 질문에 답해 줘. {question_info}" 
    
    messages = [ {'role': 'user', 'content': user_content} ]

    response = openai.ChatCompletion.create(
                        model="gpt-3.5-turbo",
                        messages=messages,                        
                        max_tokens=500,
                        stop = ["."],
                        temperature=0.2 )
    
    return response['choices'][0]['message']['content'] # 응답 결과 반환

In [None]:
question_info = text_info # 자막을 가져온 내용을 학습 데이터로 사용
prompt = "허준이 교수가 받은 상은 무엇인가요?" # 질문
response = answer_from_given_info(question_info, prompt)
print(response)

In [None]:
question_info = text_info # 자막을 가져온 내용을 학습 데이터로 사용
prompt = "허준이 교수는 어느 대학 교수인가요?" # 질문
response = answer_from_given_info(question_info, prompt)
print(response)

### 9.3.2 음성에서 추출한 정보 활용

[9장: 252페이지]

In [None]:
import yt_dlp

video_url = "https://www.youtube.com/watch?v=EKqQvzyVAh4" # 한국어와 영어 모두 있는 비디오
download_folder = "C:/myPyAI/data/download" # 다운로드 폴더

# 유튜브 비디오를 오디오 파일로 다운로드
file_name = "youtube_video_KBS_news.mp3"
title, download_path = download_youtube_as_mp3(video_url, download_folder, file_name)

print("- 유튜브 제목:", title)
print("- 다운로드한 파일명:", download_path.name)

[9장: 253페이지]

In [None]:
import openai
from pathlib import Path
import textwrap

audio_path = download_path
   
print(f"[오디오 파일명] {audio_path.name}\n")
r_format = "text" # 출력 형식을 text로 지정

transcript, output_file = audio_transcribe(audio_path, r_format)
shorten_text = textwrap.shorten(transcript, 250, placeholder=' [..이하 생략..]')

print(f"- [텍스트 추출 형식] {r_format}")
print(f"- [출력 파일] {output_file.name}")
print(f"- [음성 추출 결과]\n{shorten_text}" )

In [None]:
input_file = output_file
translated_file = transplate_text_file(input_file)

print("- 번역 파일:", translated_file.name)

[9장: 254페이지]

In [None]:
file_name = translated_file # 유튜브 내용을 학습 데이터로 사용
with open(file_name, encoding='utf-8') as f: # 텍스트 파일 읽기
    text = f.read() # 텍스트 파일 내용

question_info = text # 질문에 대한 학습 데이터
prompt = "마이크로소프트는 OpenAI 개발에 얼마를 투자했나요?" # 질문

response = answer_from_given_info(question_info, prompt)
print(response)

In [None]:
prompt = "KSB가 인터뷰한 사람은 누구인가요?"
response = answer_from_given_info(question_info, prompt)
print(response)

## 9.4 요약