### 유튜브 정보 가져오기

In [None]:
import yt_dlp

# 유튜브 비디오 정보를 가져오는 함수
def get_youtube_video_info(video_url):
    ydl_opts = {
        'noplaylist': True,
        'quiet': True,
        'no_warnings': True,
    }
    
    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
        video_info = ydl.extract_info(video_url, download=False) # 비디오 정보 추출
        video_id = video_info['id']              # 비디오 정보에서 비디오 ID 추출
        title = video_info['title']              # 비디오 정보에서 제목 추출
        upload_date = video_info['upload_date']  # 비디오 정보에서 업로드 날짜 추출
        channel = video_info['channel']          # 비디오 정보에서 채널 이름 추출
        duration = video_info['duration_string'] # 비디오 정보에서 영상 길이 추출

    return video_id, title, upload_date, channel, duration

In [2]:
video_url = 'https://www.youtube.com/watch?v=rPJ7FGPpzKs&t=384s'
get_youtube_video_info(video_url)

('rPJ7FGPpzKs',
 '잘입재형과 러닝 (도쿄마라톤 서브7의 비결) #러닝 #카페 #상수 #푸글렌',
 '20250424',
 '피식대학Psick Univ',
 '15:13')

### 유튜브 영상 다운받기

In [None]:
import yt_dlp
from pathlib import Path

# 유튜브 비디오 정보를 가져오는 함수
def get_youtube_video_info(video_url):
    ydl_opts = {
        'noplaylist': True,
        'quiet': True,
        'no_warnings': True,
    }
    
    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
        video_info = ydl.extract_info(video_url, download=False) # 비디오 정보 추출
        video_id = video_info['id']              # 비디오 정보에서 비디오 ID 추출
        title = video_info['title']              # 비디오 정보에서 제목 추출
        upload_date = video_info['upload_date']  # 비디오 정보에서 업로드 날짜 추출
        channel = video_info['channel']          # 비디오 정보에서 채널 이름 추출
        duration = video_info['duration_string'] # 비디오 정보에서 영상 길이 추출

    return video_id, title, upload_date, channel, duration

# 파일 이름에 부적합한 문자를 제거하는 함수
def remove_invalid_char_for_filename(input_str):
    # 윈도우 파일 이름에 안 쓰는 문자 제거 
    invalid_characters = '<>:"/\\|?*'
    
    for char in invalid_characters:
        input_str = input_str.replace(char, '_')
        
    # 파일명 마지막에 . 제거
    while input_str.endswith('.'):
        input_str = input_str[:-1]  
        
    return input_str
 
# 유튜브 비디오를 다운로드하는 함수     
def download_youtube_video(video_url, folder, file_name=None):
    
    _, title, _, _, _ = get_youtube_video_info(video_url)
    filename_no_ext = remove_invalid_char_for_filename(title)
        
    if file_name == None:
        download_file = f"{filename_no_ext}.mp4" # 확장자는 mp4
    else:
        download_file = file_name

    outtmpl_str = f'{folder}/{download_file}'
        
    download_path = Path(outtmpl_str)  
    
    ydl_opts = {                # 다양한 옵션 지정                    
        'format': 'best',       # 다운로드 형식 지정 (최적)
        'outtmpl': outtmpl_str, # 다운로드 경로 지정
        'noplaylist': True,
        'quiet': True,
        'no_warnings': True,
    }

    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
        video_info = ydl.extract_info(video_url, download=True) # 비디오 정보 추출
        title = video_info.get('title', None)                   # 비디오 정보 중 제목만 추출

    return title, download_path

In [5]:
video_url = 'https://www.youtube.com/watch?v=apwmlJ2Gxxc'
download_folder = "data" # 다운로드할 폴더는 미리 생성 후 지정
video_title, download_path = download_youtube_video(video_url, download_folder)

print("- 유튜브 제목:", video_title)
print("- 다운로드한 파일명:", download_path.name)

- 유튜브 제목: [한사랑산악회] 山海珍味(산해진미)가 다 모여있는 울릉도,,,               
- 다운로드한 파일명: [한사랑산악회] 山海珍味(산해진미)가 다 모여있는 울릉도,,,.mp4


In [6]:
# 유튜브 비디오 이름 변경
video_url = 'https://www.youtube.com/watch?v=apwmlJ2Gxxc'
download_folder = "data"              # 다운로드할 폴더는 미리 생성 후 지정
file_name = "youtube_video_file.mp4"  # 비디오 파일 이름 지정
video_title, download_path  = download_youtube_video(video_url, download_folder, file_name)

print("- 유튜브 제목:", video_title)
print("- 다운로드한 파일명:", download_path.name)

- 유튜브 제목: [한사랑산악회] 山海珍味(산해진미)가 다 모여있는 울릉도,,,               
- 다운로드한 파일명: youtube_video_file.mp4


### 유튜브 음성 가져오기

In [7]:
import yt_dlp
from pathlib import Path

# 유튜브 비디오 정보를 가져오는 함수
def get_youtube_video_info(video_url):
    ydl_opts = {
        'noplaylist': True,
        'quiet': True,
        'no_warnings': True,
    }
    
    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
        video_info = ydl.extract_info(video_url, download=False) # 비디오 정보 추출
        video_id = video_info['id']              # 비디오 정보에서 비디오 ID 추출
        title = video_info['title']              # 비디오 정보에서 제목 추출
        upload_date = video_info['upload_date']  # 비디오 정보에서 업로드 날짜 추출
        channel = video_info['channel']          # 비디오 정보에서 채널 이름 추출
        duration = video_info['duration_string'] # 비디오 정보에서 영상 길이 추출

    return video_id, title, upload_date, channel, duration

# 파일 이름에 부적합한 문자를 제거하는 함수
def remove_invalid_char_for_filename(input_str):
    # 윈도우 파일 이름에 안 쓰는 문자 제거 
    invalid_characters = '<>:"/\\|?*'
    
    for char in invalid_characters:
        input_str = input_str.replace(char, '_')
        
    # 파일명 마지막에 . 제거
    while input_str.endswith('.'):
        input_str = input_str[:-1]  
        
    return input_str

# 유튜브 비디오를 오디오 파일로 다운로드하는 함수 
def download_youtube_as_mp3(video_url, folder, file_name=None):
    
    _, title, _, _, _ = get_youtube_video_info(video_url)
    filename_no_ext = remove_invalid_char_for_filename(title)
        
    if file_name == None:
        download_file = f"{filename_no_ext}.mp3"
    else:
        download_file = file_name

    outtmpl_str = f'{folder}/{download_file}'
    download_path = Path(outtmpl_str)  
        
    ydl_opts = {     
        'extract_audio': True,      # 다양한 옵션 지정                    
        'format': 'bestaudio/best', # 다운로드 형식 지정 (최적)
        'outtmpl': outtmpl_str,     # 다운로드 경로 지정
        'noplaylist': True,
        'quiet': True,
        'no_warnings': True,
    }

    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
        video_info = ydl.extract_info(video_url, download=False) # 비디오 정보 추출
        title = video_info.get('title', None) # 비디오 정보 중 제목만 추출
        ydl.download(video_url) # 다운로드

    return title, download_path

In [8]:
video_url = 'https://www.youtube.com/watch?v=apwmlJ2Gxxc'
download_folder = "data"              # 다운로드할 폴더는 미리 생성 후 지정
file_name = "youtube_video_file.mp3"  # 오디오 파일 이름 지정
video_title, download_path = download_youtube_as_mp3(video_url, download_folder, file_name)

print("- 유튜브 제목:", video_title)
print("- 다운로드한 파일명:", download_path.name)

- 유튜브 제목: [한사랑산악회] 山海珍味(산해진미)가 다 모여있는 울릉도,,,             
- 다운로드한 파일명: youtube_video_file.mp3


### 유튜브 자막 가져오기

```python
from youtube_transcript_api import YouTubeTranscriptApi
from types import SimpleNamespace
# 포맷 형식
from youtube_transcript_api.formatters import PrettyPrintFormatter # 기본 형식자
from youtube_transcript_api.formatters import JSONFormatter        # JSON 형식자
from youtube_transcript_api.formatters import TextFormatter        # 일반 텍스트 형식자
from youtube_transcript_api.formatters import WebVTTFormatter      # Web VTT 형식자
from youtube_transcript_api.formatters import SRTFormatter         # SRT 형식자

# 자막 리스트 가져오기
transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)
# 자막 가져오기
transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=['ko', 'en'])
# dict -> 객체(SimpleNamespace)로 변환
transcript_objects = [SimpleNamespace(**item) for item in transcript]
# 형식자 선택
formatter = SRTFormatter() # SRT 형식의 자막 선택
formatted = formatter.format_transcript(transcript)
```

In [1]:
def get_video_id(video_url):
    video_id = video_url.split('v=')[1][:11]
    return video_id

In [2]:
video_url = 'https://www.youtube.com/watch?v=aCbqE30AfUs&list=PLAlM76XTWG8fZ2bT8hcQL3HKbVVs3j95g&index=3'
print("유튜브 비디오 ID: ", get_video_id(video_url))

유튜브 비디오 ID:  aCbqE30AfUs


In [3]:
video_url = 'https://www.youtube.com/watch?v=RsYnRlSLHZY'
print("유튜브 비디오 ID: ", get_video_id(video_url))

유튜브 비디오 ID:  RsYnRlSLHZY


In [4]:
from youtube_transcript_api import YouTubeTranscriptApi

video_url = 'https://www.youtube.com/watch?v=aCbqE30AfUs&list=PLAlM76XTWG8fZ2bT8hcQL3HKbVVs3j95g&index=3'
video_id = get_video_id(video_url)

transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)

print(f"- 유튜브 비디오 ID: {video_id}")
for transcript in transcript_list:
    print(f"- [자막 언어] {transcript.language}, [자막 언어 코드] {transcript.language_code}")

- 유튜브 비디오 ID: aCbqE30AfUs
- [자막 언어] Korean (auto-generated), [자막 언어 코드] ko


In [5]:
transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=['ko'])
transcript[0:3]

[{'text': '취소할 수 있는 곡식', 'start': 0.0, 'duration': 4.669},
 {'text': '경험이 있었습니다', 'start': 1.37, 'duration': 3.299},
 {'text': '이 질문 약간 심지어 보려고 개 않고', 'start': 5.49, 'duration': 4.28}]

In [14]:
from types import SimpleNamespace
from youtube_transcript_api.formatters import SRTFormatter

# dict -> 객체(SimpleNamespace)로 변환
transcript_objects = [SimpleNamespace(**item) for item in transcript]

# 이제 formatter 사용
srt_formatter = SRTFormatter()
srt_formatted = srt_formatter.format_transcript(transcript_objects)

print(srt_formatted[:140])

1
00:00:00,000 --> 00:00:01,370
취소할 수 있는 곡식

2
00:00:01,370 --> 00:00:04,669
경험이 있었습니다

3
00:00:05,490 --> 00:00:07,470
이 질문 약간 심지어 보려고 개 않고


In [16]:
from types import SimpleNamespace
from youtube_transcript_api.formatters import TextFormatter

# dict -> 객체(SimpleNamespace)로 변환
transcript_objects = [SimpleNamespace(**item) for item in transcript]

text_formatter = TextFormatter()
text_formatted = text_formatter.format_transcript(transcript_objects)

print(text_formatted[:100])

취소할 수 있는 곡식
경험이 있었습니다
이 질문 약간 심지어 보려고 개 않고
있다
화장 물어보세요 약 것이 아닌게
상판을 9세 그
[음악]
고품격 프로 4 말이란 1회 뭐 이거
이


In [17]:
# 파일 다운로드
download_folder = "download"

# SRT 형식으로 파일 저장
srt_file = f"{download_folder}/{video_id}.srt"
print("- SRT 형식의 파일 경로:", srt_file)
with open(srt_file, 'w') as f:
    f.write(srt_formatted)
    
# 텍스트 형식으로 파일 저장    
text_file = f"{download_folder}/{video_id}.txt"
with open(text_file, 'w') as f:
    f.write(text_formatted)
print("- Text 형식의 파일 경로:", text_file)

- SRT 형식의 파일 경로: download/aCbqE30AfUs.srt
- Text 형식의 파일 경로: download/aCbqE30AfUs.txt
