# 2 - PyTube 


<br>
<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/youtube.png" style="width:400px;"/>

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---PyTube" data-toc-modified-id="1---PyTube-1">1 - PyTube</a></span></li><li><span><a href="#2---Instalación-de-PyTube" data-toc-modified-id="2---Instalación-de-PyTube-2">2 - Instalación de PyTube</a></span></li><li><span><a href="#3---Descarga-de-videos-desde-YouTube" data-toc-modified-id="3---Descarga-de-videos-desde-YouTube-3">3 - Descarga de videos desde YouTube</a></span></li><li><span><a href="#4---Descarga-de-audio-desde-YouTube" data-toc-modified-id="4---Descarga-de-audio-desde-YouTube-4">4 - Descarga de audio desde YouTube</a></span></li><li><span><a href="#5---Extracción-de-subtítulos" data-toc-modified-id="5---Extracción-de-subtítulos-5">5 - Extracción de subtítulos</a></span></li><li><span><a href="#6---Descarga-de-playlist" data-toc-modified-id="6---Descarga-de-playlist-6">6 - Descarga de playlist</a></span></li></ul></div>

## 1 - PyTube

[PyTube](https://pytube.io/en/latest/) es una biblioteca de Python diseñada para facilitar la descarga de videos de [YouTube](https://www.youtube.com/). Es una herramienta de código abierto que permite a los desarrolladores programar la descarga de videos y audios de YouTube de manera sencilla y eficiente. PyTube es muy útil para aquellos que necesitan automatizar la descarga de contenido multimedia desde YouTube para su procesamiento posterior, análisis o simplemente para uso personal.


**Características Principales de PyTube**

1. **Descarga de videos y audios**: PyTube permite descargar videos completos o solo el audio de YouTube en diferentes formatos y calidades.


2. **Selección de streams**: Los usuarios pueden seleccionar y descargar streams específicos, como videos en alta definición, videos con una calidad específica o solo el audio.


3. **Manipulación de videos**: La biblioteca proporciona herramientas para manejar diferentes aspectos del video, como la conversión de formatos y la manipulación de metadatos.


4. **Descarga de subtítulos**: PyTube puede descargar subtítulos asociados con los videos de YouTube, lo que es útil para la transcripción y traducción.


5. **Manejo de playlists**: La biblioteca facilita la descarga de todos los videos en una playlist de YouTube con una simple línea de código.


6. **Compatibilidad**: Es compatible con Python 3.6 y versiones posteriores, lo que la hace adecuada para una amplia gama de proyectos y aplicaciones.

## 2 - Instalación de PyTube

Para comenzar, necesitamos instalar la biblioteca PyTube. Podemos hacerlo utilizando pip:

```bash
pip install pytube
```

Además, necesitaremos instalar [ffmpeg](https://ffmpeg.org/download.html), una colección de herramientas de software libres que pueden grabar, convertir y hacer streaming de audio y video. La instalación de ffmpeg depende del sistema operativo:

**En Windows**: Podemos descargar el binario de [ffmpeg](https://ffmpeg.org/download.html).

**En macOS**: Usa Homebrew para instalar ffmpeg:
```bash
brew install ffmpeg
```

**En Linux**: Usa el gestor de paquetes de tu distribución, por ejemplo, en Ubuntu:
```bash
sudo apt-get install ffmpeg
```

## 3 - Descarga de videos desde YouTube

Primero vamos a ver cómo se descargan los videos. Importaremos la librería, definiremos la url y también le pediremos información sobre el video.

In [1]:
# importamos la librería

from pytube import YouTube

Si ocurre el error 403:

https://github.com/pytube/pytube/issues/2052

In [2]:
from pytube.innertube import _default_clients

_default_clients['ANDROID']['context']['client']['clientVersion'] = '19.08.35'
_default_clients['IOS']['context']['client']['clientVersion'] = '19.08.35'
_default_clients['ANDROID_EMBED']['context']['client']['clientVersion'] = '19.08.35'
_default_clients['IOS_EMBED']['context']['client']['clientVersion'] = '19.08.35'
_default_clients['IOS_MUSIC']['context']['client']['clientVersion'] = '6.41'
_default_clients['ANDROID_MUSIC'] = _default_clients['ANDROID']

In [3]:
# url del video de YouTube (Casiopea - Looking Up/Dr. Solo/Bass Solo *Live 1985*  -  8:29)

url = 'https://www.youtube.com/watch?v=S0Xm1PWb07o'

In [4]:
# creamos el objeto YouTube, la conexión al video

youtube = YouTube(url)

In [5]:
# titulo del video

youtube.title

'Casiopea - Looking Up/Dr. Solo/Bass Solo *Live 1985*'

In [6]:
# duración del video, en minutos

round(youtube.length / 60, 2)

8.48

In [7]:
# descripción del video

print(youtube.description)

Live at Ryōgoku Kokugikan, Tokyo on April 27th, 1985


El video en Youtube tiene distintas calidades y distintos formatos. Veamos cuales son y descargaremos el video en la mejor calidad disponible.

In [8]:
# lista de formatos disponibles

for stream in youtube.streams:
    print(stream)

<Stream: itag="18" mime_type="video/mp4" res="360p" fps="30fps" vcodec="avc1.42001E" acodec="mp4a.40.2" progressive="True" type="video">
<Stream: itag="135" mime_type="video/mp4" res="480p" fps="30fps" vcodec="avc1.4d401e" progressive="False" type="video">
<Stream: itag="244" mime_type="video/webm" res="480p" fps="30fps" vcodec="vp9" progressive="False" type="video">
<Stream: itag="397" mime_type="video/mp4" res="480p" fps="30fps" vcodec="av01.0.04M.08" progressive="False" type="video">
<Stream: itag="134" mime_type="video/mp4" res="360p" fps="30fps" vcodec="avc1.4d401e" progressive="False" type="video">
<Stream: itag="243" mime_type="video/webm" res="360p" fps="30fps" vcodec="vp9" progressive="False" type="video">
<Stream: itag="396" mime_type="video/mp4" res="360p" fps="30fps" vcodec="av01.0.01M.08" progressive="False" type="video">
<Stream: itag="133" mime_type="video/mp4" res="240p" fps="30fps" vcodec="avc1.4d400d" progressive="False" type="video">
<Stream: itag="242" mime_type="vi

In [9]:
# seleccionamos la mejor calidad de video disponible

video = youtube.streams.get_highest_resolution()

video

<Stream: itag="18" mime_type="video/mp4" res="360p" fps="30fps" vcodec="avc1.42001E" acodec="mp4a.40.2" progressive="True" type="video">

In [10]:
# nombre por defecto del archivo

video.default_filename

'Casiopea - Looking UpDr SoloBass Solo Live 1985.mp4'

In [11]:
%%time

# descargamos el video

ruta = '../../../files'

video.download(output_path=ruta)

CPU times: user 191 ms, sys: 391 ms, total: 583 ms
Wall time: 8.74 s


'/Users/tecnico.IA/Desarrolador_IA/Modulo 10 - Hugging Face_/notebooks/Lección 3 - Audición por computador/../../../files/Casiopea - Looking UpDr SoloBass Solo Live 1985.mp4'

## 4 - Descarga de audio desde YouTube

A veces, solo necesitamos el audio del video. Podemos descargar solo el audio utilizando PyTube.

In [12]:
# todos los formatos de audio

for stream in youtube.streams.filter(only_audio=True):
    print(stream)

<Stream: itag="139" mime_type="audio/mp4" abr="48kbps" acodec="mp4a.40.5" progressive="False" type="audio">
<Stream: itag="140" mime_type="audio/mp4" abr="128kbps" acodec="mp4a.40.2" progressive="False" type="audio">
<Stream: itag="249" mime_type="audio/webm" abr="50kbps" acodec="opus" progressive="False" type="audio">
<Stream: itag="250" mime_type="audio/webm" abr="70kbps" acodec="opus" progressive="False" type="audio">
<Stream: itag="251" mime_type="audio/webm" abr="160kbps" acodec="opus" progressive="False" type="audio">


In [13]:
# de entre todos los formatos de audio, seleccionamos el primero

audio = youtube.streams.filter(only_audio=True).first()

audio

<Stream: itag="139" mime_type="audio/mp4" abr="48kbps" acodec="mp4a.40.5" progressive="False" type="audio">

In [14]:
# descargamos el audio

audio.download(output_path=ruta)

'/Users/tecnico.IA/Desarrolador_IA/Modulo 10 - Hugging Face_/notebooks/Lección 3 - Audición por computador/../../../files/Casiopea - Looking UpDr SoloBass Solo Live 1985.mp4'

## 5 - Extracción de subtítulos

Si el video tiene subtítulos, PyTube permite descargarlos. Vamos a ver otro video, por ejemplo un TED Talk de Andrew Ng. Es posible que la librería presente un `KeyError` a la hora de extraer el archivo SRT, la solución en [esta discusión de GitHub](https://github.com/pytube/pytube/issues/1085).

In [15]:
# url (How AI Could Empower Any Business | Andrew Ng | TED  -  11:16)

url_ted = 'https://www.youtube.com/watch?v=reUZRyXxUs4'

In [16]:
# creamos el objeto YouTube, la conexión al video, y seleccionamos el primero

youtube = YouTube(url_ted)

video = youtube.streams.first()

In [17]:
# todos los subtitulos disponibles

youtube.captions

{'ar': <Caption lang="Arabic" code="ar">, 'zh-CN': <Caption lang="Chinese (China)" code="zh-CN">, 'zh-TW': <Caption lang="Chinese (Taiwan)" code="zh-TW">, 'nl': <Caption lang="Dutch" code="nl">, 'en': <Caption lang="English" code="en">, 'a.en': <Caption lang="English (auto-generated)" code="a.en">, 'fr': <Caption lang="French" code="fr">, 'el': <Caption lang="Greek" code="el">, 'id': <Caption lang="Indonesian" code="id">, 'it': <Caption lang="Italian" code="it">, 'pt-PT': <Caption lang="Portuguese (Portugal)" code="pt-PT">, 'ru': <Caption lang="Russian" code="ru">, 'es': <Caption lang="Spanish" code="es">, 'th': <Caption lang="Thai" code="th">, 'vi': <Caption lang="Vietnamese" code="vi">}

In [18]:
# descargar subtítulos en español

subs = youtube.captions['es']

subs

<Caption lang="Spanish" code="es">

In [19]:
# conversión a formato SRT

texto_srt = subs.generate_srt_captions()

texto_srt[:1000]

'1\n00:00:00,000 --> 00:00:00,000\n \n\n2\n00:00:00,000 --> 00:00:00,000'

In [20]:
# ruta guardado subtítulos 

ruta_srt = ruta + '/' + youtube.title + '.srt'

ruta_srt

'../../../files/How AI Could Empower Any Business | Andrew Ng | TED.srt'

In [21]:
# guardar subtítulos en un archivo

with open(ruta_srt, 'w') as f:
    
    f.write(texto_srt)

## 6 - Descarga de playlist

PyTube también permite la descarga de todos los videos de una playlist.


In [22]:
# importamos objeto Playlist

from pytube import Playlist

In [23]:
# url de la playlist

play_url = 'https://www.youtube.com/watch?v=vegqkKGTsBc&list=PL8AC3254DFDA8A81B'

In [24]:
# creamos el objeto Playlist

playlist = Playlist(play_url)

In [25]:
# titulo de la playlist

playlist.title

'J.A.M_SOIL & "PIMP" SESSIONS'

In [26]:
# ruta de guardado

ruta_play = ruta + '/' + playlist.title

ruta_play

'../../../files/J.A.M_SOIL & "PIMP" SESSIONS'

In [27]:
# descargamos todos los videos de la playlist

for video in playlist.videos:
    
    video.streams.get_highest_resolution().download(output_path=ruta_play)
    
    print(f'Descargado: {video.title}')


Descargado: J.A.M／産業革命
Descargado: Soil & Pimp Sessions - Death Jazz!
Descargado: J.A.M(SOIL&"PIMP"SESSIONS) 02 道
Descargado: Soil & "PIMP" Sessions - Factory
Descargado: SOIL & "PIMP" Sessions - Mature
Descargado: J.A.M - Quiet Fire
Descargado: SOIL & "PIMP" Sessions - The World Is Filled By...
Descargado: Soil & Pimp Sessions - Sorrow
Descargado: Soil & "PIMP" Sessions - Avalanche
Descargado: Soil & Pimp Sessions J.A.M. -  AIE (Live - Jools Holland 2007)


In [28]:
# podemos descargar el audio de la playlist

for url in playlist:
    
    youtube = YouTube(url)
    
    audio = youtube.streams.filter(only_audio=True).first()
    
    audio.download(output_path=ruta_play)
    
    print(f'Descargado: {youtube.title}')


Descargado: J.A.M／産業革命
Descargado: Soil & Pimp Sessions - Death Jazz!
Descargado: J.A.M(SOIL&"PIMP"SESSIONS) 02 道
Descargado: Soil & "PIMP" Sessions - Factory
Descargado: SOIL & "PIMP" Sessions - Mature
Descargado: J.A.M - Quiet Fire
Descargado: SOIL & "PIMP" Sessions - The World Is Filled By...
Descargado: Soil & Pimp Sessions - Sorrow
Descargado: Soil & "PIMP" Sessions - Avalanche
Descargado: Soil & Pimp Sessions J.A.M. -  AIE (Live - Jools Holland 2007)
