# 使用套件 pytube 下載 youtube 影片
[pytube 官方文件](https://python-pytube.readthedocs.io/en/latest/#)

In [1]:
# 如果有沒有安裝的套件記得要先安裝
# 如: pip install pytube
from pytube import YouTube

In [2]:
# 下載影片
yt = YouTube('https://www.youtube.com/watch?v=ZHHK3y49FI0')
yt.streams.first().download()

'/Users/kejingtai/Desktop/北護/crawler_20191122/【桃貴安親班2：健康教育課】蔡桃貴X反骨瑋哥，蔡桃貴上到崩潰，罷課啦！.mp4'

In [3]:
# 取得標題
print(yt.title)

【桃貴安親班#2：健康教育課】蔡桃貴X反骨瑋哥，蔡桃貴上到崩潰，罷課啦！


In [4]:
# 取得所有的影片類型
# pytube 可以從 youtube 取得很多類型的檔案，例如: mp3, mp4, 360p, 720p
print(yt.streams.all())

[<Stream: itag="22" mime_type="video/mp4" res="720p" fps="30fps" vcodec="avc1.64001F" acodec="mp4a.40.2">, <Stream: itag="43" mime_type="video/webm" res="360p" fps="30fps" vcodec="vp8.0" acodec="vorbis">, <Stream: itag="18" mime_type="video/mp4" res="360p" fps="30fps" vcodec="avc1.42001E" acodec="mp4a.40.2">, <Stream: itag="137" mime_type="video/mp4" res="1080p" fps="30fps" vcodec="avc1.640028">, <Stream: itag="248" mime_type="video/webm" res="1080p" fps="30fps" vcodec="vp9">, <Stream: itag="299" mime_type="video/mp4" res="1080p" fps="60fps" vcodec="avc1.64002a">, <Stream: itag="303" mime_type="video/webm" res="1080p" fps="60fps" vcodec="vp9">, <Stream: itag="399" mime_type="video/mp4" res="None" fps="30fps" vcodec="av01.0.09M.08">, <Stream: itag="136" mime_type="video/mp4" res="720p" fps="30fps" vcodec="avc1.4d401f">, <Stream: itag="247" mime_type="video/webm" res="720p" fps="30fps" vcodec="vp9">, <Stream: itag="298" mime_type="video/mp4" res="720p" fps="60fps" vcodec="avc1.4d4020">, 

In [5]:
# 使用 filter 找出符合條件的影片，如: mp4, 720p
print(yt.streams.filter(subtype='mp4', res='720p', progressive=True).all())

[<Stream: itag="22" mime_type="video/mp4" res="720p" fps="30fps" vcodec="avc1.64001F" acodec="mp4a.40.2">]


In [6]:
# 上面下載的影片會直接放在當前目錄下
# 我們希望可以直接將影片放到特定資料夾位置，比較方便整理
# 可是如果資料夾還沒建立，程式找不到目錄就會報錯
# 因此使用 os.path.isdir 判斷資料夾存不存在
# 如果資料夾不存在的話，使用 os.mkdir 建立資料夾

import os

# 指定下載位置
file_dir = 'download'

# 判斷資料夾存不存
if not os.path.isdir(file_dir):
#     建立資料夾
    os.mkdir(file_dir)
    
yt.streams.filter(subtype='mp4', res='360p', progressive=True).first().download(file_dir)

'download/【桃貴安親班2：健康教育課】蔡桃貴X反骨瑋哥，蔡桃貴上到崩潰，罷課啦！.mp4'

# 常用語法

In [30]:
# 使用 find 找出字串 abcde 中 c 所在的位置
'abcde'.find('c')

# 因為程式是從0開始計算的
# a -> 0
# b -> 1
# c -> 2
# 因此結果為 2

2

In [7]:
# 找不到的話會回傳 -1
'abcde'.find('z')

-1

In [31]:
# 判斷照片是否為.gif

# 從上一個範例我們知道可以透過 find 找出特定字串的位置
# 在這邊我們就可以用來尋找網址裡面有沒有包含 .gif
# 因為找不到的值會是 -1，所以只要結果是比 -1 大的值都代表有找到內容

if '/yts/img/pixel-vfl3z5WfW.gif'.find('.gif') > -1:
    print('這是gif')

這是gif


In [9]:
# 取出網址最後一個 / 右邊的檔名

# 在網址的結構常常會有很多層，每一層都會有 / 隔開
# 可是我們不想去管他的路徑，只想知道最後一部分的檔名
# split 文件: https://www.runoob.com/python3/python3-string-split.html

link = '/yts/img/pixel-vfl3z5WfW.gif'

# 透過 split 將字串中包含 / 的部分切開
print(link.split('/'))

# 我們要的檔名在最後一段，所以使用 [-1] 就可以取到陣列的最後一筆
print(link.split('/')[-1])

['', 'yts', 'img', 'pixel-vfl3z5WfW.gif']
pixel-vfl3z5WfW.gif


# 抓取 youtube 搜尋結果的內容

### 載入套件

In [11]:
import os
import requests
from bs4 import BeautifulSoup
from pytube import YouTube

### 將搜尋『蔡桃貴』的結果頁抓回來
[https://www.youtube.com/results?search_query=蔡桃貴](https://www.youtube.com/results?search_query=蔡桃貴)

從網址我們可以知道 search_query 後面的參數就是我們搜尋的關鍵字

所以只要改變這個參數，就可以拿到不同搜尋結果的資料

In [12]:
query = '蔡桃貴'
url = 'https://www.youtube.com/results?search_query=' + query
resp = requests.get(url)
soup = BeautifulSoup(resp.text, 'lxml')

### 取出資訊並下載圖片與影片到 download 資料夾

In [14]:
hostname = 'https://www.youtube.com'
file_dir = 'download' # 下載的檔案都放到 download 資料夾
images_dir = file_dir + '/images'  # 將圖片放到 download/images 資料夾
video_dir = file_dir + '/video'  # 將影片放到 download/video 資料夾

for item in soup.select('.yt-lockup-video'):
    title = item.select('.yt-lockup-title a')[0].text
    pathname = item.select('.yt-lockup-title a')[0]['href']
    img_element = item.select('.yt-thumb-simple img')[0]
    
    # 有些網址放在src，有些在data-thumb裡面
    if img_element['src'] != '/yts/img/pixel-vfl3z5WfW.gif':
        img = img_element['src'].split('?')[0]
    else:
        img = img_element['data-thumb'].split('?')[0]
    
    # 如果資料夾不存在就先建立
    if not os.path.isdir(file_dir):  
        os.mkdir(file_dir)
    if not os.path.isdir(images_dir):
        os.mkdir(images_dir)
    if not os.path.isdir(video_dir):
        os.mkdir(video_dir)

    # 下載圖片
    r = requests.get(img)
    filename = title + '.jpg' # 設定下載的照片名稱
    with open(os.path.join(images_dir, filename), 'wb') as f:
        f.write(r.content) 
    
    # 下載影片
    url = hostname + pathname # 影片的網址
    yt = YouTube(url)
    yt.streams.filter(subtype='mp4', res='360p', progressive=True).first().download(video_dir)  #下載mp4,360p影片
    
    print('title = ', title)
    print('url = ', url)
    print('img = ', img)
    print('====')

title =  【蔡桃貴成長日記#42】私底下的惡魔貴貴！是搗蛋大師！
url =  https://www.youtube.com/watch?v=gvbIuuZO-KE
img =  https://i.ytimg.com/vi/gvbIuuZO-KE/hqdefault.jpg
====
title =  【蔡桃貴】在地上蠕動的詭異父子檔！(1Y4M14D)
url =  https://www.youtube.com/watch?v=fjYOblL2pOg
img =  https://i.ytimg.com/vi/fjYOblL2pOg/hqdefault.jpg
====
title =  【蔡桃貴成長日記#41】第一次畫畫，把整個家都毀了！蔡阿嘎大崩潰！ 【蔡阿嘎Life】
url =  https://www.youtube.com/watch?v=-vQVZQNNvEY
img =  https://i.ytimg.com/vi/-vQVZQNNvEY/hqdefault.jpg
====
title =  【蔡桃貴成長日記#33】1歲就超會講話！簡直神童啊！
url =  https://www.youtube.com/watch?v=CTymmkQ2wps
img =  https://i.ytimg.com/vi/CTymmkQ2wps/hqdefault.jpg
====
title =  【桃貴安親班#2：健康教育課】蔡桃貴X反骨瑋哥，蔡桃貴上到崩潰，罷課啦！
url =  https://www.youtube.com/watch?v=ZHHK3y49FI0
img =  https://i.ytimg.com/vi/ZHHK3y49FI0/hqdefault.jpg
====
title =  【蔡桃貴】跟阿爸嘴對嘴吃餅乾！好害羞啊！(1Y4M10D)
url =  https://www.youtube.com/watch?v=XlvcELt972U
img =  https://i.ytimg.com/vi/XlvcELt972U/hqdefault.jpg
====
title =  【蔡桃貴】自己爬上床喝捏捏睡覺！真的長大了！(1Y3M30D)
url =  https://www.youtube.com/watch?v=I

FileNotFoundError: [Errno 2] No such file or directory: 'download/images/蔡阿嘎快問快答-蔡桃貴最喜歡吃◯◯?//農純鄉手牽手親子動.jpg'

## 作業
- 抓取發布時間與觀看次數