# 網路爬蟲基礎

參考網站 : https://blog.jiatool.com/posts/gamer_ani_spider/

巴哈姆特 動畫瘋：新手入門基礎網路爬蟲教學，
爬取"巴哈姆特 動畫瘋"的本季新番動畫資訊

In [1]:
import os
import requests
from bs4 import BeautifulSoup

In [2]:
# 巴哈姆特動畫瘋 網址
url = 'https://ani.gamer.com.tw/'

## 1. 發出請求

In [3]:
import requests

r = requests.get(url)
if r.status_code == 200:  # 200 : 請求已成功，請求所希望的回應頭或資料體將隨此回應返回。
    print(f'請求成功：{r.status_code}')
else:
    print(f'請求失敗：{r.status_code}')


請求失敗：403


Note (http 狀態碼):  https://zh.wikipedia.org/wiki/HTTP%E7%8A%B6%E6%80%81%E7%A0%81#%E5%A4%96%E9%83%A8%E9%93%BE%E6%8E%A5


上述程式碼的結果應該是請求失敗，因為缺少「User-Agent」(使用者代理)，
User-Agent 它屬於Header，是開發者可以自己訂或是更改的(手機APP也可以)，一般來說是用來表明Request發送的「來源程式」，
比方說你是用哪種瀏覽器，或是是由哪支APP發出的(要自己定)。並且如果使用的是HTTPS Request的話Header是會被加密的，
可以有基本的安全性(但不是很有用，中間人攻擊就是一個例子)，如果只是用HTTP的話則會是明碼傳輸。

參考自 : https://progressbar.tw/posts/234

In [4]:
# 加入 Headers 內的 "User-Agent"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
}

In [5]:
r = requests.get(url, headers=headers)
if r.status_code == 200:
    print(f'請求成功：{r.status_code}')
else:
    print(f'請求失敗：{r.status_code}')

請求成功：200


![ref_1](./ref_imgs/ref_1.png)

![ref_2](./ref_imgs/ref_2.png)

## 2. 解析網頁元素

In [6]:
# 印出網頁原始碼
print(r.text)

<!DOCTYPE html>
<html lang="zh-Hant-TW" data-theme="light">
<head>
<title>巴哈姆特動畫瘋</title>
<meta http-equiv="Content-Type" content="text/html" charset="utf-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no">
<meta name="description" content="動畫瘋是由巴哈姆特所推出，正版授權的免費動畫平台，提供與日本同步的當季新番動畫，並含有高達上萬集的過往名作，供動畫迷們自由選擇！">
<meta name="thumbnail" content="https://i2.bahamut.com.tw/anime/FB_anime.png">
<meta property="og:title" content="巴哈姆特動畫瘋">
<meta property="og:type" content="website">
<meta property="og:url" content="https://ani.gamer.com.tw">
<meta property="og:image" content="https://i2.bahamut.com.tw/anime/FB_anime.png">
<meta property="og:description" content="動畫瘋是由巴哈姆特所推出，正版授權的免費動畫平台，提供與日本同步的當季新番動畫，並含有高達上萬集的過往名作，供動畫迷們自由選擇！">
<meta name="apple-itunes-app" content="app-id=1102650114">
<link rel='icon' href='https://i2.bahamut.com.tw/favicon.svg?v=1689129528' type='image/svg+xml'>
<link rel="apple-touch-icon" href="https://ani.gamer.com.t

In [7]:
# 解析原始碼，可用內建的解析器 html.parser 或是用 html5lib
# 解析氣的差別可看 : https://blog.csdn.net/weixin_45954198/article/details/123964809
soup = BeautifulSoup(r.text, "html5lib")

In [8]:
# 抓取 class 有包含 timeline-ver 元素底下一層 class 有包含 newanime-block 的元素
newanime_item = soup.select_one('.timeline-ver > .newanime-block')

In [9]:
# 會發現當中的下一層可抓到每一個動畫資料元素
print(newanime_item)

<div class="newanime-block">

<div class="newanime-date-area new-count-1 fadeIn" data-animesn="113449" data-date-code="1">
<div class="anime-content-block">

<div class="date-block">
<div class="pic-continue">
<img alt="icon-continue" src="https://i2.bahamut.com.tw/anime/pic-continue.svg"/>
</div>
<div class="date-block-border"></div>
</div>

<div class="anime-block">
<a class="anime-card-block" data-gtm="本季新番卡片" href="animeVideo.php?sn=37367">
<div class="anime-pic-block">

<div class="anime-hours-block">
<img alt="clock_img" class="anime-clock-img" src="https://i2.bahamut.com.tw/anime/pic_time_icon.svg"/>
<span class="anime-hours">00:30</span>
</div>

<div class="anime-blocker">
<img alt="anime_pic" class="lazyload" data-src="https://p2.bahamut.com.tw/B/2KU/32/29526e237be2842d21286a4bc51p13c5.JPG"/>
</div>
<div class="line-gradient"></div>
<div class="anime-detail-info-block">
<div class="anime-episode">
<img alt="pic-tv" src="https://i2.bahamut.com.tw/anime/pic-tv.svg"/><p>第8集</p>
<

In [10]:
# 再往下一層可抓到每一個動畫資料元素，決定用 newanime-date-area 定位
anime_items = newanime_item.select('.newanime-date-area')

In [11]:
print(anime_items)

[<div class="newanime-date-area new-count-1 fadeIn" data-animesn="113449" data-date-code="1">
<div class="anime-content-block">

<div class="date-block">
<div class="pic-continue">
<img alt="icon-continue" src="https://i2.bahamut.com.tw/anime/pic-continue.svg"/>
</div>
<div class="date-block-border"></div>
</div>

<div class="anime-block">
<a class="anime-card-block" data-gtm="本季新番卡片" href="animeVideo.php?sn=37367">
<div class="anime-pic-block">

<div class="anime-hours-block">
<img alt="clock_img" class="anime-clock-img" src="https://i2.bahamut.com.tw/anime/pic_time_icon.svg"/>
<span class="anime-hours">00:30</span>
</div>

<div class="anime-blocker">
<img alt="anime_pic" class="lazyload" data-src="https://p2.bahamut.com.tw/B/2KU/32/29526e237be2842d21286a4bc51p13c5.JPG"/>
</div>
<div class="line-gradient"></div>
<div class="anime-detail-info-block">
<div class="anime-episode">
<img alt="pic-tv" src="https://i2.bahamut.com.tw/anime/pic-tv.svg"/><p>第8集</p>
</div>
<div class="anime-label

In [12]:
# 印出幾組動畫元素
print(len(anime_items))

47


## 3. 抓取動畫名稱、觀看人數、動畫集數、觀看連結

### 3-1. 動畫名稱

In [13]:
# 取得第一組動漫名稱元素
anime_name = newanime_item.select_one('.anime-name > p')

In [14]:
anime_name

<p class="">公主殿下，「拷問」的時間到了</p>

In [15]:
# 取得元素裡的文字
anime_name = newanime_item.select_one('.anime-name > p').text
anime_name

'公主殿下，「拷問」的時間到了'

In [16]:
# 使用 strip() 將字串的前後空格和換行去除
anime_name = anime_name.strip()
anime_name

'公主殿下，「拷問」的時間到了'

### 3-2. 觀看人數

In [17]:
# 取得第一組動漫觀看人數元素
anime_watch_number = newanime_item.select_one('.anime-watch-number > p')

In [18]:
anime_watch_number

<p>30萬</p>

In [19]:
# 取得元素裡的字
anime_watch_number = newanime_item.select_one('.anime-watch-number > p').text.strip()
anime_watch_number

'30萬'

### 3-3. 動畫集數

In [20]:
anime_episode = newanime_item.select_one('.anime-episode > p')

In [21]:
anime_episode

<p>第8集</p>

In [22]:
anime_watch_number = newanime_item.select_one('.anime-episode > p').text.strip()
anime_watch_number

'第8集'

### 3-4. 觀看連結

"觀看連結" 稍微特別一點，連結並不是以文字形式被包在元素之間，  
而是在元素裡的 href 屬性，這時要透過 get('href') 方法來取得。

In [23]:
anime_href = newanime_item.select_one('a.anime-card-block').get('href')
print(os.path.join(url, anime_href))

https://ani.gamer.com.tw/animeVideo.php?sn=37367


## 4. 函式實現

In [24]:
def read_headers_ua(headers_path: str) -> dict:
    """
    讀取 Headers 內的 "User-Agent"。

    :param headers_path: Headers 的路徑
    :type headers_path: str
    :return: User-Agent
    :rtype: str
    """
    with open(headers_path) as f:
        lines = f.readlines()
        headers_dict = {'User-Agent': lines[0].strip()}
        return headers_dict

In [25]:
def show_new_anime(url: str, ua: dict) -> None:
    r = requests.get(url, headers=ua)
    if r.status_code == 200:
        print(f'請求成功: {r.status_code}')

        soup = BeautifulSoup(r.text, 'html5lib')

        new_anime_item = soup.select_one('.timeline-ver > .newanime-block')

        anime_items = new_anime_item.select('.newanime-date-area')

        for anime_item in anime_items:
            anime_name = anime_item.select_one('.anime-name > p')
            print(f'Name: {anime_name}')

            anime_watch_number = anime_item.select_one('.anime-watch-number > p')
            print(f'Watch number: {anime_watch_number}')

            anime_episode = anime_item.select_one('.anime-episode > p')
            print(f'Episode: {anime_episode}')

            anime_href = anime_item.select_one('a.anime-card-block').get('href')
            print(f'Href: {os.path.join(url, anime_href)}')
    else:
        print(f'請求失敗: {r.status_code}')

In [26]:
url = 'https://ani.gamer.com.tw/'
headers = os.path.join(os.getcwd(), 'header_UA.txt')
user_agent = read_headers_ua(headers)

In [27]:
# show_new_anime(url, ua=user_agent)

執行後會發現會出現錯誤，原來是最後這個"付費比例"區塊搞的鬼，它也同樣有 newanime-date-area 這個 class，  
一樣會被抓出來，但它沒有動畫名稱，所以才會造成後續在取得文字時發生錯誤。

正確的函式 : 

In [28]:
def show_new_anime(url: str, ua: dict) -> None:
    r = requests.get(url, headers=ua)
    if r.status_code == 200:
        print(f'請求成功: {r.status_code}')

        soup = BeautifulSoup(r.text, 'html5lib')
        new_anime_item = soup.select_one('.timeline-ver > .newanime-block')
        anime_items = new_anime_item.select('.newanime-date-area:not(.premium-block)')

        for anime_item in anime_items:
            anime_name = anime_item.select_one('.anime-name > p').text.strip()
            print(f'Name: {anime_name}')
            anime_watch_number = anime_item.select_one('.anime-watch-number > p').text.strip()
            print(f'Watch number: {anime_watch_number}  人')
            anime_episode = anime_item.select_one('.anime-episode > p').text.strip()
            print(f'Episode: {anime_episode}')
            anime_href = anime_item.select_one('a.anime-card-block').get('href')
            print(f'url: {os.path.join(url, anime_href)}')
            print('------------------------')
    else:
        print(f'請求失敗: {r.status_code}')

In [29]:
show_new_anime(url, ua=user_agent)

請求成功: 200
Name: 公主殿下，「拷問」的時間到了
Watch number: 30萬  人
Episode: 第8集
url: https://ani.gamer.com.tw/animeVideo.php?sn=37367
------------------------
Name: 愚蠢天使與惡魔共舞
Watch number: 36.5萬  人
Episode: 第8集
url: https://ani.gamer.com.tw/animeVideo.php?sn=37368
------------------------
Name: 月光下的異世界之旅 第二季
Watch number: 97.5萬  人
Episode: 第8集
url: https://ani.gamer.com.tw/animeVideo.php?sn=37369
------------------------
Name: 愛犬訊號
Watch number: 8萬  人
Episode: 第17集
url: https://ani.gamer.com.tw/animeVideo.php?sn=37371
------------------------
Name: HIGH CARD 至高之牌 2
Watch number: 6.1萬  人
Episode: 第20集
url: https://ani.gamer.com.tw/animeVideo.php?sn=37447
------------------------
Name: 休假的壞人先生
Watch number: 36.6萬  人
Episode: 第8集
url: https://ani.gamer.com.tw/animeVideo.php?sn=37342
------------------------
Name: 輪迴七次的惡役千金，在前敵國享受隨心所欲的新婚生活
Watch number: 84.8萬  人
Episode: 第8集
url: https://ani.gamer.com.tw/animeVideo.php?sn=37343
------------------------
Name: 狩火之王 第二季
Watch number: 3.3萬  人
Episode: 第7集
ur

## 5. 增加功能 : 動畫的圖片網址、切換到週期表的畫面

In [30]:
def show_new_anime(url: str, ua: dict) -> None:
    r = requests.get(url, headers=ua)
    if r.status_code == 200:
        print(f'請求成功: {r.status_code}')

        soup = BeautifulSoup(r.text, 'html5lib')
        new_anime_item = soup.select_one('.timeline-ver > .newanime-block')
        anime_items = new_anime_item.select('.newanime-date-area:not(.premium-block)')

        for anime_item in anime_items:
            anime_name = anime_item.select_one('.anime-name > p').text.strip()
            print(f'Name: {anime_name}')  # 動畫名字
            anime_watch_number = anime_item.select_one('.anime-watch-number > p').text.strip()
            print(f'Watch number: {anime_watch_number}  人')  # 觀看人數
            anime_episode = anime_item.select_one('.anime-episode > p').text.strip()
            print(f'Episode: {anime_episode}')  # 集數
            anime_href = anime_item.select_one('a.anime-card-block').get('href')
            print(f'url: {os.path.join(url, anime_href)}')  # 影片網址
            anime_img_url = anime_item.select_one('img.lazyload').get('data-src')
            print(f'img url: {anime_img_url}')  # 動畫縮圖網址
            anime_date = str(anime_item.select_one('.anime-date-info').contents[-1]).strip()
            print(f'Date: {anime_date}')  # 動畫播放日期
            anime_time = anime_item.select_one('.anime-hours').text.strip()
            print(anime_time)  # 動畫播放時間
            print('------------------------')
    else:
        print(f'請求失敗: {r.status_code}')

In [31]:
show_new_anime(url, ua=user_agent)

請求成功: 200
Name: 公主殿下，「拷問」的時間到了
Watch number: 30萬  人
Episode: 第8集
url: https://ani.gamer.com.tw/animeVideo.php?sn=37367
img url: https://p2.bahamut.com.tw/B/2KU/32/29526e237be2842d21286a4bc51p13c5.JPG
Date: 02/27 (二)
00:30
------------------------
Name: 愚蠢天使與惡魔共舞
Watch number: 36.5萬  人
Episode: 第8集
url: https://ani.gamer.com.tw/animeVideo.php?sn=37368
img url: https://p2.bahamut.com.tw/B/2KU/25/bb06e515f0d5c7c21a0633e45d1p1355.JPG
Date: 02/27 (二)
00:30
------------------------
Name: 月光下的異世界之旅 第二季
Watch number: 97.5萬  人
Episode: 第8集
url: https://ani.gamer.com.tw/animeVideo.php?sn=37369
img url: https://p2.bahamut.com.tw/B/2KU/91/36135992dc6b1024f362b570611p14z5.JPG
Date: 02/26 (一)
23:00
------------------------
Name: 愛犬訊號
Watch number: 8萬  人
Episode: 第17集
url: https://ani.gamer.com.tw/animeVideo.php?sn=37371
img url: https://p2.bahamut.com.tw/B/2KU/81/f78eb1beef365c44841d790b3b1p0z55.JPG
Date: 02/26 (一)
20:00
------------------------
Name: HIGH CARD 至高之牌 2
Watch number: 6.1萬  人
Episode: 