# YAHOO電影爬蟲練習
## 這個作業主要是練習爬取YAHOO電影的資訊，主要會用到基本的GET method，以及解析伺服器回傳的html，從中擷取我們想要的資料。

### 這個範例示範如何爬取上映中的電影資訊。先訪問YAHOO電影首頁：https://movies.yahoo.com.tw ，點選「上映中」的分頁，先確認上映中的電影總共有幾筆，然後逐頁爬取。

In [1]:
import requests
import re
from bs4 import BeautifulSoup

In [3]:
# 先觀察一下目前上映中的電影數量
url = 'https://movies.yahoo.com.tw/movie_comingsoon.html'
resp = requests.get(url)
resp.encoding = 'utf-8'

soup = BeautifulSoup(resp.text, 'lxml')
html = soup.find("div", attrs={'class':'release_box'})  # 尋找正在上映中的全部電影筆數，其所在的tag
print("正在上映中總共: ", html.p.string)

正在上映中總共:  共37筆，目前顯示1~10筆


### 爬取所有上映中的電影資料：電影名稱、期待度、滿意度、簡介等等。

In [5]:
# 接下來要爬取每一頁的電影介紹
# 先點選網頁最底部的下一頁，觀察其網址變化。然後我們把頁數當作變數傳入，用迴圈爬取。
max_page = 5
for page_number in range(1, max_page+1, 1):
    url = 'https://movies.yahoo.com.tw/movie_comingsoon.html'
    payload = {'page':str(page_number)}
    resp = requests.get(url, params=payload)
    resp.encoding = 'utf-8'
    soup = BeautifulSoup(resp.text, 'lxml')

    # 把電影介紹擷取出來
    movie_list = soup.find("ul", attrs={"class":"release_list"}).find_all("li")
    for p in movie_list:
        print("----------------------------------------------------------------------")
        # 電影名稱
        movie_name = p.find("div", attrs={"class":"release_movie_name"})
        print("電影名稱：", movie_name.a.string)
        
        # 定位電影評價資訊欄位
        level_box = movie_name.find("dl", attrs={"class":"levelbox"})
        
        # 期待度
        expectation = level_box.find("div", attrs={"class":"leveltext"})
        print("期待度：", expectation.span.string)
        
        # 滿意度
        #satisfaction = level_box.find("div", attrs={"class":"leveltext starwithnum"})
        #print("滿意度：", satisfaction.span["data-num"])  # 滿意度可以從"data-num"這個屬性擷取
        
        # 簡介
        movie_info = p.find("div", attrs={"class":"release_text"})
        print(movie_info.span.string)


----------------------------------------------------------------------
電影名稱： 
                  殺手保鑣2
期待度： 93%

                  ★ 億萬票房《殺手保鑣》系列續集，暑假必看!
★影史最強三"賤"客，原班人馬霸氣回歸，戰力全開「一生只賤你一人」!
 
萊恩雷諾斯、山繆傑克森雙人合體電影《殺手保鏢》票房大獲成功，萊恩與山繆都相當喜歡這個角色，因此再度與導演簽下續集合約。但有個前提是：續集劇本一定要更賤、爆破要更驚人，導演義無反顧一口答應! 
 
《殺手保鏢2》在2019年5月於克羅埃西亞開拍，故事將延續上一集，為防止獨裁勢力摧毀整個歐洲，嗆辣老婆「索妮亞」出獄後被迫與3A保鑣-麥可聯手執行任務，三人合體的嘴賤攻防怎能不期待!
 
                
----------------------------------------------------------------------
電影名稱： 
                  紐約高地
期待度： 81%

                  著名舞台劇《漢密爾頓》的創作者，聯手《瘋狂亞洲富豪》的導演，邀請您明年暑假共襄盛舉，參與這場音樂饗宴。《紐約高地》一個街道充滿美妙旋律，讓小小希望成為遠大宏偉夢想的地方。
 
華盛頓高地亮了起來……就在第181街地鐵站的外頭，熱咖啡的香味瀰漫在空氣中，有千變萬化的夢想，聚集在這個活力充沛又緊密交織的社區。而在這當中的靈魂人物，就是人緣佳又富有感染力的小酒館老闆尤斯納維（安東尼拉莫斯 飾）。他存下掙來的每一分錢，懷抱著遠大夢想、憧憬，並唱出更美好的人生。
 
                
----------------------------------------------------------------------
電影名稱： 
                  烘焙家之味
期待度： 75%

                  以色列金獎作家梅厄沙萊夫暢銷小說改編
 
年過四十的以掃是旅居美國的暢銷作家，他的作品多半圍繞著烘焙與麵包的幸福故事，廣受女性讀者的歡迎。然而，儘管坐擁財富與名氣，他卻始終覺得內心缺了一角