# YAHOO電影爬蟲練習
## 這個作業主要是練習爬取YAHOO電影的資訊，主要會用到基本的GET method，以及解析伺服器回傳的html，從中擷取我們想要的資料。

### 這個範例示範如何爬取上映中的電影資訊。先訪問YAHOO電影首頁：https://movies.yahoo.com.tw ，點選「上映中」的分頁，先確認上映中的電影總共有幾筆，然後逐頁爬取。

In [4]:
import requests
import re
from bs4 import BeautifulSoup

In [5]:
# 先觀察一下目前上映中的電影數量
url = 'https://movies.yahoo.com.tw/movie_intheaters.html'
resp = requests.get(url)
resp.encoding = 'utf-8'

soup = BeautifulSoup(resp.text, 'lxml')
html = soup.find("div", attrs={'class':'release_box'})  # 尋找正在上映中的全部電影筆數，其所在的tag
print("正在上映中總共: ", html.p.string)

正在上映中總共:  共78筆，目前顯示1~10筆


### 爬取所有上映中的電影資料：電影名稱、期待度、滿意度、簡介等等。

In [9]:
# 接下來要爬取每一頁的電影介紹
# 先點選網頁最底部的下一頁，觀察其網址變化。然後我們把頁數當作變數傳入，用迴圈爬取。
max_page = 5
for page_number in range(1, max_page+1, 1):
    url = 'https://movies.yahoo.com.tw/movie_intheaters.html'
    payload = {'page':str(page_number)}
    resp = requests.get(url, params=payload)
    resp.encoding = 'utf-8'
    soup = BeautifulSoup(resp.text, 'lxml')

    # 把電影介紹擷取出來
    movie_list = soup.find("ul", attrs={"class":"release_list"}).find_all("li")
    for p in movie_list:
        print("----------------------------------------------------------------------")
        # 電影名稱
        movie_name = p.find("div", attrs={"class":"release_movie_name"})
        print("電影名稱：", movie_name.a.string)
        
        # 定位電影評價資訊欄位
        level_box = movie_name.find("dl", attrs={"class":"levelbox"})
        
        # 期待度
        expectation = level_box.find("div", attrs={"class":"leveltext"})
        print("期待度：", expectation.span.string)
        
        # 滿意度
        satisfaction = level_box.dd.find("div", attrs={"class":"leveltext"})
        print("滿意度：", satisfaction.span["data-num"])  # 滿意度可以從"data-num"這個屬性擷取
        
        # 簡介
        movie_info = p.find("div", attrs={"class":"release_text"})
        print(movie_info.span.string)


原創音樂、攝影、剪輯、改編劇本、造型、美術等9項大獎提名！
★ 第56屆金馬國際影展閉幕電影！
★ 第24屆釜山國際電影節「亞洲電影之窗」單元入選影片！
★ 金馬雙影后張艾嘉、李心潔、日本影帝阿部寬同台飆戲！
★ 阿部寬、李心潔大談跨國禁忌之戀，李心潔從影最大尺度演出！
★ 林書宇繼《百日告別》後又一揪心愛情力作！
★ 國際文學大獎曼布克獎決選前六強小說改編！
★《大亨小傳》、《納尼亞傳奇》金獎幕後團隊跨國製作！
 
馬來西亞知名作家陳團英同名小說改編，描述一對姐妹受困於二次世界大戰中的馬來西亞戰俘營，獨自逃出生天的姐姐雲林(李心潔飾)始終對殞命的妹妹雲紅自責不已。數年後，她決定向優秀卻有神秘背景的日本園藝師中村有朋(阿部寬飾)學藝，想蓋出姐妹倆夢想中的花園來思念妹妹。即使身為日本人的中村不時讓她想起曾經的夢魘，她仍然對中村漸生情愫，一段不被世人允許的淒美動人愛情故事就此展開…。
                
----------------------------------------------------------------------
電影名稱： 
                  賽道狂人
期待度： 80%
滿意度： 4.4

                  ★集結影壇夢幻卡司！麥特戴蒙聯手克里斯汀貝爾 重現賽車史經典戰役
★年度熱血鉅作《賽道狂人》爛番茄滿分開盤 多倫多國際影展好評熱推
★《羅根》才華大導演詹姆士曼格擔崗 媒體盛譽將橫掃獎季
★改編自車壇最傳奇熱血的真實事蹟 福特汽車對抗賽車界霸主法拉利
 
曾獲奧斯卡殊榮的金獎得主麥特戴蒙和金球獎影帝克里斯汀貝爾即將共同出演《賽道狂人》，電影根據真實事件改編，劇情描述來自美國的汽車設計師卡洛謝爾比（麥特戴蒙 飾演）和無所畏懼的英國賽車手肯邁爾斯（克里斯汀貝爾 飾演），兩人聯手對抗企業干預、打破物理定律，同時面對他們各自的心魔，最後為福特汽車打造出一輛革命性新款賽車，更在1966年於法國舉辦的利曼24小時耐力賽中，一舉擊敗當時的賽車界霸主法拉利。
                
----------------------------------------------------------------------
電影名稱： 
                  鋒迴路轉
期待度： 