# YAHOO電影爬蟲練習
## 這個作業主要是練習爬取YAHOO電影的資訊，主要會用到基本的GET method，以及解析伺服器回傳的html，從中擷取我們想要的資料。

### 這個範例示範如何爬取上映中的電影資訊。先訪問YAHOO電影首頁：https://movies.yahoo.com.tw ，點選「上映中」的分頁，先確認上映中的電影總共有幾筆，然後逐頁爬取。

In [1]:
import requests
import re
from bs4 import BeautifulSoup

In [2]:
# 先觀察一下目前上映中的電影數量
url = 'https://movies.yahoo.com.tw/movie_intheaters.html'
resp = requests.get(url)
resp.encoding = 'utf-8'

soup = BeautifulSoup(resp.text, 'lxml')
# print(soup)

# find（name，attrs，遞歸，字符串，** kwargs），attrs = {attribute_key: attribute_value}
html = soup.find("div", attrs={'class':'release_box'})  # 尋找正在上映中的全部電影筆數，其所在的tag
# 顯示 tag <p>共86筆，目前顯示1~10筆</p> 的字串
# print(p.string)　　# hello word
# print(p.text)　　  # hello word
# print(type(p.string))   # <class 'bs4.element.NavigableString'>
# print(type(p.text))     # <class 'str'>
# https://bit.ly/39jDvh5
print("正在上映中總共: ", html.p.string)


# html = '''<html>
# <td>some text</td> 
# <td></td>
# <td><p>more text</p></td>
# <td>even <p>more text</p></td>
# </html>'''

# soup = BeautifulSoup(html, 'lxml')
# tds = soup.find_all('td')

# for td in tds:
#     print(td.string)

# print('------------')
# for td in tds:
#     print(td.text)
# string 屬性的輸出結果為：

# some text
# None
# more text
# None
# text 屬性的輸出結果為：

# some text

# more text
# even more text


正在上映中總共:  共89筆，目前顯示1~10筆


### 爬取所有上映中的電影資料：電影名稱、期待度、滿意度、簡介等等。

In [3]:
# 接下來要爬取每一頁的電影介紹
# 先點選網頁最底部的下一頁，觀察其網址變化。然後我們把頁數當作變數傳入，用迴圈爬取。
max_page = 5
# range(start, stop[, step])
# start: 計數從 start 開始。默認是從 0 開始。例如range（5）等價於range（0， 5）;
# stop: 計數到 stop 結束，但不包括 stop。例如：range（0， 5） 是[0, 1, 2, 3, 4]沒有5
# step：步長，默認為1。例如：range（0， 5） 等價於 range(0, 5, 1)
for page_number in range(1, max_page+1, 1):
    url = 'https://movies.yahoo.com.tw/movie_intheaters.html'
    # https://blog.gtwang.org/programming/python-requests-module-tutorial/
    ## 查詢參數
    # my_params = {'key1': 'value1', 'key2': 'value2'}
    ## 將查詢參數加入 GET 請求中
    # r = requests.get('http://httpbin.org/get', params = my_params)
    payload = {'page':str(page_number)}
    resp = requests.get(url, params=payload)
    resp.encoding = 'utf-8'
    print(resp.url)
    soup = BeautifulSoup(resp.text, 'lxml')

    # 把電影介紹擷取出來
    movie_list = soup.find("ul", attrs={"class":"release_list"}).find_all("li")
    for p in movie_list:
        print("----------------------------------------------------------------------")
        # 電影名稱
        movie_name = p.find("div", attrs={"class":"release_movie_name"})
        print("電影名稱：", movie_name.a.string)
        
        # 定位電影評價資訊欄位
        level_box = movie_name.find("dl", attrs={"class":"levelbox"})
        
        # 期待度
        expectation = level_box.find("div", attrs={"class":"leveltext"})
        print("期待度：", expectation.span.string)
        
        # 滿意度
        satisfaction = level_box.find_all("div", attrs={"class":"leveltext"})[1]
        print("滿意度：", satisfaction.span["data-num"])  # 滿意度可以從"data-num"這個屬性擷取
        
        # 簡介
        movie_info = p.find("div", attrs={"class":"release_text"})
        print(movie_info.span.string)


https://movies.yahoo.com.tw/movie_intheaters.html?page=1
----------------------------------------------------------------------
電影名稱： 
                  記憶屋
期待度： 88%
滿意度： 3.7

                  聽說有個叫做「記憶使者」的人
能將人的記憶消除……
 
大學生遼一（山田涼介 飾）與學姊杏子（蓮佛美沙子 飾）是一對幸福的戀人，就在遼一求婚成功的隔天，杏子卻突然斷絕一切聯絡，直至多日後相見，遼一才發現杏子喪失了所有與他有關的記憶。似曾相識的事情也曾發生在青梅竹馬真希（芳根京子 飾）的身上，而這一切似乎與都市傳說中，可以將人的記憶消除的「記憶屋」有關。在前輩律師高原（佐佐木藏之介 飾）以及真希兩人的幫助之下，遼一逐步追查戀人失去記憶的真相。他發現「記憶屋」的存在拯救了許多人，消除記憶不一定是壞事，因為人們心中有許多殘酷、痛苦、令人「想忘記的記憶」。那麼，杏子又為何僅僅忘記關於自己的事呢？真相逐步逼近，就連他自己的腦中也出現不可思議的空白斷層……
 
本片改編自榮獲「第22屆日本HORROR小說大賽」讀者獎的《記憶使者》，一部讓人熱淚盈眶的青春惆悵系恐怖小說！由知名日劇【天皇的御廚】、【女強人小媽】的導演平川雄一朗執導，對人的內心深處的痛苦細膩描繪，在傑斯尼偶像團體Hey! Say! 
 
JUMP的山田涼介領銜主演之下，將帶給大家超越想像、感人又驚悚的作品。
 
                
----------------------------------------------------------------------
電影名稱： 
                  Re從零開始的異世界生活 外傳集
期待度： 89%
滿意度： 3.8

                  ★一個沒有自信的少年向一個沒有自信的少女傳達心意
★愛蜜莉雅、雷姆、拉姆三大高人氣女角，首次登上台灣電影院大螢幕!
★2016年動畫撥出，話題火燒度至今仍不滅!
★2017年獲得SUGOI JAPAN Award ★2017輕小說部門、動畫部門第一名
 
「為了救你，我死幾次都無所謂。」、「跨越無數