# YAHOO電影爬蟲練習
## 練習爬取電影放映資訊。必須逐步獲取電影的代號、放映地區、放映日期後，再送出查詢給伺服器。

In [1]:
import requests
import re
from bs4 import BeautifulSoup
import pandas as pd
pd.set_option('display.max_rows',90)

### 先搜尋全部的電影代號(ID)資訊

In [2]:
url = 'https://movies.yahoo.com.tw/'
r = requests.get(url)
soup = BeautifulSoup(r.text)

movie_name = [i.text for i in soup.find('select', class_='movie_name').find_all('option', attrs={'data-name':re.compile('.*')})]
movie_id = [i['value'] for i in soup.find('select', class_='movie_name').find_all('option', attrs={'data-name':re.compile('.*')})]
movie = pd.DataFrame({'ID':movie_id, 'name':movie_name})
movie

Unnamed: 0,ID,name
0,10545,導演先生的完美假期
1,10513,大地蜜語
2,10506,狂飆一夢
3,10491,親愛的莎瑪
4,10478,大畫特務
5,10472,戰慄糖果屋
6,10465,失戀殺人：三角禁戀
7,10440,明明會說話
8,10396,艾瑪
9,10349,罪樂園


In [3]:
# 查看目前上映那些電影，並擷取出其ID資訊
url = 'https://movies.yahoo.com.tw/'
resp = requests.get(url)
resp.encoding = 'utf-8'

soup = BeautifulSoup(resp.text, 'lxml')
# soup
html = soup.find("select", attrs={'name':'movie_id'})
movie_item = html.find_all("option", attrs={'data-name':re.compile('.*')})

for p in movie_item:
    print("Movie: %s, ID: %s" % (p["data-name"], p["value"]))

Movie: 導演先生的完美假期, ID: 10545
Movie: 大地蜜語, ID: 10513
Movie: 狂飆一夢, ID: 10506
Movie: 親愛的莎瑪, ID: 10491
Movie: 大畫特務, ID: 10478
Movie: 戰慄糖果屋, ID: 10472
Movie: 失戀殺人：三角禁戀, ID: 10465
Movie: 明明會說話, ID: 10440
Movie: 艾瑪, ID: 10396
Movie: 罪樂園, ID: 10349
Movie: 寄生上流：黑白版, ID: 10527
Movie: 千日千夜, ID: 10490
Movie: 咒怨2 電影版, ID: 10464
Movie: 鳴鳥不飛：烏雲密布, ID: 10458
Movie: 哥布林殺手 劇場版, ID: 10438
Movie: 女鬼橋, ID: 10437
Movie: 怨咒, ID: 10421
Movie: 娘娘腔日記, ID: 10401
Movie: 汪星人的奇幻漂流, ID: 10388
Movie: 極地守護犬, ID: 10383
Movie: 叔．叔, ID: 10371
Movie: 隱形人, ID: 10359
Movie: 失路人, ID: 10498
Movie: 電影音效傳奇：好萊塢之聲, ID: 10484
Movie: 悲慘世界, ID: 10479
Movie: 吹哨奇案, ID: 10475
Movie: 閃閃小超人電影版, ID: 10474
Movie: 少年阿罕默德, ID: 10468
Movie: 咒怨 電影版, ID: 10463
Movie: 陰櫥, ID: 10457
Movie: 絕命大平台, ID: 10447
Movie: 李察朱威爾事件, ID: 10368
Movie: 音速小子, ID: 9246
Movie: 你好．愛．再見, ID: 10501
Movie: 逃出夢幻島, ID: 10485
Movie: 雨天．紐約, ID: 10476
Movie: 殺不了的他與死不了的她, ID: 10467
Movie: 超＂人＂氣動物園, ID: 10445
Movie: 就愛斷捨離, ID: 10436
Movie: 全境失控, ID: 10426
Movie: 謎夜拼圖, ID: 10

### 指定你有興趣的電影其ID，然後查詢其放映地區資訊。

In [4]:
# 參考前一個步驟中擷取到的ID資訊，並指定ID
movie_id = 10401

In [5]:
url = 'https://movies.yahoo.com.tw/api/v1/areas_by_movie_theater'
payload = {'movie_id':str(movie_id)}

# 模擬一個header
headers = {
    'authority': 'movies.yahoo.com.tw',
    'method': 'GET',
    'path': '/api/v1/areas_by_movie_theater?movie_id=' + str(movie_id),
    'scheme': 'https',
    'accept': 'application/json, text/javascript, */*; q=0.01',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'rxx=9s3x2fws06.1g16irnc&v=1; _ga=GA1.3.2056742944.1551651301; GUC=AQEBAQFczFpdm0IfmwSB&s=AQAAACoo4N5D&g=XMsVBw; BX=4hkdk1decm57t&b=3&s=mr; _ga=GA1.4.2056742944.1551651301; nexagesuid=82843256dd234e8e91aa73f2062f8218; browsed_movie=eyJpdiI6IlJXWWtiSWJaZlNGK2MxQnhscnVUYWc9PSIsInZhbHVlIjoiMXRhMmVHRXRIeUNjc1RBWDJzdGYwbnlIQURmWGsrcjJSMzhkbkcraDNJVUNIZEZsbzU3amlFcVZ1NzlmazJrTGpoMjVrbHk1YmpoRENXaHZTOUw1TmI2ZTZVWHdOejZQZm16RmVuMWlHTTJLaTZLVFZZVkFOMDlTd1wvSGltcytJIiwibWFjIjoiZWQ2ZjA4MmVjZmZlYjlmNjJmYmY2NGMyMDI0Njc0NWViYjVkOWE2NDg0N2RhODMxZjBjZDhiMmJhZTc2MDZhYiJ9; avi=eyJpdiI6Im1NeWFJRlVRWDR1endEcGRGUGJUbVE9PSIsInZhbHVlIjoickRpU3JuUytmcGl6cjF5OW0rNU9iZz09IiwibWFjIjoiY2VmY2NkNzZmM2NhNjY5YzlkOTcyNjE5OGEyMzU0NWYxOTdmMDRkMDY3OWNmMmZjOTMxYjc5MjI5N2Q5NGE5MiJ9; cmp=t=1559391030&j=0; _gid=GA1.4.779543841.1559391031; XSRF-TOKEN=eyJpdiI6IkhpS2hGcDRQaHlmWUJmaHdSS2Q2bHc9PSIsInZhbHVlIjoiOUVoNFk4OHI1UUZmUWRtYXhza0MyWjJSTlhlZ3RnT0VGeVJPN2JuczVRMGRFdWt2OUlsamVKeHRobFwvcHBGM0dhU3VyMXNGTHlsb2dVM2l0U1hpUGxBPT0iLCJtYWMiOiJkZWU4YzJhNjAxMTY3MzE4Y2ExNWIxYmE1ZjE1YWZlZTlhOTcyYjc4M2RlZGY4ZWNjZDYyMTA2NGYwZGViMzc2In0%3D; m_s=eyJpdiI6InpsZHZ2Tk1BZ0dxaHhETml1RjBnUXc9PSIsInZhbHVlIjoiSkNGeHUranRoXC85bDFiaDhySTJqNkJRcWdjWUxjeVRJSHVYZ1wvd2d4bWJZUTUrSHVDM0lUcW5KNHdETFZ4T1lieU81OUhzc1VoUXhZcWk0UDZSQXVFdz09IiwibWFjIjoiYmJkMDJkMDhlODIzMzcyMWY4M2NmYWNjNGVlOWRjMDIwZmVmNzAyMjE3Yzg3ZGY3ODBkZWEzZTI4MTI5ZWNmOSJ9; _gat=1; nexagesd=10',
    'dnt': '1',
    'mv-authorization': '21835b082e15b91a69b3851eec7b31b82ce82afb',
    'referer': 'https://movies.yahoo.com.tw/',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36',
    'x-requested-with': 'XMLHttpRequest',
}
    
resp = requests.get(url, params=payload, headers=headers)
#print(resp.json())  # 若有需要，列印出json原始碼

# 這裡回傳的格式是JSON格式的資料，要解析JSON擷取資料
for p in resp.json():
    print('放映地區: {0}, 代號(area_id): {1}'.format(p['title'], p['area_id']))

放映地區: 台北市, 代號(area_id): 28
放映地區: 新北市, 代號(area_id): 8
放映地區: 桃園, 代號(area_id): 16
放映地區: 新竹, 代號(area_id): 20
放映地區: 苗栗, 代號(area_id): 15
放映地區: 台中, 代號(area_id): 2
放映地區: 嘉義, 代號(area_id): 21
放映地區: 台南, 代號(area_id): 10
放映地區: 高雄, 代號(area_id): 17
放映地區: 屏東, 代號(area_id): 14
放映地區: 宜蘭, 代號(area_id): 11
放映地區: 花蓮, 代號(area_id): 12
放映地區: 金門, 代號(area_id): 24


### 指定你想要觀看的放映地區，查詢有上映電影的場次日期

In [6]:
# 指定放映地區
area_id = 28

In [7]:
# 向網站發送請求
url = 'https://movies.yahoo.com.tw/movietime_result.html'
payload = {'movie_id':str(movie_id), 'area_id':str(area_id)}
resp = requests.get(url, params=payload)
resp.encoding = 'utf-8'

soup = BeautifulSoup(resp.text, 'lxml')
movie_date = soup.find_all("label", attrs={'for':re.compile("date_[\d]")})

# 列印播放日期
for date in movie_date:
    print("%s %s" % (date.p.string, date.h3.string))

三月 10
三月 11
三月 12
三月 13
三月 14


### 最後指定觀看的日期，查詢並列印出放映的電影院、放映類型(數位、3D、IMAX 3D...)、放映時間等資訊。

In [8]:
# 選定要觀看的日期
date = "2020-03-10"

In [9]:
# 向網站發送請求，獲取上映的電影院及時間資訊
url = "https://movies.yahoo.com.tw/ajax/pc/get_schedule_by_movie"
payload = {'movie_id':str(movie_id),
           'date':date,
           'area_id':str(area_id),
           'theater_id':'',
           'datetime':'',
           'movie_type_id':''}

resp = requests.get(url, params=payload)
#print(resp.json()['view'])  # 若有需要，列印出json原始碼

soup = BeautifulSoup(resp.json()['view'], 'lxml')
html = soup.find_all("ul", attrs={'data-theater_name':re.compile(".*")})

In [11]:
print('放映日期：{}'.format(date))
print('-------------------')
for i in html:
    print('放映影城：{}'.format(i.find('a').text))
    print('類型：{}'.format(i.find('span', class_='tapR').text))
    print('時間：{}'.format([j.text for j in i.find_all('label')]))

放映日期：2020-03-10
-------------------
放映影城：欣欣秀泰影城
類型：數位
時間：['11:00', '17:10']
放映影城：台北美麗華大直影城
類型：數位
時間：['11:50']
放映影城：華威天母影城
類型：數位
時間：['17:05']
放映影城：台北樂聲影城
類型：數位
時間：['15:00', '19:20']
放映影城：喜滿客絕色影城
類型：數位
時間：['12:45', '16:45']
放映影城：台北信義威秀影城
類型：數位
時間：['17:05', '21:15']
放映影城：今日秀泰影城
類型：數位
時間：['13:30']
放映影城：京站威秀影城
類型：數位
時間：['18:45']
放映影城：喜樂時代影城南港店
類型：數位
時間：['13:00', '17:00', '20:55']
