# 練習

- 觀察 https://movies.yahoo.com.tw/chart.html 並撰寫爬蟲程式
- 抓取台北當週票房排行榜
- 使用 requests + BeautifulSoup 實作
- 透過 pandas 輸出成 csv

In [109]:
import os
import requests
import pandas as pd
from bs4 import BeautifulSoup

url = 'https://movies.yahoo.com.tw/chart.html'

In [110]:
# 200:存取正確
# 403:存取拒絕
# 404:網頁不存在
#Requests呼叫網頁用的套件/指令
resp = requests.get(url)
resp

<Response [200]>

In [111]:
soup = BeautifulSoup(resp.text,'lxml')
soup

<!DOCTYPE html>
<html lang="zh_TW">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1, user-minimum-scale=1, maximum-scale=1" name="viewport"/>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="501887343352051" property="fb:app_id"/>
<meta content="Yahoo奇摩電影" property="og:site_name"/>
<link href="/favicon.ico?v=2" rel="icon"/>
<title>台北票房榜 - Yahoo奇摩電影</title>
<meta content="台北票房榜 - Yahoo奇摩電影" name="twitter:title"/>
<meta content="台北票房榜 - Yahoo奇摩電影" property="og:title"/>
<link href="https://movies.yahoo.com.tw/chart.html" rel="canonical"/>
<meta content="https://movies.yahoo.com.tw/chart.html" property="og:url"/>
<meta content="提供最新的電影資訊、預告片、劇照、電影時刻表、明星資訊、網友期待榜、網友滿意榜、票房榜和電影相關動態" name="twitter:description"/>
<meta content="提供最新的電影資訊、預告片、劇照、電影時刻表、明星資訊、網友期待榜、網友滿意榜、票房榜和電影相關動態" name="description"/>
<meta content="提供最新的電影資訊、預告片、劇照、電影時刻表、明星資訊、網友期待榜、網友滿意榜、票房榜和電影相關動態" property="og:description"/>
<meta content="https://movies.yahoo

In [112]:
column_name = soup.find('div',class_='tr top').text.split('\n')
column_name

['', '本週', '', '上週', '片名', '上映日期', '預告片', '網友滿意度', '']

In [113]:
column_name = [i for i in column_name if i!='']
column_name

['本週', '上週', '片名', '上映日期', '預告片', '網友滿意度']

In [144]:
df = pd.DataFrame(columns=column_name)
df

Unnamed: 0,本週,上週,片名,上映日期,預告片,網友滿意度


In [145]:
table = soup.find('div',class_='l_box')
len(table.find_all('div',class_='tr'))

21

In [146]:
for rank in range(1,len(table.find_all('div',class_='tr'))):
    this_week = table.find_all('div',class_='tr')[rank].find_all('div',class_='td')[0].text
    last_week = table.find_all('div',class_='tr')[rank].find_all('div',class_='td')[2].text
    if rank == 1:
        name = table.find_all('div',class_='tr')[rank].find_all('div',class_='td')[3].h2.text
    else:
        name = table.find_all('div',class_='tr')[rank].find_all('div',class_='td')[3].find('div',class_='rank_txt').text
    date = table.find_all('div',class_='tr')[rank].find_all('div',class_='td')[4].text
    if table.find_all('div',class_='tr')[rank].find_all('div',class_='td')[5].a != None:
        link = table.find_all('div',class_='tr')[rank].find_all('div',class_='td')[5].a['href']
    else:
        link = ''
    if table.find_all('div',class_='tr')[rank].find_all('div',class_='td')[6].h6!=None:
        rating = table.find_all('div',class_='tr')[rank].find_all('div',class_='td')[6].h6.text
    else:
        rating =''
    df = df.append({'本週':this_week,'上週':last_week,'片名':name,'上映日期':date,'預告片':link,
              '網友滿意度':rating},ignore_index=True)
    



In [147]:
df

Unnamed: 0,本週,上週,片名,上映日期,預告片,網友滿意度
0,1,1.0,蝙蝠俠,2022-03-03,https://movies.yahoo.com.tw/video/%E8%9D%99%E8...,4.0
1,2,2.0,劇場版 咒術迴戰 0,2022-02-24,https://movies.yahoo.com.tw/video/%E5%8A%87%E5...,4.6
2,3,3.0,時代革命,2022-02-25,https://movies.yahoo.com.tw/video/%E6%99%82%E4...,4.5
3,4,4.0,秘境探險,2022-02-17,https://movies.yahoo.com.tw/video/%E7%A7%98%E5...,3.9
4,5,,該死的阿修羅,2022-03-11,https://movies.yahoo.com.tw/video/%E8%A9%B2%E6...,4.2
5,6,,青春換日線,2022-03-11,https://movies.yahoo.com.tw/video/%E9%9D%92%E6...,3.9
6,7,5.0,世界上最爛的人,2022-02-18,https://movies.yahoo.com.tw/video/%E4%B8%96%E7...,3.9
7,8,,絕命通話,2022-03-11,https://movies.yahoo.com.tw/video/%E7%B5%95%E5...,2.4
8,9,7.0,我吃了那男孩一整年的早餐,2022-01-28,,4.1
9,10,8.0,在車上,2022-02-11,https://movies.yahoo.com.tw/video/%E5%9C%A8%E8...,4.1


In [148]:
df.to_csv('movie_2022_0318.csv',index=False)