<a href="https://colab.research.google.com/github/wendychen215/aop113b/blob/main/%E4%BD%9C%E6%A5%AD%E4%B8%80.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# HW02 Web Crawler

## 題目

**最近有甚麼好看的電影!!!**

## 摘要

本報告旨在透過網路爬蟲技術，收集威秀影城網站熱映中的電影資料提供參考。

## 引言

看電影作為重要的娛樂之一，最近有甚麼好看的電影變成很重要的問題。

本次爬蟲的目標是收集威秀影城網站熱映中的電影資料提供參考。

## 方法

- 目標網站描述
  - 目標網站：威秀影城頁面。  
  https://www.vscinemas.com.tw/film/index.aspx
  - 頁面結構：包含電影中英文名稱、上映日期等資訊。

- 工具與技術
  - 使用 Python 的 `requests` 庫發送 HTTP 請求。
  - 使用 `BeautifulSoup` 解析 HTML。
  - 使用 Google Chrome 開發者工具取得 AJAX 資料。


In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from IPython.display import Image, display
url = 'https://www.vscinemas.com.tw/film/index.aspx'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36'}
response = requests.get(url, headers=headers)
response.raise_for_status()
soup = BeautifulSoup(response.text, 'lxml')
movie_data = []
movie_list_ul = soup.find('ul', class_='movieList')
if movie_list_ul:
    movie_items = movie_list_ul.find_all('li')
    if movie_items:
        for item in movie_items:
            title_tag = item.select_one('section.infoArea h2 a')
            title = title_tag.text.strip() if title_tag else 'N/A'
            english_title_tag = item.select_one('section.infoArea h3')
            english_title = english_title_tag.text.strip() if english_title_tag else 'N/A'
            date_tag = item.select_one('section.infoArea time')
            release_date = date_tag.text.strip() if date_tag else 'N/A'
            print(f"中文名稱: {title}")
            print(f"英文名稱: {english_title}")
            print(f"上映日期: {release_date}")
            print("-" * 20)
            movie_info = {
                '中文名稱': title,
                '英文名稱': english_title,
                '上映日期': release_date,
            }
            movie_data.append(movie_info)
    else:
        print("未找到電影項目")
else:
    print("未找到電影清單")

## 結果


- 數據存儲方式
  - 將數據存儲為 CSV 格式，方便後續分析。

In [24]:
# 展示資料程式碼
df = pd.DataFrame(movie_data)
df.to_csv('vscinemas_movies.csv', index=False, encoding='utf-8-sig')
print("資料已儲存到 vscinemas_movies.csv")

資料已儲存到 vscinemas_movies.csv


## 問題與挑戰

- 資料、技術有限  
    想進一步知道電影票價、預告等等資訊，但不會進一步進入下一個網頁做蒐集。
- 照片無法顯示  
    本來想顯示照片，但不知道為什麼顯示不出來，只會有一個小小的圖片圖案，所以作罷。

## 結論


- 成功獲取收集威秀影城網站熱映中的電影資料提供參考。
- 未來可進一步獲取其他資訊提供更多資料。

## 參考文獻

* [威秀影城](https://www.vscinemas.com.tw/film/index.aspx)