# 爬取豆瓣TOP250电影排行榜
## 模块档案
- Requests 模块
- BeautifulSoup 模块

`Requests` 模块是一个Python中非常流行的HTTP库，用于向网络服务器发送各种类型的请求并获取响应。它提供了简单而直观的API，使得发送HTTP请求变得非常容易。

要使用 `Requests` 模块，首先需要安装它。可以通过以下命令使用 pip 安装：

In [None]:
pip install requests

安装完成后，你就可以在你的 Python 脚本或交互式环境中导入并开始使用它了。以下是一个简单的示例，演示如何使用 `Requests` 模块发送 GET 请求并打印响应内容：

In [None]:
import requests

# 发送 GET 请求
response = requests.get('https://api.example.com/data')

# 检查响应状态码
if response.status_code == 200:
    # 打印响应内容
    print(response.text)
else:
    # 打印错误信息
    print('Error:', response.status_code)

这只是一个简单的示例，`Requests` 模块提供了许多其他功能，如发送 POST 请求、设置请求头、处理Cookie、文件上传等。你可以查看官方文档以获取更多详细信息和示例：https://docs.python-requests.org/en/latest/

--------

`Beautiful Soup` 是一个用于解析HTML和XML文档的Python库，它可以从页面中提取数据，以便更轻松地进行信息检索和提取。它允许你根据标签名称、属性、CSS选择器等方式来浏览和搜索文档树。

首先，你需要安装 `Beautiful Soup`。可以通过以下命令使用 pip 安装：

In [None]:
pip install beautifulsoup4

安装完成后，你可以在你的 Python 脚本或交互式环境中导入并开始使用它了。以下是一个简单的示例，演示如何使用 `Beautiful Soup` 解析HTML页面并提取其中的链接：

In [None]:
from bs4 import BeautifulSoup
import requests

# 发送 GET 请求获取页面内容
response = requests.get('https://example.com')

# 使用Beautiful Soup解析HTML内容
soup = BeautifulSoup(response.content, 'html.parser')

# 查找所有的链接标签（<a>）并提取链接
links = soup.find_all('a')

# 打印提取到的链接
for link in links:
    print(link.get('href'))

这只是一个简单的示例，`Beautiful Soup` 提供了许多其他功能，例如寻找特定的标签、提取文本内容、处理HTML格式等。你可以查看官方文档以获取更多详细信息和示例：https://www.crummy.com/software/BeautifulSoup/bs4/doc/

# 代码实现 如下

In [None]:
import requests
from bs4 import BeautifulSoup

def get_movie_info(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'lxml')
    movie_list = soup.find('ol', class_='grid_view').find_all('li')

    for movie in movie_list:
        name = movie.find('span', class_='title').text
        rating = movie.find('span', class_='rating_num').text
        comment_num = movie.find('div', class_='star').find_all('span')[-1].text[:-3]
        info = movie.find('div', class_='bd').p.text.strip()

        print(f'电影名称：{name}')
        print(f'评分：{rating}')
        print(f'评论数：{comment_num}')
        print(f'电影信息：{info}')
        print('-' * 50)

if __name__ == '__main__':
    base_url = 'https://movie.douban.com/top250?start={}&filter='
    total_pages = 10

    for page in range(total_pages):
        url = base_url.format(page * 25)
        get_movie_info(url)