# 爬虫基础(一)

本课学习目标：

- 学会使用使用request库来发送网络请求（get请求）。
- 使用BeautifulSoup库的find_all/find方法对网页进行解析。
- html文档，其中比较常见的标签以及他们的作用。
- 分析待爬网页的方法。
- 浏览器开发者工具模式的使用操作。

## 通过网页解析爬取静态网页

首先我们需要了解什么是网络请求？



`requests` 是一个Python库，用于发起HTTP请求，可以与网络上的资源进行通信。其中，`requests.get()` 函数用于发送GET请求。以下是对 `requests.get()` 函数的详细解释和用法示例：

### `requests.get()` 函数的基本用法：

```python
import requests

response = requests.get(url, params=None, **kwargs)
```

- `url`（必需）：要请求的URL地址。
- `params`（可选）：一个字典或字节序列，用于在GET请求中传递查询字符串参数。
- `**kwargs`（可选）：其他可选参数，用于定制请求，如设置请求头、代理、身份验证等。

### 返回值：

`requests.get()` 函数返回一个包含HTTP响应信息的`Response`对象，你可以通过该对象来查看和处理响应的各种属性和内容。

### 常见的 `Response` 属性和方法：

- `response.status_code`：HTTP响应的状态码，例如200表示成功，404表示未找到，500表示服务器内部错误等。
- `response.headers`：响应头的字典，包含了HTTP头部信息。
- `response.text`：以字符串形式返回响应内容，通常用于处理文本响应。
- `response.content`：以字节形式返回响应内容，通常用于处理二进制响应（如图片、文件等）。
- `response.json()`：将响应内容解析为JSON格式。
- `response.raise_for_status()`：如果响应状态码表示失败（如4xx或5xx），则会引发异常。

### 示例：

1. 发送简单的请求

```python
# 导入 requests 包
import requests

# 发送请求
x = requests.get('https://www.runoob.com/')

# 返回网页内容
print(x.text) # html文档
print(x.status_code) # 200
```

2. 发送带查询字符串参数的GET请求

```python
# 导入 requests 包
import requests

params = {"q": "python", "page": 2}
response = requests.get("https://www.example.com/search", params=params)
print("URL with Query Parameters:", response.url)
```

3. 发送请求后返回json响应
```python
import requests

# 处理JSON响应
# 发送请求
x = requests.get('https://www.runoob.com/try/ajax/json_demo.json')

# 返回 json 数据
print(x.json())
```

上述示例演示了如何使用 `requests.get()` 函数发送GET请求，获取响应并处理不同类型的响应数据。你可以根据自己的需求，进一步自定义请求头、代理、身份验证等参数。在实际使用中，要确保处理响应时考虑到错误处理和异常处理，以保证代码的健壮性。

## 通过api接口请求数据