## 1.1 HTTP 基本原理

&emsp;&emsp;HTTP（超文本传输协议，HyperText Transfer Protocol）是一套计算机通过网络进行通信的规则，使 HTTP 客户端能够从 HTTP 服务器请求信息和服务。在了解 HTTP 之前，先简单了解一下 URI（统一资源标志符，UniformResource Identifier） 和 URL（统一资源定位符，UniformResource Identifier）。

### 1.1.1 URI 和 URL

&emsp;&emsp;URI/URL 是用于指定资源的唯一访问方式，如全球最大同性交友网站 GayHub 的网站图标链接 `https://github.com/favicon.ico`，就是一个 URI/URL，包含了GayHub 网站图标的访问协议 `https`、访问路径（即根目录）以及资源名称 `favicon.ico`。通过该 URI/URL，我们可以轻易地访问到 GayHub 网站图标的资源。

&emsp;&emsp;URL 是 URI 的子集，URI 还包含着 URN（统一资源名称，Universal Resource Name），但 URN 只用于命名资源而不指定如何定位资源。一般接触到的网页链接都可以称为 URI/URL，而习惯上一般都称为 URL。

### 1.1.2 超文本

&emsp;&emsp;超文本（Hypertext）是用超链接的方法，将各种不同空间的文字信息组织在一起的网状文本。在浏览器里面看到的网页就是超文本解析而成的，其网页源代码是一系列 HTML（超文本标记语言，HyperText Markup Language） 代码，里面包含了一系列标签，浏览器解析这些标签后便形成了网页。

### 1.1.3 HTTP 和 HTTPS

&emsp;&emsp;HTTP 以明文方式发送内容，不提供任何方式的数据加密，不适用于传输一些敏感信息。而 HTTPS 则在 HTTP 的基础上加入了 SSL（安全套接层，Secure Socket Layer），SSL 依靠证书来验证服务器的身份，并为浏览器和服务器之间的通信加密，从而弥补了 HTTP 明文传输的缺陷。

### 1.1.4 HTTP 请求过程

&emsp;&emsp;这里只对 HTTP 的请求过程进行简单的概括：
1. 通过对 URL 进行解析，获得实际访问的 IP 地址；
2. 发起 TCP 3 次握手；
3. 建立 TCP 连接后发起 HTTP 请求；
4. 服务器端响应 HTTP 请求，浏览器得到 HTML 代码；
5. 浏览器解析 HTML 代码，并请求 HTML 代码中的资源 ；
6. 浏览器对页面进行渲染呈现给用户。

&emsp;&emsp;接下来将对发起 HTTP 请求和服务器响应 HTTP 请求进行简要介绍。

### 1.1.5 请求

&emsp;&emsp;由客户端向服务器发起 HTTP 请求（HTTP Request），可分为 4 部分：请求方法、请求网址、请求头、请求体。

**1. 请求方法（Request Method）**

&emsp;&emsp;主要有两种：GET 和 POST。
&emsp;&emsp;GET 方法将请求中的参数包含在 URL 中，且提交的数据最多只有 1024 字节。而 POST 的请求参数在请求体的表单中，且提交数据没有长度限制。一般来说，需要向服务器提交敏感信息（如账号和密码）的时候，不适宜用 GET 方法（会暴露在 URL），而该用 POST。

**2. 请求网址（Request URL）**

&emsp;&emsp;即 URL，唯一确定要请求的资源。

**3. 请求头（Request Headers）**

&emsp;&emsp;用于说明服务器要使用的附加信息，下面是一些常用的头信息：
- Accept：指定客户端可接受哪些类型的信息；
- Accept-Language：指定客户端可接受的语言类型；
- Accept-Encoding：指定客户端可接受的内容编码；
- Host：指定请求资源的主机 IP 和端口号；
- Cookie：网站为了辨别用户进行会话追踪而存储在本地的数据；
- Referer：标识请求由哪个页面发起；
- User-Agent：使服务器识别客户使用的操作系统及版本、浏览器及版本等信息；
- Content-Type：表示请求中的数据类型。

**4. 请求体（Request Body）**

&emsp;&emsp;一般用于承载 Post 请求中的表单数据。

### 1.1.6 响应

&emsp;&emsp;服务器收到 HTTP 请求后，会根据请求信息进行相应的处理，然后返回一个 HTTP 响应（HTTP Response）给客户端，由 3 部分组成：响应状态码、响应头、响应体。

**1. 响应状态码（Response Status Code）**

&emsp;&emsp;表示服务器的响应状态，常见的状态码如下：
- 200：服务器已成功处理请求；
- 204：服务器成功处理了请求，但没有返回任何内容；
- 206：服务器成功处理了部分请求，返回了部分内容；
- 301：永久重定向；
- 302：临时重定向；
- 303：应使用 GET 方法定向获取请求资源；
- 304：此次请求返回的网页未修改，继续使用上次的资源；
- 307：请求的资源临时从其他位置响应；
- 400：服务器无法解析该请求；
- 401：请求没有进行身份验证或验证未通过；
- 403：服务器禁止访问；
- 404：服务器找不到请求的资源；
- 500：服务器内部错误；
- 503：服务器目前无法使用。

**2. 响应头（Response Headers）**

&emsp;&emsp;包含了服务器对请求的应答信息，下面是一些常用的头信息：
- Date：标识响应产生的时间；
- Last-Modified：指定资源的最后修改时间；
- Content-Encoding：指定响应内容的编码；
- Server：包含服务器信息；
- Content-Type：指定返回的数据类型是什么；
- Set-Cookie：设置 Cookie；
- Exipres：指定响应的过期时间。

**3. 响应体（Response Body）**

&emsp;&emsp;响应的正文数据，是响应中最重要的部分。

## 2.2 网页基础

### 2.2.1 网页的组成

&emsp;&emsp;一般来说，网页可分为 3 部分：

**1. HTML（Hyper Text Markup Language）**

&emsp;&emsp;即超文本标记语言，是网页的基础。其以各种类型的标签来表示网页上的各种元素，而各种 HTML 标签定义的节点元素相互嵌套和组合，构成了复杂的层次关系，从而形成了网页的架构。

**2. CSS（Cascading Style Sheets）**

&emsp;&emsp;即层叠样式表，它定义了网页的布局和样式。

**3. JavaScript**

&emsp;&emsp;一种脚本语言，定义了网页的行为。

### 2.2.2 网页的结构

&emsp;&emsp;一个简单的 HTML 实例：

``` HTML
<!DOCTYPE html>
<html>
    <head>
        <meta charset="UTF-8">
        <title>Dark Side Of The Moon</title>
    </head>
    <body>
        <div id="container">
            <div class="content">
                <h2 class="title">Breathe</h2>
                <p class="text">Breathe, breathe in the air</p>
            </div>
        </div>
    </body>
</html>
```

In [1]:
#TODO