# RTSP协议概述

RTSP(Real-TimeStream Protocol )是一种基于文本的应用层协议，在语法及一些消息参数等方面，RTSP协议与HTTP协议类似。

RTSP被用于建立的控制媒体流的传输，它为多媒体服务扮演“网络远程控制”的角色。尽管有时可以把RTSP控制信息和媒体数据流交织在一起传送，但一般情况RTSP本身并不用于转送媒体流数据。媒体数据的传送可通过`RTP/RTCP`等协议来完成。

- `RTSP协议`：负责服务器与客户端之间的请求与响应
- `RTP协议`：负责传输媒体数据
- `RTCP协议`：在RTP传输过程中提供传输信息

rtsp承载与rtp和rtcp之上，rtsp并不会发送媒体数据，而是使用rtp协议传输
rtp并没有规定发送方式，可以选择udp发送或者tcp发送。

## 基本通信流程

**一次基本的RTSP操作过程是**:首先，客户端连接到流服务器并发送一个RTSP描述命令（`DESCRIBE`）。流服务器通过一个`SDP描述`来进行反馈，反馈信息包括流数量、媒体类型等信息。客户端再分析该SDP描述，并为会话中的每一个流发送一个RTSP建立命令(`SETUP`)，**RTSP建立命令告诉服务器客户端用于接收媒体数据的端口**。流媒体连接建立完成后，客户端发送一个播放命令(`PLAY`)，服务器就开始在**UDP上传送媒体流（RTP包）**到客户端。 在播放过程中客户端还可以向服务器发送命令来控制快进、快退和暂停等。最后，客户端可发送一个终止命令(`TERADOWN`)来结束流媒体会话。

## RTSP协议与HTTP协议区别

1.  RTSP引入了几种新的方法，比如DESCRIBE、PLAY、SETUP 等，并且有不同的协议标识符，例如：RTSP为rtsp 1.0（版本号，现在有2.0）,HTTP为http 1.1；
2.  HTTP是无状态的协议，而RTSP为每个会话保持状态；
3.  RTSP协议的客户端和服务器端都可以发送Request请求，而在HTTPF协议中，只有客户端能发送Request请求。
4.  在RTSP协议中，载荷数据一般是通过带外方式来传送的(除了交织的情况)，及通过RTP协议在不同的通道中来传送载荷数据。而HTTP协议的载荷数据都是通过带内方式传送的，比如请求的网页数据是在回应的消息体中携带的。
5.  使用ISO10646(UTF-8) 而不是ISO 8859-1，以配合当前HTML的国际化；
6.  RTSP使用URI请求时包含绝对URI。而由于历史原因造成的向后兼容性问题，HTTP/1.1只在请求中包含绝对路径，把主机名放入单独的标题域中；

## 重要术语

1. 集合控制(Aggregatecontrol )

  对多个流的同时控制。对音频/视频来讲，客户端仅需发送一条播放或者暂停消息就可同时控制音频流和视频流。


2. 实体(Entity)

  作为请求或者回应的有效负荷传输的信息。由以实体标题域（entity-header field）形式存在的元信息和以实体主体（entity body）形式存在的内容组成
  
  
3. 容器文件（Containerfile）

  可以容纳多个媒体流的文件。RTSP服务器可以为这些容器文件提供集合控制。
  

4. RTSP会话(RTSP session )

  RTSP交互的全过程。对一个电影的观看过程,会话(session)包括由客户端建立媒体流传输机制(`SETUP`)，使用播放(`PLAY`)或录制(`RECORD`)开始传送流，用停止(TEARDOWN)关闭流。

# RTSP协议详解

## RTSP请求消息

RTSP协议格式与HTTP协议格式类似

```
method url vesion\r\n
CSeq: x\r\n
xxx\r\n
...
\r\n

```
- method：方法，表明这次请求的方法，包括OPIONS、DESCRIBE、SETUP、PLAY、TEARDOWN等.
- url：格式一般为rtsp://ip:port/session，ip表主机ip，port表端口好，如果不写那么就是默认端口，rtsp的默认端口为554，session表明请求哪一个会话
- version：表示rtsp的版本，常见的是RTSP/1.0
- CSeq：序列号，每个RTSP请求和响应都对应一个序列号，序列号是递增的

每行后面的CR LF(\r\n)表示回车换行，需要接受端有相应的解析，最后一个消息头需要有两个CR LF

消息体是可选的，有的Request消息并不带消息体。

## RTSP服务端响应消息

```
vesion 200 OK\r\n
CSeq: x\r\n
xxx\r\n
...
\r\n
```
- version：表示rtsp的版本，常见为RTSP/1.0
- CSeq：序列号，这个必须与对应请求的序列号相同

| 方法| 方向| 描述| 要求|
|----|:-----|:------|------|
OPTIONS |C->S, C->S|获取服务端提供的可用方法| 必须(S->C:可选)|
DESCRIBE |C->S |向服务端获取对应会话的媒体描述信息|建议 |
SETUP |C->S| 向服务端发起建立请求，建立连接会话| 必须 |
PLAY| C->S |向服务端发起播放请求| 必须 |
TEARDOWN| C->S | 向服务端发起关闭连接会话请求| 必须 |
PAUSE | C->S|向服务端发起媒体流传输的暂时中断| 可选
ANNOUNCE|C->S, S->C| | 可选
GET_PARAMERTE|C-S, S->C| |可选|
RECORD| C->S  | |可选
REDIRECT| S->C  |   |可选
SET_PARAMETER | C->S, S->C  |  |可选

## 重要请求头参数

1. Accept:

  用于指定客户端可以接受的媒体描述信息类型。比如:
```
Accept: application/rtsl, application/sdp;level=2
```
2. Bandwidth:

  用于描述客户端可用的带宽值。

3. CSeq：

  指定了RTSP请求回应对的序列号，在每个请求或回应中都必须包括这个头字段。对每个包含一个给定序列号的请求消息，都会有一个相同序列号的回应消息。

4. Rang：

  用于指定一个时间范围，可以使用SMPTE、NTP或clock时间单元。

5. **Session**:

  Session头字段标识了一个RTSP会话。Session ID 是由服务器在SETUP的回应中选择的，客户端一当得到Session ID后，在以后的对Session 的操作请求消息中都要包含Session ID.
 
6.   Transport:

  Transport头字段包含客户端可以接受的转输选项列表，包括传输协议，地址端口，TTL等。服务器端也通过这个头字段返回实际选择的具体选项。如:
```
Transport: RTP/AVP;multicast;ttl=127;mode="play",
RTP/AVP;unicast;client_port=3456-3457;mode="play"
```

## 交互过程

根据般的RTSP流媒体播放流程大致讲解前5个方法，一般摄像头RTSP会设计到认证加密，请参考本人其他文章讲解：

### 1. OPTIONS

- C->S
```http
OPTIONS rtsp://192.168.31.115:8554/live RTSP/1.0\r\n
CSeq: 2\r\n
\r\n
```
客户端向服务器请求可用方法

- S->C

```http
RTSP/1.0 200 OK\r\n
CSeq: 2\r\n
Public: OPTIONS, DESCRIBE, SETUP, TEARDOWN, PLAY\r\n
\r\n
```
服务端回复客户端，当前可用方法OPTIONS, DESCRIBE, SETUP, TEARDOWN, PLAY

### 2. DESCRIBE

- C–>S
```http
DESCRIBE rtsp://192.168.31.115:8554/live RTSP/1.0\r\n
CSeq: 3\r\n
Accept: application/sdp\r\n
\r\n
```
客户端向服务器请求媒体描述文件，格式为sdp，客户端通过Accept头指定客户端可以接受的媒体述信息类型。

- S–>C

```http
RTSP/1.0 200 OK\r\n
CSeq: 3\r\n
Content-length: 146\r\n
Content-type: application/sdp\r\n
\r\n
// 这里为一个空行， 以下为具体的SDP信息//
v=0\r\n
o=- 91565340853 1 in IP4 192.168.31.115\r\n
t=0 0\r\n
a=contol:*\r\n
m=video 0 RTP/AVP 96\r\n
a=rtpmap:96 H264/90000\r\n
a=framerate:25\r\n
a=control:track0\r\n
```
服务器回复了sdp文件，这个文件告诉客户端当前服务器有哪些音视频流，有什么属性，具体稍后再讲解.

这里只需要直到客户端可以根据这些信息得知有哪些音视频流可以发送.

  媒体初始化是任何基于RTSP系统的必要条件，但RTSP规范并没有规定它必须通过DESCRIBE方法完成。RTSP客户端可以通过以下方法来接收媒体描述信息：

    a)  通过DESCRIBE方法；

    b)  其它一些协议（HTTP，email附件，等）；

    c)  通过命令行或标准输入设备

### 3. SETUP

- C–>S

```http
SETUP rtsp://192.168.31.115:8554/live/track0 RTSP/1.0\r\n
CSeq: 4\r\n
Transport: RTP/AVP;unicast;client_port=54492-54493\r\n
\r\n
```
客户端发送建立请求，请求建立连接会话，准备接收音视频数据

解析一下Transport: RTP/AVP;unicast;client_port=54492-54493\r\n

- RTP/AVP：表示RTP通过UDP发送，如果是RTP/AVP/TCP则表示RTP通过TCP发送
- unicast：表示单播，如果是multicast则表示多播
- client_port=54492-54493：由于这里希望采用的是RTP OVER UDP，所以客户端发送了两个用于传输数据的端口，客户端已经将这两个端口绑定到两个udp套接字上，54492表示是RTP端口，54493表示RTCP端口(RTP端口为某个偶数，RTCP端口为RTP端口+1)


- S–>C

```http
RTSP/1.0 200 OK\r\n
CSeq: 4\r\n
Transport: RTP/AVP;unicast;client_port=54492-54493;server_port=56400-56401\r\n
Session: 66334873\r\n
\r\n
```
  
服务器端对SETUP Request产生一个**Session Identifiers**。

服务端接收到请求之后，得知客户端要求采用RTP OVER UDP发送数据，单播，客户端用于传输RTP数据的端口为54492，RTCP的端口为54493

服务器也有两个udp套接字，绑定好两个端口，一个用于传输RTP，一个用于传输RTCP，这里的端口号为56400-56401

之后客户端会使用54492-54493这两端口和服务器通过udp传输数据，服务器会使用56400-56401这两端口和这个客户端传输数据

### 4. PLAY

PLAY方法告知服务器通过SETUP中指定的机制开始发送数据 。
  
**在尚未收到SETUP请求的成功应答之前，客户端不可以发出PLAY请求。**

PLAY请求将正常播放时间（npt=normal play time）定位到指定范围的起始处，并且传输数据流直到播放范围结束。PLAY请求可能被管道化（pipelined），即放入队列中（queued）；服务器必须将PLAY请求放到队列中有序执行。也就是说，后一个PLAY请求需要等待前一个PLAY请求完成才能得到执行。

- C–>S
```http
PLAY rtsp://192.168.31.115:8554/live RTSP/1.0\r\n
CSeq: 5\r\n
Session: 66334873\r\n
Range: npt=0.000-\r\n
\r\n
```
客户端请求播放媒体

- S–>C
```http
RTSP/1.0 200 OK\r\n
CSeq: 5\r\n
Range: npt=0.000-\r\n
Session: 66334873; timeout=60\r\n
\r\n
```
**服务器回复之后，会开始使用RTP通过udp向客户端的54492端口发送数据。**

  Range头可能包含一个时间参数。该参数以UTC格式指定了播放开始的时间。如果在这个指定时间后收到消息，那么播放立即开始。时间参数可能用来帮助同步从不同数据源获取的数据流。
  
  不含Range头的PLAY请求也是合法的。它从媒体流开头开始播放，直到媒体流被暂停。如果媒体流通过PAUSE暂停，媒体流传输将在暂停点（the pause point）重新开始。
  
  如果媒体流正在播放，那么这样一个PLAY请求将不起更多的作用，只是客户端可以用此来测试服务器是否存活。
  
### * 发送RTP数据

- S-> C

   服务端发送PLAY响应后，立刻发送RTD媒体数据包。
  
### * PAUSE

PAUSE请求引起媒体流传输的暂时中断。如果请求URL中指定了具体的媒体流，那么只有该媒体流的播放和记录被暂停（halt）。比如，指定暂停音频，播放将会无声。如果请求URL指定了一组流，那么在该组中的所有流的传输将被暂停。如

- C->S:
```http
PAUSE rtsp://example.com/fizzle/foo RTSP/1.0
CSeq: 834
Session: 66334873
```
- S->C
```http
RTSP/1.0 200 OK
CSeq: 834
Date: 23 Jan 1997 15:35:06 GMT
```

PAUSE请求中可能包含一个Range头用来指定何时媒体流暂停，我们称这个时刻为暂停点（pause point）。该头必须包含一个精确的值，而不是一个时间范围。媒体流的正常播放时间设置成暂停点。当服务器遇到在任何当前挂起（pending）的PLAY请求中指定的时间点后，暂停请求生效。如果Range头指定了一个时间超出了任何一个当前挂起的PLAY请求，将返回错误"457 Invalid Range" 。如果一个媒体单元（比如一个音频或视频禎）正好在一个暂停点开始，那么表示将不会被播放或记录。如果Range头缺失，那么在收到暂停消息后媒体流传输立即中断，并且暂停点设置成当前正常播放时间。

### 5. TEARDOWN

- C–>S
```http
TEARDOWN rtsp://192.168.31.115:8554/live RTSP/1.0\r\n
CSeq: 6\r\n
Session: 66334873\r\n
\r\n
```

- S–>C

```http
RTSP/1.0 200 OK\r\n
CSeq: 6\r\n
\r\n
```

  TEARDOWN请求终止了给定URI的媒体流传输，并释放了与该媒体流相关的资源

### 总结 

上述的过程只是标准的、友好的rtsp流程，但实际的需求中并不一定按此过程。
其中第三和第四步是必需的！第一步，只要服务器客户端约定好，有哪些方法可用，则option请求可以不要。第二步，如果我们有其他途径得到媒体初始化描述信息（比如http请求等等），则我们也不需要通过rtsp中的describe请求来完成。

## SDP协议格式

我们上面避开没有讲sdp文件，这里来好好补一补

### 协议说明

SDP(SessionDescription Protocol )会话描述协议，用于描述多媒体会话，它为会话通知、会话初始和其它形式的多媒体会话初始等操作提供服务。

SDP的设计宗旨是通用性协议，所有它可以应用于很大范围的网络环境和应用程序，但 SDP 不支持会话内容或媒体编码的协商操作。

SDP信息包括：
- 会话名称和目标； 
- 会话活动时间； 
- 构成会话的媒体； 
- 有关接收媒体的信息、地址等。


### Key-Value字段说明

sdp格式由多行的`type=value`组成，SDP 信息是文本信息，UTF-8 编码采用 ISO 10646 字符设置。

sdp会话描述由一个`会话级描述`和`多个媒体级描述`组成。会话级描述的作用域是整个会话，媒体级描述描述的是一个视频流或者音频流.

- 会话级描述由`v=`开始到第一个媒体级描述结束

- 媒体级描述由`m=`开始到下一个媒体级描述结束

1. **SDP 会话描述如下**（标注*符号的表示可选字段）

    - v= （协议版本） 
    - o= （所有者/创建者和会话标识符） 
    - s= （会话名称） 
    - i=* （会话信息） 
    - u=* （URI 描述） 
    - e=* （Email 地址） 
    - p=* （电话号码） 
    - c=* （连接信息 ― 如果包含在所有媒体中，则不需要该字段） 
    - b=* （带宽信息） 

2. **一个或更多时间描述**

    - z=* （时间区域调整） 
    - k=* （加密密钥） 
    - a=* （0个或多个会话属性线路）
    
3. **时间描述**

    - t= （会话活动时间） 
    - r=* （0或多次重复次数）
    
4. **0个或多个媒体描述**

    - m= （媒体名称和传输地址） 
    - i=* （媒体标题） 
    - c=* （连接信息 — 如果包含在会话层则该字段可选） 
    - b=* （带宽信息） 
    - k=* （加密密钥）
    - a=* （0个或多个会话属性线路）
    
### SDP示例

```
v=0
o=mhandley 2890844526 2890842807 IN IP4 126.16.64.4
s=SDP Seminar
i=A Seminar on the session description protocol
u=http://www.cs.ucl.ac.uk/staff/M.Handley/sdp.03.ps
e=mjh@isi.edu (Mark Handley)
b=AS:5050 
c=IN IP4 224.2.17.12/127
t=<会话起始时间>:<结束时间>2873397496 2873404696
a=recvonly
m=audio 49170 RTP/AVP 0
m=video 51372 RTP/AVP 31
m=application 32416 udp wb
a=orient:portrait
a=rtpmap:96 H264/90000
a=control:rtsp://10.86.77.14:554/h264/ch1/sub/av_stream/trackID=1 


//字段解释
V=0     ;Version 给定了SDP协议的版本
 o=<用户名> <会话id> <会话版本> <网络类型><地址类型> <地址>
<address>； Origin ,给定了会话的发起者信息
s=<sessionname> ;给定了Session Name
i=<sessiondescription> ; Information 关于Session的一些信息
u=<URI> ; URI
b=<modifier>:<value>; AS:5050：带宽5050 kb/s
e=<emailaddress>    ;Email
c=<networktype> <address type> <connection address> ;Connect Data包含连接数据
t=<会话起始时间>:<结束时间> 
a=<属性>:<值>
m=<媒体类型> <端口号> <传输协议> <媒体格式 
a=rtpmap:96 H264/90000
格式为a=rtpmap:<媒体格式><编码格式>/<时钟频率>
a=framerate:25
表示帧率
a=control:rtsp://10.86.77.14:554/h264/ch1/sub/av_stream/trackID=1 
表示这路视频流在这个会话中的编号

```

# RTP协议

## RTP包格式

rtp包由rtp头部和rtp荷载构成

### RTP固定头部

![rtpHeader](../assets/rtp.png)

- 版本号(V)：

    2Bit，用来标志使用RTP版本，当前协议版本号为2。

- 填充位(P)：

    1Bit，若P=1则在该报文的尾部填充一个或多个额外的八位组，它们不是有效载荷的一部分，表示报文对齐。

- 扩展位(X)

    1Bit，若X=1，则在RTP报头后跟有一个扩展头。

- CSRC技术器(CC)：

    4Bit，含有固定头部后面跟着的CSRC的数据, 指示CSRC 标识符的个数

- 标记位(M)：

    1Bit，不同的有效载荷有不同的含义，**对于视频，标记一帧的结束**；对于音频，标记会话的开始。
    
- 载荷类型(PT)：

    7Bit，标识了RTP载荷的类型，如GSM音频、JPEM图像等。
    
- 序列号(SN)：

    16Bit，序列号的初始值是随机的， 发送方在每发送完一个RTP包后就将该域的值增加1，接收者用序列号来检测报文丢失，排序报文，恢复数据。
    
    
- 时间戳：

    32比特，反映该RTP报文的第一个八位组的采样时刻。接收者使用时戳来计算延迟和延迟抖动，并进行同步控制。
    
- 同步源标识符(SSRC)：

    32比特，同步源就是RTP包源的来源。该标识符是随机选择的，在同一个RTP会话中不能有两个相同的SSRC值。参加同一视频会议的两个同步信源不能有相同的SSRC。
    
- 贡献源列表(CSRC List)：

    可以有0～15个，每个32比特，这个不常用。
    每个CSRC标识了包含在该RTP报文有效载荷中的所有特约信源。
    在共流源标识并且没有拓展头部（X=0）的情况下，RTP头部为12个字节。
    
- rtp荷载：

    rtp载荷为音频或者视频数据
    
### RTP拓展头部




## 3.2 RTP OVER TCP

RTP默认是采用UDP发送的，格式为RTP头+RTP载荷，**如果是使用TCP，那么需要在RTP头之前再加上四个字节**

- 第一个字节：$，辨识符

- 第二个字节：通道，在SETUP的过程中获取

- 第三第四个字节： RTP包的大小，最多只能12位，第三个字节保存高4位，第四个字节保存低8位

### RTP OVER TCP包示例

#### 说明

本人使用Wireshark抓包工具，开始监听网口后，用openCV的VideoCapture() 方法播放了一个网络摄像头的画面，代码如下。（按q退出播放）

In [None]:
import cv2
cap = cv2.VideoCapture('rtsp://admin:xxxxx@10.86.77.14:554/h264/ch1/sub/av_stream')

while (1):
    ret, img = cap.read()
    if not ret:
        print("Can't receive frame (stream end?). Exiting ...")
        break
    cv2.imshow("Image", img)
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break
cap.release()  # 释放摄像头
cv2.destroyAllWindows()  # 释放窗口资源

如下是整个RTSP通信流程的Wireshark抓包界面，我们看到第一个RTP包的序号（SN），是随机的64758，第一个报文展开后看到其携带了3个RTP包，所以下一个报文的序号是64758 + 3 = 64761

![rtpExample](../assets/rtp3.png)

一个报文中可以携带多个RTP包， 如下图显示为 3个 RTP包，每个包的序列号递增。
![rtpExample](../assets/rtp1.png)

继续展开第一组RTP包

![rtpExample](../assets/rtp2.png)

**字段含义：**

- 版本 V=2
- P=1 ，尾部填充对齐
- X=0，无扩展头
- M=0， 视频流的帧未结束。
- PT=96：查阅[RFC3551](https://www.iana.org/assignments/rtp-parameters/rtp-parameters.xhtml), 为 dynamicRTP 类型
- SN=64758：包序列号
- TimeStamp：2794043652 ，时间戳
- PayLoad：载荷
- Padding count：填充计数？

参考：
- <https://blog.csdn.net/weixin_42462202/article/details/98986535>

- <https://blog.csdn.net/leixiaohua1020/article/details/11955341>

- https://blog.csdn.net/qq_29621351/article/details/81096857


RFC文档：

[Real-Time Transport Protocol (RTP) Parameters](https://www.iana.org/assignments/rtp-parameters/rtp-parameters.xhtml
)