# Program Analysis via Graph Reachability

## Introduction

程序分析是为了不运行就 “确认” 一些信息。在数据流分析当中，分析结果以 `point` 有关，每一个 `point` 都说明了在那个对应位置的可达定义 / 存活变量情况。

程序分析框架使用迭代的方法，寻找满足方程组的解。然后这篇说会以 “程序分析是图 / 上下文无关语言可达性问题” 为基础做一个分析框架。

文章还陈述了一下使用 “图可达性” 来做程序分析的好处：

* 图是个好用的数据结构，单源可达问题的时间复杂度与点边数量线性相关；CFL 的可达问题与节点三次方相关；
* CFL 可达问题可以像处理单源可达问题一样。可以获得更快的速度。

## CFL Reachability Problems

### 1. CFL Introduction

`CFL` 是满足上下文无关文法要求的语言。上下文无关文法和大多数文法一样，都拥有非终结符集 $V$，终结符集合 $T$，推导式集合 $P$ 和起始符 $S$。`CFG` 就是 **所有产生式左边只有非终结符，且只有一个非终结符**。

关于 `CFG` 识别问题可以看这个：[Generic CFG in Less than Cubic Time](https://www.sciencedirect.com/science/article/pii/S0022000075800468)。

CFL 可达问题不是一般的可达问题。

这里首先定义了一个 `L-path` 问题，这里的 $L$ 指的是一个 `CFL` 在字符集上的集合，也就是可能的字符串 / 可能的输入。`L-path` 就是在整个 $G$ 中可以表示 $L$ 的路径。

论文 2.1 里面给了一个图，那个从 $s \to t$ 的路径就是 $"[(e[])eee[e]]"$ 的 `L-path`。

此后，论文给出了 `all-pairs L-path` 问题的定义。然后这个实际上就和要做的东西有些相关了。相较于 “单源可达”（给定一个源，找到源可达的所有节点） / “单目标可达”（给定一个目标，找到所有可达该目标的源）问题，这 `all-pairs` 就是找到图中 **所有** 能够表示 $L$ 的路径。

论文中提出一般的图可达问题都可以通过 “给边标上 $e$，然后把 $L$ 定义为正则语言 $e*$” 转化成 `CFL` 的可达问题。比如 **图的转移闭包问题** 就可以表示成 `all-pairs e*`(因为转移前是图中的一系列点，要看 $n$ 步之后走到了哪里，这个终止状态又是一系列点)。再比如 `CFL` 识别问题，为了判断一个字符串是否属于给定的文法，该问题等同于：“给定一个初始状态，能否存在一个长度为 |str| 且终态满足要求的路径”。

### 2. Call-Return Matched

为了清除一些不会执行到的边，也就是死边，同时也是为了减少 **上下文不敏感分析** 带来的对变量可能取值范围的影响。（这个可以参考南大软件分析的 [CFL-Reachability](https://www.bilibili.com/video/BV1gL411j7vS)）本文也引入了过程间分析的一个方法：

> 只有那些 returns 和 calls 匹配的过程调用，才是 feasible 的。

如下图所示，主过程中的 `CALL P` 对应一个 $(_1$，其对应的 `EXIT P` 是 $)_1$。

#### 2.1 边的标号

这样 $n1,n2,start_p,n4,exit_p,n8$ 就对应 $ee(_1ee)_2$，这就不匹配，直接不这么走了。（这里需要注意的是，文章里面把每个 $call-start, exit-return$ 边标上了 $(_i\ or\ )_i$，而除此之外的边都标上了 $e$（当然好像得再排除 $call-return$ 边），所以上面 $e$ 的个数是和经过的普通边有关的）

#### 2.2 lambda 表达式

$$
\lambda x.y \quad x\ is\ input,\ and\ y\ is\ output\ of\ lambda.
$$

比如最大的那一坨，意思就是：

> 传入 S，如果 a 或者 g 未被定义，那么返回 S 并上 {a}，
>
> 反之返回 S 删除 {a} 之后的结果。

![image.png](attachment:579b641b-1323-4ad9-ae8c-19225474bbf4.png)

### 3. Datalog


## 4. 四个例子

这里文章举了四个可转化为 `CFL` 可达性来解决的问题：过程间数据流分析 / 过程间程序切片 / 形式分析 / 流不敏感指向分析。（呃，我觉得应该有几个都翻错了）

### 4.1 过程间数据流分析

这里涉及一个叫 `supergraph` 的概念，一般被表示为 $G^*$，是一个在 **原本过程内图的基础上** 还包含了 **call 指向 return**，**call 指向 start** 以及 **exit 指向 return** 的图。这里引用软件分析的图：

![image.png](attachment:adb91d0d-3df0-4b05-9b5e-b3a78c7726ef.png)

但我仔细想了一下，可能这个不是我暂时要看的东西？

#### 4.1.1 Realizable

一条路径只有当可被 $L$ 这种 `CFL` 识别，那么这个路径就是 `realizable`。而在文中，给出了如下文法：

$$
matched \to matched\ matched\ |\ (_i\ matched\ )_i\ |\ e\ |\ \epsilon \\
\\
realizable \to matched\ realizable\ |\ (_i\ realizable\ |\ \epsilon \\ 
$$

差不多意思就是，前面的括号一定要匹配，后面可能有尚未匹配的括号，但那些尚未匹配的括号是可能会在将来被匹配的。

#### 4.1.1 MOP(Meet-Over-All-Paths)

有一些假边。

#### 4.1.2 MRP(Meet-Over-All-Realizable-Paths)

`IFDS` 能够给出的结果。所有的边都是 `realizable`

### 4.2 过程间程序切片



## Note

| English | Chinese |
|-|-|
| amenable | 经得起检验的 |
| ascertain | 确定 |
| elaborate | 复杂的 |
| generalization | 一般情况 |
| vantage | 有利的 |
| asymptotic | 渐进的 |
| mimic | 模仿 |
| infeasible | 不可执行的 ｜