### 概述
一般来说，概率DP找到正确的状态定义后，转移是比较容易想到的。但状态一定是“可数”的，把有范围的整数作为数组下标。事实上，将问题直接作为状态是最好的。如问“n人做XX事的期望次数”，则设计状态为$f[i]$表示i个人做完事的期望。转移一般是递推，即从上一个状态转移得（填表）或转移向下一个状态（刷表）。

有时期望DP需以最终状态为初始状态转移，即逆推。如$f[i]$表示期望还要走$f[i]$步到达终点。这种状态的转移是刷表法，形如$f[i]=\sum p[i\rightarrow j]f[j]+w[i\rightarrow j]$，其中$p[]$表示转移的概率，$w[]$表示转移对答案的贡献。一般来说，初始状态确定时可用顺推，终止状态确定时可用逆推。

[知乎原文](https://zhuanlan.zhihu.com/p/79387943)

### 练习题
### 涂格子1
$n$个格子，每次随机涂一个，求涂满$m$个格子的期望次数。

如概述所说，因为最终状态确定，使用逆推。设计状态$f[i]$表示涂了$i$个格子，到涂满$m$个格子还要涂的期望次数。初始状态是$f[m]=0$。转移时考虑$f[i]$是怎么来的，有$\frac{i}{n}$的概率由“涂到涂过的格子”转移来，即由$f[i]$转移来；另有$\frac{n-i}{n}$的概率由“涂到没涂过的格子”转移来，即由$f[i+1]$来。并且无论从哪里来，这次的期望次数都比原来的期望次数多$1$。于是转移方程为$f[i]=\frac{i}{n}f[i]+\frac{n-i}{n}f[i+1]+1(i<m)$。

In [36]:
class Solution:
    def solve(self,m,n):
        f=[i for i in range(m,-1,-1)]
        print(f)
        for i in range(m-1,-1,-1):
            f[i]=i/n*f[i]+(n-i)/n*f[i+1]+1
        print(f)
        return f[0]
Solution().solve(3,5)


[3, 2, 1, 0]
[3.52, 2.52, 1.4, 0]


3.52

### 涂格子2
$n$个格子，每次随机涂一个，求涂$m$次后期望涂色格子数。

如概述所说，设计状态$f[i]$表示涂i次后的答案。转移时考虑这次是涂了的还是没涂的。转移方程为$f[i]=\frac{n-f[i-1]}{n}+f[i-1]$。

另外，可证明$f[n]=n\cdot(1-(\frac{n-1}{n})^m)$。

In [13]:
class Solution:
    def solve(self,m,n):
        f=[1]*n
        for i in range(1,n):
            f[i]=(n-f[i-1])/n+f[i-1]
        print(f)
        return f[m]

Solution().solve(2,5)

[1, 1.8, 2.44, 2.952, 3.3616]


2.44

### 涂格子3
有$n$个格子，每次会涂一个格子，其中涂第$i$个格子的概率是$p_i$（保证$\sum p_i$=1）。求每个格子都被涂色的期望次数。

因为涂到每个格子的概率不同，所以没法把“格子数量”当成一维状态，只能使用状压。设$f[S]$表示涂格子的状态（二进制表示）为$S$时到涂满还需要的次数。则初始状态为$f[2^n-1]=0$，转移时枚举涂哪个格子即可，具体方程为$f[S]=\sum_{i=0}^{n-1}p_if[S\text{ or }2^i]+1$。

In [None]:
class Solution:
    def solve(self,m,n):
        f=[1]*n
        for i in range(1,n):
            f[i]=(n-f[i-1])/n+f[i-1]
        print(f)
        return f[m]

Solution().solve(2,5)









### 小孩和礼物
有$n$个礼物盒和$m$个小孩，每个盒子里有一个礼物。所有人轮流开盒子，每次打开一个随机盒子，如果里面有礼物就拿走（如果被开过了就没有礼物了）。问所有人拿走礼物的期望数量。

一个礼物=一个打开过的盒子。f[i]表示i个人拿走礼物的期望，相当于表示涂i次期望涂色格子数量。同涂格子2。

### 麻球繁衍
开始有n个麻球，每天每个麻球会死亡，同时繁衍出若干新麻球。每个麻球繁衍i个麻球的概率是$pi$。求在m天内麻球死绝的概率。

每个麻球是互相独立的，设计状态$f[i]$表示一个麻球i天内死绝的概率，则n个麻球在i天内死亡的概率是$f[i]^n$。转移时考虑这个麻球第一天繁衍多少个，它们在接下来的$i-1$天内死绝了。转移方程为$f[i]=\sum_{j=0}^{k-1}p[j]f[i-1]^j$。

### 亚瑟王的生日庆典
亚瑟王过生，他每天抛一枚硬币，正面向上的概率是$p$。办庆典要花钱，在第$i$天要花$(2i-1)$千元。求正面向上数$\ge k$次时的期望花钱数。

$f[i]$表示正面向上i次的期望花钱。转移时考虑是否掷到正面，容易列出转移$f[i]=(1-p)f[i]+p f[i-1]+正面向上i次当天期望花费$。 需要计算g[i]表示正面向上i次的期望天数，则当天期望开销=$2\times g[i]-1$。$g[i]=(1-p)g[i]+pg[i-1]+1$。

### BZOJ4318 OSU!
开始有一个空串，每次添加一个0或1，添加1的概率为$p$。添加完后计算得分，每一段连续极长1段贡献$len^3$分。求最后期望得分。

转移时考虑是否增加1，如果增加了一个1，设当前期望连续1个数为$l$，那么答案应该增加$(l+1)^3-l^3$。因此还需要维护$l$和$l^2$的期望。维护$l^2$时同样考虑答案增加多少。

循环转移处理方法
有些DP方程之间会循环转移。可以高斯消元，或者设每个状态为形如$f[u]=a[u]f[fa]+b[u]f[0]+c[u]$，最后求出所有系数。

### 例题
### 单人博弈
有三个正多面体骰子，第i个有$k[i]$面。每次扔全部三个骰子，得到等同于它们的和的分数。如果三个骰子分别掷得a、b、c，则得分清零。求得分≥n时的期望次数。

设$f[i]$表示得i分的期望次数。转移时考虑三个骰子的和，先算出$p[i]$表示和为$i$的概率，$p0$表示得分清零的概率。用刷表法，转移方程为$f[i]=\sum_kp[k]f[i+k]+p_0*f[0]+1$。 我们看到，转移方程是与$f[0]$有关的。设$f[i]=a[i]f[0]+b[i]$，则可以解出$a[i]$和$b[i]$。

### 迷宫
给定一棵$n$个点的树，开始你在根节点，在结点$u$上时有$kill[u]$的概率去根节点，$escape[u]$的概率结束，剩下的概率随机到一个与$u$相邻的点。求结束时期望经过的边数。

考虑逆推，$f[i]$表示在$i$结点到结束期望的边数。 对叶子节点有$f[u]=kill[u]f[0]+escape[u]\times 0+(1-kill[u]-escape[u])(f[fa[u]]+1)$ 对非叶子节点有$f[u]=kill[u]f[0]+escape[u]\times 0+\frac{1-kill[u]-escape[u]}{deg[u]}\cdot(f[fa[u]]+\sum_{v=son[u][]}f[v])$ 用待定系数法，设$f[u]=a[u]f[0]+b[u]f[fa[u]]+c[u]$，代入上面式子的$f[v]$，解得参数。先从下到上计算参数的值，再从上到下计算答案。

### 262. 【NOIP2016】换教室

对于刚上大学的牛牛来说，他面临的第一个问题是如何根据实际情况申请合适的课程。

在可以选择的课程中，有 2n2n 节课程安排在 nn 个时间段上。在第 ii（1≤i≤n1≤i≤n）个时间段上，两节内容相同的课程同时在不同的地点进行，其中，牛牛预先被安排在教室 cici 上课，而另一节课程在教室 didi 进行。

在不提交任何申请的情况下，学生们需要按时间段的顺序依次完成所有的 nn 节安排好的课程。如果学生想更换第 ii 节课程的教室，则需要提出申请。若申请通过，学生就可以在第 ii 个时间段去教室 didi 上课，否则仍然在教室 cici 上课。

由于更换教室的需求太多，申请不一定能获得通过。通过计算，牛牛发现申请更换第 ii 节课程的教室时，申请被通过的概率是一个已知的实数 kiki，并且对于不同课程的申请，被通过的概率是互相独立的。

学校规定，所有的申请只能在学期开始前一次性提交，并且每个人只能选择至多 mm 节课程进行申请。这意味着牛牛必须一次性决定是否申请更换每节课的教室，而不能根据某些课程的申请结果来决定其他课程是否申请；牛牛可以申请自己最希望更换教室的 mm 门课程，也可以不用完这 mm 个申请的机会，甚至可以一门课程都不申请。

因为不同的课程可能会被安排在不同的教室进行，所以牛牛需要利用课间时间从一间教室赶到另一间教室。

牛牛所在的大学有 vv 个教室，有 ee 条道路。每条道路连接两间教室，并且是可以双向通行的。由于道路的长度和拥堵程度不同，通过不同的道路耗费的体力可能会有所不同。 当第 ii（1≤i≤n−11≤i≤n−1）节课结束后，牛牛就会从这节课的教室出发，选择一条耗费体力最少的路径前往下一节课的教室。

现在牛牛想知道，申请哪几门课程可以使他因在教室间移动耗费的体力值的总和的期望值最小，请你帮他求出这个最小值。

### 输入格式
从标准输入读入数据。

第一行四个整数 n,m,v,en,m,v,e。nn 表示这个学期内的时间段的数量；mm 表示牛牛最多可以申请更换多少节课程的教室；vv 表示牛牛学校里教室的数量；ee表示牛牛的学校里道路的数量。

第二行 nn 个正整数，第 ii（1≤i≤n1≤i≤n）个正整数表示 cici，即第 ii 个时间段牛牛被安排上课的教室；保证 1≤ci≤v1≤ci≤v。

第三行 nn 个正整数，第 ii（1≤i≤n1≤i≤n）个正整数表示 didi，即第 ii 个时间段另一间上同样课程的教室；保证 1≤di≤v1≤di≤v。

第四行 nn 个实数，第 ii（1≤i≤n1≤i≤n）个实数表示 kiki，即牛牛申请在第 ii 个时间段更换教室获得通过的概率。保证 0≤ki≤10≤ki≤1。

接下来 ee 行，每行三个正整数 aj,bj,wjaj,bj,wj，表示有一条双向道路连接教室 aj,bjaj,bj，通过这条道路需要耗费的体力值是 wjwj；保证 1≤aj,bj≤v1≤aj,bj≤v， 1≤wj≤1001≤wj≤100。

保证 1≤n≤20001≤n≤2000，0≤m≤20000≤m≤2000，1≤v≤3001≤v≤300，0≤e≤900000≤e≤90000。

保证通过学校里的道路，从任何一间教室出发，都能到达其他所有的教室。

保证输入的实数最多包含 33 位小数。

### 输出格式
输出到标准输出。

输出一行，包含一个实数，四舍五入精确到小数点后恰好22位，表示答案。你的输出必须和标准输出完全一样才算正确。

测试数据保证四舍五入后的答案和准确答案的差的绝对值不大于 4×10−34×10−3。 （如果你不知道什么是浮点误差，这段话可以理解为：对于大多数的算法，你可以正常地使用浮点数类型而不用对它进行特殊的处理）


### input

3 2 3 3

2 1 2

1 2 1

0.8 0.2 0.5

1 2 5

1 3 3

2 3 1

### output

2.80

题解：https://oi.men.ci/noip2016-classroom/

In [21]:
f=[[0,0] for _ in range(2005)]
k=[0]*2005
w=[[0]*305 for _ in range(305)]
c=[0]*305
d=[0]*2005
def main():
    n,m,v,e,i,j,k,a,b,t=3,2,3,3,0,0,0,0,0,0
    c=[2,1,2]
    d=[1,2,1]
    K=[0.8,0.2,0.5]
    
    w=[[0,5,3],[5,0,1],[3,1,0]]
    #更新邻接矩阵
    for k in range(v):
        for i in range(v):
            for j in range(i+1,v):
                if w[i][j]>w[i][k]+w[k][j]:
                    w[i][j]=w[j][i]=w[i][k]+w[k][j]
    f=[[[0,0] for _ in range(m+1)] for _ in range(n)]
    f[0][0][0]=0
    f[0][0][1]=1e10

    for i in range(1,n):
        f[i][0][0]=f[i-1][0][0]+w[c[i-1]][c[i]]
        f[i][0][1]=1e10
        for j in range(1,m+1):
            f[i][j][0]=f[i][j][1]=1e10
            if f[i - 1][j][0] != 1e10:
                f[i][j][0] = min(f[i][j][0], f[i - 1][j][0] 
                                + w[c[i - 1]][c[i]])

            if f[i - 1][j][1] != 1e10:
                f[i][j][0] = min(f[i][j][0], f[i - 1][j][1]
                                + (w[d[i - 1]][c[i]] * K[i - 1])
                                + (w[c[i - 1]][c[i]] * (1 - K[i - 1]))
                )

            if f[i - 1][j - 1][0] != 1e10:
                f[i][j][1] = min(f[i][j][1], f[i - 1][j - 1][0]
                                + (w[c[i - 1]][d[i]] * K[i])
                                + (w[c[i - 1]][c[i]] * (1 - K[i]))
                )

            if f[i - 1][j - 1][1] != 1e10:
                f[i][j][1] = min(f[i][j][1], f[i - 1][j - 1][1]
                        + (w[d[i - 1]][d[i]] * K[i - 1] * K[i])
                        + (w[c[i - 1]][d[i]] * (1 - K[i - 1]) * K[i])
                        + (w[d[i - 1]][c[i]] * K[i - 1] * (1 - K[i]))
                        + (w[c[i - 1]][c[i]] * (1 - K[i - 1]) * (1 - K[i]))
                )
        
    ans=1e10
    for i in range(m):
        ans=min(ans,min(f[n-1][i][0],f[n-1][i][1]))
    print(f)
    return round(ans, 2)  

main()

[[[0, 10000000000.0], [0, 0], [0, 0]], [[1, 10000000000.0], [0.19999999999999996, 0.8], [0.19999999999999996, 0.32]], [[2, 10000000000.0], [1.2, 1.5], [1.12, 0.7]]]


1.2

```c++
#include<cstdio>
inline double min(double a,double b){return a<b?a:b;}
double f[2005][2],K[2005];
int w[305][305],c[2005],d[2005];
int main(){
    int n,m,v,e,i,j,k,a,b,t;
    scanf("%d%d%d%d",&n,&m,&v,&e);
    for(i=1;i<=n;i++)scanf("%d",&c[i]);
    for(i=1;i<=n;i++)scanf("%d",&d[i]);
    for(i=1;i<=n;i++)scanf("%lf",&K[i]);
    for(i=1;i<=v;i++){
        for(j=i+1;j<=v;j++)w[i][j]=w[j][i]=100000000;
        w[i][i]=0;
    }
    for(i=0;i<e;i++){
        scanf("%d%d%d",&a,&b,&t);
        if(t<w[a][b])w[a][b]=w[b][a]=t;
    }
    for(k=1;k<=v;k++)
        for(i=1;i<v;i++)
            for(j=i+1;j<=v;j++)if(w[i][k]+w[k][j]<w[i][j])w[i][j]=w[j][i]=w[i][k]+w[k][j];
    for(i=0;i<=m;i++)f[i][0]=f[i][1]=1e10;
    f[0][0]=f[1][1]=0;
    for(i=2;i<=n;i++){
        for(j=m<i?m:i;j;j--){
            f[j][0]=min(f[j][0]+w[c[i-1]][c[i]],f[j][1]+w[d[i-1]][c[i]]*K[i-1]+w[c[i-1]][c[i]]*(1-K[i-1]));
            f[j][1]=min(f[j-1][0]+w[c[i-1]][d[i]]*K[i]+w[c[i-1]][c[i]]*(1-K[i]),f[j-1][1]+w[d[i-1]][d[i]]*K[i-1]*K[i]+w[c[i-1]][d[i]]*(1-K[i-1])*K[i]+w[d[i-1]][c[i]]*K[i-1]*(1-K[i])+w[c[i-1]][c[i]]*(1-K[i-1])*(1-K[i]));
        }
        f[0][0]=f[0][0]+w[c[i-1]][c[i]];
    }
    double ans=f[0][0];
    for(i=1;i<=m;i++)ans=min(ans,min(f[i][0],f[i][1]));
    printf("%.2lf",ans);
    return 0;
}
```