In [1]:
##########################
# 配置运行环境
##########################

%matplotlib inline

import numpy as np
import pandas as pd
from IPython.display import Math, Latex
from matplotlib import pyplot
import seaborn as sns

# matplotlib 对中文的支持
from matplotlib import font_manager
cn_font = font_manager.FontProperties(fname='msyh.ttf', size=16)  # 网上支持中文

from matplotlib import rcParams
# rcParams['font.family'] = 'Microsoft YaHei'  # 本地支持中文

# 保存为 pdf 格式
rcParams['pdf.fonttype'] = 42
rcParams['figure.figsize'] = (8,5)

# Look pretty...
from matplotlib import style
style.use('ggplot')

# 设置 numpy 的输出精度, 并且阻止使用科学记数法
# formatter 参数允许为每个类型指定一个格式化函数,
# linewidth 控制输出宽度
np.set_printoptions(precision=6, suppress=True)

过年时，一个热门的社会现象是父母的 ``逼婚''.

看似都是被父母逼迫的单身狗，可实际上却大有不同.

一种的

当然，我们同学一个都很优秀，都是后一种情形.


\section{模型假设}

根据以往的经验，假设每年有 $10$ 个相亲对象，其中 $70\%$ 无法拒绝你的魅力.

假定你计划 $3$ 年内把自己嫁出去.

下来主动权就在你手上了，这么优秀的一个，当然希望自己的另一半也很优秀.

因此对你来说，最好的办法就是把每个人都见一遍，最后和最好的结婚.

可是，即使你再优秀，世界也不会绕着你转.

现实是，没见完一个，你就要决定是，对方是不会等着你的.

你面临的问题是如果碰到一个好的，是结束，还是等下一个呢？

由于没有人


\section{模型构建}

分析：我们将问题抽象成一个简单的数学问题.

假设 1：对方已经看上你了

假设 2：你可以给每个人打一个综合分，综合分最高的就是你的最佳伴侣.

显然，你不会选直接就选第一个，应该也不会等到最后一个.

我们会先和前几个人见见面，试试水深水浅，然后再做决定.

简单的说，就是不管这个人有多好，先拒绝掉前面 $k$ 个人，从第 $k+1$ 个起，一旦看到比前面所有人都好的，就毫不犹豫的嫁掉自己.

$k$ 的选取很有讲究，$k$ 太小，信息太少，试不出来水深水浅，$k$ 太大，会导致可选余地不多.

在 $n$ 已知的情况下，$k$ 取何值时，挑到最优女生的可能性最大.


\section{模型求解}

我们首先看一下，给定 $k$，例如 $k=3$，我们能否找到一个挑到最优女生的概率的计算公式.

假定最优女生出现在每个位置上的概率相同 (都等于 $1/n$).
\begin{itemize}
\item 如果最优女生出现在前 $k$ 个位置中，你会很遗憾地把她拒绝掉；

\item 如果最优女生恰好出现在第 $k+1$ 个位置上，那么恭喜你，你中彩了；

\item 如果最优女生出现在第 $k+2$ 个位置上，你是否能中彩取决于前 $k+1$ 个女生的排列顺序，若前 $k+1$ 个女生中的最好者出现在前 $k$ 个位置上，那么你将抱得美人归，这种情形出现的概率为 $k / (k+1)$；

\item 如果最优女生出现在第 $k+3$ 个位置上，你是否能中彩取决于前 $k+2$ 个女生的排列顺序，若前 $k+2$ 个女生中的最好者出现在前 $k$，那么你将聘用到 J，这种情形出现的概率为 $k / (k+2)$.

\item 依此类推，我们可得拒绝前 $k$ 个女生后，的概率为
\begin{align*}
\pr{k} &= \frac{1}{n}\del{1+\frac{k}{k+1}+\frac{k}{k+2}+\cdots+\frac{k}{n-1}} \\
&= \frac{k}{n}\sum_{i=k}^{n-1}\frac{1}{i} 
\end{align*}

\item 当 $n$ 充分大时，上式等于
\[
\pr{k} = x \int_x^1 \frac{1}{t} \dif t = -x\ln x
\] 
\end{itemize}

现在问题转化为求 $k$，使得 $\pr{k}$ 取最大值.

对上式求导易得结论.

我们也可以在离散情况下推导.

\begin{align*}
\pr{r} \geq \pr{r+1} &\Leftrightarrow 
r\sum_{i=r}^{n-1}\frac{1}{i} \geq (r+1)\sum_{i=r+1}^{n-1}\frac{1}{i} 
&= 1 + \frac{r}{r+1}+\frac{r+1}{r+2}+\cdots+\frac{r+1}{n-1}
&\geq \frac{r+1}{r+1}+\frac{r}{r+2}+\cdots+\frac{r}{n-1}
&<=> 1 \geq \frac{1}{r+1}+\frac{1}{r+2}+\cdots+\frac{1}{n-1}
\end{align*}

于是，r 满足下述不等式时，$\pr{r}$ 取最大值

\[
\frac{1}{r+1}+\frac{1}{r+2}+\cdots+\frac{1}{n-1} \leq 1 \geq
\frac{1}{r}+\frac{1}{r+1}+\cdots+\frac{1}{n-1}
\]

利用微积分中的欧拉公式 $\sum_{i=1}^n \frac{1}{i} = \ln n + 0.57721... + \epsilon$ 可得，当 n 充分大时，

\[
\frac{n-1}{r} \approx e \approx \frac{n-1}{r-1}
\]

从而有 $r\approx n/e$.

\[
\pr{r} \approx \frac{r}{n}\ln\frac{n-1}{r-1}
\]

再把 $r \approx n/e$ 代入上式，并利用 $\ln(1+x) \approx x$ (x 充分小) 可得

\[
\pr{r} \approx \frac{1}{e}\sbr{1+\ln\del{1+\frac{e-1}{n-e}}} \approx \frac{1}{e}
\]

这就是说，拒绝前 1/e (约为 0.3678) 的应聘者招到素质最高的应聘者的可能性最大.~这一结论被称为人才招聘面试中的 e 定律.~

我们再回过来看，当 n = 4 时，4/e 约为 1.47，此时正是前面的应聘策略 (A)；当 n = 10 时，10/e 约为 3.7，因此拒绝前 3 位应聘者，招到素质最高的应聘者的概率为 
\[ 
\pr{3} = \frac{1}{10}\times\del{\frac{3}{3}+\frac{3}{4}+\cdots+\frac{3}{9}} 
= 0.398 690 \cdots 
\]



典故：著名的苏格拉底 (Socrates) 找麦穗的故事.~苏格拉底是凭他的生活直觉得出来的结论.
问题：假设你是某单位人才招聘面试组的负责人，要招一名拔尖人才.~应聘者很多，假设每次面试的结果只能看两种选择：决定聘用或回绝，被你回绝的人不能再次参加聘用 (现实中谈恋爱找对象就是如此).~试问你怎样才能使招聘到素质最好的应聘者的概率最大？




问题：使用数学模型估计你多长时间脱单

假定你条件不错，总是有人给你介绍女朋友.

In [None]:

# coding: utf-8

# 人才招聘问题模拟

# 假设有 n 个人参加招聘。

# 不妨就以每个人的编号表示他的综合评分，编号越大越优秀。编号 n 的应聘者最优秀。

# 应聘者前来应聘的顺序是随机的。没有聘上的应聘者不会再来。

# In[60]:


import numpy as np

n = 30

candidates = [ i for i in range( n ) ]


# In[62]:


np.random.permutation( candidates )   # 返回一个随机重排的副本，不改变原来的列表


# In[2]:


np.random.shuffle( candidates )       # 原列表中的元素直接被随机重拍


# 招聘法则

# In[32]:


# 拒绝前 k 个人，从第 k+1 个人起返回第一个遇到的比前 k 个人中最好的好的人
def bestChoice( candidates, k ):
    # 前 k 个人中的最好者
    k_best = max( candidates[ : k ] )
    
    # 从第 k+1 个人起返回第一个遇到的比 k_best 大的值
    i = k
    while( candidates[ i ] < k_best and i < len( candidates ) - 1 ):
        i += 1
    
    return ( i, candidates[ i ] )


# 注意，上面的程序要求 k 大于 1 人，小于全部人数。

# In[64]:


np.random.shuffle( candidates )


# In[65]:


print( candidates )


# In[67]:


bestChoice( candidates, 8 )


# 我们将重复 10000 次，看看按不同的法则选出最优者的频率。

# In[71]:


for k in range( 1, 30 ):
    best = max( candidates )

    s = 0
    for i in range( 1000 ):
        np.random.shuffle( candidates )
        if bestChoice( candidates, k )[ 1 ] == best:
            s += 1
    
    print( "取前" + str( k ) + "人为炮灰，招到最优者的次数为" + str( s ) )


# In[55]:


30 / np.e

